Điều Hướng Cuộc Cách Mạng AI: Giải Pháp Thay Thế GPU Giữa Thách Thức Về Nguồn Cung
Các dự án AI của Blackstone và OpenAI đang đối mặt với tình trạng thiếu hụt GPU. Các giải pháp thay thế bao gồm FPGA, GPU AMD, TPU và các thị trường phi t
Vào tháng 1 năm 2024, công ty đầu tư tư nhân hàng đầu Blackstone đã công bố kế hoạch xây dựng một đế chế dữ liệu AI trị giá 25 tỷ USD. Ngay sau đó, OpenAI và Microsoft đã lên kế hoạch cho Stargate, một siêu máy tính AI trị giá 100 tỷ USD, nhằm thống trị cuộc cách mạng AI.
Sự phát triển nhanh chóng của lĩnh vực AI khiến các gã khổng lồ trong ngành chạy đua để giành vị trí dẫn đầu. Các chuyên gia dự đoán thị trường AI toàn cầu sẽ đạt 826,70 tỷ USD trước năm 2030, với tốc độ tăng trưởng hàng năm là 28,46%.
Thách thức chính nằm ở GPU. Kiến trúc Von Neumann phổ biến trong hầu hết các máy tính thông thường có hạn chế. Hệ thống Bus đơn hạn chế tốc độ truyền dữ liệu giữa bộ nhớ và CPU, khiến CPU kém hiệu quả hơn đối với AI và máy học.
Trong khi đó, GPU lại áp dụng kỹ thuật xử lý song song, cung cấp hiệu suất cải thiện nhờ khả năng đa lõi. Tuy nhiên, nhu cầu về GPU tăng vọt đã gây áp lực lên chuỗi cung ứng và cản trở các nhà nghiên cứu và các công ty khởi nghiệp. Nvidia, nhà cung cấp chính, càng làm trầm trọng thêm tình trạng thiếu hụt này.
Trong khi các nhà cung cấp dịch vụ quy mô lớn như AWS và Google Cloud Platform có thể tiếp cận A100 và H100 của Nvidia, đâu là các giải pháp thay thế cho các công ty, nhà nghiên cứu và startup?
Mảng cổng lập trình được dạng trường (Field Programmable Gate Array - FPGA) là các mạch tích hợp có thể lập trình lại, được tùy chỉnh cho các nhiệm vụ cụ thể. Chúng linh hoạt, tiết kiệm chi phí và vượt trội trong việc xử lý song song, phù hợp với AI và máy học. Chip D1 Dojo của Tesla, được sử dụng để đào tạo các mô hình thị giác máy tính cho xe tự lái, là một ví dụ về việc sử dụng FPGA. Tuy nhiên, yêu cầu về chuyên môn kỹ thuật cao cho kiến trúc FPGA có thể dẫn đến chi phí ban đầu đắt đỏ.
GPU AMD là một giải pháp khác. Vào năm 2023, các công ty như Meta, Oracle và Microsoft đã quan tâm đến GPU AMD như một giải pháp tiết kiệm chi phí, tránh bị phụ thuộc vào nhà cung cấp Nvidia. Dòng Instinct MI300 của AMD, với kiến trúc Graphics Core Next (GCN), nhấn mạnh tính mô-đun và hỗ trợ các tiêu chuẩn mở, cung cấp một giải pháp đầy hứa hẹn cho tính toán khoa học và AI.
Tensor Processing Units (TPU) là các mạch tích hợp dành riêng cho ứng dụng (ASIC) được thiết kế cho các tác vụ máy học. Được phát triển bởi Google, TPU chạy các mạng nơ-ron hiệu quả, cung cấp hiệu suất tối ưu và tiết kiệm năng lượng. Dù có nhiều ưu điểm, hệ sinh thái TPU vẫn đang phát triển và hiện chỉ giới hạn ở Google Cloud Platform.
Các thị trường phi tập trung cũng giải quyết vấn đề hạn chế nguồn cung GPU. Bằng cách sử dụng các tài nguyên GPU nhàn rỗi từ các trung tâm dữ liệu, tổ chức học thuật và cá nhân, các thị trường này cung cấp đủ tài nguyên cho các nhà nghiên cứu và startup. Ví dụ, các thị trường như Render Network, FluxEdge và Bittensor cung cấp GPU cấp người tiêu dùng cho các công ty AI/ML vừa và nhỏ cũng như các tùy chọn cấp công nghiệp cho nhu cầu lớn hơn.
CPU, thường được xem là kém hiệu quả hơn cho AI, đang được đánh giá lại. Những nỗ lực để chạy các thuật toán AI hiệu quả trên CPU bao gồm việc phân bổ các công việc cụ thể như các mô hình NLP đơn giản và các tính toán thống kê phức tạp. Dù không phải là giải pháp phổ quát nhưng CPU có thể xử lý hiệu quả các thuật toán khó song song hóa, chẳng hạn như mạng nơ-ron hồi quy hoặc hệ thống gợi ý.
Sự khan hiếm GPU cho AI có thể vẫn tiếp diễn, nhưng các đổi mới trong công nghệ chip AI hứa hẹn một tương lai mà vấn đề này sẽ được giải quyết. Lĩnh vực AI có tiềm năng to lớn, báo hiệu một cuộc cách mạng công nghệ với những khả năng chưa từng có.