Ambarella tiên phong về AI đa phương thức cho xe tự hành và robot
Ambarella ứng dụng AI đa phương thức và các mô hình ngôn ngữ lớn (LLM) cho xe tự hành, robot, và các giải pháp biên có khả năng mở rộng.
Mô hình ngôn ngữ lớn (LLM) đa phương thức dự kiến sẽ đóng vai trò quan trọng trong các nhiệm vụ tiên tiến như thị giác máy tính, lái xe tự hành, và robot. Giám đốc công nghệ của Ambarella, Les Kohn, nhấn mạnh rằng LLM có khả năng hiểu các tình huống phức tạp trong thế giới thực, khiến chúng trở nên lý tưởng cho các cấp độ tự chủ cao hơn. Các mô hình này kết hợp kiến thức từ nhiều phương thức, học cách thế giới vận hành và dự đoán hành vi, tương tự như sự hiểu biết của con người.
Các mô hình đa phương thức như Llava, tích hợp dữ liệu văn bản và hình ảnh, vượt trội hơn các hệ thống thị giác máy tính truyền thống bằng cách cung cấp cái nhìn sâu hơn về các cảnh trong thế giới thực. Bằng cách liên kết các khái niệm từ quá trình huấn luyện, Llava xử lý hiệu quả các trường hợp đặc biệt, suy luận và khái quát hóa các tình huống phức tạp, chẳng hạn như đưa ra quyết định trong điều kiện lái xe không chắc chắn. Loại mô hình này có thể dự đoán hành động trong thời gian thực, hiểu các đối tượng trong một bối cảnh và điều hướng phù hợp, rất quan trọng đối với việc lái xe tự hành.
Robot cũng đang được hưởng lợi từ những tiến bộ này. Các mô hình AI đa phương thức giảm nhu cầu huấn luyện đặc thù cho từng nhiệm vụ, cho phép hệ thống bắt đầu với kiến thức tổng quát và thích nghi với các nhiệm vụ mới chỉ với lượng đầu vào tối thiểu. Sự linh hoạt này đẩy nhanh quá trình phát triển các ứng dụng robot bằng cách đơn giản hóa yêu cầu huấn luyện và cải thiện hiệu quả.
Nền tảng phát triển AI của Ambarella, Cooper, nhắm vào các ứng dụng biên như robot. Chip N1 của họ, tích hợp cùng loại silicon và bộ tăng tốc AI NVP như CV3-HD, cung cấp nền tảng có sẵn để đẩy nhanh sự phát triển trong lĩnh vực robot. Cooper bao gồm các thư viện được tối ưu hóa cho các mô hình transformer lớn, đảm bảo hoạt động hiệu quả bằng cách tận dụng băng thông DRAM và tối ưu hóa độ trễ trong các ứng dụng thời gian thực.
Hệ thống trên chip (SoC) N1 của Ambarella có thể chạy nhiều LLM và các mô hình thị giác dựa trên CNN, thể hiện hiệu suất cao với tăng tốc AI. Trong các ứng dụng thực tế, N1 có thể chạy Llava-34B trên các ảnh chụp với công suất dưới 50W hoặc xử lý nhiều luồng video với mô hình Llava-13B. CLIP, một mô hình thị giác-ngôn ngữ, cũng có thể chạy trên nhiều luồng video cùng lúc, hữu ích cho các tìm kiếm video theo ngữ cảnh.
Ambarella tiếp tục đổi mới trong lĩnh vực lái xe tự hành, hợp tác với Continental trong một dự án xe tải cấp độ 4 (L4). Ngăn xếp lái xe dựa trên AI của họ tích hợp công nghệ radar với các mô hình như BEVFormer để tạo ra góc nhìn từ trên cao, nâng cao khả năng hiểu ngữ nghĩa cần thiết cho các hệ thống tự hành. Việc chuyển từ các bản đồ HD đắt đỏ và dễ hỏng sang phương pháp dựa trên AI này khiến nó trở nên khả thi và hiệu quả hơn.
Công ty cũng đang nỗ lực cải thiện khả năng mở rộng của phần cứng cho thế hệ AI tiếp theo, đặc biệt là cho các mô hình lớn hơn. Mặc dù các kiến trúc dựa trên transformer chiếm ưu thế trong AI, Kohn lưu ý rằng mạng nơ-ron tích chập (CNN) vẫn đóng vai trò quan trọng cho các nhiệm vụ cụ thể nhờ độ trễ thấp hơn. Kiến trúc lai kết hợp các mô hình chạy nhanh với xử lý tiên tiến có thể là tương lai của AI trong các ứng dụng đòi hỏi cao.
Những tiến bộ của Ambarella về mô hình LLM đa phương thức, robot và lái xe tự hành giúp định vị công ty ở vị trí dẫn đầu về các giải pháp AI biên, sẵn sàng giải quyết các tình huống phức tạp trong thế giới thực với phần cứng và phần mềm hiệu quả, có khả năng mở rộng.