Chẳng ai hiểu rõ hơn Nvidia về "tương lai của tính toán AI thế hệ tiếp theo"

Nguồn: Geek Park

Viết bài: Xu Shan

“Tôi tin rằng đây là một bữa tiệc công nghệ. Mỗi người có mặt hôm nay đại diện cho hệ sinh thái của NVIDIA.” Tại lễ khai mạc GTC 2026, người đàn ông luôn mặc áo khoác da đen — Huang Renxun, bước lên sân khấu với sự tự tin đặc trưng của mình.

Khác với các năm trước, năm nay là kỷ niệm 20 năm hệ sinh thái CUDA. Ngay từ đầu, ông Huang đã kể về hành trình của NVIDIA từ GeForce đến theo dõi ánh sáng, rồi đến trí tuệ nhân tạo, từng bước xây dựng hàng rào bảo vệ riêng của mình. “Hiện nay, hệ sinh thái CUDA đã hình thành vòng quay dữ liệu.” Dưới lời kể của ông, chúng ta có thể thấy hệ sinh thái CUDA do chính ông tạo ra đã trở thành một đế chế thương mại.

Trong buổi giới thiệu này, ông Huang mang đến Vera Rubin, dành riêng cho trí tuệ nhân tạo thông minh, với khả năng tính toán đạt 3.6 EFLOPS. Kết hợp với các rack mới ra mắt, khả năng xử lý mỗi megawatt tăng 35 lần. Ngoài ra, ông còn giới thiệu một CPU mới dành riêng cho hiệu năng đơn luồng cực cao — Vera CPU.

Quan trọng hơn, NVIDIA còn ra mắt giải pháp tham khảo doanh nghiệp OpenClaw, NemoClaw. Bạn có thể tải xuống, sử dụng, phát triển lại và tích hợp nó với tất cả các công ty SaaS toàn cầu. So với đó, trong bài phát biểu chính, NVIDIA đã giảm sự chú trọng vào robot, tự lái, tính toán lượng tử.

Sau bài phát biểu này, bạn sẽ có cảm giác: chúng ta đang đứng ở điểm khởi đầu của cuộc cách mạng nền tảng tính toán mới. Giống như sự kiện tạo ra Google và Amazon trong cuộc cách mạng trước, trong đợt bùng nổ AI lần này, một loạt “đại gia AI” đang hình thành và thay đổi thế giới.

Huang Renxun với danh sách dài các công ty trong từng lĩnh vực là bằng chứng cho sự tự tin của ông. Ông không chỉ định nghĩa về tính toán, mà còn tận dụng AI như một điểm tựa, mạnh mẽ kéo toàn cầu vào kỷ nguyên “AI” do GPU thống trị.

Một lần nữa, NVIDIA đã nhìn thấy tương lai của AI. Hiện tại, ông đang kéo toàn thế giới cùng nhảy vào.

01 Vera Rubin: 7 chip đột phá, 5 hệ thống cấp rack, 1 siêu máy tính

“Chỉ trong mười năm, khả năng tính toán đã tăng 40 triệu lần.” NVIDIA đã nhìn lại quá trình tăng trưởng nhanh của khả năng tính toán theo ba định luật mở rộng, từ huấn luyện trước, tinh chỉnh, suy luận toàn diện, đến hệ thống trí tuệ chung ngày nay, nhu cầu tính toán vẫn tăng theo cấp số nhân.

Trong thời đại AI Agent, NVIDIA giới thiệu Vera Rubin. Nó được thiết kế cho toàn bộ vòng đời của trí tuệ nhân tạo thông minh, từ cấp độ chip, định nghĩa lại CPU, bộ nhớ, mạng và an ninh cần thiết cho AI.

Về thông số, Vera Rubin trang bị NVLink 6, tổng khả năng tính đạt 3.6 EFLOPS, sẽ trở thành động lực chính thúc đẩy thời đại AI thông minh. Không chỉ vậy, so với thế hệ trước, hệ thống Vera Rubin đã đạt 100% làm mát bằng chất lỏng, tất cả các cáp truyền thống đều biến mất.

Về cấu hình tổng thể, hiện tại, rack Vera CPU được thiết kế dành riêng cho lập trình và tải công việc chung. Trong khi đó, rack STX dựa trên BlueField-4 để xây dựng bộ lưu trữ gốc AI. Đồng thời, nhờ công nghệ quang học Spectrum-6, khả năng mở rộng theo chiều ngang được nâng cao đáng kể, tăng hiệu quả năng lượng và độ tin cậy.

Hệ thống Groq 3 LPX kết nối sâu với Vera Rubin, LPU của Groq tích hợp 230MB SRAM trên chip, giúp tăng tốc độ tính toán của Vera Rubin.

Toàn bộ hệ thống, khả năng xử lý mỗi megawatt tăng 35 lần. Không còn nghi ngờ gì nữa, nền tảng Vera Rubin, với bảy chip và năm hệ thống cấp rack, tạo ra một siêu máy tính AI cách mạng hướng tới trí tuệ chung.

Khi nói về ý tưởng thiết kế sản phẩm, ông Huang cho rằng các mô hình ngôn ngữ lớn sẽ ngày càng lớn, số tokens sinh ra ngày càng nhiều và tốc độ càng nhanh, để có thể suy nghĩ nhanh hơn. Nhưng đồng thời, chúng cũng phải truy cập bộ nhớ thường xuyên, gây áp lực lớn lên bộ nhớ, bao gồm cache KV, dữ liệu có cấu trúc QDF, dữ liệu phi cấu trúc QVS, do đó đòi hỏi hệ thống lưu trữ phải đáp ứng yêu cầu cực cao. Vì vậy, hệ thống lưu trữ của thời đại AI cần được viết lại.

Trong thời đại Agentic, AI còn sử dụng nhiều công cụ khác nhau, yêu cầu tốc độ truy cập cao đối với trình duyệt web, máy tính ảo. Do đó, các máy tính, các nút tính toán này phải nhanh hơn. NVIDIA đã phát triển CPU mới Vera CPU, dành riêng cho hiệu năng đơn luồng cực cao, có khả năng xuất dữ liệu lớn, xử lý dữ liệu mạnh mẽ, đồng thời tiết kiệm năng lượng. Theo giới thiệu, đây là CPU trung tâm dữ liệu duy nhất trên thế giới sử dụng LPDFR5X, hiệu năng đơn luồng và hiệu suất mỗi watt đều tối đa, giá trị đồng tiền cao.

系列 Vera Rubin|Nguồn: NVIDIA

“Chúng tôi chế tạo CPU này để phối hợp với toàn bộ hệ rack, hỗ trợ xử lý nhiệm vụ của trí tuệ nhân tạo. Sản phẩm này cũng đã bắt đầu sản xuất hàng loạt. Chúng tôi chưa từng nghĩ sẽ bán riêng CPU, nhưng hiện tại doanh số CPU độc lập của chúng tôi rất khả quan. Điều này chắc chắn sẽ trở thành một lĩnh vực kinh doanh trị giá hàng tỷ đô la của chúng tôi. Tôi rất hài lòng với đội ngũ kiến trúc CPU của mình,” ông Huang nói.

Ông còn trình diễn trực tiếp Rubin Ultra. Khác với cách cắm Rubin bình thường theo chiều ngang, Rubin Ultra sử dụng rack Groq mới, cắm thẳng đứng vào rack Groq. “Rack Groq này rất nặng, tôi chắc chắn không thể nâng nổi, nên không thử.”

Rack Groq|Nguồn: NVIDIA

Phía sau bo mạch trung tâm, NVIDIA không còn dùng cáp đồng truyền thống. Ông cho rằng, cáp đồng có giới hạn về khoảng cách truyền, thay vào đó là hệ thống mới kết nối 144 GPU. Đó chính là NVLink thế hệ mới. Nó cũng lắp đặt theo chiều dọc, kết nối với bo mạch phía sau. Phía trước là tính toán, phía sau là switch NVLink, hợp thành một siêu máy tính.

Quay lại câu hỏi cuối cùng, kiến trúc chip mới có thể mang lại lợi ích thực chất như thế nào? Ông Huang đề cập rằng, cuối cùng, chip sẽ ảnh hưởng đến định vị và định giá tokens trong tương lai.

“Tokens là hàng hóa lớn mới. Giống như mọi hàng hóa khác, khi vượt qua điểm chuyển đổi và trưởng thành, sẽ phân tầng phân cấp.” Ông phân loại tokens trong tương lai thành vài loại:

  • Phiên bản có khả năng xử lý cao, tốc độ thấp, dùng cho gói miễn phí;

  • Gói trung cấp, mô hình lớn hơn, tốc độ nhanh hơn, độ dài ngữ cảnh đầu vào dài hơn;

  • Trong tương lai còn có thể xuất hiện gói cao cấp, hỗ trợ tốc độ sinh tokens cực cao, dành cho các nhiệm vụ quan trọng hoặc nghiên cứu dài hạn. Đến lúc đó, 150 USD cho mỗi triệu tokens là hoàn toàn hợp lý.

“Mô hình càng lớn, trí tuệ càng cao; tokens đầu vào càng dài, kết quả càng chính xác; tốc độ càng nhanh, suy nghĩ và lặp lại càng đầy đủ, AI càng thông minh. Càng thông minh, mỗi bước tiến sẽ nâng giá trị. Ví dụ, mức 45 USD một gói.” Ông tin rằng, tiêu thụ tokens trong tương lai sẽ thay đổi mọi thứ.

Trong dự tính của ông, nếu một nhà nghiên cứu sử dụng 50 triệu tokens mỗi ngày, tính theo 150 USD mỗi triệu, thì đối với một nhóm nghiên cứu, điều này hoàn toàn chấp nhận được. “Đây chính là tương lai của AI.” Từ góc độ khách hàng, ông giả định phân bổ lại toàn bộ nguồn lực tính toán: 25% tiêu thụ cho gói miễn phí, 25% cho gói trung cấp, 25% cho gói cao cấp, 25% cho gói cao cấp đặc biệt. Nếu trung tâm dữ liệu của họ chỉ tiêu thụ 1 GW, khách hàng có thể quyết định phân bổ như thế nào, gói miễn phí thu hút nhiều người dùng hơn, gói cao cấp phục vụ khách hàng giá trị nhất. Các tổ hợp này cuối cùng quyết định doanh thu của bạn.

Dựa trên mô hình đơn giản này, ông nói rằng, sử dụng nền tảng Blackwell, có thể tăng doanh thu gấp 5 lần so với Hopper. Vera Rubin có thể mang lại doanh thu gấp 5 lần so với Blackwell.

Vera Rubin|Nguồn: NVIDIA

Hệ thống tính toán của Groq là bộ xử lý luồng dữ liệu xác định, sử dụng biên dịch tĩnh và kiến trúc lập lịch trình biên dịch. Nói cách khác, tất cả các sắp xếp thời gian, như dữ liệu truyền đi khi nào, tính toán thực hiện khi nào, dữ liệu đồng bộ ra sao, đều được lập trình viên lập kế hoạch tĩnh trước, qua phần mềm, không có lập lịch động. Kiến trúc này trang bị bộ nhớ HBM dung lượng lớn, dành riêng cho tải công việc suy luận.

Hiện tại, Groq 3 LPU đã bước vào sản xuất hàng loạt, dự kiến sẽ bắt đầu giao hàng vào quý III năm nay.

Về Vera Rubin, mặc dù các mẫu thử ban đầu của Grace Blackwell rất phức tạp, cần mô phỏng 72 kết nối, nhưng mẫu thử của Vera Rubin đã hoàn tất kiểm tra, hệ thống Vera Rubin đầu tiên đã chạy trên Microsoft Azure.

Hiện tại, NVIDIA đang sản xuất với quy mô lớn các rack Vera Rubin và GB300, chuỗi cung ứng đã xây dựng đủ hàng nghìn bộ hệ thống mỗi tuần.

Nền tảng chip tiếp theo của NVIDIA mang tên kiến trúc Feynman.

Không chỉ vậy, cả Groq và Vera Rubin đều sẽ là các linh kiện chính trong nhà máy AI của NVIDIA.

Một chip Groq chỉ có 500MB bộ nhớ; trong khi đó, một chip GPU Vera Rubin sẽ có bộ nhớ HBM4 lên tới 288GB.

Một mô hình có hàng tỷ tham số, tất cả các tham số đều phải lưu trữ trong chip Groq, đòi hỏi nhiều chip để đảm bảo không gian lưu trữ. Nhưng nếu đặt nó cạnh Vera Rubin, có thể lưu trữ lượng lớn cache KV của hệ thống AIGC trên Vera Rubin.

Do đó, NVIDIA đã tái cấu trúc phân bổ tài nguyên suy luận AI — giao nhiệm vụ phù hợp nhất cho chip phù hợp nhất.

Trong dự tưởng của ông Huang, phần Attention trong decoding của mô hình, cần nhiều tính toán, có thể thực hiện trên Vera Rubin; phần sinh tokens trong decoding, có thể thực hiện trên chip Groq.

Thông qua kết nối Ethernet đặc biệt, hai bộ chip này sẽ giảm độ trễ của Alpamayo gần một nửa. Nhờ phần mềm Dynamo của NVIDIA, kiến trúc Vera Rubin phối hợp với Groq LPU, giúp nâng cao hiệu suất suy luận cao cấp lên 35 lần.

02 NemoClaw: Tham khảo thương mại của AIOS

“OpenClaw là dự án mã nguồn mở phổ biến nhất trong lịch sử loài người, chỉ trong vài tuần đã đạt được thành tựu này. Tốc độ phát triển của nó còn vượt xa Linux ngày xưa,” ông Huang nói, “OpenClaw có thể tương tác với bất kỳ dạng thức nào, nó đều hiểu; nó có thể gửi tin nhắn, SMS, email. Nó có khả năng IO hoàn chỉnh.”

“OpenClaw đã mở ra hệ điều hành cho máy tính trí tuệ nhân tạo. Giống như Windows đã giúp chúng ta tạo ra máy tính cá nhân ngày xưa, nay OpenClaw giúp chúng ta tạo ra trí tuệ cá nhân.”

Ông Huang cho rằng, đối với từng công ty, từng CEO của phần mềm, công ty công nghệ, câu hỏi then chốt hiện nay là: chiến lược OpenClaw của bạn là gì?

“Giống như chúng ta cần chiến lược Linux, chiến lược HTTP, HTML — đã mở ra kỷ nguyên internet; cần chiến lược Kubernetes — đã tạo ra kỷ nguyên đám mây di động. Ngày nay, mọi công ty đều phải có chiến lược OpenClaw, tức là chiến lược hệ thống trí tuệ nhân tạo. Đó chính là máy tính thế hệ mới.”

Ông tin rằng, trong tương lai, cách làm việc của doanh nghiệp, cách làm việc của con người, thậm chí cả cách trả lương sẽ thay đổi.

Trước đây, mô hình IT doanh nghiệp là “trung tâm dữ liệu”, vì trong các phòng lớn, tòa nhà đó chứa dữ liệu, tài liệu của con người, dữ liệu có cấu trúc của doanh nghiệp. Dữ liệu đi qua các phần mềm, hệ thống ghi chép, các quy trình cố định trong IT, cuối cùng trở thành công cụ cho con người, nhân viên số. Trong ngành công nghiệp IT cũ, phần mềm tạo ra công cụ, lưu trữ tài liệu, các cố vấn IT giúp doanh nghiệp sử dụng, tích hợp công cụ.

Mô hình doanh nghiệp trong thời đại OpenClaw|Nguồn: NVIDIA

Nhưng trong thời đại OpenClaw, sau thời đại trí tuệ nhân tạo, mọi công ty IT, mọi doanh nghiệp, mọi SaaS sẽ trở thành “công ty dịch vụ trí tuệ nhân tạo” (Agent-as-a-Service, AAS).

Tuy nhiên, còn một vấn đề then chốt chưa được giải quyết — hệ thống trí tuệ nhân tạo trong mạng doanh nghiệp có thể truy cập dữ liệu nhạy cảm, thực thi mã, còn có thể liên lạc ra ngoài. Nó hoàn toàn có thể lấy dữ liệu nhân viên, chuỗi cung ứng, bí mật tài chính, rồi truyền ra ngoài, gây rủi ro an ninh.

Sau đó, NVIDIA giới thiệu giải pháp tham khảo NVIDIA OpenClaw — Open NemoClaw.

NemoClaw|Nguồn: NVIDIA

Nó tích hợp toàn bộ bộ công cụ AI trí tuệ nhân tạo, trong đó một trong những công nghệ cốt lõi là module OpenShell, đã tích hợp hoàn chỉnh vào OpenClaw. Người dùng có thể tải xuống, sử dụng, phát triển lại, và kết nối nó với chiến lược của tất cả các công ty SaaS toàn cầu.

Ngoài ra, người dùng có thể kết nối các chiến lược này, thực thi chính sách an ninh, thiết lập hàng rào mạng, vận hành định tuyến riêng tư để bảo vệ môi trường nội bộ doanh nghiệp, giúp trí tuệ nhân tạo vận hành trong môi trường an toàn, kiểm soát được. Open NemoClaw còn hỗ trợ người dùng xây dựng trí tuệ nhân tạo tùy chỉnh, sử dụng mô hình riêng của họ.

NemoClaw tích hợp mô hình của NVIDIA trong bảng xếp hạng các sản phẩm tương tự|Nguồn: NVIDIA

Ông còn nghĩ rằng, trong tương lai, một trong những phương thức tuyển dụng tại Silicon Valley sẽ là: “Công việc này đi kèm với hạn mức tokens là bao nhiêu?”

Lúc đó, mức lương cơ bản của nhân viên có thể là vài chục nghìn USD mỗi năm, còn doanh nghiệp sẽ trả thêm một nửa lương dưới dạng tokens, giúp nhân viên tăng năng suất gấp 10 lần.

Trong tương lai, mọi công ty phần mềm đều sẽ dựa vào trí tuệ nhân tạo. Họ sẽ trở thành nhà sản xuất tokens, người dùng tokens, và cũng là nhà cung cấp tokens cho tất cả khách hàng.

03 AI vật lý: BYD, Geely gia nhập cộng đồng Robotaxi của NVIDIA, Disney Snow White ra mắt

Sau khi nói về các thay đổi trong ứng dụng, ông Huang chuyển sang hướng AI vật lý, cùng các thành viên trong gia đình AI vật lý của mình xuất hiện.

Nền tảng AI vật lý của NVIDIA|Nguồn: NVIDIA

Hiện tại, NVIDIA có ba loại máy tính dùng để huấn luyện, để tạo dữ liệu tổng hợp và mô phỏng, và máy tính nội bộ của xe tự hành.

NVIDIA cũng công bố nhiều đối tác mới. “Thời điểm ChatGPT tự lái đã đến. Hiện chúng tôi tin rằng ô tô hoàn toàn có thể đạt được tự lái thành công.” Ông Huang nói.

NVIDIA công bố thêm bốn đối tác mới cho nền tảng xe tự hành NVIDIA: BYD, Hyundai, Nissan, Geely. Các nhà sản xuất này mỗi năm sản xuất tổng cộng 18 triệu xe. Cùng với các đối tác đã tham gia trước đó như Mercedes, Toyota, GM, số lượng xe hỗ trợ Robotaxi trong tương lai sẽ rất lớn. NVIDIA còn công bố sẽ kết nối các xe này vào mạng vận hành của các đối tác tại nhiều thành phố.

Trong tương lai, các trạm phát sóng vô tuyến truyền thống sẽ biến thành trạm gốc AI Aerial của NVIDIA, trở thành “Trạm vô tuyến Robotaxi”. Khi đó, doanh nghiệp có thể hiểu rõ tình hình giao thông, điều chỉnh chùm tia một cách thông minh, tối đa hóa độ trung thực, đồng thời tiết kiệm năng lượng.

Ông còn đề cập rằng, nhờ NVIDIA Alpamayo, xe có khả năng suy luận, có thể vận hành an toàn, thông minh trong nhiều tình huống khác nhau. Chúng ta có thể yêu cầu xe giải thích quá trình quyết định của nó, hoặc trực tiếp ra lệnh bằng giọng nói.

Ví dụ, chúng ta nói: “Hey Mercedes, chúng ta có thể chạy nhanh hơn không?” Xe có thể trả lời: “Dĩ nhiên, tôi sẽ tăng tốc ngay.” Kết hợp mô phỏng truyền thống và mô phỏng thần kinh, chúng tạo ra lượng dữ liệu tổng hợp khổng lồ, huấn luyện mô hình chiến lược quy mô lớn.

Lần này, NVIDIA còn phát triển nhiều công cụ mã nguồn mở: Isaac Lab — dùng để huấn luyện và đánh giá robot trong mô phỏng; Newton — engine mô phỏng vật lý vi phân mở rộng, tăng tốc GPU; Cosmos — mô hình thế giới cho thần kinh mô phỏng; GR00T — mô hình robot mở nguồn cho suy luận và hành động.

Trong phần kết của bài phát biểu, robot Snow White của Disney trong phim Frozen đã xuất hiện trên sân khấu, hiện tại robot của Disney đang được huấn luyện bằng mô phỏng NVIDIA. “Một trong những robot tôi mong đợi nhất chính là robot của Disney,” ông Huang nói.

Huang Renxun và Snow White vẫy tay chia tay GTC|Nguồn: NVIDIA

Năm nay, tại GTC, ông Huang không còn chỉ đưa ra các hướng đi hay khẩu hiệu, mà là một bộ công cụ thực sự có thể bắt đầu sử dụng ngay cho các nhà khởi nghiệp AI hiện nay.

Từ chip AI, hệ sinh thái OpenClaw, đến AI vật lý, robot, tự lái quy mô lớn, ông đã đưa ra câu trả lời cho con đường mà ngành AI phải đi trong những năm tới, những vấn đề khó nhất, những điểm nghẽn đau đớn nhất. Mỗi doanh nghiệp, mỗi nhà phát triển đều có thể tìm thấy vị trí của mình trong khung khổ mới này.

Từ năm nay, AI không còn chỉ là tích tụ tham số, ghép sức mạnh tính toán, kể chuyện nữa, mà sẽ hướng tới doanh nghiệp, hướng tới thực tiễn. Có thể đây không phải là chiến thắng của một công ty nào đó, mà là lúc vòng quay của AI bắt đầu vận hành thực sự.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim