Khắc vào đá - ForkLog: tiền điện tử, AI, siêu trí tuệ, tương lai

Froklog

2026-03-11 14:48:14

# Đục khắc trong đá

Cách trí tuệ nhân tạo vượt qua “bức tường bộ nhớ”

Truyền thống, GPU dành cho người tiêu dùng chủ yếu để chơi game và xử lý đồ họa. Tuy nhiên, chúng còn có thể thực hiện các nhiệm vụ khác đòi hỏi tính toán song song

Ví dụ, có thể chạy một miner PoW để khai thác tiền điện tử trên GPU, nhưng trong bối cảnh cạnh tranh với thiết bị chuyên dụng, các trang trại GPU trở thành giải pháp cho các dự án ngách

Tình hình tương tự đang diễn ra trong lĩnh vực AI. Card đồ họa đã trở thành công cụ tính toán chính cho mạng neural. Nhưng khi ngành công nghiệp phát triển, nhu cầu về các giải pháp chuyên biệt cho AI cũng tăng lên. ForkLog đã tìm hiểu về trạng thái hiện tại của cuộc đua mới trong lĩnh vực trí tuệ nhân tạo.

Tối ưu hóa silicon cho AI

Có nhiều phương pháp để tạo ra thiết bị chuyên dụng cho các nhiệm vụ trí tuệ nhân tạo.

GPU dành cho người tiêu dùng có thể xem là điểm khởi đầu cho quá trình chuyên môn hóa. Khả năng xử lý các phép tính ma trận song song của chúng rất phù hợp để triển khai mạng neural và đặc biệt là học sâu, nhưng vẫn còn nhiều không gian để cải thiện.

Một trong những vấn đề lớn của AI trên card đồ họa là cần liên tục di chuyển lượng dữ liệu lớn giữa bộ nhớ hệ thống và GPU. Các quá trình này có thể tiêu tốn nhiều thời gian và năng lượng hơn chính các phép tính có ích.

Vấn đề khác của GPU xuất phát từ tính linh hoạt của chúng. Kiến trúc của card đồ họa được thiết kế cho nhiều nhiệm vụ khác nhau — từ xử lý đồ họa đến tính toán chung chung. Kết quả là một số phần cứng trở nên thừa thãi cho các tải trọng AI chuyên biệt.

Một hạn chế riêng là định dạng dữ liệu. Trước đây, các GPU tối ưu cho các phép toán với FP32 — số thực dấu phẩy động 32-bit. Đối với inference và huấn luyện, thường dùng các định dạng độ chính xác thấp hơn: FP16 và BF16 16-bit, số nguyên INT4 và INT8.

Nvidia H200 và B200

Một số sản phẩm phổ biến nhất cho inference và huấn luyện là chip H200 và hệ thống máy chủ DGX B200 — về cơ bản là GPU tăng cường cho trung tâm dữ liệu.

Thành phần chính hướng AI của các bộ tăng tốc này là các nhân tensor, dành cho các phép toán ma trận cực kỳ nhanh như huấn luyện mô hình và inference theo lô.

Để giảm độ trễ truy cập dữ liệu, Nvidia trang bị cho các card của mình bộ nhớ hiệu suất cao (HBM, High Bandwidth Memory). Trong H200 có 141 GB HBM3e với băng thông 4,8 TB/giây, còn B200 tùy theo cấu hình sẽ còn cao hơn nữa.

Tensor Processing Unit

Năm 2015, Google phát triển Tensor Processing Unit (TPU) — ASIC dựa trên mảng systolic, dành cho học máy.

Tensor Processing Unit 3.0. Nguồn: Wikipedia. Trong kiến trúc của các bộ xử lý thông thường — CPU và GPU — mỗi phép toán đều cần đọc, xử lý và ghi dữ liệu trung gian vào bộ nhớ

TPU đưa dữ liệu qua một mảng các khối, mỗi khối thực hiện phép toán toán học và truyền kết quả cho khối tiếp theo. Việc truy cập bộ nhớ chỉ diễn ra ở đầu và cuối chu trình tính toán.

Cách tiếp cận này giúp tiêu tốn ít thời gian và năng lượng hơn so với GPU không chuyên dụng, tuy nhiên việc làm việc với bộ nhớ ngoài vẫn là yếu tố hạn chế.

Cerebras

Công ty Mỹ Cerebras đã tìm ra cách dùng một tấm silicon nguyên khối, thay vì cắt nhỏ ra để sản xuất chip.

Năm 2019, các nhà phát triển giới thiệu Wafer-Scale Engine đầu tiên có kích thước 300 mm. Đến 2024, công ty ra mắt bộ xử lý nâng cấp WSE-3 với chip 460 mm, chứa 900.000 lõi.

Cerebras WSE-3 và hai chip Nvidia B200. Nguồn: Cerebras. Kiến trúc của Cerebras dự kiến phân phối các khối bộ nhớ SRAM gần các mô-đun logic trên cùng một tấm silicon. Mỗi lõi hoạt động với 48 KB bộ nhớ cục bộ riêng và không cạnh tranh với các lõi khác về truy cập.

Theo lời các nhà phát triển, nhiều mô hình inference đủ dùng với một WSE-3. Đối với các nhiệm vụ lớn hơn, có thể ghép nhiều chip này thành một cụm.

Groq LPU

Công ty Groq (không nhầm với Grok của xAI) cung cấp các ASIC riêng cho inference dựa trên kiến trúc Language Processing Unit (LPU)

Chip của Groq. Nguồn: Groq. Một trong những đặc điểm chính của chip Groq là tối ưu cho các phép toán tuần tự

Inference dựa trên việc sinh token theo thứ tự: mỗi bước cần hoàn tất token trước đó. Trong điều kiện này, hiệu suất phụ thuộc nhiều vào tốc độ của một luồng xử lý hơn là số lượng luồng.

Khác với các CPU thông thường và một số thiết bị AI chuyên dụng, Groq không tạo ra các lệnh máy trong quá trình thực thi nhiệm vụ. Mỗi phép toán được lập kế hoạch trước trong một “lịch trình” riêng và gắn với một thời điểm cụ thể trong quá trình xử lý.

Ngoài ra, như nhiều bộ tăng tốc AI khác, LPU tích hợp các mô-đun logic và bộ nhớ trên cùng một chip để giảm thiểu chi phí truyền dữ liệu.

Taalas

Các ví dụ trên đều yêu cầu khả năng lập trình cao. Mô hình và trọng số cần thiết được tải vào bộ nhớ có thể ghi đè. Bất kỳ lúc nào, operator có thể tải một mô hình khác hoàn toàn hoặc chỉnh sửa.

Với cách tiếp cận này, hiệu suất phụ thuộc vào khả năng truy cập, tốc độ và dung lượng bộ nhớ.

Các nhà phát triển Taalas đi xa hơn, quyết định “nhồi” sẵn một mô hình cụ thể với trọng số đã có trực tiếp vào chip ở cấp độ transistor.

Mô hình, thường là phần mềm, nay được thực thi ở cấp phần cứng, giúp loại bỏ bộ lưu trữ dữ liệu chung và các chi phí liên quan.

Trong giải pháp đầu tiên — card inference HC1 — công ty dùng mô hình mở Llama 3.1 8B.

Taalas HC1. Nguồn: Taalas. Card hỗ trợ độ chính xác thấp đến 3-bit và 6-bit, giúp tăng tốc xử lý. Theo tuyên bố của Taalas, HC1 xử lý tới 17.000 token mỗi giây, vẫn là thiết bị giá rẻ, tiêu thụ ít năng lượng.

Công ty tuyên bố tăng gấp hàng nghìn lần hiệu suất so với GPU dựa trên tiêu thụ năng lượng và chi phí.

Tuy nhiên, phương pháp này có nhược điểm căn bản là không thể cập nhật mô hình mà không thay thế toàn bộ chip.

Trong khi đó, HC1 còn được trang bị hỗ trợ LoRA — phương pháp “tinh chỉnh” LLM bằng cách thêm trọng số phụ. Với cấu hình LoRA phù hợp, mô hình có thể biến thành chuyên gia trong lĩnh vực cụ thể.

Một khó khăn khác là quá trình thiết kế và sản xuất các “mô hình vật lý” như vậy. Phát triển ASIC tốn kém lớn và có thể mất nhiều năm. Trong bối cảnh cạnh tranh khốc liệt của ngành AI, đây là hạn chế đáng kể.

Taalas tuyên bố có phương pháp mới để tự động tạo kiến trúc bộ xử lý, nhằm giải quyết vấn đề này. Hệ thống tự động biến mô hình và bộ trọng số thành thiết kế chip hoàn chỉnh trong vòng một tuần.

Theo ước tính của công ty, chu kỳ sản xuất từ khi có mô hình mới chưa từng có đến khi ra mắt chip hoàn chỉnh sẽ mất khoảng 2 tháng.

Tương lai của inference tại chỗ

Các chip AI chuyên dụng mới chủ yếu phục vụ các trung tâm dữ liệu lớn, cung cấp dịch vụ đám mây theo phí. Các giải pháp phi truyền thống, thậm chí “mô hình vật lý” trực tiếp trong silicon, không phải là ngoại lệ.

Đối với người tiêu dùng, bước đột phá kỹ thuật này sẽ thể hiện qua giảm giá dịch vụ và tăng tốc độ xử lý.

Trong khi đó, sự xuất hiện của các chip đơn giản, rẻ tiền và tiết kiệm năng lượng hơn tạo điều kiện phổ biến các giải pháp inference tại chỗ.

Hiện nay, các chip AI chuyên dụng đã có trong điện thoại thông minh, laptop, camera giám sát và thậm chí chuông cửa. Chúng cho phép thực hiện nhiệm vụ cục bộ, đảm bảo độ trễ thấp, tự chủ và riêng tư.

Tối ưu hóa đột phá, dù có thể hạn chế linh hoạt trong chọn và thay đổi mô hình, mở rộng đáng kể khả năng của các thiết bị này và cho phép tích hợp các thành phần AI đơn giản vào các sản phẩm phổ thông giá rẻ.

Nếu phần lớn người dùng bắt đầu gửi yêu cầu đến các mô hình chạy trên thiết bị tại chỗ, tải trọng lên trung tâm dữ liệu có thể giảm, giảm nguy cơ quá tải ngành. Có thể, sẽ không cần phải tìm các giải pháp tăng cường sức mạnh tính toán đột phá — như đưa chúng lên quỹ đạo.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.