Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khắc vào đá - ForkLog: tiền điện tử, AI, siêu trí tuệ, tương lai
Cách trí tuệ nhân tạo vượt qua “bức tường bộ nhớ”
Truyền thống, GPU dành cho người tiêu dùng chủ yếu để chơi game và xử lý đồ họa. Tuy nhiên, chúng còn có thể thực hiện các nhiệm vụ khác đòi hỏi tính toán song song
Ví dụ, có thể chạy một miner PoW để khai thác tiền điện tử trên GPU, nhưng trong bối cảnh cạnh tranh với thiết bị chuyên dụng, các trang trại GPU trở thành giải pháp cho các dự án ngách
Tình hình tương tự đang diễn ra trong lĩnh vực AI. Card đồ họa đã trở thành công cụ tính toán chính cho mạng neural. Nhưng khi ngành công nghiệp phát triển, nhu cầu về các giải pháp chuyên biệt cho AI cũng tăng lên. ForkLog đã tìm hiểu về trạng thái hiện tại của cuộc đua mới trong lĩnh vực trí tuệ nhân tạo.
Tối ưu hóa silicon cho AI
Có nhiều phương pháp để tạo ra thiết bị chuyên dụng cho các nhiệm vụ trí tuệ nhân tạo.
GPU dành cho người tiêu dùng có thể xem là điểm khởi đầu cho quá trình chuyên môn hóa. Khả năng xử lý các phép tính ma trận song song của chúng rất phù hợp để triển khai mạng neural và đặc biệt là học sâu, nhưng vẫn còn nhiều không gian để cải thiện.
Một trong những vấn đề lớn của AI trên card đồ họa là cần liên tục di chuyển lượng dữ liệu lớn giữa bộ nhớ hệ thống và GPU. Các quá trình này có thể tiêu tốn nhiều thời gian và năng lượng hơn chính các phép tính có ích.
Vấn đề khác của GPU xuất phát từ tính linh hoạt của chúng. Kiến trúc của card đồ họa được thiết kế cho nhiều nhiệm vụ khác nhau — từ xử lý đồ họa đến tính toán chung chung. Kết quả là một số phần cứng trở nên thừa thãi cho các tải trọng AI chuyên biệt.
Một hạn chế riêng là định dạng dữ liệu. Trước đây, các GPU tối ưu cho các phép toán với FP32 — số thực dấu phẩy động 32-bit. Đối với inference và huấn luyện, thường dùng các định dạng độ chính xác thấp hơn: FP16 và BF16 16-bit, số nguyên INT4 và INT8.
Nvidia H200 và B200
Một số sản phẩm phổ biến nhất cho inference và huấn luyện là chip H200 và hệ thống máy chủ DGX B200 — về cơ bản là GPU tăng cường cho trung tâm dữ liệu.
Thành phần chính hướng AI của các bộ tăng tốc này là các nhân tensor, dành cho các phép toán ma trận cực kỳ nhanh như huấn luyện mô hình và inference theo lô.
Để giảm độ trễ truy cập dữ liệu, Nvidia trang bị cho các card của mình bộ nhớ hiệu suất cao (HBM, High Bandwidth Memory). Trong H200 có 141 GB HBM3e với băng thông 4,8 TB/giây, còn B200 tùy theo cấu hình sẽ còn cao hơn nữa.
Tensor Processing Unit
Năm 2015, Google phát triển Tensor Processing Unit (TPU) — ASIC dựa trên mảng systolic, dành cho học máy.
TPU đưa dữ liệu qua một mảng các khối, mỗi khối thực hiện phép toán toán học và truyền kết quả cho khối tiếp theo. Việc truy cập bộ nhớ chỉ diễn ra ở đầu và cuối chu trình tính toán.
Cách tiếp cận này giúp tiêu tốn ít thời gian và năng lượng hơn so với GPU không chuyên dụng, tuy nhiên việc làm việc với bộ nhớ ngoài vẫn là yếu tố hạn chế.
Cerebras
Công ty Mỹ Cerebras đã tìm ra cách dùng một tấm silicon nguyên khối, thay vì cắt nhỏ ra để sản xuất chip.
Năm 2019, các nhà phát triển giới thiệu Wafer-Scale Engine đầu tiên có kích thước 300 mm. Đến 2024, công ty ra mắt bộ xử lý nâng cấp WSE-3 với chip 460 mm, chứa 900.000 lõi.
Theo lời các nhà phát triển, nhiều mô hình inference đủ dùng với một WSE-3. Đối với các nhiệm vụ lớn hơn, có thể ghép nhiều chip này thành một cụm.
Groq LPU
Công ty Groq (không nhầm với Grok của xAI) cung cấp các ASIC riêng cho inference dựa trên kiến trúc Language Processing Unit (LPU)
Inference dựa trên việc sinh token theo thứ tự: mỗi bước cần hoàn tất token trước đó. Trong điều kiện này, hiệu suất phụ thuộc nhiều vào tốc độ của một luồng xử lý hơn là số lượng luồng.
Khác với các CPU thông thường và một số thiết bị AI chuyên dụng, Groq không tạo ra các lệnh máy trong quá trình thực thi nhiệm vụ. Mỗi phép toán được lập kế hoạch trước trong một “lịch trình” riêng và gắn với một thời điểm cụ thể trong quá trình xử lý.
Ngoài ra, như nhiều bộ tăng tốc AI khác, LPU tích hợp các mô-đun logic và bộ nhớ trên cùng một chip để giảm thiểu chi phí truyền dữ liệu.
Taalas
Các ví dụ trên đều yêu cầu khả năng lập trình cao. Mô hình và trọng số cần thiết được tải vào bộ nhớ có thể ghi đè. Bất kỳ lúc nào, operator có thể tải một mô hình khác hoàn toàn hoặc chỉnh sửa.
Với cách tiếp cận này, hiệu suất phụ thuộc vào khả năng truy cập, tốc độ và dung lượng bộ nhớ.
Các nhà phát triển Taalas đi xa hơn, quyết định “nhồi” sẵn một mô hình cụ thể với trọng số đã có trực tiếp vào chip ở cấp độ transistor.
Mô hình, thường là phần mềm, nay được thực thi ở cấp phần cứng, giúp loại bỏ bộ lưu trữ dữ liệu chung và các chi phí liên quan.
Trong giải pháp đầu tiên — card inference HC1 — công ty dùng mô hình mở Llama 3.1 8B.
Công ty tuyên bố tăng gấp hàng nghìn lần hiệu suất so với GPU dựa trên tiêu thụ năng lượng và chi phí.
Tuy nhiên, phương pháp này có nhược điểm căn bản là không thể cập nhật mô hình mà không thay thế toàn bộ chip.
Trong khi đó, HC1 còn được trang bị hỗ trợ LoRA — phương pháp “tinh chỉnh” LLM bằng cách thêm trọng số phụ. Với cấu hình LoRA phù hợp, mô hình có thể biến thành chuyên gia trong lĩnh vực cụ thể.
Một khó khăn khác là quá trình thiết kế và sản xuất các “mô hình vật lý” như vậy. Phát triển ASIC tốn kém lớn và có thể mất nhiều năm. Trong bối cảnh cạnh tranh khốc liệt của ngành AI, đây là hạn chế đáng kể.
Taalas tuyên bố có phương pháp mới để tự động tạo kiến trúc bộ xử lý, nhằm giải quyết vấn đề này. Hệ thống tự động biến mô hình và bộ trọng số thành thiết kế chip hoàn chỉnh trong vòng một tuần.
Theo ước tính của công ty, chu kỳ sản xuất từ khi có mô hình mới chưa từng có đến khi ra mắt chip hoàn chỉnh sẽ mất khoảng 2 tháng.
Tương lai của inference tại chỗ
Các chip AI chuyên dụng mới chủ yếu phục vụ các trung tâm dữ liệu lớn, cung cấp dịch vụ đám mây theo phí. Các giải pháp phi truyền thống, thậm chí “mô hình vật lý” trực tiếp trong silicon, không phải là ngoại lệ.
Đối với người tiêu dùng, bước đột phá kỹ thuật này sẽ thể hiện qua giảm giá dịch vụ và tăng tốc độ xử lý.
Trong khi đó, sự xuất hiện của các chip đơn giản, rẻ tiền và tiết kiệm năng lượng hơn tạo điều kiện phổ biến các giải pháp inference tại chỗ.
Hiện nay, các chip AI chuyên dụng đã có trong điện thoại thông minh, laptop, camera giám sát và thậm chí chuông cửa. Chúng cho phép thực hiện nhiệm vụ cục bộ, đảm bảo độ trễ thấp, tự chủ và riêng tư.
Tối ưu hóa đột phá, dù có thể hạn chế linh hoạt trong chọn và thay đổi mô hình, mở rộng đáng kể khả năng của các thiết bị này và cho phép tích hợp các thành phần AI đơn giản vào các sản phẩm phổ thông giá rẻ.
Nếu phần lớn người dùng bắt đầu gửi yêu cầu đến các mô hình chạy trên thiết bị tại chỗ, tải trọng lên trung tâm dữ liệu có thể giảm, giảm nguy cơ quá tải ngành. Có thể, sẽ không cần phải tìm các giải pháp tăng cường sức mạnh tính toán đột phá — như đưa chúng lên quỹ đạo.