Grok vừa thể hiện sức mạnh vượt trội trên mọi bảng xếp hạng. Đã giành 4 vị trí số 1 chỉ trong một ngày.
Đứng đầu bảng xếp hạng Pax Historia. Đánh bại Telecom 𝜏²-Bench về khả năng sử dụng công cụ tự động. Thống trị Alpha Arena Mùa 1.5. Và dẫn đầu về lượng token sử dụng trên OpenRouter—cả bảng xếp hạng ngày lẫn tuần.
Đây không phải là tiến bộ nhỏ lẻ. Đây là một tuyên bố. Khi một mô hình vượt qua nhiều chuẩn đánh giá như thế này, khoảng cách về hiệu suất không còn là điều tinh tế nữa. Dù bạn theo dõi chiều sâu hội thoại, tự động hóa tác vụ, hay các chỉ số triển khai thực tế, xu hướng đã rõ ràng.
Cạnh tranh đang nóng lên rất nhanh.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Grok vừa thể hiện sức mạnh vượt trội trên mọi bảng xếp hạng. Đã giành 4 vị trí số 1 chỉ trong một ngày.
Đứng đầu bảng xếp hạng Pax Historia. Đánh bại Telecom 𝜏²-Bench về khả năng sử dụng công cụ tự động. Thống trị Alpha Arena Mùa 1.5. Và dẫn đầu về lượng token sử dụng trên OpenRouter—cả bảng xếp hạng ngày lẫn tuần.
Đây không phải là tiến bộ nhỏ lẻ. Đây là một tuyên bố. Khi một mô hình vượt qua nhiều chuẩn đánh giá như thế này, khoảng cách về hiệu suất không còn là điều tinh tế nữa. Dù bạn theo dõi chiều sâu hội thoại, tự động hóa tác vụ, hay các chỉ số triển khai thực tế, xu hướng đã rõ ràng.
Cạnh tranh đang nóng lên rất nhanh.