Theo tin từ ChainCatcher, theo báo cáo của Jinshi, một nhân viên của OpenAI đã công khai chỉ trích công ty XAI của Elon Musk, cho rằng kết quả kiểm tra Điểm chuẩn của mô hình AI mới nhất của công ty Grok3 là mơ hồ. Trong khi đó, Igor Babushkin, người sáng lập kiêm đồng sáng lập của XAI, đã khẳng định rằng công ty không có hành vi không đúng.
Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 cho o3-mini-cao trong điều kiện "cons@64".
Babushkin argued on the X platform that OpenAI had also released similar misleading Điểm chuẩn test charts in the past. Although these charts were used to compare the performance of their own models.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Công ty OpenAI đã công khai chỉ trích kết quả kiểm tra Điểm chuẩn của mô hình trí tuệ nhân tạo mới nhất xAI Grok3 là có tính đa nghĩa
Theo tin từ ChainCatcher, theo báo cáo của Jinshi, một nhân viên của OpenAI đã công khai chỉ trích công ty XAI của Elon Musk, cho rằng kết quả kiểm tra Điểm chuẩn của mô hình AI mới nhất của công ty Grok3 là mơ hồ. Trong khi đó, Igor Babushkin, người sáng lập kiêm đồng sáng lập của XAI, đã khẳng định rằng công ty không có hành vi không đúng. Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 cho o3-mini-cao trong điều kiện "cons@64". Babushkin argued on the X platform that OpenAI had also released similar misleading Điểm chuẩn test charts in the past. Although these charts were used to compare the performance of their own models.