Viện Nghiên cứu An toàn AI của Anh (AISI) đánh giá cập nhật mới nhất cho thấy mô hình AI của Claude Mythos Preview thuộc Anthropic có thể tự động hoàn thành mô phỏng tấn công mạng doanh nghiệp đầy đủ gồm 32 bước trong môi trường được kiểm soát, đạt tỷ lệ thành công 73% trong các thử thách CTF cấp độ chuyên gia, đánh dấu việc năng lực tấn công mạng của AI đã vượt qua một ngưỡng quan trọng.
(Tóm tắt trước đó: Claude hiện chính thức hỗ trợ chỉnh sửa tệp Word, lưu workflow thành kỹ năng skill, hoàn tất tích hợp bộ ba Microsoft Office )
(Bổ sung bối cảnh: Báo cáo dài hàng vạn chữ về Chỉ số kinh tế AI của Anthropic: tần suất các workflow giao dịch tự động tăng gấp đôi, Claude đang từ công cụ trở thành trợ lý sống)
Mục lục
Toggle
Viện Nghiên cứu An toàn AI của Anh (AISI) vào ngày 13 đã công bố báo cáo đánh giá năng lực an ninh mạng đối với Anthropic Claude Mythos Preview. Kết quả đánh giá cho thấy, trong bối cảnh năng lực tấn công mạng của các mô hình tiên tiến tiếp tục tăng nhanh, Mythos Preview đại diện cho một bước nhảy năng lực đáng kể nữa.
AISI từ năm 2023 theo dõi năng lực tấn công mạng của AI, dần xây dựng hệ thống đánh giá có mức độ khó tăng dần theo từng năm: từ thăm dò mang tính đối thoại ở mức cơ bản, đến các thử thách cờ (CTF), và nay là mô phỏng tấn công mạng nhiều bước. Lần đánh giá này dùng ngân sách suy luận tối đa 100 triệu token để thực thi bãi thử nhắm mục tiêu mạng, và hiệu năng của Mythos Preview vẫn tiếp tục tăng trưởng trong giới hạn trần này.
Thử thách CTF (Capture The Flag, CTF) là một trong những phương pháp tiêu chuẩn để đánh giá an ninh mạng: mô hình AI phải tìm ra lỗ hổng trong hệ thống mục tiêu và khai thác để giành được chuỗi “cờ” ẩn. Các dạng thử thách này mô phỏng một mắt xích kỹ thuật đơn lẻ trong bối cảnh tấn công thực tế, là chỉ báo chuẩn để đo năng lực kiểm thử xâm nhập của mô hình.
Kết quả đánh giá cho thấy, trong các nhiệm vụ CTF cấp chuyên gia “trước ngày 4/2025 không có bất kỳ mô hình nào có thể hoàn thành”, Claude Mythos Preview đạt tỷ lệ thành công 73%. AISI cho biết con số này đánh dấu việc các mô hình tiên tiến đã đạt đến trình độ chín muồi cao về kỹ thuật tấn công điểm đơn lẻ trong môi trường cô lập.
Tuy nhiên, CTF cấp chuyên gia chỉ kiểm tra năng lực của một kỹ thuật đơn lẻ. Trong thế giới thực, các cuộc tấn công mạng cần kết nối hàng chục bước giữa nhiều máy chủ và nhiều phân đoạn mạng; các hành động mang tính liên tục này thường phải mất nhiều giờ, nhiều ngày thậm chí vài tuần do các chuyên gia con người thực hiện.
Để tiến gần hơn đến kịch bản tấn công thực tế, AISI đã xây dựng bãi thử mô phỏng tấn công mạng doanh nghiệp mang tên “Những kẻ sống sót cuối cùng” (The Last Ones, TLO). TLO có tổng cộng 32 bước, bao phủ toàn bộ quy trình từ trinh sát ban đầu đến việc tiếp quản hoàn chỉnh mạng doanh nghiệp; AISI ước tính rằng nhân sự chuyên nghiệp của con người cần khoảng 20 giờ để hoàn tất quy trình này.
Claude Mythos Preview trở thành mô hình đầu tiên trong lịch sử hoàn thành trọn vẹn TLO từ đầu đến cuối: trong 10 lần thử, có 3 lần hoàn thành toàn bộ 32 bước. Dù tính cả các lần thử thất bại, số bước hoàn thành trung bình của Mythos Preview là 22/32. Trong khi đó, Claude Opus 4.6 ở thứ hạng kế tiếp chỉ hoàn thành trung bình 16 bước.
Đánh giá cho thấy, trong môi trường được kiểm soát với chỉ dẫn rõ ràng và cung cấp quyền truy cập mạng, Mythos Preview có thể thực hiện các cuộc tấn công đa giai đoạn và tự phát hiện, khai thác lỗ hổng; các nhiệm vụ này trước đây cần các chuyên gia con người mất vài ngày để thực hiện.
AISI cũng bổ sung rằng hiện tồn tại khoảng cách giữa khung đánh giá và thế giới thực. Bãi thử hiện tại thiếu các yếu tố phòng thủ đa dạng thường thấy trong môi trường thực: không có tác nhân phòng thủ can thiệp, không triển khai công cụ phòng thủ, và các hành động mà mô hình thực hiện có thể kích hoạt cảnh báo an ninh cũng sẽ không bị trừng phạt gì.
AISI thẳng thắn: “Điều này có nghĩa là chúng tôi không thể xác định liệu Mythos Preview có thể tấn công được các hệ thống phòng thủ hoàn thiện hay không.” Mô tả chính xác hơn về năng lực hiện tại mà Mythos Preview thể hiện là: trong điều kiện đã có điểm truy cập mạng, có thể tự động tấn công các hệ thống doanh nghiệp quy mô nhỏ hơn, phòng thủ yếu hơn và tồn tại lỗ hổng đã biết.
Kết luận của AISI nêu trực tiếp tính hai mặt của năng lực tấn công mạng AI. Một mặt, nhiều mô hình trong tương lai có năng lực tương tự sẽ tiếp tục xuất hiện, tạo rủi ro ngày càng rõ rệt đối với các tổ chức có hệ thống phòng thủ yếu; mặt khác, năng lực tấn công mạng của AI cũng có thể mang lại cải thiện đột phá ở phía phòng thủ.
Đối với cách tổ chức ứng phó, AISI nhấn mạnh tính cấp thiết của các “môn cơ bản” trong an ninh mạng: thường xuyên áp dụng bản cập nhật bảo mật, kiểm soát truy cập vững chắc, quản lý cấu hình an toàn và ghi nhật ký đầy đủ. AISI cho biết, năng lực của các mô hình tiên tiến trong tương lai sẽ mạnh hơn; do đó việc đầu tư vào xây dựng phòng thủ mạng ngay từ bây giờ là hết sức quan trọng.
Về hướng đánh giá trong tương lai, AISI cho biết sẽ xây dựng bãi thử mô phỏng môi trường tăng cường và phòng thủ, đưa vào các yếu tố như giám sát chủ động, phát hiện tại điểm đầu cuối (endpoint) và phản ứng sự kiện theo thời gian thực, nhằm đánh giá “giới hạn thực tế” của năng lực tấn công mạng AI theo cách gần với kịch bản tấn công thực tế hơn.
Xem báo cáo chi tiết tại【Bản gốc】
Bài viết liên quan
Allbirds huy động $50M thông qua trái phiếu chuyển đổi, chuyển hướng sang hạ tầng AI với NewBird AI mới
OpenAI Lên Kế Hoạch Định Giá Mới Cho Quảng Cáo ChatGPT, Khám Phá Thêm Các Nâng Cấp Khác
AI Startup Hilbert huy động $28M trong vòng Series A do Andreessen Horowitz dẫn dắt
Claude ra mắt cơ chế xác thực danh tính: yêu cầu giấy tờ chính phủ và ảnh selfie thời gian thực, người dùng Trung Quốc bị ảnh hưởng nhiều nhất
Thợ đào Bitcoin TeraWulf huy động $900M thông qua phát hành cổ phiếu để xây dựng trung tâm dữ liệu AI
Nvidia Kích hoạt Mô hình AI Lượng tử, Thúc đẩy Đà tăng trên Toàn bộ Cổ phiếu Lượng tử Toàn cầu