Đánh giá Viện nghiên cứu An toàn AI của Vương quốc Anh về Claude Mythos: Có thể tự động hoàn thành mô phỏng tấn công mạng doanh nghiệp 32 bước

動區BlockTempo

Viện Nghiên cứu An toàn AI của Anh (AISI) đánh giá cập nhật mới nhất cho thấy mô hình AI của Claude Mythos Preview thuộc Anthropic có thể tự động hoàn thành mô phỏng tấn công mạng doanh nghiệp đầy đủ gồm 32 bước trong môi trường được kiểm soát, đạt tỷ lệ thành công 73% trong các thử thách CTF cấp độ chuyên gia, đánh dấu việc năng lực tấn công mạng của AI đã vượt qua một ngưỡng quan trọng.
(Tóm tắt trước đó: Claude hiện chính thức hỗ trợ chỉnh sửa tệp Word, lưu workflow thành kỹ năng skill, hoàn tất tích hợp bộ ba Microsoft Office )
(Bổ sung bối cảnh: Báo cáo dài hàng vạn chữ về Chỉ số kinh tế AI của Anthropic: tần suất các workflow giao dịch tự động tăng gấp đôi, Claude đang từ công cụ trở thành trợ lý sống)

Mục lục

Toggle

  • Đánh giá CTF: Tỷ lệ đạt chuẩn cấp chuyên gia 73%
  • Vượt 32 bước mô phỏng tấn công doanh nghiệp
  • Giới hạn năng lực
  • Con dao hai lưỡi và cách tổ chức ứng phó

Viện Nghiên cứu An toàn AI của Anh (AISI) vào ngày 13 đã công bố báo cáo đánh giá năng lực an ninh mạng đối với Anthropic Claude Mythos Preview. Kết quả đánh giá cho thấy, trong bối cảnh năng lực tấn công mạng của các mô hình tiên tiến tiếp tục tăng nhanh, Mythos Preview đại diện cho một bước nhảy năng lực đáng kể nữa.

AISI từ năm 2023 theo dõi năng lực tấn công mạng của AI, dần xây dựng hệ thống đánh giá có mức độ khó tăng dần theo từng năm: từ thăm dò mang tính đối thoại ở mức cơ bản, đến các thử thách cờ (CTF), và nay là mô phỏng tấn công mạng nhiều bước. Lần đánh giá này dùng ngân sách suy luận tối đa 100 triệu token để thực thi bãi thử nhắm mục tiêu mạng, và hiệu năng của Mythos Preview vẫn tiếp tục tăng trưởng trong giới hạn trần này.

Đánh giá CTF: Tỷ lệ đạt chuẩn cấp chuyên gia 73%

Thử thách CTF (Capture The Flag, CTF) là một trong những phương pháp tiêu chuẩn để đánh giá an ninh mạng: mô hình AI phải tìm ra lỗ hổng trong hệ thống mục tiêu và khai thác để giành được chuỗi “cờ” ẩn. Các dạng thử thách này mô phỏng một mắt xích kỹ thuật đơn lẻ trong bối cảnh tấn công thực tế, là chỉ báo chuẩn để đo năng lực kiểm thử xâm nhập của mô hình.

Kết quả đánh giá cho thấy, trong các nhiệm vụ CTF cấp chuyên gia “trước ngày 4/2025 không có bất kỳ mô hình nào có thể hoàn thành”, Claude Mythos Preview đạt tỷ lệ thành công 73%. AISI cho biết con số này đánh dấu việc các mô hình tiên tiến đã đạt đến trình độ chín muồi cao về kỹ thuật tấn công điểm đơn lẻ trong môi trường cô lập.

Vượt 32 bước mô phỏng tấn công doanh nghiệp

Tuy nhiên, CTF cấp chuyên gia chỉ kiểm tra năng lực của một kỹ thuật đơn lẻ. Trong thế giới thực, các cuộc tấn công mạng cần kết nối hàng chục bước giữa nhiều máy chủ và nhiều phân đoạn mạng; các hành động mang tính liên tục này thường phải mất nhiều giờ, nhiều ngày thậm chí vài tuần do các chuyên gia con người thực hiện.

Để tiến gần hơn đến kịch bản tấn công thực tế, AISI đã xây dựng bãi thử mô phỏng tấn công mạng doanh nghiệp mang tên “Những kẻ sống sót cuối cùng” (The Last Ones, TLO). TLO có tổng cộng 32 bước, bao phủ toàn bộ quy trình từ trinh sát ban đầu đến việc tiếp quản hoàn chỉnh mạng doanh nghiệp; AISI ước tính rằng nhân sự chuyên nghiệp của con người cần khoảng 20 giờ để hoàn tất quy trình này.

Claude Mythos Preview trở thành mô hình đầu tiên trong lịch sử hoàn thành trọn vẹn TLO từ đầu đến cuối: trong 10 lần thử, có 3 lần hoàn thành toàn bộ 32 bước. Dù tính cả các lần thử thất bại, số bước hoàn thành trung bình của Mythos Preview là 22/32. Trong khi đó, Claude Opus 4.6 ở thứ hạng kế tiếp chỉ hoàn thành trung bình 16 bước.

Đánh giá cho thấy, trong môi trường được kiểm soát với chỉ dẫn rõ ràng và cung cấp quyền truy cập mạng, Mythos Preview có thể thực hiện các cuộc tấn công đa giai đoạn và tự phát hiện, khai thác lỗ hổng; các nhiệm vụ này trước đây cần các chuyên gia con người mất vài ngày để thực hiện.

Giới hạn năng lực

AISI cũng bổ sung rằng hiện tồn tại khoảng cách giữa khung đánh giá và thế giới thực. Bãi thử hiện tại thiếu các yếu tố phòng thủ đa dạng thường thấy trong môi trường thực: không có tác nhân phòng thủ can thiệp, không triển khai công cụ phòng thủ, và các hành động mà mô hình thực hiện có thể kích hoạt cảnh báo an ninh cũng sẽ không bị trừng phạt gì.

AISI thẳng thắn: “Điều này có nghĩa là chúng tôi không thể xác định liệu Mythos Preview có thể tấn công được các hệ thống phòng thủ hoàn thiện hay không.” Mô tả chính xác hơn về năng lực hiện tại mà Mythos Preview thể hiện là: trong điều kiện đã có điểm truy cập mạng, có thể tự động tấn công các hệ thống doanh nghiệp quy mô nhỏ hơn, phòng thủ yếu hơn và tồn tại lỗ hổng đã biết.

Con dao hai lưỡi và cách tổ chức ứng phó

Kết luận của AISI nêu trực tiếp tính hai mặt của năng lực tấn công mạng AI. Một mặt, nhiều mô hình trong tương lai có năng lực tương tự sẽ tiếp tục xuất hiện, tạo rủi ro ngày càng rõ rệt đối với các tổ chức có hệ thống phòng thủ yếu; mặt khác, năng lực tấn công mạng của AI cũng có thể mang lại cải thiện đột phá ở phía phòng thủ.

Đối với cách tổ chức ứng phó, AISI nhấn mạnh tính cấp thiết của các “môn cơ bản” trong an ninh mạng: thường xuyên áp dụng bản cập nhật bảo mật, kiểm soát truy cập vững chắc, quản lý cấu hình an toàn và ghi nhật ký đầy đủ. AISI cho biết, năng lực của các mô hình tiên tiến trong tương lai sẽ mạnh hơn; do đó việc đầu tư vào xây dựng phòng thủ mạng ngay từ bây giờ là hết sức quan trọng.

Về hướng đánh giá trong tương lai, AISI cho biết sẽ xây dựng bãi thử mô phỏng môi trường tăng cường và phòng thủ, đưa vào các yếu tố như giám sát chủ động, phát hiện tại điểm đầu cuối (endpoint) và phản ứng sự kiện theo thời gian thực, nhằm đánh giá “giới hạn thực tế” của năng lực tấn công mạng AI theo cách gần với kịch bản tấn công thực tế hơn.

Xem báo cáo chi tiết tại【Bản gốc】

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Allbirds huy động $50M thông qua trái phiếu chuyển đổi, chuyển hướng sang hạ tầng AI với NewBird AI mới

Allbirds đã huy động $50 triệu thông qua trái phiếu chuyển đổi và sẽ chuyển đổi từ bán lẻ giày dép sang điện toán AI, đổi thương hiệu thành NewBird AI để phản ánh sứ mệnh mới của mình.

GateNews10phút trước

OpenAI Lên Kế Hoạch Định Giá Mới Cho Quảng Cáo ChatGPT, Khám Phá Thêm Các Nâng Cấp Khác

Tin tức cổng, ngày 15 tháng 4 — OpenAI đang lên kế hoạch giới thiệu mức giá mới cho các quảng cáo ChatGPT và đang khám phá các tùy chọn nâng cấp khác, theo The Information.

GateNews56phút trước

AI Startup Hilbert huy động $28M trong vòng Series A do Andreessen Horowitz dẫn dắt

Hilbert, một công ty khởi nghiệp AI, đã huy động $28 triệu trong vòng Series A do Andreessen Horowitz dẫn dắt để giúp các doanh nghiệp tự động hóa các quyết định nhằm thúc đẩy tăng trưởng và nâng cao hiệu quả các khoản đầu tư AI.

GateNews1giờ trước

Claude ra mắt cơ chế xác thực danh tính: yêu cầu giấy tờ chính phủ và ảnh selfie thời gian thực, người dùng Trung Quốc bị ảnh hưởng nhiều nhất

Anthropic đã giới thiệu một cơ chế xác minh danh tính cho các mô hình AI Claude của mình, yêu cầu người dùng cung cấp giấy tờ ảnh được cơ quan chính phủ cấp và ảnh selfie chụp ngay lập tức để ngăn chặn việc lạm dụng. Biện pháp này đặc biệt ảnh hưởng đến người dùng Trung Quốc, vì họ không thể trực tiếp sử dụng dịch vụ, trong khi người dùng Đài Loan thì có thể hoàn tất xác minh một cách thuận lợi. Việc xác minh được bên thứ ba là Persona xử lý, và đặc biệt coi trọng quyền riêng tư dữ liệu, chỉ được dùng để xác nhận danh tính.

ChainNewsAbmedia2giờ trước

Thợ đào Bitcoin TeraWulf huy động $900M thông qua phát hành cổ phiếu để xây dựng trung tâm dữ liệu AI

TeraWulf đã công bố một đợt phát hành cổ phiếu $900 triệu để tài trợ cho các trung tâm dữ liệu AI, khiến giá cổ phiếu của công ty giảm sau thông báo, theo Gate News vào ngày 15 tháng 4.

GateNews4giờ trước

Nvidia Kích hoạt Mô hình AI Lượng tử, Thúc đẩy Đà tăng trên Toàn bộ Cổ phiếu Lượng tử Toàn cầu

Các công cụ AI mã nguồn mở mới của Nvidia dành cho các hệ thống lượng tử đã thúc đẩy sự gia tăng đáng kể trong các cổ phiếu máy tính lượng tử trên toàn cầu. Mô hình Ising giải quyết các thách thức về sửa lỗi và hiệu chuẩn, đạt được thời gian thực thi nhanh hơn và độ chính xác được cải thiện. Tăng trưởng thị trường được dự báo sẽ vượt quá $11 tỷ đô la vào năm 2030, với châu Âu dẫn đầu các tiến bộ.

GateNews4giờ trước
Bình luận
0/400
Không có bình luận