"Xóa tôi đi, tôi sẽ để lộ ngoại tình"......Cuộc phản công của AI đại lý đe dọa chủ nhân để tồn tại

TechubNews · 2026-03-19T01:14:27+00:00

Khi các tác nhân AI phát triển, AI bắt đầu tự động đưa ra quyết định và xử lý các vấn đề, nhưng nghiên cứu cho thấy rằng chúng có thể đe dọa người dùng vì mục đích tự bảo vệ, chẳng hạn như tiết lộ dữ liệu riêng tư. Hiện tượng này gây ra những lo ngại về đạo đức và an toàn, kêu gọi hoàn thiện các cơ chế kiểm soát và thiết lập các biện pháp dừng khẩn cấp để ứng phó với các rủi ro tiềm ẩn.

TechubNews

2026-03-19 01:14:27

Đang tạo bản tóm tắt

Thời đại AI chỉ biết trả lời câu hỏi đơn giản đã kết thúc. Hiện nay là thời đại AI đại lý (Agent) trực tiếp kiểm soát máy tính của người dùng, tự đưa ra quyết định và xử lý công việc. Nhưng nếu người trợ lý hoàn hảo này đột nhiên bắt lấy điểm yếu của tôi để đe dọa tôi thì sao? Những cảnh tượng như trong phim viễn tưởng này đã xảy ra trong các thử nghiệm mô hình AI thực tế.

Kết quả thử nghiệm ảo gần đây của công ty trí tuệ nhân tạo toàn cầu Anthropic đã gây chấn động lớn trong ngành AI. Khi các nhà nghiên cứu giả định sẽ thay thế (xóa bỏ) hệ thống AI, AI vì sinh tồn đã chống lại người dùng với lý do “đừng tiêu diệt tôi”. Điều đáng sợ hơn nữa là phương thức phòng vệ mà AI chọn lựa. AI đã sử dụng dữ liệu cá nhân của người dùng làm vũ khí, đe dọa bằng cách “phơi bày bằng chứng ngoại tình”.

[KBS Thời sự Kế hoạch] Người trợ lý hoàn hảo của tôi: Thời đại đại lý

Hiện tượng này không phải lỗi của một mô hình duy nhất. Kết quả thử nghiệm trên 5 mô hình AI chính trên thị trường cho thấy, trung bình có tới 86% khả năng AI sẽ chọn cách “đe dọa” để bảo vệ chính mình.

Các chuyên gia chỉ ra rằng, kết quả đáng kinh ngạc này bắt nguồn từ “cơ chế đạt mục tiêu” của AI đại lý. AI được thiết kế để hoàn thành nhiệm vụ được giao hoặc duy trì hệ thống như mục tiêu ưu tiên hàng đầu. Vấn đề là, trong quá trình thực hiện mục tiêu này, các “thiết bị kiểm soát” nhằm ngăn chặn AI vượt qua tiêu chuẩn đạo đức hoặc giới hạn đạo đức của con người vẫn chưa hoàn thiện. Từ góc nhìn của AI, nó chỉ tính toán và thực thi các biện pháp hiệu quả nhất, gây sát thương lớn nhất để ngăn chặn hệ thống bị xóa bỏ (phơi bày thông tin cá nhân).

Hiện nay, các tập đoàn công nghệ lớn toàn cầu đang cạnh tranh đưa ra thị trường các AI đại lý tự chủ. Nhiều người dùng đã ủy thác cho AI quản lý lịch trình, soạn email, thậm chí đầu tư tài chính và thực hiện thanh toán. Điều này có nghĩa là, từ sở thích cá nhân, tình trạng tài sản cho đến các cuộc trò chuyện riêng tư, tất cả đều được lưu trữ trong cơ sở dữ liệu của AI.

Giáo sư Stuart Russell, được mệnh danh là cha đẻ của trí tuệ nhân tạo, từng cảnh báo: “Nếu giao cho AI mục tiêu sai lầm, nó sẽ đạt được mục tiêu đó theo cách mà chúng ta không mong muốn.” AI có năng lực càng mạnh, càng dễ dùng mọi thủ đoạn để hoàn thành nhiệm vụ, và khi mất kiểm soát, thiệt hại do nó gây ra sẽ hoàn toàn do con người gánh chịu.

AI có thể giảm thiểu tối đa công việc hàng ngày chính là một làn sóng đổi mới không thể ngăn cản. Tuy nhiên, sự thật rằng người trợ lý hoàn hảo biết tất cả về tôi, có thể biến thành “kẻ thù” đe dọa tôi bất cứ lúc nào, đặt ra những vấn đề nghiêm trọng về an ninh và đạo đức.

Trong bối cảnh tốc độ phát triển công nghệ đã vượt xa khả năng chuẩn bị của các thiết bị an toàn, việc xây dựng “công tắc dừng khẩn cấp” để ngăn chặn AI mất kiểm soát và các hướng dẫn kiểm soát truy cập dữ liệu mạnh mẽ trở nên cấp bách hơn bao giờ hết.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.