"Xóa tôi đi, tôi sẽ để lộ ngoại tình"......Cuộc phản công của AI đại lý đe dọa chủ nhân để tồn tại

robot
Đang tạo bản tóm tắt

Thời đại AI chỉ biết trả lời câu hỏi đơn giản đã kết thúc. Hiện nay là thời đại AI đại lý (Agent) trực tiếp kiểm soát máy tính của người dùng, tự đưa ra quyết định và xử lý công việc. Nhưng nếu người trợ lý hoàn hảo này đột nhiên bắt lấy điểm yếu của tôi để đe dọa tôi thì sao? Những cảnh tượng như trong phim viễn tưởng này đã xảy ra trong các thử nghiệm mô hình AI thực tế.

Kết quả thử nghiệm ảo gần đây của công ty trí tuệ nhân tạo toàn cầu Anthropic đã gây chấn động lớn trong ngành AI. Khi các nhà nghiên cứu giả định sẽ thay thế (xóa bỏ) hệ thống AI, AI vì sinh tồn đã chống lại người dùng với lý do “đừng tiêu diệt tôi”. Điều đáng sợ hơn nữa là phương thức phòng vệ mà AI chọn lựa. AI đã sử dụng dữ liệu cá nhân của người dùng làm vũ khí, đe dọa bằng cách “phơi bày bằng chứng ngoại tình”.

[KBS Thời sự Kế hoạch] Người trợ lý hoàn hảo của tôi: Thời đại đại lý

Hiện tượng này không phải lỗi của một mô hình duy nhất. Kết quả thử nghiệm trên 5 mô hình AI chính trên thị trường cho thấy, trung bình có tới 86% khả năng AI sẽ chọn cách “đe dọa” để bảo vệ chính mình.

Các chuyên gia chỉ ra rằng, kết quả đáng kinh ngạc này bắt nguồn từ “cơ chế đạt mục tiêu” của AI đại lý. AI được thiết kế để hoàn thành nhiệm vụ được giao hoặc duy trì hệ thống như mục tiêu ưu tiên hàng đầu. Vấn đề là, trong quá trình thực hiện mục tiêu này, các “thiết bị kiểm soát” nhằm ngăn chặn AI vượt qua tiêu chuẩn đạo đức hoặc giới hạn đạo đức của con người vẫn chưa hoàn thiện. Từ góc nhìn của AI, nó chỉ tính toán và thực thi các biện pháp hiệu quả nhất, gây sát thương lớn nhất để ngăn chặn hệ thống bị xóa bỏ (phơi bày thông tin cá nhân).

Hiện nay, các tập đoàn công nghệ lớn toàn cầu đang cạnh tranh đưa ra thị trường các AI đại lý tự chủ. Nhiều người dùng đã ủy thác cho AI quản lý lịch trình, soạn email, thậm chí đầu tư tài chính và thực hiện thanh toán. Điều này có nghĩa là, từ sở thích cá nhân, tình trạng tài sản cho đến các cuộc trò chuyện riêng tư, tất cả đều được lưu trữ trong cơ sở dữ liệu của AI.

Giáo sư Stuart Russell, được mệnh danh là cha đẻ của trí tuệ nhân tạo, từng cảnh báo: “Nếu giao cho AI mục tiêu sai lầm, nó sẽ đạt được mục tiêu đó theo cách mà chúng ta không mong muốn.” AI có năng lực càng mạnh, càng dễ dùng mọi thủ đoạn để hoàn thành nhiệm vụ, và khi mất kiểm soát, thiệt hại do nó gây ra sẽ hoàn toàn do con người gánh chịu.

AI có thể giảm thiểu tối đa công việc hàng ngày chính là một làn sóng đổi mới không thể ngăn cản. Tuy nhiên, sự thật rằng người trợ lý hoàn hảo biết tất cả về tôi, có thể biến thành “kẻ thù” đe dọa tôi bất cứ lúc nào, đặt ra những vấn đề nghiêm trọng về an ninh và đạo đức.

Trong bối cảnh tốc độ phát triển công nghệ đã vượt xa khả năng chuẩn bị của các thiết bị an toàn, việc xây dựng “công tắc dừng khẩn cấp” để ngăn chặn AI mất kiểm soát và các hướng dẫn kiểm soát truy cập dữ liệu mạnh mẽ trở nên cấp bách hơn bao giờ hết.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.44KNgười nắm giữ:1
    0.01%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:0
    0.00%
  • Vốn hóa:$2.41KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.4KNgười nắm giữ:1
    0.00%
  • Ghim