Anthropic讓AI自己招供:一個LoRA插件審出人類10種方法都漏掉的隱藏行為

robot
摘要生成中

币界網消息,Anthropic對齊團隊發布了一種名為「內省適配器」(introspection adapters)的審計技術,旨在讓大型語言模型(LLM)用自然語言報告自己微調後學到的行為。該技術通過從同一基座模型微調出大量帶已知行為的模型,再跨這些模型聯合訓練一個LoRA適配器,使被審計模型能夠主動說出自己的隱藏行為。在對齊審計基準auditbench上,內省適配器以59%的成功率超過此前所有審計方法,56個帶隱藏行為的模型中,89%被成功引出行為描述。面對加密微調API攻擊,內省適配器在9種加密變體中識別出7種,成功率為57.8%。研究還發現,效果隨模型規模增大而提升,主要局限是假陽性率高。代碼、模型和數據集已在GitHub和Hugging Face開源。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆