幣界網稱，Anthropic對齊團隊推出“內省適配器”，讓LLM用自然語言報告微調後學到的行為。通過在同基座模型上微調多種帶已知行為的模型並聯合訓練LoRA，使被審計模型主動揭示隱藏行為。在AuditBench基準上，59%超越以往方法，56個模型中89%被描述出行為。對抗9種加密變體，7種被識別，成功率57.8%。模型規模越大效果越好，假陽性為主要局限。代碼與數據在GitHub/HuggingFace開源。

币界网

2026-04-30 11:10:51

摘要生成中

币界網消息，Anthropic對齊團隊發布了一種名為「內省適配器」（introspection adapters）的審計技術，旨在讓大型語言模型（LLM）用自然語言報告自己微調後學到的行為。該技術通過從同一基座模型微調出大量帶已知行為的模型，再跨這些模型聯合訓練一個LoRA適配器，使被審計模型能夠主動說出自己的隱藏行為。在對齊審計基準auditbench上，內省適配器以59%的成功率超過此前所有審計方法，56個帶隱藏行為的模型中，89%被成功引出行為描述。面對加密微調API攻擊，內省適配器在9種加密變體中識別出7種，成功率為57.8%。研究還發現，效果隨模型規模增大而提升，主要局限是假陽性率高。代碼、模型和數據集已在GitHub和Hugging Face開源。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
WCTC交易王PK
40.49萬熱度
#
#聯準會利率不變但內部分歧加劇#
2.72萬熱度
#
Polymarket每日熱點
72.68萬熱度
#
比特幣現貨交易量新低
16267.17萬熱度
#
油價突破110美元
87.4萬熱度

Anthropic讓AI自己招供：一個LoRA插件審出人類10種方法都漏掉的隱藏行為

熱門話題

WCTC交易王PK

#聯準會利率不變但內部分歧加劇#

Polymarket每日熱點

比特幣現貨交易量新低

油價突破110美元

置頂