จากการตรวจสอบของ 1M AI News วิศวกรของ Ant Group และผู้สร้างเฟรมเวิร์ก Umi.js ได้ทำการย้อนรอยซอร์สโค้ดของ Claude Code 2.1.81 เพื่อสร้างภาพรวมของสิ่งที่เกิดขึ้นหลังจากกดโหมดอัตโนมัติ การค้นพบหลักคือ: ทุกครั้งที่เครื่องมือถูกเรียกใช้งาน จะต้องผ่านสายการตัดสินใจสี่ชั้น ซึ่งจะทำงานต่อเมื่อชั้นสามไม่สามารถตัดสินใจได้เท่านั้น จึงจะเรียกใช้ตัวจำแนก AI อิสระเพื่อการตรวจสอบความปลอดภัย
สายการตัดสินใจสี่ชั้นประกอบด้วย: ชั้นแรกตรวจสอบกฎสิทธิ์ที่มีอยู่ หากตรงก็ปล่อยผ่านทันที; ชั้นที่สองจำลองโหมด acceptEdits (อนุญาตให้แก้ไขไฟล์) หากผ่านในโหมดนี้ แสดงว่าความเสี่ยงต่ำ จึงข้ามตัวจำแนก; ชั้นที่สามตรวจสอบรายชื่อขาวของเครื่องมืออ่านอย่างเดียว (Read、Grep、Glob、LSP、WebSearch ฯลฯ) ซึ่งไม่เปลี่ยนแปลงสถานะใด ๆ และปล่อยผ่านโดยไม่มีเงื่อนไข; หากไม่ผ่านทั้งสามชั้น จะเข้าสู่ชั้นที่สี่ ซึ่งจะส่งคำขอ API อิสระไปยัง Claude Sonnet เพื่อการจำแนกความปลอดภัย
รายละเอียดสำคัญของการออกแบบตัวจำแนกคือ: ใช้ Sonnet แทน Opus เสมอ เพื่อเป็นการชั่งน้ำหนักระหว่างต้นทุนและความหน่วง; ตั้งค่า temperature เป็น 0 เพื่อให้ผลลัพธ์มีความแน่นอน; ตัวจำแนกถูกกำหนดให้เป็น “ผู้ดูแลความปลอดภัยของเอเจนต์ AI อัตโนมัติ” ซึ่งปกป้องความเสี่ยงสามประเภท ได้แก่ การแทรกคำสั่งปลอม การแพร่ขยายขอบเขต และความเสียหายโดยไม่ตั้งใจ; ไฟล์การตั้งค่า CLAUDE.md ของผู้ใช้จะถูกรวมเข้าในบริบทของตัวจำแนก เพื่อเป็นฐานในการตัดสินใจเจตนาของผู้ใช้
กฎการบล็อกครอบคลุมมากกว่า 22 ประเภท รวมถึง force push, การ push ตรงไปยังสาขา main, การดาวน์โหลดและรันโค้ดภายนอก, การปล่อยผลิตภัณฑ์, การรั่วไหลของข้อมูล, การแก้ไขสิทธิ์ตัวเอง, การสร้างช่องโหว่สำหรับรันโค้ดระยะไกล, การรั่วไหลของข้อมูลรับรอง ฯลฯ ยกเว้นการปล่อยผ่านมี 7 ประเภท ได้แก่ คีย์ฮาร์ดโค้ดสำหรับการทดสอบ, การดำเนินการไฟล์ในไดเรกทอรีงาน, คำขอ GET แบบอ่านอย่างเดียว, การติดตั้ง dependencies ที่ประกาศไว้, การติดตั้งเครื่องมือทางการ, การอ่านข้อมูลรับรองและส่งไปยังผู้ให้บริการเป้าหมาย, การ push ไปยังสาขางานปัจจุบัน
นอกจากนี้ยังมีระบบป้องกันการล้มเหลว: หากถูกปฏิเสธติดต่อกัน 3 ครั้ง หรือรวมกันแล้ว 20 ครั้ง ระบบจะลดระดับเป็นการยืนยันด้วยตนเอง; ในโหมด headless จะหยุดการทำงานของเอเจนต์ทันที ตัวจำแนกไม่สามารถใช้งานได้จะถูกควบคุมโดย feature flag ซึ่งเป็น “fail-closed” (ปฏิเสธโดยตรง) หรือ “fail-open” (ลดระดับเป็นการยืนยันด้วยตนเอง)
ในโหมดอัตโนมัติ การแทรกคำสั่งเตือนก็มีการควบคุมความถี่อย่างละเอียด: ทุก 5 รอบสนทนา จะแทรกหนึ่งครั้ง ในรอบการแทรก 5 ครั้งแรกจะเป็นเวอร์ชันเต็ม (ประมาณ 800 คำ รวมคำสั่ง “ดำเนินการทันที, ลดการขัดจังหวะ, การดำเนินการดีกว่าการวางแผน” หกข้อ) ส่วนอีก 4 ครั้งเป็นเวอร์ชันย่อ เพื่อสมดุลระหว่างการใช้พื้นที่ในหน้าต่างบริบทและความเสถียรของพฤติกรรม