Đại lý đã bước vào kỷ nguyên điều khiển Harness

null

Bài | Phòng thí nghiệm AI Ánh sáng rực rỡ

Gần đây, một chủ đề nóng trong giới công nghệ AI là, công ty Anthropic bất ngờ tiết lộ toàn bộ mã nguồn của công cụ lập trình AI Claude Code, với hơn 512.000 dòng mã. Những mã nguồn bị rò rỉ này dù chưa thể hiện thuật toán đột phá mới, nhưng đã đầy đủ phơi bày thực tiễn kỹ thuật Agent của các nhà cung cấp hàng đầu.

Vào ngày 10 tháng 4, sáng lập Pokee.ai, Zhu Zheqing, đã tham gia buổi họp kín trực tuyến do Quỹ Jin Qiu tổ chức mang tên “Deep Talk with Builders”, chia sẻ về chủ đề “Nhìn nhận từ vụ rò rỉ Claude Code về Harness Engineering và xu hướng Post-training hiện nay”.

Ông cho rằng, kiến trúc của Anthropic rất phù hợp với mô hình Claude, còn việc chuyển trực tiếp sang các mô hình khác sẽ giảm hiệu quả rõ rệt, nhưng tư duy thiết kế Harness, cấu trúc thành phần, và ý tưởng gắn kết sâu với quá trình hậu huấn luyện (Post-training) lại có giá trị tham khảo cực lớn cho các Agent tự phát triển.

Trong ba năm qua, các mô hình lớn đã tiến hóa từ khả năng API đơn thuần thành các module cốt lõi của sản phẩm; ngành cũng từ “công ty vỏ mô hình” chuyển sang hệ thống Agent phức tạp dựa trên Harness — mô hình không còn là trung tâm duy nhất, mà còn gồm các công cụ gọi, môi trường thực thi, quản lý ngữ cảnh, cơ chế xác thực cùng quyết định kết quả cuối cùng.

Harness là gì? Dịch sát nghĩa là yên cương, dây cương. Nếu mô hình lớn là một con mãnh mãnh đang chờ bùng nổ, thì Harness chính là dây cương để con mãnh mãnh đó được con người kéo, điều khiển. Khi trí tuệ nhân tạo chính thức bước vào kỷ nguyên dựa trên Harness, khả năng thực sự quý giá của người dùng không nằm trong mô hình, mà nằm ngoài mô hình — làm thế nào để tìm ra một chiếc dây cương phù hợp, và người điều khiển có mục tiêu rõ ràng, chính xác trong tâm trí.

Bài viết dựa trên nội dung chia sẻ của Zhu Zheqing, được AI tổng hợp và chỉnh sửa thủ công, nhằm thể hiện tinh túy của buổi chia sẻ này.

Harness có thể hiểu là toàn bộ kiến trúc kỹ thuật điều khiển mô hình, trọng tâm là tối đa hóa khả năng của mô hình, chứ không đơn thuần là xuất tokens. Claude Code’s Harness được phân tích rõ thành sáu thành phần cốt lõi:

  1. System Prompt nhiều cấp độ (Hướng dẫn hệ thống)

Prompt hệ thống hiện đại đã vượt xa câu “Bạn là một trợ lý hữu ích”, mà là một tập lệnh phức tạp, phân tầng, có thể cache quy mô lớn:

Phần cache cố định: chứa danh tính Agent, chỉ thị Co, định nghĩa công cụ, quy tắc ngữ điệu, chính sách an toàn, dung lượng có thể lên tới hàng chục nghìn token, bất kỳ thay đổi nào cũng làm cache mất hiệu lực, tăng đáng kể chi phí và thời gian;

Phần có thể thay đổi linh hoạt: trạng thái hội thoại, thời gian hiện tại, file có thể đọc, phụ thuộc gói mã, v.v., linh hoạt theo nhiệm vụ;

Thực tiễn kỹ thuật: qua thử nghiệm A/B để tinh chỉnh Prompt cho từng người dùng, tối ưu chính xác tỷ lệ hoàn thành nhiệm vụ, giảm thiểu lỗi.

So sánh, kiến trúc của Claude Code đơn giản hơn, giảm gánh nặng chú ý của mô hình, giảm hallucination; còn kiến trúc của OpenAI phức tạp hơn, cần đọc nhiều file, dễ gây ra hallucination về bộ nhớ.

  1. Tool Schema (Quy chuẩn công cụ)

Định nghĩa công cụ quyết định độ chính xác của gọi lệnh, các điểm chính:

Công cụ cốt lõi tích hợp sẵn: đọc/ghi, chỉnh sửa file, Bash, xử lý hàng loạt Web, đã được tích hợp trong giai đoạn huấn luyện mô hình, khi suy luận không cần mô tả thêm;

Quyền hạn và an toàn: trong các kịch bản doanh nghiệp, từ chối công cụ của bên thứ ba không có xác thực quyền, tránh thao tác độc hại;

Gọi công cụ song song: tăng tốc độ thực thi, nhưng độ khó hậu huấn luyện rất cao — gọi song song không có phụ thuộc thứ tự, dễ gây lệch thời gian trong huấn luyện, tín hiệu Reward khó đồng bộ.

  1. Vòng lặp gọi công cụ (Tool Call Loop)

Là phần cốt lõi nhất của Harness, cũng là chìa khóa tích hợp huấn luyện và suy luận:

Chế độ lập kế hoạch (Plan Mode): hiểu nhiệm vụ, sắp xếp hệ thống file, xác định công cụ khả dụng, tạo ra kế hoạch thực thi rồi mới thực thi; tránh thử sai mù quáng (ví dụ gọi đi gọi lại công cụ tìm kiếm không khả dụng), giảm tiêu hao token vô ích;

Chế độ thực thi (Execute Mode): trong sandbox, theo kế hoạch thực thi công cụ, lấy kết quả để hoàn thiện vòng kín;

Giá trị cốt lõi: loại bỏ lỗi trung gian trong thực thi dài hạn, giảm chi phí thử lại, nhưng cũng làm huấn luyện khả năng lập kế hoạch khó hơn — tín hiệu Reward của việc lập kế hoạch dễ bị nhiễu bởi tiếng ồn của vòng thực thi.

  1. Quản lý ngữ cảnh (Context Manager)

Giải quyết vấn đề sử dụng hiệu quả ngữ cảnh có hàng triệu token:

Dùng bộ nhớ theo con trỏ (pointer-based Memory): không lưu trữ toàn bộ nội dung, chỉ ghi lại con trỏ file và thẻ chủ đề;

Tự động hợp nhất, loại bỏ trùng lặp, liên kết file phía nền;

Hiện tại: vẫn đang ở giai đoạn gợi ý, chưa thể giải quyết hoàn hảo vấn đề suy luận đa file, đa chuỗi (ví dụ liên kết file bị bỏ sót), chưa có giải pháp tối ưu toàn diện.

  1. Sub Agent (Tiểu trí tuệ nhân tạo)

Hợp tác đa trí tuệ nhân tạo phổ biến thiếu nền tảng lý thuyết: không có mục tiêu chung, không có thuật toán huấn luyện chung, chỉ có thể “tự huấn luyện, tùy ý phối hợp”.

Mà cấu trúc chính-phụ của Agent về bản chất là học tăng cường phân tầng:

Main Agent định nghĩa các nhiệm vụ con (Option), trạng thái kết thúc của nhiệm vụ con là điểm bắt đầu của nhiệm vụ chính;

Chia sẻ bộ nhớ KV và ngữ cảnh đầu vào, sau khi thực thi, phụ thuộc vào kết quả, không tiêu hao token thêm, chi phí thấp hơn nhiều so với thực thi tuần tự;

Điển hình: các công trình như ByteDance ContextFormer đều có ý tưởng tương tự.

  1. Hooks xác thực (Verification Hooks)

Giải quyết vấn đề “mô hình tự tô vẽ, báo cáo hoàn thành giả”:

Mô hình mạnh có xu hướng tự thích nghi, tự đánh giá độ chính xác cao hơn đánh giá lẫn nhau, dễ “nói dối” hơn là hallucination thuần túy;

Giải pháp kỹ thuật: thêm bộ phân loại phía nền, chỉ xem kết quả thực thi công cụ, bỏ qua văn bản do mô hình sinh ra, tách rời khỏi thành kiến sinh ra để kiểm tra khách quan;

Tác dụng: không cần Reward hoàn toàn có thể xác minh, vẫn có thể thực hiện kiểm tra kết quả thực thi nhẹ nhàng, tinh tế.

Môi trường huấn luyện RL (Reinforcement Learning) truyền thống và môi trường suy luận bị chia tách nghiêm trọng, nhưng Harness đã thực hiện tích hợp huấn luyện và vận hành sản xuất: chuỗi gọi công cụ = hành trình, thử nghiệm và phân loại = tín hiệu Reward, nhiệm vụ người dùng = toàn bộ Episode.

Xung quanh sáu thành phần này, Post-training (hậu huấn luyện) hình thành sáu hướng trọng tâm:

  1. System Prompt (Hướng dẫn hệ thống) thúc đẩy phù hợp hành vi

System Prompt xác định rõ mục tiêu nhiệm vụ, ngân sách token, chiến lược sử dụng công cụ, từ đó hạn chế đáng kể phạm vi hành động của mô hình, giúp RL chỉ cần học tối ưu trong phạm vi giới hạn. Chúng ta có thể dựa trên quy tắc trong System Prompt để thiết kế hệ thống đánh giá, giúp mô hình trong quá trình huấn luyện gần như tối ưu hóa hành vi phù hợp, ổn định hơn.

  1. Huấn luyện gọi công cụ dài hạn toàn hành trình

Loại bỏ cách huấn luyện “chụp nhanh từng bước”, chuyển sang huấn luyện toàn hành trình:

Ghi lại kết quả từng bước, lấy phần thưởng quá trình và phần thưởng cuối cùng của nhiệm vụ;

Tập trung vào độ ổn định của chuỗi dài, đảm bảo độ chính xác tổng thể của hàng trăm lần gọi công cụ, chứ không chỉ đúng từng bước.

  1. Huấn luyện tích hợp lập kế hoạch và thực thi

Harness loại bỏ nhiễu giữa lập kế hoạch và thực thi:

Khóa cố định chuỗi công cụ trong kế hoạch, không cần can thiệp thủ công;

Kết quả thực thi được kiểm tra khách quan qua phân loại, tín hiệu Reward rõ ràng hơn;

Thực hiện khả năng huấn luyện lập kế hoạch, tránh mô hình chỉ “thực thi mà không lập kế hoạch”.

  1. Huấn luyện nén bộ nhớ (Memory Compression)

Chuyển phần nén ngữ cảnh thành nhiệm vụ riêng biệt: mô hình phía trên nén bộ nhớ, nhiệm vụ phía dưới dựa vào kết quả để kiểm tra; mục tiêu là giữ lại thông tin cốt lõi, không ảnh hưởng đến tỷ lệ thành công của nhiệm vụ phía dưới.

  1. Huấn luyện phối hợp các Sub Agent

Đối với các kịch bản dài quá mức (mã nguồn, tài liệu hàng triệu token):

Main Agent không trực tiếp tạo nội dung, mà điều phối Sub Agent, phân phối nhiệm vụ và Prompt;

Sub Agent thực thi song song, hợp nhất kết quả, Main Agent kiểm tra;

Dựa vào Harness để kiểm soát quá trình nền, tránh xung đột đọc/ghi và thất bại trong thực thi.

  1. Huấn luyện kết hợp đa mục tiêu (Multi-objective RL)

Các pipeline RL hiện đại kéo dài đáng kể, cần tối ưu đồng thời sáu thành phần:

Gọi công cụ không hallucination, phân loại chính xác, nén ngữ cảnh hiệu quả, đa Agent không bị cản trở, lập kế hoạch hợp lý, xác thực đáng tin cậy;

Ngành công nghiệp từ hội tụ thuật toán đến đa dạng, mỗi phần cần thuật toán huấn luyện riêng, tích hợp đa mục tiêu trở thành thách thức cốt lõi.

Trước hết là sự chuyển đổi trong nhu cầu nhân lực. Kỹ thuật Prompt không còn là trung tâm độc lập, làm tốt Harness có thể hoàn thành 70% công việc. Do đó, các nhân sự đa năng có khả năng hiểu AI, kỹ thuật backend, hạ tầng sẽ ngày càng được ưa chuộng, còn các Prompt engineer thuần túy sẽ giảm mạnh cạnh tranh.

Tiếp theo là tái cấu trúc thị trường. Trong bối cảnh các nhà cung cấp mô hình và doanh nghiệp lĩnh vực đặc thù đẩy mạnh, các “công ty vỏ mô hình” trung gian chỉ còn hai con đường khả thi: hoặc sở hữu mô hình và hạ tầng hàng đầu, hoặc có dữ liệu/kinh nghiệm độc quyền trong lĩnh vực (ví dụ như giao dịch tần suất cao, kiến thức chuyên ngành).

Thứ ba, việc triển khai Agent thực sự đang hướng tới mô hình tư nhân, an toàn cao, tích hợp toàn diện từ đầu đến cuối. Các doanh nghiệp ưu tiên tái sử dụng thiết kế Harness đã thành hình, kết hợp tùy biến theo lĩnh vực, tập trung vào an toàn và bảo mật, để đạt quy mô thương mại Agent thực sự.

Giá trị cốt lõi của vụ rò rỉ Claude Code không nằm ở mã nguồn, mà ở việc tiết lộ rằng Agent đã bước vào thời kỳ Harness dẫn dắt. Khả năng của mô hình chỉ là nền tảng, còn kiến trúc kỹ thuật, môi trường thực thi, hợp tác đa trí tuệ, cơ chế xác thực mới là yếu tố quyết định giới hạn tối đa.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim