Mirajōva Vechi dùng AI để tạo ra “dự án điểm tối đa”? Nhà phát triển thử nghiệm thực tế: có thực sự đáng giá hay chỉ là thổi phồng, PR gây sốt?

Hệ thống trí nhớ AI MemPalace do Milla Jovovich tham gia phát triển đã tuyên bố đạt điểm tuyệt đối trong quá trình thử nghiệm và vì thế bỗng trở nên nổi tiếng, nhưng cộng đồng nhanh chóng “đá” và nghi ngờ rằng việc thử nghiệm có dấu hiệu gian lận và dữ liệu bị gây hiểu nhầm. Qua kiểm chứng thực tế cho thấy hiệu quả được thổi phồng và có rất nhiều lỗi; nhóm phát triển đã thừa nhận các thiếu sót và đang trong quá trình khắc phục.

Milla Jovovich tạo “cung điện trí nhớ” AI, thu hút sự chú ý từ bên ngoài

Hôm qua (4/7), giới AI có một tin lớn: nữ diễn viên Hollywood nổi tiếng nhờ 《Resident Evil》 và 《The Fifth Element》 là Milla Jovovich (Milla Jovovich), cùng với nhà phát triển Ben Sigman dùng Claude Code hỗ trợ phát triển hệ thống trí nhớ AI mã nguồn mở “MemPalace”.

Trong lúc đó, những lời nói “ngôi sao Hollywood bậc nhất làm một dự án điểm tuyệt đối khi lấn sân sang lĩnh vực khác” đã lan truyền rộng rãi. Đến nay, MemPalace trên GitHub cũng đã nhận được hơn 20.000 lượt sao, nhưng rất nhanh đã khiến cộng đồng nhà phát triển đặt câu hỏi: Có thật là có năng lực hay chỉ là chiêu trò quảng bá?

Trước hết, hãy nói về động cơ ra đời của MemPalace. Tài liệu chính thức cho biết họ muốn giải quyết tình trạng nội dung hội thoại của người dùng với AI, quá trình ra quyết định và việc thảo luận kiến trúc thường biến mất sau khi kết thúc phiên làm việc, dẫn đến giới hạn khiến hàng tháng công sức phải “xóa sạch”.

Để giải quyết vấn đề này, MemPalace sử dụng kiến trúc không gian để lưu trí nhớ: phân loại thông tin một cách rõ ràng vào các cánh tương ứng với nhân sự hoặc dự án, cũng như các cấu trúc khác nhau như hành lang, phòng và ngăn kéo, đồng thời giữ nguyên nội dung hội thoại để phục vụ việc truy xuất ngữ nghĩa về sau.

Nhóm phát triển tuyên bố rằng, MemPalace đã đạt 100% điểm tuyệt đối trong bộ tiêu chí đánh giá trí nhớ dài hạn LongMemEval, và đạt tỷ lệ chính xác 96,6% mà không cần gọi bất kỳ API bên ngoài nào, đồng thời có thể chạy hoàn toàn trên máy cục bộ, không cần đăng ký dịch vụ đám mây, và được trang bị hệ thống phương ngữ AAAK được cho là có thể nén không tổn thất lên tới 30 lần.

Nguồn ảnh: GitHub Nữ minh tinh Hollywood Milla Jovovich tạo “cung điện trí nhớ” AI, thu hút sự chú ý từ bên ngoài

Đồng nghiệp và cộng đồng đồng loạt chất vấn, thử nghiệm và quảng bá có nhiều điểm sai

Tuy nhiên, thành tích “điểm tuyệt đối” trong LongMemEval mà MemPalace công bố đã nhanh chóng kéo theo sự nghi ngờ từ đồng nghiệp.

PenfieldLabs, công ty cũng đang phát triển hệ thống trí nhớ AI, chỉ ra rằng MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo là điều không thể xảy ra về mặt toán học, vì đáp án chuẩn của chính bộ dữ liệu đó vốn đã bao gồm 99 lỗi.

Sau khi phân tích, PenfieldLabs phát hiện rằng thành tích 100% của MemPalace đến từ việc đặt số lần truy xuất là 50 lần, nhưng số lượng bước cấp cao nhất của hội thoại trong tập thử nghiệm chỉ có tối đa 32 lần, điều này có nghĩa là hệ thống đã trực tiếp vượt qua giai đoạn truy xuất, đưa toàn bộ dữ liệu cho mô hình AI đọc.

Đối với thành tích 100% của LongMemEval, nhóm phát triển bị phát hiện đã nhắm vào 3 vấn đề cụ thể mà họ mắc lỗi trong quá trình phát triển tập trung, viết mã sửa chữa riêng cho chúng, và tồn tại nghi ngờ rằng việc đó nhắm tới gian lận trên tập thử nghiệm.

Nguồn ảnh: Reddit PenfieldLabs – đồng nghiệp chỉ ra rằng MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo là điều không thể xảy ra về mặt toán học

Người dùng GitHub kiểm chứng thực tế, bài benchmark có yếu tố gây hiểu nhầm

Người dùng GitHub hugooconnor thì sau khi kiểm chứng thực tế đã bình luận rằng: MemPalace tuyên bố có tỷ lệ chính xác truy xuất cao tới 96,6%, nhưng thực tế hoàn toàn không hề sử dụng kiến trúc “cung điện trí nhớ” mà MemPalace quảng bá. hugooconnor cho biết thử nghiệm của họ chỉ đơn giản là gọi chức năng mặc định của cơ sở dữ liệu tầng dưới ChromaDB, hoàn toàn không liên quan đến logic phân loại theo các “cánh”, “phòng” hay “ngăn kéo” như dự án nhấn mạnh.

Sau khi thử nghiệm, hugooconnor phát hiện rằng khi hệ thống thật sự bật logic phân loại độc quyền của các cung điện trí nhớ này thì thành tích truy xuất lại bị suy giảm. Ví dụ, ở chế độ phòng, độ chính xác giảm xuống 89,4%; và sau khi bật công nghệ nén AAAK thì độ chính xác còn giảm xuống 84,2%, cả hai đều thấp hơn so với hiệu suất của cơ sở dữ liệu mặc định.

hugooconnor cũng chỉ trích phương pháp thử nghiệm: môi trường thử nghiệm của MemPalace cố ý thu hẹp phạm vi truy xuất của mỗi câu hỏi chỉ còn khoảng 50 bước hội thoại, việc tìm đáp án trong một kho mẫu cực nhỏ như vậy sẽ quá dễ dàng.

Nếu mở rộng phạm vi lên hơn 19.000 bước hội thoại trong bối cảnh thực tế, thì độ chính xác của tìm kiếm bằng từ khóa truyền thống sẽ rơi xuống chỉ còn 30%, cho thấy cách thử nghiệm hiện tại của MemPalace đang che đậy bài toán tìm kiếm thực sự khó khăn như thế nào.

Nguồn ảnh: GitHub GitHub – người dùng kiểm chứng thực tế cho thấy bài benchmark của MemPalace có yếu tố gây hiểu nhầm

Đồng thời, dù nhóm phát triển đã công bố tuyên bố đính chính, thừa nhận rằng kỹ thuật AAAK đúng là đã được xác thực là nén có tổn thất, và cam kết sẽ chỉnh sửa tài liệu mô tả cũng như thiết kế hệ thống theo những phê bình gắt gao của cộng đồng. Tuy nhiên, tài liệu mô tả chính của dự án vẫn giữ nhiều tuyên bố thổi phồng chưa được sửa, bao gồm việc khẳng định “nén không tổn thất 30 lần” và “tăng 34% trong truy xuất”, đồng thời các biểu đồ so sánh với đối thủ khác cũng hoàn toàn không có nguồn xuất xứ.

Mã nguồn gốc của MemPalace đối mặt với nhiều lỗi (Bug)

Khi ngày càng nhiều nhà phát triển tải thử nghiệm về, trên GitHub bắt đầu xuất hiện hàng loạt báo cáo lỗi liên quan tới mã nguồn của MemPalace.

Người dùng cktang88 liệt kê nhiều khiếm khuyết nghiêm trọng, bao gồm lệnh nén không chạy được và gây sập hệ thống, lỗi trong logic tính toán số lượng từ của bản tóm tắt, thống kê khai quật phòng không chính xác, và việc máy chủ mỗi lần được gọi sẽ tải toàn bộ dữ liệu diễn giải vào bộ nhớ, gây ra vấn đề tiêu tốn tài nguyên nghiêm trọng.

Các vấn đề khác cũng được chỉ ra, chẳng hạn như hệ thống tự động ghi cứng tên thành viên gia đình của nhà phát triển vào cấu hình mặc định, và có giới hạn hiển thị bắt buộc là tối đa 10.000 mục dữ liệu khi xem trạng thái truy vấn.

Trước các vấn đề này, cộng đồng mã nguồn mở đã bắt đầu tích cực sửa chữa. Người dùng adv3nt3 đã gửi nhiềuyêu cầusửa lỗi, bao gồm việc sửa thống kê khai quật, xóa tên thành viên gia đình mặc định, và trì hoãn thời gian khởi tạo tri thức đồ thị (knowledge graph).** Nhóm phát triển sau đó cũng thừa nhận các lỗi này và đang cùng cộng tác với cộng đồng để dần giải quyết các vấn đề của mã nguồn.

Milla Jovovich Vibe Coding rất ngầu, cách marketing thì không ngầu

Đối với dự án MemPalace, một người dùng Hacker News là darkhanakh đã đưa ra kết luận: MemPalace tạo cảm giác giống hệt OpenClaw, tức là thao túng kết quả benchmark một cách nhân tạo để nó trông như hoàn hảo vô khuyết, rồi sau đó đóng gói nó thành một “bước đột phá trọng đại” để đi marketing.

Anh ấy cho rằng, công nghệ nền tảng của MemPalace có thể thực sự khá thú vị, nhưng trong bối cảnh phương pháp thử nghiệm có những điểm sai kiểu đó, lại còn rêu rao “điểm cao nhất từng công khai” để quảng cáo thì thực sự không ổn lắm, “Tuy nhiên, chuyện Milla Jovovich đang chơi Vibe Coding này, tôi nghĩ vẫn khá ngầu.”

Đọc thêm:
AI viết code gặp sự cố! Ứng dụng “Người săn đồ sắp hết hạn” của quầy tạp hóa bùng nổ vấn đề an toàn dữ liệu, GPS trong nhà phơi trần toàn bộ

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận