ミラ・ジョヴォヴィッチが開発に参加したAIメモリーシステム「MemPalace」は、テストで満点を取って大ヒットしたと主張したものの、コミュニティから不正やデータのミスリードを疑う指摘を受けた。実測の結果、効果は誇張されており、大量の誤りも判明した。チームは欠陥を認め、修復に取り組んでいる。
昨日(4/7)AI界隈で大きなニュースがあった。『バイオハザード』や『第5元素』で知られるハリウッド女優ミラ・ジョヴォヴィッチ(Milla Jovovich)が、開発者のBen SigmanとともにClaude Codeの補助を使って、オープンソースのAIメモリーシステム「MemPalace」を開発したというものだ。
一時、「ハリウッドの大スターが異分野に挑戦して満点プロジェクトを作った」という話が広まり、MemPalaceはこれまでにGitHubで2万件以上のスターを獲得している。しかしすぐに、開発者コミュニティから疑問が噴出した。本当に中身があるのか、それとも話題作りなのか?
まずMemPalaceが生まれた動機について説明する。公式ドキュメントによれば、現状のAIシステムでは、ユーザーとAIの対話内容、意思決定のプロセス、そしてアーキテクチャの議論が、作業セッション終了後に消えてしまい、数か月の努力が無に帰すという制約があるという。
この問題を解決するために、MemPalaceは空間構造を用いて記憶を保存し、情報を、担当者やプロジェクトを表す翼区域と、廊下・部屋・引き出しなどの異なる階層の構造に明確に分類する。さらに、後続の意味論的検索のために、対話の原文を保持する。
開発チームは、MemPalaceが長期メモリー評価基準LongMemEvalで100%の完璧な成績を獲得し、さらに外部APIを一切呼び出さない状態で96.6%の精度に到達したと主張している。加えて、完全にローカル端末だけで動作でき、クラウドサービスのサブスクリプションは不要で、30倍のロスレス圧縮が可能だとされるAAAK方言システムも搭載している。
図ソース:GitHub ハリウッドの映画スター、ミラ・ジョヴォヴィッチがAIメモリー宮殿を手がけ、注目を集める
しかし、LongMemEvalで満点という成績の主張は、すぐに同業者から疑念を招いた。
同じくAIメモリーシステムを制作しているPenfieldLabsは、MemPalaceがLoCoMoデータセットで満点を取ったと主張しているが、数学的には起こり得ないと指摘した。なぜなら、そのデータセットの模範解答それ自体に99個の誤りが含まれているからだ。
PenfieldLabsの分析によると、MemPalaceの100%の成績は、検索回数を50回に設定したことによって生まれている。しかしテストデータセットの対話で最高段階は32回しかない。つまり、システムが検索段階を直接すり抜けて、すべてのデータをAIモデルに読み込ませていたことを意味する。
LongMemEvalでの100%の成績について、開発チームは、開発集中で出錯した3つの特定の問題に対して専用の修復コードを書いていたことが発見されており、テストセットの不正(チート)をしている疑いがある。
図ソース:Reddit 同業者PenfieldLabsが指摘、MemPalaceはLoCoMoデータセットで満点を獲得したと主張しており、数学的には起こり得ない
GitHubユーザーのhugooconnorは実測後にコメントし、MemPalaceが最大96.6%の検索精度を主張しているにもかかわらず、実際にはMemPalaceがうたうメモリー宮殿のアーキテクチャをまったく使っていないと述べた。hugooconnorによれば、彼らのテストは単に下層のデータベースChromaDBのデフォルト機能を呼び出しているだけで、プロジェクトが強調する翼区域、部屋、引き出しといった分類ロジックには一切関わっていないという。
hugooconnorはテスト後、システムで実際にこれらのメモリー宮殿専用の分類ロジックを有効にすると、検索の成績はむしろ低下することを確認した。部屋モードの例では、精度が89.4%まで下がり、さらにAAAK圧縮技術を有効にすると精度は84.2%まで落ち、両方ともデフォルトのデータベースの性能を下回った。
hugooconnorはテスト手法も批判しており、MemPalaceのテスト環境では、各問題の検索範囲を意図的に約50の対話段階に縮小し、極めて小さいサンプルのデータベースの中で答えを探すのは簡単すぎると指摘した。
範囲を現実の状況に近い19,000以上の対話段階に広げると、従来のキーワード検索の精度は30%まで大幅に下落し、MemPalaceの現在のテスト方法が実際の検索の難しさを隠していることが示される。
図ソース:GitHub GitHubユーザーによる実測、MemPalaceのベンチマークテストにミスリード要素
同時に、開発チームが訂正声明をすでに出し、AAAK技術が確かにロスあり圧縮として検証されたことを認め、そしてコミュニティの厳しい批判に基づいて説明書類とシステム設計を修正すると約束しているにもかかわらず、プロジェクトの主な説明ドキュメントには依然として複数の未修正の誇張が残っている。たとえば「30倍のロスレス圧縮」や「34%の検索向上」をうたう点で、さらに他の競合相手との比較図表も、出典がまったく示されていない。
より多くの開発者がテストをダウンロードするにつれ、GitHub上でMemPalaceの原コードに関する大量のBug報告が出てきている。
ユーザーのcktang88は複数の重大な不備を列挙し、圧縮コマンドが動作せずシステムがクラッシュする、要約の文字数計算ロジックの誤り、部屋を掘り出す統計データの不正確さに加え、サーバーが呼び出しのたびにすべての解析(詮釈)データをメモリへロードしてしまうため、深刻なリソース消費問題が発生することなどを挙げた。
ほかにも指摘された問題として、システムが開発者の家族メンバー名をデフォルト設定ファイルに強制的に書き込むこと、そして照会(ステータス)時に1万件データの表示上限が強制的にかかることが含まれる。
こうした問題に対して、オープンソースコミュニティは積極的に修復を始めている。**ユーザーのadv3nt3が複数の修復リクエストを提出し、掘り出し(挖掘)の統計データの修正、デフォルトの家族メンバー名の削除、知識グラフの初期化時間の遅延などを含めた。**開発チームも後続でこれらの誤りを認めており、コミュニティの協力を通じてコードの問題を段階的に解決していくところだ。
MemPalaceというプロジェクトについて、Hacker Newsのユーザーdarkhanakhは次のように結論づけた。MemPalaceはOpenClawのような印象を与える。つまり、ベンチマーク結果を人為的に操作して完璧に見せ、その後それを何らかの重大なブレークスルーとして包んでマーケティングするのだ。
彼は、MemPalaceの基盤技術は確かに面白い可能性があるものの、テスト手法にそうした瑕疵がある状況で、しかも「史上公開最高点」を売りにして宣伝するのはあまり適切ではないと考えている。「ただ、ミラ・ジョヴォヴィッチがVibe Codingをやってるって件は、個人的にはやっぱりけっこうクールだと思う。」
参考資料:
AIがコードで事故を起こした!コンビニの期限間近商品アプリ「惜食ハンター」で資安(セキュリティ)問題発覚、家のGPSが丸見えに