Le système de mémoire par IA MemPalace, développé par Milla Jovovich, affirme avoir obtenu un score parfait aux tests et devient viral, mais la communauté l’a rapidement pris en faute : tests prétendument truqués et données trompeuses. En conditions réelles, on constate que les résultats sont exagérés et qu’il y a de nombreuses erreurs ; l’équipe a reconnu les défauts et travaille à les corriger.
Hier (4/7), dans le milieu de l’IA, un grand événement a fait l’actualité : la star hollywoodienne Milla·Jovovich (connue notamment pour Resident Evil et Le Cinquième Élément), a, avec le développeur Ben Sigman, utilisé Claude Code pour développer le système open source de mémoire par IA « MemPalace ».
À un moment donné, la thèse « Une star hollywoodienne passe de l’autre côté pour livrer un projet noté 100 % » s’est largement répandue ; jusqu’à présent, MemPalace compte plus de 20k étoiles sur GitHub, mais très vite, la communauté des développeurs a commencé à douter : y a-t-il vraiment du fond, ou est-ce du battage ?
D’abord, parlons de la motivation derrière la création de MemPalace. La documentation officielle indique qu’il s’agissait de résoudre la limite actuelle : les systèmes d’IA font disparaître, en fin de session, le contenu de conversation des utilisateurs avec l’IA, le processus de décision et les discussions relatives à l’architecture, ce qui fait que des mois d’efforts finissent par être ramenés à zéro.
Pour résoudre ce problème, MemPalace utilise une architecture spatiale pour stocker la mémoire : les informations sont classées clairement en des ailes correspondant aux personnes ou aux projets, ainsi que dans des structures de niveaux différents comme des couloirs, des pièces et des tiroirs, tout en conservant le texte original des échanges pour permettre des recherches sémantiques ultérieures.
L’équipe de développement affirme que MemPalace obtient un score parfait de 100 % dans le référentiel d’évaluation de la mémoire à long terme LongMemEval, et atteint un taux de précision de 96,6 % sans appeler n’importe quelle API externe. Elle affirme aussi pouvoir fonctionner entièrement en local, sans souscrire à des services cloud, et inclure un système AAAK présenté comme capable d’atteindre une compression sans perte 30×.
Source d’image : GitHub La star du cinéma américain Milla Jovovich crée un palais de mémoire pour l’IA, suscitant l’attention
Cependant, le score annoncé de 100 % de LongMemEval pour MemPalace a rapidement attiré les critiques des pairs.
PenfieldLabs, qui fabrique aussi des systèmes de mémoire par IA, a indiqué que la revendication de MemPalace d’obtenir un score parfait sur le dataset LoCoMo est mathématiquement impossible, car les réponses de référence de ce dataset contiennent elles-mêmes 99 erreurs.
L’analyse de PenfieldLabs a révélé que le score de 100 % de MemPalace provient du fait que le nombre de requêtes est réglé sur 50 fois, mais que le niveau le plus élevé du dataset de test ne comporte que 32 étapes de conversation ; cela signifie que le système contourne directement l’étape de récupération et confie toutes les données au modèle d’IA pour lecture.
Concernant le score de 100 % de LongMemEval, l’équipe de développement aurait été trouvée en train de viser 3 problèmes spécifiques ayant concentré des erreurs, et aurait rédigé un code de réparation dédié ; il existe des soupçons de triche visant le jeu de test.
Source d’image : Reddit PenfieldLabs, pairs, indique que la revendication de MemPalace d’obtenir un score parfait sur le dataset LoCoMo est mathématiquement impossible
L’utilisateur GitHub hugooconnor a commenté après l’avoir testé en conditions réelles : lorsqu’on annonce un taux de précision de récupération allant jusqu’à 96,6 %, en pratique, le système n’utilise tout simplement pas l’architecture de palais de mémoire mise en avant par MemPalace. hugooconnor affirme que leur test consiste seulement à appeler la fonctionnalité par défaut de la base de données sous-jacente ChromaDB, sans aucune logique de classification impliquant les ailes, pièces ou tiroirs mis en avant par le projet.
Après test, hugooconnor a constaté que lorsque le système active réellement la logique de classification exclusive de ces palais de mémoire, les performances de récupération se dégradent au contraire. Par exemple, en mode pièce, la précision descend à 89,4 %, et après activation de la technologie de compression AAAK, la précision tombe encore à 84,2 %, les deux étant inférieures aux performances de la base de données par défaut.
hugooconnor critique aussi la méthode de test : l’environnement de test de MemPalace réduit volontairement la fenêtre de récupération pour chaque question à environ 50 étapes de conversation, ce qui rend trop simple la recherche de réponses dans une base d’échantillons extrêmement petite.
Si l’on étend la fenêtre à plus de 19 000 étapes de conversation dans des scénarios réels, la précision de la recherche par mots-clés classique chute à 30 %, montrant que la méthode de test actuelle de MemPalace masque la difficulté réelle du problème de recherche.
Source d’image : GitHub Test de référence mené par des utilisateurs GitHub, MemPalace contient une part de contenu trompeur dans le benchmark
Par ailleurs, bien que l’équipe de développement ait publié une déclaration de correction, reconnaissant que la technique AAAK a bien été validée comme une compression avec perte, et s’engageant à modifier la documentation et la conception du système conformément aux critiques sévères de la communauté. Mais dans le document de présentation principal du projet, plusieurs affirmations excessives non corrigées restent maintenues, notamment la revendication d’une compression sans perte 30× et d’une amélioration de 34 % de la récupération, et les tableaux de comparaison avec d’autres concurrents ne comportent eux aussi absolument aucune source ou provenance.
À mesure que de plus en plus de développeurs téléchargent les tests, de nombreux rapports de bugs concernant le code source de MemPalace apparaissent sur la plateforme GitHub.
L’utilisateur cktang88 liste plusieurs défauts graves : impossible de faire fonctionner les instructions de compression et cela provoque le plantage du système, erreurs dans la logique de calcul du nombre de mots des résumés, données statistiques sur le creusement des pièces inexactes, et le serveur charge à chaque appel toutes les données d’interprétation dans la mémoire, entraînant de sérieux problèmes de consommation de ressources.
Parmi les autres problèmes signalés, on retrouve aussi le fait que le système inscrit de force les noms des membres de la famille des développeurs dans le fichier de configuration par défaut, ainsi qu’une limite d’affichage imposée lorsqu’on interroge l’état, avec 10k enregistrements.
Face à ces problèmes, la communauté open source a commencé à les corriger activement. L’utilisateur adv3nt3 a soumis plusieurs* demandes de correction****, comprenant la correction des données statistiques sur le creusement, la suppression des noms de membres de la famille par défaut, et le report du moment d’initialisation du graphe de connaissances.** L’équipe de développement a également reconnu ces erreurs par la suite et est en train de résoudre progressivement les problèmes de code grâce à la collaboration avec la communauté.
Concernant ce projet MemPalace, un internaute de Hacker News, darkhanakh, a tiré une conclusion : MemPalace donne l’impression d’OpenClaw, c’est-à-dire manipuler artificiellement les résultats des tests de référence (benchmark) pour qu’ils paraissent impeccables, puis les emballer comme une sorte de percée majeure afin de les commercialiser.
Il pense que la technologie sous-jacente de MemPalace est peut-être effectivement intéressante, mais dans le contexte d’une méthode de test entachée de ce type de défauts, et en plus en faisant la promotion avec « la meilleure note la plus élevée jamais publiée », ce n’est vraiment pas approprié. « Mais bon, à propos du fait que Milla Jovovich joue à Vibe Coding, je pense quand même que c’est plutôt cool. »
Lectures complémentaires :
AI écrit du code et ça part en vrille ! L’app « Chasseur de Restes » pour les produits à date courte vendus en supérette explose en problèmes de cybersécurité, le GPS de la maison est à nu partout