Titre original : "IA comme moteur, les humains comme volant"
Article: Vitalik, fondateur d'Ethereum
Compilation : Whitewater, Golden Finance
Si vous demandez aux gens quels aspects d’une structure démocratique ils préfèrent, qu’il s’agisse du gouvernement, du lieu de travail ou des DAO basées sur la blockchain, vous entendrez souvent les mêmes arguments : ils évitent la concentration du pouvoir, ils rassurent les utilisateurs sur le fait que personne ne peut changer complètement la direction du système à volonté, et ils peuvent prendre des décisions de meilleure qualité en recueillant les points de vue et la sagesse de nombreuses personnes.
Lorsque vous demandez aux gens ce qu'ils n'aiment pas dans la structure démocratique, ils ont souvent les mêmes plaintes : les électeurs ordinaires ne sont pas assez sophistiqués, car chaque électeur a peu de chances d'influencer le résultat, peu d'électeurs réfléchissent de manière approfondie lors de la prise de décision, et vous obtenez souvent une faible participation (rendant le système vulnérable aux attaques) ou une centralisation de facto, car tout le monde fait confiance par défaut et reproduit les points de vue de certaines personnes influentes.
Cet article vise à explorer un paradigme qui pourrait peut-être utiliser l'IA pour nous bénéficier de la structure démocratique sans effets négatifs. "L'IA est le moteur, l'homme est le volant". Les humains ne fournissent qu'une petite quantité d'informations au système, peut-être quelques centaines, mais toutes très réfléchies et de haute qualité. L'IA considère ces données comme une "fonction objectif" et prend inlassablement de nombreuses décisions pour atteindre ces objectifs. En particulier, cet article explorera une question intéressante : pouvons-nous y parvenir sans placer un seul IA au centre, mais en nous appuyant sur un marché ouvert compétitif où n'importe quelle IA (ou hybride homme-machine) peut participer librement ?
répertoire
Pourquoi ne pas laisser directement une IA prendre les commandes ?
Futarchy
Distiller le jugement humain
Financement approfondi (Deep funding)
Augmenter la confidentialité
Avantages de la conception du moteur + volant
Pourquoi ne pas laisser directement une IA s'en charger ?
Le moyen le plus simple de connecter les préférences humaines à un mécanisme basé sur l’IA est de créer un modèle d’IA et de demander aux humains d’y intégrer leurs préférences d’une manière ou d’une autre. Il existe un moyen simple de le faire : vous pouvez simplement placer un fichier texte contenant une liste d’instructions de personnes dans l’invite du système. Vous pouvez ensuite utiliser l’un des nombreux « frameworks d’IA proxy » pour donner à l’IA un accès à Internet, lui donner les clés des actifs et des profils de médias sociaux de votre organisation, et le tour est joué.
Après plusieurs itérations, cela pourrait être suffisant pour répondre aux besoins de nombreux cas d'utilisation. Je m'attends pleinement à ce que, dans un avenir proche, nous voyions de nombreuses structures impliquant des instructions données par des groupes de lecture AI (voire des discussions de groupe en temps réel) et prenant des mesures.
Cette structure n'est pas idéale comme mécanisme de gouvernance pour les institutions à long terme. Une propriété précieuse que les institutions à long terme devraient avoir est la neutralité de confiance. Dans mon post introduisant ce concept, j'ai énuméré quatre précieuses propriétés de la neutralité de confiance :
Ne pas écrire de personnes spécifiques ou de résultats spécifiques dans le mécanisme
Exécution open source et vérifiable publiquement
Gardez-le simple
Ne le changez pas trop souvent
Le LLM (ou agent AI) satisfait 0/4. Le modèle code inévitablement un grand nombre de personnes spécifiques et de préférences de résultats au cours de son entraînement. Parfois, cela conduit à des orientations surprenantes en matière de préférences en matière d’IA, par exemple, en regardant une étude récente montrant que les grands LLM accordent plus d’importance à la vie au Pakistan qu’à la vie aux États-Unis ( !!). )。 Il peut être open-weighted, mais c’est loin d’être open source ; Nous ne savons pas vraiment quel diable se cache dans les profondeurs du modèle. C’est le contraire de simple : la complexité de Kolmogorov d’un LLM est de dizaines de milliards de bits, à peu près équivalente à toutes les lois américaines (fédérale + étatique + locale) réunies. Et parce que l’IA évolue si rapidement, vous devez la changer tous les trois mois.
Pour cette raison, une autre approche que je préférerais explorer dans de nombreux cas d’utilisation est de faire en sorte qu’une mécanique simple soit les règles du jeu et que l’IA soit le joueur. C’est cette perspicacité qui rend le marché si efficace : les règles sont un système de droits de propriété relativement stupide, les affaires marginales sont tranchées par un système judiciaire qui accumule et ajuste lentement les précédents, et toute l’intelligence provient d’entrepreneurs opérant « à la marge ».
Un "joueur de jeux" individuel peut être un LLM, un groupe de LLM qui interagissent mutuellement et appellent divers services Internet, diverses combinaisons IA + humaines, et de nombreuses autres constructions ; en tant que concepteur de mécanismes, vous n'avez pas besoin de savoir. L'objectif idéal est d'avoir un mécanisme qui peut fonctionner automatiquement - si l'objectif de ce mécanisme est de choisir ce qui doit être financé, alors il devrait ressembler autant que possible aux récompenses de blocs Bitcoin ou Ethereum.
Les avantages de cette méthode sont :
Il évite d'inclure un seul modèle dans le mécanisme ; au contraire, vous obtiendrez un marché ouvert composé de nombreux participants et architectures différents, chacun avec ses propres préjugés. Les modèles ouverts, les modèles fermés, les ensembles d'agents, les hybrides humains + IA, les robots, les singes infinis, etc. sont tous des jeux équitables ; le mécanisme ne discrimine personne.
Le mécanisme est open source. Bien que les joueurs ne le soient pas, le jeu l'est - et c'est un modèle déjà largement compris (par exemple, les partis politiques et les marchés fonctionnent de cette manière).
Ce mécanisme est très simple, donc les concepteurs du mécanisme ont relativement peu de moyens d'encodage de leurs propres préjugés dans la conception.
Le mécanisme ne changera pas, même si l’architecture des participants sous-jacents doit être repensée tous les trois mois d’ici la singularité.
Le but du mécanisme de guidage est de refléter fidèlement les objectifs fondamentaux des participants. Il ne nécessite que peu d'informations, mais celles-ci doivent être de haute qualité.
Vous pouvez considérer que ce mécanisme exploite l'asymétrie entre la proposition et la vérification des réponses. C'est similaire à la difficulté de résoudre un sudoku, mais il est facile de vérifier si la solution est correcte. Vous créez un marché ouvert, où les joueurs agissent en tant que "solveurs", puis maintenez un mécanisme exploitable par l'homme pour effectuer des tâches de vérification des solutions proposées beaucoup plus simples.
Futarchie
Futarchy a été initialement proposé par Robin Hanson et signifie "voter pour les valeurs mais parier sur les croyances". Le mécanisme de vote sélectionne un ensemble d'objectifs (qui peuvent être n'importe quels objectifs, à condition qu'ils soient mesurables) et les combine en une mesure M. Lorsque vous devez prendre une décision (pour simplifier, supposons que c'est OUI/NON), vous créez un marché conditionnel : vous demandez aux gens de parier sur (i) s'ils choisiront OUI ou NON, (ii) si OUI est choisi, alors la valeur de M, sinon zéro, (iii) si NON est choisi, alors la valeur de M, sinon zéro. Avec ces trois variables, vous pouvez déterminer si le marché pense que OUI ou NON est plus favorable à la valeur de M.
"Le prix des actions de la société" (ou pour les crypto-monnaies, le prix des jetons) est l'indicateur le plus couramment cité car il est facile à comprendre et à mesurer, mais ce mécanisme peut prendre en charge plusieurs autres indicateurs : utilisateurs actifs mensuels, médiane du bonheur auto-déclaré de certains groupes, certains indicateurs quantifiables de décentralisation, etc.
Futarchy a été inventé à l'origine avant l'ère de l'intelligence artificielle. Cependant, Futarchy s'inscrit naturellement dans le paradigme décrit précédemment, celui des "solveurs complexes et des validateurs simples", et les traders dans Futarchy peuvent également être des intelligences artificielles (ou une combinaison d'humains et d'intelligences artificielles). Le rôle des "solveurs" (traders de marché de prédiction) est de déterminer comment chaque proposition de plan affectera la valeur des indicateurs futurs. C'est difficile. S'ils ont raison, ils gagnent de l'argent ; s'ils ont tort, ils en perdent. Les validateurs (ceux qui votent sur les indicateurs, ajustent les indicateurs s'ils détectent une "manipulation" ou une obsolescence, et déterminent la valeur réelle des indicateurs à un moment futur) n'ont qu'à répondre à une question plus simple : "Quelle est la valeur actuelle de cet indicateur ?"
Distillation de la faculté de jugement humaine
La distillation de l'humanité est un type de mécanisme dont le fonctionnement est le suivant. Il y a un grand nombre (pensez : 1 million) de questions à répondre. Des exemples naturels incluent :
Combien de reconnaissance chaque personne de cette liste devrait-elle recevoir pour sa contribution à un projet ou une tâche ?
Quels commentaires enfreignent les règles de la plateforme de médias sociaux (ou de la sous-communauté) ?
Quelles adresses Ethereum données représentent des personnes réelles et uniques ?
Quels de ces objets physiques contribuent positivement ou négativement à leur esthétique environnante ?
Vous avez une équipe qui peut répondre à ces questions, mais cela nécessiterait beaucoup d'efforts sur chaque réponse. Vous demandez simplement à l'équipe de répondre à quelques questions (par exemple, sur une liste totale de 1 million d'éléments, l'équipe pourrait répondre à seulement 100 éléments). Vous pouvez même poser des questions indirectes à l'équipe : ne demandez pas "De quel pourcentage Alice devrait-elle recevoir le total des crédits ?", mais demandez "Est-ce qu'Alice ou Bob devrait recevoir plus de crédits, et de combien de fois plus ?". Lors de la conception du mécanisme de jury, vous pouvez réutiliser des mécanismes éprouvés du monde réel tels que les comités de financement, les tribunaux (pour déterminer la valeur des jugements), les évaluations, etc. Bien sûr, les participants au jury peuvent également utiliser de nouveaux outils de recherche en IA pour les aider à trouver des réponses.
Ensuite, vous autorisez n'importe qui à soumettre une liste de réponses numériques à l'ensemble du problème (par exemple, fournir une estimation de la quantité de crédit que chaque participant devrait recevoir dans toute la liste). Les participants sont encouragés à utiliser l'intelligence artificielle pour accomplir cette tâche, mais ils peuvent utiliser n'importe quelle technologie : intelligence artificielle, interactions homme-machine, intelligence artificielle ayant accès aux recherches sur Internet et capable d'employer d'autres humains ou travailleurs de l'intelligence artificielle de manière autonome, singes renforcés par la théorie du contrôle, etc.
Une fois que tous les fournisseurs de liste complète et les jurés ont soumis leurs réponses, la liste complète sera vérifiée en fonction des réponses du jury, et une combinaison de la liste complète la plus compatible avec les réponses du jury sera choisie comme réponse finale.
Les mécanismes de jugement des humains distillés sont différents de ceux de la futarchie, mais ils ont quelques similitudes importantes :
Dans la futarchie, le « solveur » fait des prédictions, et les « données réelles » sur lesquelles ses prédictions sont basées (utilisées pour récompenser ou punir le solveur) sont un oracle qui produit la valeur de l’indicateur, dirigé par un jury.
Dans le jugement des humains en distillation, les "calculateurs" fourniront des réponses à un grand nombre de questions, et les "données réelles" sur lesquelles se basent leurs prédictions sont une petite partie des réponses de haute qualité fournies par le jury.
Exemple de jouet pour distiller les jugements humains utilisés pour l'allocation de crédit, veuillez consulter le code Python ici. Le script vous demande de jouer le rôle d'un jury et contient une liste complète de réponses générées par l'IA (et humaines) préalablement incluses dans le code. Le mécanisme identifie la combinaison linéaire de la liste complète qui correspond le mieux aux réponses du jury. Dans ce cas, la combinaison gagnante est 0.199 * la réponse de Claude + 0.801 * la réponse de Deepseek ; cette combinaison est plus conforme aux réponses du jury que n'importe quel modèle unique. Ces coefficients seront également la récompense attribuée aux soumissionnaires.
Dans cet exemple de "battre Sauron", l'aspect "les humains en tant que volant" est présent à deux endroits. Tout d'abord, chaque problème est évalué avec un jugement humain de haute qualité, bien que cela repose toujours sur un jury en tant qu'évaluateur de performance "technocrate". Deuxièmement, il y a un mécanisme de vote implicite qui décide si "battre Sauron" est un objectif correct (plutôt que, par exemple, essayer de former une alliance avec Sauron, ou de lui donner tous les territoires à l'est d'une rivière clé en guise de concession pacifique). Il existe également d'autres cas d'utilisation de jugements humains plus concentrés, dans lesquels la mission du jury est plus directement liée aux valeurs, par exemple, imaginez une plateforme de médias sociaux (ou une sous-communauté) dispersée, où la tâche du jury est de marquer les publications de forum sélectionnées au hasard comme conformes ou non conformes aux règles de la communauté.
Dans le paradigme de jugement humain distillé, il y a quelques variables ouvertes :
Comment procéder à l'échantillonnage? Le rôle des soumissionnaires de la liste complète est de fournir un grand nombre de réponses; le rôle des jurés est de fournir des réponses de haute qualité. Nous devons sélectionner les jurés de cette manière et choisir les questions pour les jurés, c'est-à-dire que la capacité du modèle à faire correspondre les réponses des jurés montre au mieux leur performance globale. Certains facteurs à prendre en compte sont:
Équilibre entre expertise et partialité : les jurés qualifiés se spécialisent généralement dans leur domaine d'expertise, ce qui garantit une entrée de meilleure qualité si vous leur permettez de choisir les contenus à évaluer. D'un autre côté, un choix excessif peut entraîner des biais (les jurés favorisent les contenus de personnes qu'ils connaissent) ou des lacunes dans l'échantillonnage (certains contenus ne sont pas évalués de manière systématique).
Fang Gu De Ha Te: Il y aura du contenu qui tentera de "jouer" avec les mécanismes d'intelligence artificielle, par exemple, les contributeurs généreront une grande quantité de code qui semble impressionnant mais inutile. Cela signifie que le jury peut le détecter, mais les modèles statiques d'IA ne le détecteront pas à moins de faire un effort pour le faire. Une méthode possible pour détecter ce comportement est d'ajouter un mécanisme de défi, par lequel les individus peuvent signaler de telles tentatives, garantissant ainsi que le jury les examine (encourageant ainsi les développeurs d'IA à s'assurer qu'ils les capturent correctement). Si le jury est d'accord, le lanceur d'alerte sera récompensé, sinon il devra payer une amende.
Quelle fonction de notation utilisez-vous ? L’une des idées utilisées dans le projet pilote actuel de Deep Grant est de demander aux jurés : « A ou B devrait-il obtenir plus de crédit, et de combien ? » La fonction de notation est score(x) = sum()log(x)( - log(x([B] - log)juror_ratio([A] ** 2 pour )A, B, juré_ratio( dans jury_answers) : C’est-à-dire que pour chaque réponse du jury, il demande quelle est la distance entre le taux indiqué dans la liste complète et le taux fourni par le juré et ajoute une pénalité proportionnelle au carré de la distance (dans l’espace logarithmique). Cela montre qu’il y a beaucoup d’espace de conception pour les fonctions de notation, et que le choix de la fonction de notation est lié à votre choix des questions à poser à vos jurés.
Comment récompensez-vous les soumissionnaires de la liste complète? Idéalement, vous souhaitez donner régulièrement des récompenses non nulles à plusieurs participants pour éviter le mécanisme de monopole, mais vous souhaitez également satisfaire les propriétés suivantes : les participants ne peuvent pas augmenter leur récompense en soumettant plusieurs fois des ensembles de réponses identiques (ou légèrement modifiés). Une méthode prometteuse consiste à calculer directement la combinaison linéaire la plus adaptée des listes complètes pour le jury (avec des coefficients non négatifs et une somme de 1), et à utiliser ces mêmes coefficients pour diviser les récompenses. Il peut également y avoir d'autres méthodes.
Dans l’ensemble, l’objectif est de prendre des mécanismes de jugement humain qui sont connus pour fonctionner, qui sont minimisés et qui ont résisté à l’épreuve du temps (p. ex., imaginez comment la structure accusatoire d’un système judiciaire comprend deux parties à un différend qui ont beaucoup d’information mais qui sont partiales, et un juge qui a une petite quantité d’information mais qui peut ne pas être partial), et d’utiliser un marché ouvert de l’IA comme prédicteur raisonnablement haute fidélité et très peu coûteux de ces mécanismes (similaire à la façon dont fonctionne le modèle de la grande prophétie « distillation »).
Financement en profondeur (deep funding)
Le financement en profondeur consiste à appliquer le jugement distillé de l'humanité au problème de pondération sur le graphique de la question "Quel pourcentage du crédit de X appartient à Y ?".
La manière la plus simple est d'illustrer directement avec un exemple :
La sortie de l'exemple de financement en profondeur à deux niveaux : l'origine de la pensée d'Ethereum. Veuillez consulter le code Python ici.
L'objectif ici est d'attribuer des honneurs pour les contributions philosophiques à Ethereum. Prenons un exemple :
Le tour de financement simulé affiché ici attribue 20.5% du mérite au mouvement cyberpunk et 9.2% au progressisme technologique.
À chaque nœud, vous posez la question : dans quelle mesure est-il une contribution originale (et donc mérite-t-elle d’être créditée pour elle-même), et dans quelle mesure est-elle une recombinaison d’autres influences en amont ? Pour le mouvement cypherpunk, c’est 40% nouveau et 60% dépendant.
Ensuite, vous pouvez voir l'impact en amont de ces nœuds : le libéralisme classique et l'anarchisme ont contribué à 17,3 % au mouvement cypherpunk, tandis que la démocratie directe suisse n'a obtenu que 5 %.
Cependant, veuillez noter que le libéralisme classique et l'anarchisme ont également inspiré la philosophie monétaire du Bitcoin, ce qui a influencé la philosophie d'Ethereum de deux manières.
Pour calculer la part de contribution totale du libertarianisme minarchiste et de l'anarchisme à Ethereum, vous devez multiplier les arêtes le long de chaque chemin, puis additionner les chemins : 0,205 * 0,6 * 0,173 + 0,195 * 0,648 * 0,201 ~= 0,0466. Par conséquent, si vous deviez faire un don de 100 dollars pour récompenser tous ceux qui ont contribué à la philosophie d'Ethereum, selon ce tour de financement en profondeur simulé, les partisans du libertarianisme minarchiste et de l'anarchisme recevraient 4,66 dollars.
Cette approche est censée s’appliquer aux domaines où les travaux s’appuient sur des travaux antérieurs et présentent un degré élevé de clarté structurelle. Le milieu universitaire (pensez aux graphiques de citation) et les logiciels open source (pensez aux dépendances et aux forks de bibliothèques) en sont deux exemples naturels.
L’objectif d’un système de financement profond qui fonctionne bien est de créer et de maintenir un graphe global où tout bailleur de fonds intéressé à soutenir un projet particulier sera en mesure d’envoyer des fonds à une adresse représentant ce nœud, et les fonds se propageront automatiquement à leurs dépendances (et récursivité à leurs dépendances, etc.) en fonction du poids de l’arête du graphique.
Vous pouvez imaginer un protocole décentralisé utilisant un dispositif de financement en profondeur intégré pour émettre ses jetons : la gouvernance décentralisée du protocole choisira un jury, qui fera fonctionner le mécanisme de financement en profondeur, car le protocole émettra automatiquement des jetons et les déposera dans un nœud correspondant à lui-même. De cette manière, le protocole récompense tous ses contributeurs directs et indirects de manière programmée, rappelant comment Bitcoin ou Ethereum récompense un type spécifique de contributeur (mineur) par le biais de récompenses de bloc. En influençant le poids des bords, le jury peut continuellement définir les types de contributions qu'il valorise. Ce mécanisme peut servir de solution décentralisée et durable à long terme en remplacement de l'extraction minière, de la vente ou des largages ponctuels.
Augmenter la confidentialité
Généralement, pour faire le bon jugement sur le problème mentionné dans l'exemple ci-dessus, il est nécessaire d'avoir accès à des informations privées : les historiques de discussion internes de l'organisation, les informations soumises secrètement par les membres de la communauté, etc. Un avantage de "utiliser un seul AI", en particulier dans un environnement de petite échelle, est que permettre à un AI d'accéder à des informations est plus facilement accepté que de rendre les informations publiques à tout le monde.
Pour permettre aux humains de distiller un jugement ou de soutenir profondément dans ces cas, nous pouvons essayer d'utiliser la technologie de cryptage pour permettre à l'IA d'accéder en toute sécurité aux informations privées. L'idée est d'utiliser des calculs multipartites )MPC(, un cryptage entièrement homomorphe )FHE), un environnement d'exécution de confiance (TEE) ou un mécanisme similaire pour fournir des informations privées, mais uniquement si leur seule sortie est directement introduite dans le mécanisme de « soumission de liste complète ».
Si vous faites cela, vous devez alors restreindre l'ensemble des mécanismes au modèle AI (plutôt qu'à une combinaison d'humains ou d'AI + humains, car vous ne pouvez pas laisser les humains voir les données), et spécifique aux modèles exécutés sur certaines bases spécifiques (comme MPC, FHE, matériel de confiance). Une direction de recherche majeure consiste à trouver des versions pratiques suffisamment efficaces et significatives à court terme.
Avantages de la conception moteur + volant
Ce design présente de nombreux avantages attendus. Jusqu'à présent, l'avantage le plus important est qu'ils permettent la construction de DAO, permettant aux électeurs humains de contrôler la direction sans être accablés par trop de décisions. Ils parviennent à un compromis où chacun n'a pas à prendre N décisions, mais où leur pouvoir ne se résume pas à une seule décision (comme c'est généralement le cas avec la délégation), mais peut également susciter des préférences riches et difficiles à exprimer directement.
De plus, un tel mécanisme semble avoir une caractéristique de lissage incitatif. Ce que j’entends ici par « lissage incitatif » est une combinaison de deux facteurs :
Diffusion : Aucune action individuelle prise par le mécanisme de vote n'aura un impact disproportionné sur les intérêts d'un seul participant.
Chaos: The connection between voting decisions and how they affect the interests of participants is more complex and difficult to calculate.
Les termes obfuscation et diffusion sont ici tirés de la cryptographie, qui sont des propriétés clés de la sécurité des fonctions cryptographiques et de hachage.
Un bon exemple de lissage des incitations dans le monde réel d’aujourd’hui est l’État de droit : au lieu de prendre régulièrement des mesures sous la forme de « 200 millions de dollars pour l’entreprise d’Alice », « 100 millions de dollars pour l’entreprise de Bob » sur une base régulière, le sommet du gouvernement adopte des règles conçues pour être appliquées uniformément à un grand nombre de participants, qui sont ensuite interprétées par un autre groupe d’acteurs. Lorsque cette approche fonctionne, l’avantage est qu’elle réduit considérablement les avantages des pots-de-vin et d’autres formes de corruption. Lorsqu’elle est violée, ce qui arrive souvent dans la pratique, ces problèmes sont rapidement considérablement amplifiés.
L'IA deviendra clairement une composante importante de l'avenir et inévitablement, une composante importante de la gouvernance future. Cependant, il existe des risques évidents si vous laissez l'IA participer à la gouvernance : l'IA est biaisée, elle peut être intentionnellement sabotée pendant le processus de formation, et le développement technologique de l'IA est si rapide que "laisser l'IA prendre le contrôle" pourrait en réalité signifier "laisser les personnes responsables de la mise à niveau de l'IA prendre le contrôle". La distillation du jugement humain offre une alternative permettant d'utiliser la puissance de l'IA de manière ouverte et libre sur le marché, tout en maintenant le contrôle démocratique de l'humanité.
Un grand merci à Devansh Mehta, Davide Crapis et Julian Zawistowski pour leurs retours et leurs révisions, ainsi qu'à Tina Zhen, Shaw Walters et d'autres pour les discussions.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Vitalik 新文:未来治理新范式「AI 引擎 + 人类方向盘」
Titre original : "IA comme moteur, les humains comme volant"
Article: Vitalik, fondateur d'Ethereum
Compilation : Whitewater, Golden Finance
Si vous demandez aux gens quels aspects d’une structure démocratique ils préfèrent, qu’il s’agisse du gouvernement, du lieu de travail ou des DAO basées sur la blockchain, vous entendrez souvent les mêmes arguments : ils évitent la concentration du pouvoir, ils rassurent les utilisateurs sur le fait que personne ne peut changer complètement la direction du système à volonté, et ils peuvent prendre des décisions de meilleure qualité en recueillant les points de vue et la sagesse de nombreuses personnes.
Lorsque vous demandez aux gens ce qu'ils n'aiment pas dans la structure démocratique, ils ont souvent les mêmes plaintes : les électeurs ordinaires ne sont pas assez sophistiqués, car chaque électeur a peu de chances d'influencer le résultat, peu d'électeurs réfléchissent de manière approfondie lors de la prise de décision, et vous obtenez souvent une faible participation (rendant le système vulnérable aux attaques) ou une centralisation de facto, car tout le monde fait confiance par défaut et reproduit les points de vue de certaines personnes influentes.
Cet article vise à explorer un paradigme qui pourrait peut-être utiliser l'IA pour nous bénéficier de la structure démocratique sans effets négatifs. "L'IA est le moteur, l'homme est le volant". Les humains ne fournissent qu'une petite quantité d'informations au système, peut-être quelques centaines, mais toutes très réfléchies et de haute qualité. L'IA considère ces données comme une "fonction objectif" et prend inlassablement de nombreuses décisions pour atteindre ces objectifs. En particulier, cet article explorera une question intéressante : pouvons-nous y parvenir sans placer un seul IA au centre, mais en nous appuyant sur un marché ouvert compétitif où n'importe quelle IA (ou hybride homme-machine) peut participer librement ?
répertoire
Pourquoi ne pas laisser directement une IA prendre les commandes ?
Futarchy
Distiller le jugement humain
Financement approfondi (Deep funding)
Augmenter la confidentialité
Avantages de la conception du moteur + volant
Pourquoi ne pas laisser directement une IA s'en charger ?
Le moyen le plus simple de connecter les préférences humaines à un mécanisme basé sur l’IA est de créer un modèle d’IA et de demander aux humains d’y intégrer leurs préférences d’une manière ou d’une autre. Il existe un moyen simple de le faire : vous pouvez simplement placer un fichier texte contenant une liste d’instructions de personnes dans l’invite du système. Vous pouvez ensuite utiliser l’un des nombreux « frameworks d’IA proxy » pour donner à l’IA un accès à Internet, lui donner les clés des actifs et des profils de médias sociaux de votre organisation, et le tour est joué.
Après plusieurs itérations, cela pourrait être suffisant pour répondre aux besoins de nombreux cas d'utilisation. Je m'attends pleinement à ce que, dans un avenir proche, nous voyions de nombreuses structures impliquant des instructions données par des groupes de lecture AI (voire des discussions de groupe en temps réel) et prenant des mesures.
Cette structure n'est pas idéale comme mécanisme de gouvernance pour les institutions à long terme. Une propriété précieuse que les institutions à long terme devraient avoir est la neutralité de confiance. Dans mon post introduisant ce concept, j'ai énuméré quatre précieuses propriétés de la neutralité de confiance :
Ne pas écrire de personnes spécifiques ou de résultats spécifiques dans le mécanisme
Exécution open source et vérifiable publiquement
Gardez-le simple
Ne le changez pas trop souvent
Le LLM (ou agent AI) satisfait 0/4. Le modèle code inévitablement un grand nombre de personnes spécifiques et de préférences de résultats au cours de son entraînement. Parfois, cela conduit à des orientations surprenantes en matière de préférences en matière d’IA, par exemple, en regardant une étude récente montrant que les grands LLM accordent plus d’importance à la vie au Pakistan qu’à la vie aux États-Unis ( !!). )。 Il peut être open-weighted, mais c’est loin d’être open source ; Nous ne savons pas vraiment quel diable se cache dans les profondeurs du modèle. C’est le contraire de simple : la complexité de Kolmogorov d’un LLM est de dizaines de milliards de bits, à peu près équivalente à toutes les lois américaines (fédérale + étatique + locale) réunies. Et parce que l’IA évolue si rapidement, vous devez la changer tous les trois mois.
Pour cette raison, une autre approche que je préférerais explorer dans de nombreux cas d’utilisation est de faire en sorte qu’une mécanique simple soit les règles du jeu et que l’IA soit le joueur. C’est cette perspicacité qui rend le marché si efficace : les règles sont un système de droits de propriété relativement stupide, les affaires marginales sont tranchées par un système judiciaire qui accumule et ajuste lentement les précédents, et toute l’intelligence provient d’entrepreneurs opérant « à la marge ».
Un "joueur de jeux" individuel peut être un LLM, un groupe de LLM qui interagissent mutuellement et appellent divers services Internet, diverses combinaisons IA + humaines, et de nombreuses autres constructions ; en tant que concepteur de mécanismes, vous n'avez pas besoin de savoir. L'objectif idéal est d'avoir un mécanisme qui peut fonctionner automatiquement - si l'objectif de ce mécanisme est de choisir ce qui doit être financé, alors il devrait ressembler autant que possible aux récompenses de blocs Bitcoin ou Ethereum.
Les avantages de cette méthode sont :
Il évite d'inclure un seul modèle dans le mécanisme ; au contraire, vous obtiendrez un marché ouvert composé de nombreux participants et architectures différents, chacun avec ses propres préjugés. Les modèles ouverts, les modèles fermés, les ensembles d'agents, les hybrides humains + IA, les robots, les singes infinis, etc. sont tous des jeux équitables ; le mécanisme ne discrimine personne.
Le mécanisme est open source. Bien que les joueurs ne le soient pas, le jeu l'est - et c'est un modèle déjà largement compris (par exemple, les partis politiques et les marchés fonctionnent de cette manière).
Ce mécanisme est très simple, donc les concepteurs du mécanisme ont relativement peu de moyens d'encodage de leurs propres préjugés dans la conception.
Le mécanisme ne changera pas, même si l’architecture des participants sous-jacents doit être repensée tous les trois mois d’ici la singularité.
Le but du mécanisme de guidage est de refléter fidèlement les objectifs fondamentaux des participants. Il ne nécessite que peu d'informations, mais celles-ci doivent être de haute qualité.
Vous pouvez considérer que ce mécanisme exploite l'asymétrie entre la proposition et la vérification des réponses. C'est similaire à la difficulté de résoudre un sudoku, mais il est facile de vérifier si la solution est correcte. Vous créez un marché ouvert, où les joueurs agissent en tant que "solveurs", puis maintenez un mécanisme exploitable par l'homme pour effectuer des tâches de vérification des solutions proposées beaucoup plus simples.
Futarchie
Futarchy a été initialement proposé par Robin Hanson et signifie "voter pour les valeurs mais parier sur les croyances". Le mécanisme de vote sélectionne un ensemble d'objectifs (qui peuvent être n'importe quels objectifs, à condition qu'ils soient mesurables) et les combine en une mesure M. Lorsque vous devez prendre une décision (pour simplifier, supposons que c'est OUI/NON), vous créez un marché conditionnel : vous demandez aux gens de parier sur (i) s'ils choisiront OUI ou NON, (ii) si OUI est choisi, alors la valeur de M, sinon zéro, (iii) si NON est choisi, alors la valeur de M, sinon zéro. Avec ces trois variables, vous pouvez déterminer si le marché pense que OUI ou NON est plus favorable à la valeur de M.
"Le prix des actions de la société" (ou pour les crypto-monnaies, le prix des jetons) est l'indicateur le plus couramment cité car il est facile à comprendre et à mesurer, mais ce mécanisme peut prendre en charge plusieurs autres indicateurs : utilisateurs actifs mensuels, médiane du bonheur auto-déclaré de certains groupes, certains indicateurs quantifiables de décentralisation, etc.
Futarchy a été inventé à l'origine avant l'ère de l'intelligence artificielle. Cependant, Futarchy s'inscrit naturellement dans le paradigme décrit précédemment, celui des "solveurs complexes et des validateurs simples", et les traders dans Futarchy peuvent également être des intelligences artificielles (ou une combinaison d'humains et d'intelligences artificielles). Le rôle des "solveurs" (traders de marché de prédiction) est de déterminer comment chaque proposition de plan affectera la valeur des indicateurs futurs. C'est difficile. S'ils ont raison, ils gagnent de l'argent ; s'ils ont tort, ils en perdent. Les validateurs (ceux qui votent sur les indicateurs, ajustent les indicateurs s'ils détectent une "manipulation" ou une obsolescence, et déterminent la valeur réelle des indicateurs à un moment futur) n'ont qu'à répondre à une question plus simple : "Quelle est la valeur actuelle de cet indicateur ?"
Distillation de la faculté de jugement humaine
La distillation de l'humanité est un type de mécanisme dont le fonctionnement est le suivant. Il y a un grand nombre (pensez : 1 million) de questions à répondre. Des exemples naturels incluent :
Combien de reconnaissance chaque personne de cette liste devrait-elle recevoir pour sa contribution à un projet ou une tâche ?
Quels commentaires enfreignent les règles de la plateforme de médias sociaux (ou de la sous-communauté) ?
Quelles adresses Ethereum données représentent des personnes réelles et uniques ?
Quels de ces objets physiques contribuent positivement ou négativement à leur esthétique environnante ?
Vous avez une équipe qui peut répondre à ces questions, mais cela nécessiterait beaucoup d'efforts sur chaque réponse. Vous demandez simplement à l'équipe de répondre à quelques questions (par exemple, sur une liste totale de 1 million d'éléments, l'équipe pourrait répondre à seulement 100 éléments). Vous pouvez même poser des questions indirectes à l'équipe : ne demandez pas "De quel pourcentage Alice devrait-elle recevoir le total des crédits ?", mais demandez "Est-ce qu'Alice ou Bob devrait recevoir plus de crédits, et de combien de fois plus ?". Lors de la conception du mécanisme de jury, vous pouvez réutiliser des mécanismes éprouvés du monde réel tels que les comités de financement, les tribunaux (pour déterminer la valeur des jugements), les évaluations, etc. Bien sûr, les participants au jury peuvent également utiliser de nouveaux outils de recherche en IA pour les aider à trouver des réponses.
Ensuite, vous autorisez n'importe qui à soumettre une liste de réponses numériques à l'ensemble du problème (par exemple, fournir une estimation de la quantité de crédit que chaque participant devrait recevoir dans toute la liste). Les participants sont encouragés à utiliser l'intelligence artificielle pour accomplir cette tâche, mais ils peuvent utiliser n'importe quelle technologie : intelligence artificielle, interactions homme-machine, intelligence artificielle ayant accès aux recherches sur Internet et capable d'employer d'autres humains ou travailleurs de l'intelligence artificielle de manière autonome, singes renforcés par la théorie du contrôle, etc.
Une fois que tous les fournisseurs de liste complète et les jurés ont soumis leurs réponses, la liste complète sera vérifiée en fonction des réponses du jury, et une combinaison de la liste complète la plus compatible avec les réponses du jury sera choisie comme réponse finale.
Les mécanismes de jugement des humains distillés sont différents de ceux de la futarchie, mais ils ont quelques similitudes importantes :
Dans la futarchie, le « solveur » fait des prédictions, et les « données réelles » sur lesquelles ses prédictions sont basées (utilisées pour récompenser ou punir le solveur) sont un oracle qui produit la valeur de l’indicateur, dirigé par un jury.
Dans le jugement des humains en distillation, les "calculateurs" fourniront des réponses à un grand nombre de questions, et les "données réelles" sur lesquelles se basent leurs prédictions sont une petite partie des réponses de haute qualité fournies par le jury.
Exemple de jouet pour distiller les jugements humains utilisés pour l'allocation de crédit, veuillez consulter le code Python ici. Le script vous demande de jouer le rôle d'un jury et contient une liste complète de réponses générées par l'IA (et humaines) préalablement incluses dans le code. Le mécanisme identifie la combinaison linéaire de la liste complète qui correspond le mieux aux réponses du jury. Dans ce cas, la combinaison gagnante est 0.199 * la réponse de Claude + 0.801 * la réponse de Deepseek ; cette combinaison est plus conforme aux réponses du jury que n'importe quel modèle unique. Ces coefficients seront également la récompense attribuée aux soumissionnaires.
Dans cet exemple de "battre Sauron", l'aspect "les humains en tant que volant" est présent à deux endroits. Tout d'abord, chaque problème est évalué avec un jugement humain de haute qualité, bien que cela repose toujours sur un jury en tant qu'évaluateur de performance "technocrate". Deuxièmement, il y a un mécanisme de vote implicite qui décide si "battre Sauron" est un objectif correct (plutôt que, par exemple, essayer de former une alliance avec Sauron, ou de lui donner tous les territoires à l'est d'une rivière clé en guise de concession pacifique). Il existe également d'autres cas d'utilisation de jugements humains plus concentrés, dans lesquels la mission du jury est plus directement liée aux valeurs, par exemple, imaginez une plateforme de médias sociaux (ou une sous-communauté) dispersée, où la tâche du jury est de marquer les publications de forum sélectionnées au hasard comme conformes ou non conformes aux règles de la communauté.
Dans le paradigme de jugement humain distillé, il y a quelques variables ouvertes :
Comment procéder à l'échantillonnage? Le rôle des soumissionnaires de la liste complète est de fournir un grand nombre de réponses; le rôle des jurés est de fournir des réponses de haute qualité. Nous devons sélectionner les jurés de cette manière et choisir les questions pour les jurés, c'est-à-dire que la capacité du modèle à faire correspondre les réponses des jurés montre au mieux leur performance globale. Certains facteurs à prendre en compte sont:
Équilibre entre expertise et partialité : les jurés qualifiés se spécialisent généralement dans leur domaine d'expertise, ce qui garantit une entrée de meilleure qualité si vous leur permettez de choisir les contenus à évaluer. D'un autre côté, un choix excessif peut entraîner des biais (les jurés favorisent les contenus de personnes qu'ils connaissent) ou des lacunes dans l'échantillonnage (certains contenus ne sont pas évalués de manière systématique).
Fang Gu De Ha Te: Il y aura du contenu qui tentera de "jouer" avec les mécanismes d'intelligence artificielle, par exemple, les contributeurs généreront une grande quantité de code qui semble impressionnant mais inutile. Cela signifie que le jury peut le détecter, mais les modèles statiques d'IA ne le détecteront pas à moins de faire un effort pour le faire. Une méthode possible pour détecter ce comportement est d'ajouter un mécanisme de défi, par lequel les individus peuvent signaler de telles tentatives, garantissant ainsi que le jury les examine (encourageant ainsi les développeurs d'IA à s'assurer qu'ils les capturent correctement). Si le jury est d'accord, le lanceur d'alerte sera récompensé, sinon il devra payer une amende.
Quelle fonction de notation utilisez-vous ? L’une des idées utilisées dans le projet pilote actuel de Deep Grant est de demander aux jurés : « A ou B devrait-il obtenir plus de crédit, et de combien ? » La fonction de notation est score(x) = sum()log(x)( - log(x([B] - log)juror_ratio([A] ** 2 pour )A, B, juré_ratio( dans jury_answers) : C’est-à-dire que pour chaque réponse du jury, il demande quelle est la distance entre le taux indiqué dans la liste complète et le taux fourni par le juré et ajoute une pénalité proportionnelle au carré de la distance (dans l’espace logarithmique). Cela montre qu’il y a beaucoup d’espace de conception pour les fonctions de notation, et que le choix de la fonction de notation est lié à votre choix des questions à poser à vos jurés.
Comment récompensez-vous les soumissionnaires de la liste complète? Idéalement, vous souhaitez donner régulièrement des récompenses non nulles à plusieurs participants pour éviter le mécanisme de monopole, mais vous souhaitez également satisfaire les propriétés suivantes : les participants ne peuvent pas augmenter leur récompense en soumettant plusieurs fois des ensembles de réponses identiques (ou légèrement modifiés). Une méthode prometteuse consiste à calculer directement la combinaison linéaire la plus adaptée des listes complètes pour le jury (avec des coefficients non négatifs et une somme de 1), et à utiliser ces mêmes coefficients pour diviser les récompenses. Il peut également y avoir d'autres méthodes.
Dans l’ensemble, l’objectif est de prendre des mécanismes de jugement humain qui sont connus pour fonctionner, qui sont minimisés et qui ont résisté à l’épreuve du temps (p. ex., imaginez comment la structure accusatoire d’un système judiciaire comprend deux parties à un différend qui ont beaucoup d’information mais qui sont partiales, et un juge qui a une petite quantité d’information mais qui peut ne pas être partial), et d’utiliser un marché ouvert de l’IA comme prédicteur raisonnablement haute fidélité et très peu coûteux de ces mécanismes (similaire à la façon dont fonctionne le modèle de la grande prophétie « distillation »).
Financement en profondeur (deep funding)
Le financement en profondeur consiste à appliquer le jugement distillé de l'humanité au problème de pondération sur le graphique de la question "Quel pourcentage du crédit de X appartient à Y ?".
La manière la plus simple est d'illustrer directement avec un exemple :
La sortie de l'exemple de financement en profondeur à deux niveaux : l'origine de la pensée d'Ethereum. Veuillez consulter le code Python ici.
L'objectif ici est d'attribuer des honneurs pour les contributions philosophiques à Ethereum. Prenons un exemple :
Le tour de financement simulé affiché ici attribue 20.5% du mérite au mouvement cyberpunk et 9.2% au progressisme technologique.
À chaque nœud, vous posez la question : dans quelle mesure est-il une contribution originale (et donc mérite-t-elle d’être créditée pour elle-même), et dans quelle mesure est-elle une recombinaison d’autres influences en amont ? Pour le mouvement cypherpunk, c’est 40% nouveau et 60% dépendant.
Ensuite, vous pouvez voir l'impact en amont de ces nœuds : le libéralisme classique et l'anarchisme ont contribué à 17,3 % au mouvement cypherpunk, tandis que la démocratie directe suisse n'a obtenu que 5 %.
Cependant, veuillez noter que le libéralisme classique et l'anarchisme ont également inspiré la philosophie monétaire du Bitcoin, ce qui a influencé la philosophie d'Ethereum de deux manières.
Pour calculer la part de contribution totale du libertarianisme minarchiste et de l'anarchisme à Ethereum, vous devez multiplier les arêtes le long de chaque chemin, puis additionner les chemins : 0,205 * 0,6 * 0,173 + 0,195 * 0,648 * 0,201 ~= 0,0466. Par conséquent, si vous deviez faire un don de 100 dollars pour récompenser tous ceux qui ont contribué à la philosophie d'Ethereum, selon ce tour de financement en profondeur simulé, les partisans du libertarianisme minarchiste et de l'anarchisme recevraient 4,66 dollars.
Cette approche est censée s’appliquer aux domaines où les travaux s’appuient sur des travaux antérieurs et présentent un degré élevé de clarté structurelle. Le milieu universitaire (pensez aux graphiques de citation) et les logiciels open source (pensez aux dépendances et aux forks de bibliothèques) en sont deux exemples naturels.
L’objectif d’un système de financement profond qui fonctionne bien est de créer et de maintenir un graphe global où tout bailleur de fonds intéressé à soutenir un projet particulier sera en mesure d’envoyer des fonds à une adresse représentant ce nœud, et les fonds se propageront automatiquement à leurs dépendances (et récursivité à leurs dépendances, etc.) en fonction du poids de l’arête du graphique.
Vous pouvez imaginer un protocole décentralisé utilisant un dispositif de financement en profondeur intégré pour émettre ses jetons : la gouvernance décentralisée du protocole choisira un jury, qui fera fonctionner le mécanisme de financement en profondeur, car le protocole émettra automatiquement des jetons et les déposera dans un nœud correspondant à lui-même. De cette manière, le protocole récompense tous ses contributeurs directs et indirects de manière programmée, rappelant comment Bitcoin ou Ethereum récompense un type spécifique de contributeur (mineur) par le biais de récompenses de bloc. En influençant le poids des bords, le jury peut continuellement définir les types de contributions qu'il valorise. Ce mécanisme peut servir de solution décentralisée et durable à long terme en remplacement de l'extraction minière, de la vente ou des largages ponctuels.
Augmenter la confidentialité
Généralement, pour faire le bon jugement sur le problème mentionné dans l'exemple ci-dessus, il est nécessaire d'avoir accès à des informations privées : les historiques de discussion internes de l'organisation, les informations soumises secrètement par les membres de la communauté, etc. Un avantage de "utiliser un seul AI", en particulier dans un environnement de petite échelle, est que permettre à un AI d'accéder à des informations est plus facilement accepté que de rendre les informations publiques à tout le monde.
Pour permettre aux humains de distiller un jugement ou de soutenir profondément dans ces cas, nous pouvons essayer d'utiliser la technologie de cryptage pour permettre à l'IA d'accéder en toute sécurité aux informations privées. L'idée est d'utiliser des calculs multipartites )MPC(, un cryptage entièrement homomorphe )FHE), un environnement d'exécution de confiance (TEE) ou un mécanisme similaire pour fournir des informations privées, mais uniquement si leur seule sortie est directement introduite dans le mécanisme de « soumission de liste complète ».
Si vous faites cela, vous devez alors restreindre l'ensemble des mécanismes au modèle AI (plutôt qu'à une combinaison d'humains ou d'AI + humains, car vous ne pouvez pas laisser les humains voir les données), et spécifique aux modèles exécutés sur certaines bases spécifiques (comme MPC, FHE, matériel de confiance). Une direction de recherche majeure consiste à trouver des versions pratiques suffisamment efficaces et significatives à court terme.
Avantages de la conception moteur + volant
Ce design présente de nombreux avantages attendus. Jusqu'à présent, l'avantage le plus important est qu'ils permettent la construction de DAO, permettant aux électeurs humains de contrôler la direction sans être accablés par trop de décisions. Ils parviennent à un compromis où chacun n'a pas à prendre N décisions, mais où leur pouvoir ne se résume pas à une seule décision (comme c'est généralement le cas avec la délégation), mais peut également susciter des préférences riches et difficiles à exprimer directement.
De plus, un tel mécanisme semble avoir une caractéristique de lissage incitatif. Ce que j’entends ici par « lissage incitatif » est une combinaison de deux facteurs :
Diffusion : Aucune action individuelle prise par le mécanisme de vote n'aura un impact disproportionné sur les intérêts d'un seul participant.
Chaos: The connection between voting decisions and how they affect the interests of participants is more complex and difficult to calculate.
Les termes obfuscation et diffusion sont ici tirés de la cryptographie, qui sont des propriétés clés de la sécurité des fonctions cryptographiques et de hachage.
Un bon exemple de lissage des incitations dans le monde réel d’aujourd’hui est l’État de droit : au lieu de prendre régulièrement des mesures sous la forme de « 200 millions de dollars pour l’entreprise d’Alice », « 100 millions de dollars pour l’entreprise de Bob » sur une base régulière, le sommet du gouvernement adopte des règles conçues pour être appliquées uniformément à un grand nombre de participants, qui sont ensuite interprétées par un autre groupe d’acteurs. Lorsque cette approche fonctionne, l’avantage est qu’elle réduit considérablement les avantages des pots-de-vin et d’autres formes de corruption. Lorsqu’elle est violée, ce qui arrive souvent dans la pratique, ces problèmes sont rapidement considérablement amplifiés.
L'IA deviendra clairement une composante importante de l'avenir et inévitablement, une composante importante de la gouvernance future. Cependant, il existe des risques évidents si vous laissez l'IA participer à la gouvernance : l'IA est biaisée, elle peut être intentionnellement sabotée pendant le processus de formation, et le développement technologique de l'IA est si rapide que "laisser l'IA prendre le contrôle" pourrait en réalité signifier "laisser les personnes responsables de la mise à niveau de l'IA prendre le contrôle". La distillation du jugement humain offre une alternative permettant d'utiliser la puissance de l'IA de manière ouverte et libre sur le marché, tout en maintenant le contrôle démocratique de l'humanité.
Un grand merci à Devansh Mehta, Davide Crapis et Julian Zawistowski pour leurs retours et leurs révisions, ainsi qu'à Tina Zhen, Shaw Walters et d'autres pour les discussions.