Título original: "IA como o motor, humanos como o volante"
Artigo por: Vitalik, fundador da Ethereum
Compilado por Baishui, Jincolor Finance
Quando perguntamos às pessoas sobre o que gostam na estrutura democrática, seja no governo, no local de trabalho ou em DAOs baseadas em blockchain, frequentemente ouvimos os mesmos argumentos: evitam a concentração de poder, oferecem garantias sólidas aos usuários, pois ninguém pode mudar completamente a direção do sistema ao seu bel-prazer, e podem tomar decisões de maior qualidade ao coletar pontos de vista e sabedoria de muitas pessoas.
Se perguntar às pessoas o que não gostam na estrutura democrática, frequentemente apontam as mesmas queixas: os eleitores comuns não são suficientemente experientes, pois cada eleitor tem apenas uma pequena chance de influenciar o resultado, poucos eleitores dedicam um pensamento de alta qualidade às decisões, e frequentemente resulta numa baixa participação (tornando o sistema vulnerável a ataques) ou, na prática, numa centralização, pois todos confiam e replicam automaticamente as opiniões de algumas pessoas influentes.
O objetivo deste artigo é explorar um paradigma que talvez possa usar a IA para beneficiar-nos das estruturas democráticas sem efeitos negativos. 'A IA é o motor, o ser humano é o volante'. Os seres humanos fornecem apenas uma pequena quantidade de informações ao sistema, talvez apenas algumas centenas, mas todas elas são cuidadosamente pensadas e de alta qualidade. A IA considera esses dados como 'função de objetivo' e toma inúmeras decisões incansavelmente, fazendo o máximo para alcançar esses objetivos. Em particular, este artigo explorará uma questão interessante: podemos alcançar isso sem centralizar uma única IA, mas sim confiando em um mercado aberto competitivo em que qualquer IA (ou híbrido homem-máquina) possa participar livremente?
Diretório
Por que não deixar um AI assumir o controle diretamente?
Futarquia
Destilar o juízo humano
financiamento profundo (financiamento profundo)
Aumentar a privacidade
Benefícios do design do motor + volante
Por que não deixar um AI ser responsável diretamente?
Uma das maneiras mais simples de incorporar preferências humanas em mecanismos baseados em IA é criar um modelo de IA e permitir que os humanos insiram suas preferências de alguma forma. Há uma maneira simples de fazer isso: basta colocar um arquivo de texto contendo uma lista de instruções pessoais no prompt do sistema. Em seguida, você pode capacitar a IA com acesso à Internet usando um dos muitos 'frameworks de IA agente', entregando a ela as chaves de seus ativos organizacionais e perfis de mídia social, e pronto, você está feito.
Após várias iterações, isso pode ser suficiente para atender a muitos casos de uso. Eu prevejo totalmente que em um futuro próximo veremos muitas estruturas envolvendo a leitura de grupo AI dando instruções (até mesmo lendo bate-papos em grupo em tempo real) e agindo com base nelas.
Esta estrutura não é ideal como mecanismo de governação enquanto instituição de longo prazo. Um atributo valioso que uma instituição de longo prazo deve possuir é a credibilidade e a neutralidade. No meu post de introdução a este conceito, listei quatro atributos valiosos de neutralidade credível:
Não escreva pessoas específicas ou resultados específicos no mecanismo
execução aberta e verificável publicamente
Manter simples
Não altere com frequência
LLM(ou AI agentes)atende 0/4. O modelo inevitavelmente codifica uma grande quantidade de preferências específicas de pessoas e resultados durante o seu processo de treinamento. Às vezes, isso pode levar a preferências surpreendentes por parte da AI, por exemplo, recentemente foi revelado em um estudo que o LLM principal valoriza mais a vida no Paquistão do que nos Estados Unidos (!!). Pode ser aberto em peso, mas está longe de ser aberto; realmente não sabemos que tipo de demónios estão escondidos no interior do modelo. É o oposto da simplicidade: a complexidade de Kolmogorov do LLM é de centenas de bilhões de bits, aproximadamente equivalente à soma de todas as leis dos Estados Unidos (federais + estaduais + locais). E, devido ao rápido desenvolvimento da AI, você deve mudar a cada três meses.
Por esta razão, concordo que outra abordagem a explorar em muitos casos de uso é fazer com que um mecanismo simples se torne a regra do jogo, com a IA a ser o jogador. É precisamente esta visão que torna o mercado tão eficiente: as regras são um sistema de propriedade relativamente estúpido, com casos de margem a serem decididos pelo sistema judicial, que acumula e ajusta lentamente os precedentes, com toda a inteligência a vir dos empresários a operar "na margem".
Um único "gamer" pode ser LLMs, grupos de LLMs que interagem entre si e chamam vários serviços de Internet, várias combinações de IA + humanos e muitas outras construções; Como designer de mecanismos, você não precisa saber. O objetivo ideal é ter um mecanismo que possa ser executado automaticamente – se o objetivo desse mecanismo é escolher o que financiar, então deve ser tanto quanto uma recompensa de bloco Bitcoin ou Ethereum.
A vantagem deste método é:
Evita a inclusão de qualquer modelo único no mecanismo; em vez disso, terá um mercado aberto composto por muitos participantes e arquiteturas diferentes, cada um com seus próprios preconceitos. Modelos abertos, modelos fechados, grupos de agentes, seres humanos + IA, robôs, macacos infinitos, etc., são todos jogadores justos; o mecanismo não discrimina ninguém.
Este mecanismo é de código aberto. Embora os jogadores não sejam, o jogo é de código aberto - e este é um modelo que já é bastante compreendido (por exemplo, partidos políticos e mercados operam desta forma)
O mecanismo é bastante simples, portanto, os designers do mecanismo têm relativamente poucas maneiras de codificar seus preconceitos no design.
O mecanismo não mudará, mesmo que a arquitetura dos participantes do núcleo precise ser redesenhada a cada três meses a partir de agora até o ponto de singularidade.
O objetivo do mecanismo de orientação é refletir fielmente os objetivos fundamentais dos participantes. Ele só precisa fornecer uma pequena quantidade de informações, mas deve ser de alta qualidade.
Pode-se considerar que este mecanismo aproveita a assimetria entre a proposta e a verificação da resposta. É semelhante a resolver um Sudoku, que é difícil, mas é fácil verificar se a solução está correta. Você (i) cria um mercado aberto onde os jogadores desempenham o papel de 'solucionadores' e, em seguida, (ii) mantêm um mecanismo operado por humanos que executa tarefas muito mais simples de verificar as soluções propostas.
Futarchy
Futarchy foi originalmente proposto por Robin Hanson e significa "votar valores, mas apostar crenças". O mecanismo de votação seleciona um conjunto de metas (que podem ser quaisquer metas, desde que sejam mensuráveis) e as combina em uma medida M. Quando você precisa tomar uma decisão (para simplificar, vamos assumir que é SIM/NÃO), você cria um mercado condicional: você pede às pessoas que apostem se escolherão SIM ou NÃO, se escolherem SIM, o valor de M, caso contrário, zero, se escolherem NÃO, o valor de M, caso contrário, zero. Com essas três variáveis, você pode determinar se o mercado considera mais favorável para M o SIM ou o NÃO.
O 'preço das ações da empresa' (ou, no caso das criptomoedas, o preço do token) é o indicador mais comumente citado, pois é fácil de entender e medir, mas esse mecanismo pode suportar vários indicadores: usuários ativos mensais, mediana da autoavaliação da felicidade de certos grupos, alguns indicadores de descentralização quantificáveis, etc.
Futarchy foi originalmente inventado antes da era da inteligência artificial. No entanto, Futarchy se encaixa naturalmente no paradigma de 'solucionadores complexos, verificadores simples' descrito na seção anterior, e os traders em Futarchy também podem ser inteligência artificial (ou uma combinação de humanos e inteligência artificial). O papel do 'solucionador' (traders de mercados de previsão) é determinar como cada proposta de plano afetará o valor dos futuros indicadores. Isso é difícil. Se o solucionador estiver correto, eles ganharão dinheiro, se estiverem errados, perderão dinheiro. Os verificadores (pessoas que votam nos indicadores, ajustando-os se perceberem que estão sendo 'manipulados' ou se tornarem obsoletos, e determinando seu valor real em algum momento futuro) só precisam responder a uma pergunta mais simples: 'Qual é o valor atual desse indicador?'
Destilhar o poder de julgamento humano
O julgamento humano da destilação é um tipo de mecanismo, cujo princípio de funcionamento é o seguinte. Há uma grande quantidade (pense nisto: 100 万个) de perguntas a serem respondidas. Exemplos naturais incluem:
Quanto crédito cada pessoa nesta lista deve receber pela sua contribuição para um projeto ou tarefa?
Quais desses comentários violam as regras da plataforma de mídia social (ou subcomunidade)?
Quais desses endereços Ethereum dados representam pessoas reais e únicas?
Quais destes objetos físicos contribuem positiva ou negativamente para a estética do seu ambiente?
Você tem uma equipe que pode responder a essas perguntas, mas o custo é gastar uma quantidade significativa de energia em cada resposta. Você só pede à equipe para responder a algumas perguntas (por exemplo, se houver 1 milhão de itens na lista, a equipe pode responder apenas 100). Você até pode fazer perguntas indiretas à equipe: em vez de perguntar 'Quantos por cento do crédito total deve ser atribuído a Alice?', pergunte 'Se Alice ou Bob devem receber mais crédito e em quantas vezes mais?'. Ao projetar o mecanismo do júri, você pode reutilizar mecanismos comprovados do mundo real, como comitês de apropriações, tribunais (para determinar o valor de um julgamento), avaliações, e é claro, os próprios membros do júri podem usar ferramentas de pesquisa de IA inovadoras para ajudá-los a encontrar respostas.
Em seguida, permite-se que qualquer pessoa envie uma lista de respostas numéricas para toda a coleção de problemas (por exemplo, fornecendo uma estimativa do crédito que cada participante deve receber para toda a lista). Os participantes são encorajados a usar a inteligência artificial para realizar essa tarefa, mas podem usar qualquer tecnologia: inteligência artificial, combinação de humanos e máquinas, inteligência artificial que tem acesso à pesquisa na internet e pode contratar outros seres humanos ou trabalhadores de inteligência artificial de forma autônoma, macacos aprimorados por teoria de controle, etc.
Uma vez que todos os provedores de listas completas e jurados tenham apresentado as respostas, a lista completa será verificada de acordo com as respostas do júri e uma combinação da lista completa mais compatível com as respostas do júri será escolhida como resposta final.
Os mecanismos de julgamento dos seres humanos destilados são diferentes do futarquia, mas existem algumas semelhanças importantes:
No futarquia, os 'resolutores' fazem previsões e os 'dados reais' em que se baseiam (usados para recompensar ou punir os resolutores) são oráculos que produzem valores indicativos, operados por júris.
No julgamento humano destilado, o "solucionador" fornece respostas a um grande número de perguntas, e os "dados reais" nos quais suas previsões se baseiam são as respostas de alta qualidade para uma fração dessas perguntas fornecidas pelo júri.
Um exemplo de um brinquedo para destilar julgamento humano para distribuição de crédito, veja o código Python aqui. O script pede que você sirva como um júri e inclui uma lista completa de gerados por IA (e gerados por humanos) alguns pré-incluídos no código. O mecanismo identifica uma combinação linear mais adequada à lista completa de respostas do júri. Neste caso, a combinação vencedora é 0,199 * Resposta de Claude + 0,801 * Resposta de Deepseek; Esta combinação está mais de acordo com a resposta do júri do que qualquer modelo isolado. Estes coeficientes serão também uma recompensa para os responsáveis.
No exemplo de "derrotar Sauron", o aspecto de "os seres humanos como volante" é evidente em dois aspectos. Em primeiro lugar, cada questão envolveu julgamentos humanos de alta qualidade, embora ainda dependesse do júri como avaliador de desempenho técnico. Em segundo lugar, há um mecanismo de votação implícito que decide se "derrotar Sauron" é o objetivo correto (em vez de, por exemplo, tentar aliar-se a Sauron ou ceder todos os territórios a leste de um rio crucial para ele como concessão de paz). Existem outros casos de uso de julgamento humano destilado, nos quais a tarefa do júri está mais diretamente ligada aos valores: por exemplo, imagine uma plataforma de mídia social (ou subcomunidade) descentralizada, onde o trabalho do júri é marcar postagens aleatórias no fórum como cumprindo ou não cumprindo as regras da comunidade.
No paradigma de julgamento humano de destilação, existem algumas variáveis abertas:
Como é realizada a amostragem? O papel do autor da lista completa consiste em fornecer um grande número de respostas; O papel de um jurado é fornecer respostas de alta qualidade. Precisamos selecionar os jurados de tal forma que a capacidade do modelo de corresponder às respostas dos jurados seja a maior indicação de seu desempenho geral. Algumas considerações incluem:
O equilíbrio entre o conhecimento especializado e os preconceitos: Os jurados proficientes geralmente se especializam em suas áreas de especialização, de modo que ao permitir que escolham o conteúdo a ser avaliado, você obterá entradas de maior qualidade. Por outro lado, a escolha excessiva pode levar a preconceitos (os jurados favorecem o conteúdo relacionado a eles) ou a falhas na amostragem (certo conteúdo não é avaliado sistematicamente).
Fang Gudehart: Haverá conteúdo tentando 'brincar' com mecanismos de inteligência artificial, por exemplo, contribuidores gerando uma grande quantidade de códigos impressionantes, mas inúteis. Isso significa que os juízes podem detectar isso, mas modelos estáticos de inteligência artificial não o farão a menos que tentem ativamente. Uma possível maneira de capturar esse comportamento é adicionar um mecanismo de desafio, através do qual indivíduos podem marcar tais tentativas, garantindo que os juízes as avaliem (incentivando assim os desenvolvedores de IA a capturá-las corretamente). Se os juízes concordarem, o denunciante será recompensado; se não, terá que pagar uma multa.
Qual função de pontuação você está usando? Uma ideia usada no piloto de financiamento atual é perguntar aos jurados 'A ou B deve receber mais crédito e quanto?' A função de pontuação é score(x) = sum()log(x)( - log)x(( - log(juror_ratio[B]) ** 2 para (A, B, juror_ratio[A] em jury_answers): ou seja, para cada resposta do júri, ele perguntará quão distante a taxa fornecida pelos jurados está da lista completa e adicionará uma penalidade proporcional à distância ao quadrado (no espaço logarítmico). Isso serve para mostrar que o espaço de design da função de pontuação é rico e que a escolha da função de pontuação está relacionada à escolha das perguntas que você faz aos jurados.
Como recompensa os submissões de lista completa? Idealmente, gostaria de recompensar regularmente vários participantes com recompensas não nulas para evitar mecanismos de monopólio, mas também quero satisfazer as seguintes propriedades: os participantes não podem aumentar as recompensas enviando várias vezes conjuntos de respostas idênticas (ou ligeiramente modificadas). Um método promissor é calcular diretamente a combinação linear da lista completa de respostas mais adequada ao júri (com coeficientes não negativos e soma igual a 1) e usar esses mesmos coeficientes para dividir as recompensas. Existem também outras possíveis abordagens.
Em termos gerais, o objetivo é adotar mecanismos de julgamento humano conhecidos por serem eficazes, minimizando preconceitos e resistindo ao teste do tempo (por exemplo, imagine como o sistema judicial adversarial inclui duas partes em disputa, ambas com muitas informações mas preconceituosas, enquanto o juiz tem pouca informação, mas possivelmente sem preconceitos), e usar o mercado aberto de inteligência artificial como um indicador de previsão razoável, de alta fidelidade e baixo custo para esses mecanismos (semelhante ao funcionamento do modelo de destilação de grandes previsões).
financiamento profundo
A financiamento de profundidade é aplicar o julgamento destilado da humanidade para resolver o problema do peso na questão de "qual a percentagem do crédito de X pertence a Y?" no gráfico.
A maneira mais simples é explicar diretamente com um exemplo:
Resultado do exemplo de financiamento profundo de dois níveis: As origens das ideias do Ethereum. Confira o código Python aqui.
O objetivo aqui é atribuir o crédito filosófico das contribuições ao Ethereum. Vamos ver um exemplo:
Aqui, 20.5% do mérito da simulação de rodadas de financiamento profundo é atribuído ao movimento cypherpunk, e 9.2% do mérito é atribuído ao progresso tecnológico.
Em cada nó, você se depara com uma pergunta: em que medida é uma contribuição original (e, portanto, merece crédito por si só), em que medida é uma recombinação de influências upstream? Para o movimento ciberpunk, 40% é novo, 60% é dependente.
Em seguida, você pode ver as consequências upstream desses nodos: o liberalismo e o anarquismo contribuíram com 17,3% para o movimento cypherpunk, mas a democracia direta suíça só obteve 5%.
No entanto, é importante notar que o liberalismo de pequeno governo e o anarquismo também influenciaram a filosofia monetária do Bitcoin, o que afetou a filosofia do Ethereum de duas maneiras.
Para calcular a participação total do liberalismo de pequeno governo e do anarquismo no Ethereum, você precisa multiplicar as bordas em cada caminho e depois adicionar os caminhos: 0,205 * 0,6 * 0,173 + 0,195 * 0,648 * 0,201 ~= 0,0466. Portanto, se você tiver que doar 100 dólares para recompensar todos os que contribuíram para a filosofia do Ethereum, de acordo com esta simulação de financiamento aprofundado, os liberais de pequeno governo e os anarquistas receberão 4,66 dólares.
Este método destina-se a ser aplicável em áreas onde se trabalha com base no trabalho anterior e a estrutura é altamente clara. A academia (pense: citações de figuras) e o software de código aberto (pense: dependências de bibliotecas e bifurcações) são dois exemplos naturais.
O objetivo de um sistema de financiamento profundo bem-sucedido é criar e manter um gráfico global, onde qualquer pessoa interessada em apoiar um projeto específico possa enviar fundos para o endereço que representa esse nó, e os fundos serão automaticamente propagados com base nos pesos das bordas do gráfico para suas dependências (e recursivamente para suas dependências, e assim por diante).
Você pode imaginar um protocolo descentralizado que usa um mecanismo de financiamento embutido para emitir seus tokens: a governança descentralizada dentro do protocolo escolherá um júri, que executará o mecanismo de financiamento, pois o protocolo automaticamente emite os tokens e os deposita em um nó correspondente a si mesmo. Dessa forma, o protocolo recompensa programaticamente todos os seus contribuidores diretos e indiretos, lembrando como o Bitcoin ou Ethereum recompensam um tipo específico de contribuinte (minerador). Ao influenciar o peso das margens, o júri pode continuamente definir os tipos de contribuições que valoriza. Esse mecanismo pode servir como uma alternativa descentralizada e sustentável a longo prazo para a mineração, venda ou airdrop único.
Maior privacidade
Normalmente, para fazer uma avaliação correta dos problemas mencionados no exemplo acima, é necessário ter acesso a informações privadas, como registros de bate-papo internos da organização, informações submetidas secretamente pelos membros da comunidade, etc. Uma vantagem de 'usar apenas um AI', especialmente em ambientes de pequena escala, é que é mais fácil para um único AI acessar informações do que tornar as informações públicas para todos.
Para que o julgamento humano ou o financiamento profundo da destilação funcionem nesses casos, podemos tentar usar a criptografia para dar acesso seguro à IA a informações privadas. A ideia é usar (MPC) de computação de várias partes, )FHE( de criptografia totalmente homomórficas, um ambiente de execução confiável )TEE) ou mecanismos semelhantes para fornecer informações privadas, mas apenas se a sua única saída for um "compromisso de lista completa" que vai diretamente para o mecânico.
Se o fizeres, terás de restringir a coleção de mecanismos para modelos de IA (e não para combinações de seres humanos ou IA + seres humanos, uma vez que não podes permitir que os seres humanos vejam os dados) e específicos para a execução em certas bases específicas (como MPC, FHE, hardware confiável). Uma das principais áreas de investigação é descobrir uma versão prática suficientemente eficaz e significativa a curto prazo.
Vantagens do design do motor + volante
Este design tem muitos benefícios antecipados. Até agora, o benefício mais importante é que eles permitem a construção de DAOs, permitindo que os eleitores humanos controlem a direção sem serem sobrecarregados por demasiadas decisões. Eles atingem um equilíbrio, onde ninguém precisa tomar N decisões, mas o poder que possuem não se limita a tomar uma decisão (como normalmente funciona a delegação) e pode desencadear preferências ricas e difíceis de expressar diretamente.
Além disso, esse mecanismo parece ter uma característica de incentivo suave. O que quero dizer com "incentivo suave" aqui é a combinação de dois fatores:
Difusão: Qualquer medida isolada tomada pelo mecanismo de votação não terá um impacto excessivo nos interesses de qualquer participante.
Confusão: a ligação entre as decisões de voto e como elas afetam os interesses dos participantes é ainda mais complexa e difícil de calcular.
Os termos ofuscação e difusão aqui são retirados da criptografia, que são propriedades-chave da segurança criptográfica e da função hash.
Um excelente exemplo de incentivo suave no mundo real de hoje é o Estado de Direito: os altos escalões do governo não tomam regularmente ações como 'dar à empresa de Alice 200 milhões de dólares', 'multar a empresa de Bob em 100 milhões de dólares', mas sim através de regras destinadas a serem aplicadas uniformemente a um grande número de participantes, e então interpretadas por outro tipo de participantes. Quando esse método funciona, a vantagem é que ele reduz significativamente os benefícios da suborno e outras formas de corrupção. Quando é violado (o que frequentemente acontece na prática), esses problemas logo se tornam muito amplificados.
A IA certamente se tornará uma parte importante do futuro, o que inevitavelmente se tornará uma parte importante da governança futura. No entanto, há riscos evidentes se a IA for envolvida na governança: a IA é tendenciosa, pode ser intencionalmente corrompida durante o processo de treinamento e o desenvolvimento da IA é tão rápido que 'dar o poder à IA' pode realmente significar 'dar o poder às pessoas responsáveis por atualizar a IA'. A destilação do julgamento humano oferece uma alternativa para avançar, permitindo-nos aproveitar o poder da IA de forma aberta e de mercado livre, mantendo ao mesmo tempo o controle democrático humano.
Um agradecimento especial a Devansh Mehta, Davide Crapis, e Julian Zawistowski por seu feedback e revisão, bem como Tina Zhen, Shaw Walters e outros por suas discussões.
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Novo artigo de Vitalik: Um novo paradigma para a governança futura "AI Engine + Human Steering Wheel"
Título original: "IA como o motor, humanos como o volante"
Artigo por: Vitalik, fundador da Ethereum
Compilado por Baishui, Jincolor Finance
Quando perguntamos às pessoas sobre o que gostam na estrutura democrática, seja no governo, no local de trabalho ou em DAOs baseadas em blockchain, frequentemente ouvimos os mesmos argumentos: evitam a concentração de poder, oferecem garantias sólidas aos usuários, pois ninguém pode mudar completamente a direção do sistema ao seu bel-prazer, e podem tomar decisões de maior qualidade ao coletar pontos de vista e sabedoria de muitas pessoas.
Se perguntar às pessoas o que não gostam na estrutura democrática, frequentemente apontam as mesmas queixas: os eleitores comuns não são suficientemente experientes, pois cada eleitor tem apenas uma pequena chance de influenciar o resultado, poucos eleitores dedicam um pensamento de alta qualidade às decisões, e frequentemente resulta numa baixa participação (tornando o sistema vulnerável a ataques) ou, na prática, numa centralização, pois todos confiam e replicam automaticamente as opiniões de algumas pessoas influentes.
O objetivo deste artigo é explorar um paradigma que talvez possa usar a IA para beneficiar-nos das estruturas democráticas sem efeitos negativos. 'A IA é o motor, o ser humano é o volante'. Os seres humanos fornecem apenas uma pequena quantidade de informações ao sistema, talvez apenas algumas centenas, mas todas elas são cuidadosamente pensadas e de alta qualidade. A IA considera esses dados como 'função de objetivo' e toma inúmeras decisões incansavelmente, fazendo o máximo para alcançar esses objetivos. Em particular, este artigo explorará uma questão interessante: podemos alcançar isso sem centralizar uma única IA, mas sim confiando em um mercado aberto competitivo em que qualquer IA (ou híbrido homem-máquina) possa participar livremente?
Diretório
Por que não deixar um AI assumir o controle diretamente?
Futarquia
Destilar o juízo humano
financiamento profundo (financiamento profundo)
Aumentar a privacidade
Benefícios do design do motor + volante
Por que não deixar um AI ser responsável diretamente?
Uma das maneiras mais simples de incorporar preferências humanas em mecanismos baseados em IA é criar um modelo de IA e permitir que os humanos insiram suas preferências de alguma forma. Há uma maneira simples de fazer isso: basta colocar um arquivo de texto contendo uma lista de instruções pessoais no prompt do sistema. Em seguida, você pode capacitar a IA com acesso à Internet usando um dos muitos 'frameworks de IA agente', entregando a ela as chaves de seus ativos organizacionais e perfis de mídia social, e pronto, você está feito.
Após várias iterações, isso pode ser suficiente para atender a muitos casos de uso. Eu prevejo totalmente que em um futuro próximo veremos muitas estruturas envolvendo a leitura de grupo AI dando instruções (até mesmo lendo bate-papos em grupo em tempo real) e agindo com base nelas.
Esta estrutura não é ideal como mecanismo de governação enquanto instituição de longo prazo. Um atributo valioso que uma instituição de longo prazo deve possuir é a credibilidade e a neutralidade. No meu post de introdução a este conceito, listei quatro atributos valiosos de neutralidade credível:
Não escreva pessoas específicas ou resultados específicos no mecanismo
execução aberta e verificável publicamente
Manter simples
Não altere com frequência
LLM(ou AI agentes)atende 0/4. O modelo inevitavelmente codifica uma grande quantidade de preferências específicas de pessoas e resultados durante o seu processo de treinamento. Às vezes, isso pode levar a preferências surpreendentes por parte da AI, por exemplo, recentemente foi revelado em um estudo que o LLM principal valoriza mais a vida no Paquistão do que nos Estados Unidos (!!). Pode ser aberto em peso, mas está longe de ser aberto; realmente não sabemos que tipo de demónios estão escondidos no interior do modelo. É o oposto da simplicidade: a complexidade de Kolmogorov do LLM é de centenas de bilhões de bits, aproximadamente equivalente à soma de todas as leis dos Estados Unidos (federais + estaduais + locais). E, devido ao rápido desenvolvimento da AI, você deve mudar a cada três meses.
Por esta razão, concordo que outra abordagem a explorar em muitos casos de uso é fazer com que um mecanismo simples se torne a regra do jogo, com a IA a ser o jogador. É precisamente esta visão que torna o mercado tão eficiente: as regras são um sistema de propriedade relativamente estúpido, com casos de margem a serem decididos pelo sistema judicial, que acumula e ajusta lentamente os precedentes, com toda a inteligência a vir dos empresários a operar "na margem".
Um único "gamer" pode ser LLMs, grupos de LLMs que interagem entre si e chamam vários serviços de Internet, várias combinações de IA + humanos e muitas outras construções; Como designer de mecanismos, você não precisa saber. O objetivo ideal é ter um mecanismo que possa ser executado automaticamente – se o objetivo desse mecanismo é escolher o que financiar, então deve ser tanto quanto uma recompensa de bloco Bitcoin ou Ethereum.
A vantagem deste método é:
Evita a inclusão de qualquer modelo único no mecanismo; em vez disso, terá um mercado aberto composto por muitos participantes e arquiteturas diferentes, cada um com seus próprios preconceitos. Modelos abertos, modelos fechados, grupos de agentes, seres humanos + IA, robôs, macacos infinitos, etc., são todos jogadores justos; o mecanismo não discrimina ninguém.
Este mecanismo é de código aberto. Embora os jogadores não sejam, o jogo é de código aberto - e este é um modelo que já é bastante compreendido (por exemplo, partidos políticos e mercados operam desta forma)
O mecanismo é bastante simples, portanto, os designers do mecanismo têm relativamente poucas maneiras de codificar seus preconceitos no design.
O mecanismo não mudará, mesmo que a arquitetura dos participantes do núcleo precise ser redesenhada a cada três meses a partir de agora até o ponto de singularidade.
O objetivo do mecanismo de orientação é refletir fielmente os objetivos fundamentais dos participantes. Ele só precisa fornecer uma pequena quantidade de informações, mas deve ser de alta qualidade.
Pode-se considerar que este mecanismo aproveita a assimetria entre a proposta e a verificação da resposta. É semelhante a resolver um Sudoku, que é difícil, mas é fácil verificar se a solução está correta. Você (i) cria um mercado aberto onde os jogadores desempenham o papel de 'solucionadores' e, em seguida, (ii) mantêm um mecanismo operado por humanos que executa tarefas muito mais simples de verificar as soluções propostas.
Futarchy
Futarchy foi originalmente proposto por Robin Hanson e significa "votar valores, mas apostar crenças". O mecanismo de votação seleciona um conjunto de metas (que podem ser quaisquer metas, desde que sejam mensuráveis) e as combina em uma medida M. Quando você precisa tomar uma decisão (para simplificar, vamos assumir que é SIM/NÃO), você cria um mercado condicional: você pede às pessoas que apostem se escolherão SIM ou NÃO, se escolherem SIM, o valor de M, caso contrário, zero, se escolherem NÃO, o valor de M, caso contrário, zero. Com essas três variáveis, você pode determinar se o mercado considera mais favorável para M o SIM ou o NÃO.
O 'preço das ações da empresa' (ou, no caso das criptomoedas, o preço do token) é o indicador mais comumente citado, pois é fácil de entender e medir, mas esse mecanismo pode suportar vários indicadores: usuários ativos mensais, mediana da autoavaliação da felicidade de certos grupos, alguns indicadores de descentralização quantificáveis, etc.
Futarchy foi originalmente inventado antes da era da inteligência artificial. No entanto, Futarchy se encaixa naturalmente no paradigma de 'solucionadores complexos, verificadores simples' descrito na seção anterior, e os traders em Futarchy também podem ser inteligência artificial (ou uma combinação de humanos e inteligência artificial). O papel do 'solucionador' (traders de mercados de previsão) é determinar como cada proposta de plano afetará o valor dos futuros indicadores. Isso é difícil. Se o solucionador estiver correto, eles ganharão dinheiro, se estiverem errados, perderão dinheiro. Os verificadores (pessoas que votam nos indicadores, ajustando-os se perceberem que estão sendo 'manipulados' ou se tornarem obsoletos, e determinando seu valor real em algum momento futuro) só precisam responder a uma pergunta mais simples: 'Qual é o valor atual desse indicador?'
Destilhar o poder de julgamento humano
O julgamento humano da destilação é um tipo de mecanismo, cujo princípio de funcionamento é o seguinte. Há uma grande quantidade (pense nisto: 100 万个) de perguntas a serem respondidas. Exemplos naturais incluem:
Quanto crédito cada pessoa nesta lista deve receber pela sua contribuição para um projeto ou tarefa?
Quais desses comentários violam as regras da plataforma de mídia social (ou subcomunidade)?
Quais desses endereços Ethereum dados representam pessoas reais e únicas?
Quais destes objetos físicos contribuem positiva ou negativamente para a estética do seu ambiente?
Você tem uma equipe que pode responder a essas perguntas, mas o custo é gastar uma quantidade significativa de energia em cada resposta. Você só pede à equipe para responder a algumas perguntas (por exemplo, se houver 1 milhão de itens na lista, a equipe pode responder apenas 100). Você até pode fazer perguntas indiretas à equipe: em vez de perguntar 'Quantos por cento do crédito total deve ser atribuído a Alice?', pergunte 'Se Alice ou Bob devem receber mais crédito e em quantas vezes mais?'. Ao projetar o mecanismo do júri, você pode reutilizar mecanismos comprovados do mundo real, como comitês de apropriações, tribunais (para determinar o valor de um julgamento), avaliações, e é claro, os próprios membros do júri podem usar ferramentas de pesquisa de IA inovadoras para ajudá-los a encontrar respostas.
Em seguida, permite-se que qualquer pessoa envie uma lista de respostas numéricas para toda a coleção de problemas (por exemplo, fornecendo uma estimativa do crédito que cada participante deve receber para toda a lista). Os participantes são encorajados a usar a inteligência artificial para realizar essa tarefa, mas podem usar qualquer tecnologia: inteligência artificial, combinação de humanos e máquinas, inteligência artificial que tem acesso à pesquisa na internet e pode contratar outros seres humanos ou trabalhadores de inteligência artificial de forma autônoma, macacos aprimorados por teoria de controle, etc.
Uma vez que todos os provedores de listas completas e jurados tenham apresentado as respostas, a lista completa será verificada de acordo com as respostas do júri e uma combinação da lista completa mais compatível com as respostas do júri será escolhida como resposta final.
Os mecanismos de julgamento dos seres humanos destilados são diferentes do futarquia, mas existem algumas semelhanças importantes:
No futarquia, os 'resolutores' fazem previsões e os 'dados reais' em que se baseiam (usados para recompensar ou punir os resolutores) são oráculos que produzem valores indicativos, operados por júris.
No julgamento humano destilado, o "solucionador" fornece respostas a um grande número de perguntas, e os "dados reais" nos quais suas previsões se baseiam são as respostas de alta qualidade para uma fração dessas perguntas fornecidas pelo júri.
Um exemplo de um brinquedo para destilar julgamento humano para distribuição de crédito, veja o código Python aqui. O script pede que você sirva como um júri e inclui uma lista completa de gerados por IA (e gerados por humanos) alguns pré-incluídos no código. O mecanismo identifica uma combinação linear mais adequada à lista completa de respostas do júri. Neste caso, a combinação vencedora é 0,199 * Resposta de Claude + 0,801 * Resposta de Deepseek; Esta combinação está mais de acordo com a resposta do júri do que qualquer modelo isolado. Estes coeficientes serão também uma recompensa para os responsáveis.
No exemplo de "derrotar Sauron", o aspecto de "os seres humanos como volante" é evidente em dois aspectos. Em primeiro lugar, cada questão envolveu julgamentos humanos de alta qualidade, embora ainda dependesse do júri como avaliador de desempenho técnico. Em segundo lugar, há um mecanismo de votação implícito que decide se "derrotar Sauron" é o objetivo correto (em vez de, por exemplo, tentar aliar-se a Sauron ou ceder todos os territórios a leste de um rio crucial para ele como concessão de paz). Existem outros casos de uso de julgamento humano destilado, nos quais a tarefa do júri está mais diretamente ligada aos valores: por exemplo, imagine uma plataforma de mídia social (ou subcomunidade) descentralizada, onde o trabalho do júri é marcar postagens aleatórias no fórum como cumprindo ou não cumprindo as regras da comunidade.
No paradigma de julgamento humano de destilação, existem algumas variáveis abertas:
Como é realizada a amostragem? O papel do autor da lista completa consiste em fornecer um grande número de respostas; O papel de um jurado é fornecer respostas de alta qualidade. Precisamos selecionar os jurados de tal forma que a capacidade do modelo de corresponder às respostas dos jurados seja a maior indicação de seu desempenho geral. Algumas considerações incluem:
O equilíbrio entre o conhecimento especializado e os preconceitos: Os jurados proficientes geralmente se especializam em suas áreas de especialização, de modo que ao permitir que escolham o conteúdo a ser avaliado, você obterá entradas de maior qualidade. Por outro lado, a escolha excessiva pode levar a preconceitos (os jurados favorecem o conteúdo relacionado a eles) ou a falhas na amostragem (certo conteúdo não é avaliado sistematicamente).
Fang Gudehart: Haverá conteúdo tentando 'brincar' com mecanismos de inteligência artificial, por exemplo, contribuidores gerando uma grande quantidade de códigos impressionantes, mas inúteis. Isso significa que os juízes podem detectar isso, mas modelos estáticos de inteligência artificial não o farão a menos que tentem ativamente. Uma possível maneira de capturar esse comportamento é adicionar um mecanismo de desafio, através do qual indivíduos podem marcar tais tentativas, garantindo que os juízes as avaliem (incentivando assim os desenvolvedores de IA a capturá-las corretamente). Se os juízes concordarem, o denunciante será recompensado; se não, terá que pagar uma multa.
Qual função de pontuação você está usando? Uma ideia usada no piloto de financiamento atual é perguntar aos jurados 'A ou B deve receber mais crédito e quanto?' A função de pontuação é score(x) = sum()log(x)( - log)x(( - log(juror_ratio[B]) ** 2 para (A, B, juror_ratio[A] em jury_answers): ou seja, para cada resposta do júri, ele perguntará quão distante a taxa fornecida pelos jurados está da lista completa e adicionará uma penalidade proporcional à distância ao quadrado (no espaço logarítmico). Isso serve para mostrar que o espaço de design da função de pontuação é rico e que a escolha da função de pontuação está relacionada à escolha das perguntas que você faz aos jurados.
Como recompensa os submissões de lista completa? Idealmente, gostaria de recompensar regularmente vários participantes com recompensas não nulas para evitar mecanismos de monopólio, mas também quero satisfazer as seguintes propriedades: os participantes não podem aumentar as recompensas enviando várias vezes conjuntos de respostas idênticas (ou ligeiramente modificadas). Um método promissor é calcular diretamente a combinação linear da lista completa de respostas mais adequada ao júri (com coeficientes não negativos e soma igual a 1) e usar esses mesmos coeficientes para dividir as recompensas. Existem também outras possíveis abordagens.
Em termos gerais, o objetivo é adotar mecanismos de julgamento humano conhecidos por serem eficazes, minimizando preconceitos e resistindo ao teste do tempo (por exemplo, imagine como o sistema judicial adversarial inclui duas partes em disputa, ambas com muitas informações mas preconceituosas, enquanto o juiz tem pouca informação, mas possivelmente sem preconceitos), e usar o mercado aberto de inteligência artificial como um indicador de previsão razoável, de alta fidelidade e baixo custo para esses mecanismos (semelhante ao funcionamento do modelo de destilação de grandes previsões).
financiamento profundo
A financiamento de profundidade é aplicar o julgamento destilado da humanidade para resolver o problema do peso na questão de "qual a percentagem do crédito de X pertence a Y?" no gráfico.
A maneira mais simples é explicar diretamente com um exemplo:
Resultado do exemplo de financiamento profundo de dois níveis: As origens das ideias do Ethereum. Confira o código Python aqui.
O objetivo aqui é atribuir o crédito filosófico das contribuições ao Ethereum. Vamos ver um exemplo:
Aqui, 20.5% do mérito da simulação de rodadas de financiamento profundo é atribuído ao movimento cypherpunk, e 9.2% do mérito é atribuído ao progresso tecnológico.
Em cada nó, você se depara com uma pergunta: em que medida é uma contribuição original (e, portanto, merece crédito por si só), em que medida é uma recombinação de influências upstream? Para o movimento ciberpunk, 40% é novo, 60% é dependente.
Em seguida, você pode ver as consequências upstream desses nodos: o liberalismo e o anarquismo contribuíram com 17,3% para o movimento cypherpunk, mas a democracia direta suíça só obteve 5%.
No entanto, é importante notar que o liberalismo de pequeno governo e o anarquismo também influenciaram a filosofia monetária do Bitcoin, o que afetou a filosofia do Ethereum de duas maneiras.
Para calcular a participação total do liberalismo de pequeno governo e do anarquismo no Ethereum, você precisa multiplicar as bordas em cada caminho e depois adicionar os caminhos: 0,205 * 0,6 * 0,173 + 0,195 * 0,648 * 0,201 ~= 0,0466. Portanto, se você tiver que doar 100 dólares para recompensar todos os que contribuíram para a filosofia do Ethereum, de acordo com esta simulação de financiamento aprofundado, os liberais de pequeno governo e os anarquistas receberão 4,66 dólares.
Este método destina-se a ser aplicável em áreas onde se trabalha com base no trabalho anterior e a estrutura é altamente clara. A academia (pense: citações de figuras) e o software de código aberto (pense: dependências de bibliotecas e bifurcações) são dois exemplos naturais.
O objetivo de um sistema de financiamento profundo bem-sucedido é criar e manter um gráfico global, onde qualquer pessoa interessada em apoiar um projeto específico possa enviar fundos para o endereço que representa esse nó, e os fundos serão automaticamente propagados com base nos pesos das bordas do gráfico para suas dependências (e recursivamente para suas dependências, e assim por diante).
Você pode imaginar um protocolo descentralizado que usa um mecanismo de financiamento embutido para emitir seus tokens: a governança descentralizada dentro do protocolo escolherá um júri, que executará o mecanismo de financiamento, pois o protocolo automaticamente emite os tokens e os deposita em um nó correspondente a si mesmo. Dessa forma, o protocolo recompensa programaticamente todos os seus contribuidores diretos e indiretos, lembrando como o Bitcoin ou Ethereum recompensam um tipo específico de contribuinte (minerador). Ao influenciar o peso das margens, o júri pode continuamente definir os tipos de contribuições que valoriza. Esse mecanismo pode servir como uma alternativa descentralizada e sustentável a longo prazo para a mineração, venda ou airdrop único.
Maior privacidade
Normalmente, para fazer uma avaliação correta dos problemas mencionados no exemplo acima, é necessário ter acesso a informações privadas, como registros de bate-papo internos da organização, informações submetidas secretamente pelos membros da comunidade, etc. Uma vantagem de 'usar apenas um AI', especialmente em ambientes de pequena escala, é que é mais fácil para um único AI acessar informações do que tornar as informações públicas para todos.
Para que o julgamento humano ou o financiamento profundo da destilação funcionem nesses casos, podemos tentar usar a criptografia para dar acesso seguro à IA a informações privadas. A ideia é usar (MPC) de computação de várias partes, )FHE( de criptografia totalmente homomórficas, um ambiente de execução confiável )TEE) ou mecanismos semelhantes para fornecer informações privadas, mas apenas se a sua única saída for um "compromisso de lista completa" que vai diretamente para o mecânico.
Se o fizeres, terás de restringir a coleção de mecanismos para modelos de IA (e não para combinações de seres humanos ou IA + seres humanos, uma vez que não podes permitir que os seres humanos vejam os dados) e específicos para a execução em certas bases específicas (como MPC, FHE, hardware confiável). Uma das principais áreas de investigação é descobrir uma versão prática suficientemente eficaz e significativa a curto prazo.
Vantagens do design do motor + volante
Este design tem muitos benefícios antecipados. Até agora, o benefício mais importante é que eles permitem a construção de DAOs, permitindo que os eleitores humanos controlem a direção sem serem sobrecarregados por demasiadas decisões. Eles atingem um equilíbrio, onde ninguém precisa tomar N decisões, mas o poder que possuem não se limita a tomar uma decisão (como normalmente funciona a delegação) e pode desencadear preferências ricas e difíceis de expressar diretamente.
Além disso, esse mecanismo parece ter uma característica de incentivo suave. O que quero dizer com "incentivo suave" aqui é a combinação de dois fatores:
Difusão: Qualquer medida isolada tomada pelo mecanismo de votação não terá um impacto excessivo nos interesses de qualquer participante.
Confusão: a ligação entre as decisões de voto e como elas afetam os interesses dos participantes é ainda mais complexa e difícil de calcular.
Os termos ofuscação e difusão aqui são retirados da criptografia, que são propriedades-chave da segurança criptográfica e da função hash.
Um excelente exemplo de incentivo suave no mundo real de hoje é o Estado de Direito: os altos escalões do governo não tomam regularmente ações como 'dar à empresa de Alice 200 milhões de dólares', 'multar a empresa de Bob em 100 milhões de dólares', mas sim através de regras destinadas a serem aplicadas uniformemente a um grande número de participantes, e então interpretadas por outro tipo de participantes. Quando esse método funciona, a vantagem é que ele reduz significativamente os benefícios da suborno e outras formas de corrupção. Quando é violado (o que frequentemente acontece na prática), esses problemas logo se tornam muito amplificados.
A IA certamente se tornará uma parte importante do futuro, o que inevitavelmente se tornará uma parte importante da governança futura. No entanto, há riscos evidentes se a IA for envolvida na governança: a IA é tendenciosa, pode ser intencionalmente corrompida durante o processo de treinamento e o desenvolvimento da IA é tão rápido que 'dar o poder à IA' pode realmente significar 'dar o poder às pessoas responsáveis por atualizar a IA'. A destilação do julgamento humano oferece uma alternativa para avançar, permitindo-nos aproveitar o poder da IA de forma aberta e de mercado livre, mantendo ao mesmo tempo o controle democrático humano.
Um agradecimento especial a Devansh Mehta, Davide Crapis, e Julian Zawistowski por seu feedback e revisão, bem como Tina Zhen, Shaw Walters e outros por suas discussões.