Vitalik 新文：未来治理新范式「AI 引擎 + 人类方向盘」

Outra abordagem explorada em muitos casos de uso é fazer com que um mecanismo simples se torne uma regra do jogo, transformando a IA em jogador.

Título original: "AI como o motor, humanos como o volante"

Escrito por: Vitalik, fundador da Ethereum

Compilado por Bai Shui, Jinse Finance

Se perguntar às pessoas sobre o que gostam na estrutura democrática, seja no governo, no local de trabalho ou em DAOs baseados em blockchain, frequentemente ouvirá os mesmos argumentos: evitam a concentração de poder, oferecem garantias sólidas aos utilizadores, já que ninguém pode mudar completamente a direção do sistema ao seu bel-prazer, e podem tomar decisões de maior qualidade ao recolher e ponderar muitas opiniões e sabedoria.

Se você perguntar às pessoas o que elas não gostam na estrutura democrática, elas geralmente dão as mesmas queixas: o eleitor médio não é sofisticado o suficiente porque cada eleitor tem apenas uma pequena chance de influenciar o resultado, muito poucos eleitores colocam pensamento de qualidade em sua tomada de decisão, e você muitas vezes obtém baixo engajamento (tornando o sistema vulnerável a ataques) ou centralização de fato porque todos não confiam e copiam as opiniões de algum influenciador.

O objetivo deste artigo é explorar um paradigma onde talvez a IA possa ser usada para nos permitir beneficiar de estruturas democráticas sem efeitos negativos. "A IA é o motor, os humanos são o volante". Os seres humanos fornecem apenas uma pequena quantidade de informação ao sistema, talvez apenas algumas centenas, mas é tudo bem pensado e de altíssima qualidade. A IA trata esses dados como uma "função objetiva" e trabalha incansavelmente para tomar muitas decisões para fazer o seu melhor para alcançar esses objetivos. Em particular, este artigo explorará uma questão interessante: podemos fazer isso sem colocar uma única IA no centro, mas confiando em um mercado aberto competitivo no qual qualquer IA (ou híbrido homem-máquina) pode participar livremente?

Índice

Por que não deixar um AI assumir o controle diretamente?
Futarquia
Destilar o julgamento humano
Financiamento profundo (Deep funding)
Maior privacidade
Benefícios do motor + design do volante

Por que não deixar um AI ser responsável diretamente?

A maneira mais simples de incorporar as preferências humanas em mecanismos baseados em IA é criar um modelo de IA e permitir que os humanos insiram suas preferências de alguma forma. Há uma maneira simples de fazer isso: basta colocar um arquivo de texto contendo uma lista de instruções pessoais no prompt do sistema. Em seguida, você pode capacitar a IA com um dos muitos 'frameworks de IA agentes' para acessar a Internet, dar a ela as chaves para os ativos e perfis sociais que sua organização possui, e pronto, você está feito.

Após várias iterações, isso pode ser suficiente para atender a muitos casos de uso. Eu prevejo totalmente que em um futuro próximo veremos muitas estruturas que envolvem instruções dadas por grupos de leitura de IA (ou até mesmo leitura em tempo real de bate-papos em grupo) e agirão com base nelas.

Esta estrutura não é ideal como mecanismo de governança para instituições de longo prazo. Uma propriedade valiosa que as instituições de longo prazo devem ter é a neutralidade confiável. No meu post que introduz este conceito, listei quatro propriedades valiosas da neutralidade confiável:

Não escreva pessoas ou resultados específicos no mecanismo
Execução aberta e verificável publicamente
Mantenha simples
Não mude com frequência

LLM（ou agente de IA）atende 0/4. O modelo inevitavelmente codifica uma grande quantidade de preferências específicas de pessoas e resultados durante o seu processo de treinamento. Às vezes, isso pode levar a direções de preferência surpreendentes para a IA. Por exemplo, um estudo recente mostrou que os principais LLMs valorizam mais a vida no Paquistão do que nos Estados Unidos (！！). Pode ser de peso aberto, mas está longe de ser de código aberto; realmente não sabemos que tipo de demônios estão escondidos nas profundezas do modelo. E é tudo, menos simples: a complexidade de Kolmogorov do LLM é de bilhões de bits, aproximadamente equivalente à soma de todas as leis dos Estados Unidos (federal + estadual + local). E devido ao rápido desenvolvimento da IA, você tem que mudar a cada três meses.

Por essa razão, eu apoio a exploração de outra abordagem em muitos casos de uso, que é transformar um mecanismo simples em regras do jogo, permitindo que a IA seja o jogador. É essa visão que torna o mercado tão eficiente: as regras são um sistema de direitos de propriedade relativamente tolo, os casos marginais são decididos pelo sistema judicial, que acumula e ajusta precedentes lentamente, com toda a inteligência vinda dos empreendedores que operam 'na margem'.

Um único "jogador" pode ser um grupo de LLMs que interagem e chamam vários serviços da Internet, várias combinações de IA + humanos e muitas outras construções; como designer de mecanismos, você não precisa saber. O objetivo ideal é ter um mecanismo que possa funcionar automaticamente - se o objetivo desse mecanismo for escolher o que patrocinar, então ele deve se parecer o mais possível com as recompensas de blocos de Bitcoin ou Ethereum.

A vantagem deste método é:

Evita a inclusão de qualquer modelo único no mecanismo; em vez disso, terá um mercado aberto composto por muitos participantes e estruturas diferentes, cada um com seus próprios preconceitos. Modelos abertos, modelos fechados, grupos de agentes, híbridos humanos + IA, robôs, macacos infinitos, etc., são todos jogos justos; o mecanismo não discriminará ninguém.
Este mecanismo é de código aberto. Embora os jogadores não sejam, o jogo é de código aberto - e este é um padrão que é bastante bem compreendido (por exemplo, partidos políticos e mercados operam desta forma)
Este mecanismo é tão simples que os designers tiveram relativamente poucas maneiras de incorporar seus próprios preconceitos no design.
O mecanismo não mudará, mesmo que a arquitetura dos participantes subjacentes necessite de ser redesenhada de três em três meses até à singularidade.

O objetivo do mecanismo de orientação é refletir fielmente os objetivos fundamentais dos participantes. Ele só precisa fornecer uma pequena quantidade de informações, mas deve ser de alta qualidade.

Pode-se pensar nesse mecanismo como tirar proveito da assimetria entre propor uma resposta e validá-la. Isto é semelhante ao Sudoku que é difícil de resolver, mas é fácil verificar se a solução está correta. Você (i) criar um mercado aberto para os jogadores agirem como "solucionadores de problemas" e, em seguida, (ii) manter um mecanismo executado por humanos para executar a tarefa muito mais simples de validar a solução proposta.

Futarchy

Futarchy foi originalmente proposto por Robin Hanson e significa "vote pelo valor, mas aposte pela fé". O mecanismo de votação seleciona um conjunto de objetivos (que podem ser quaisquer, mas apenas se tiverem de ser mensuráveis) e, em seguida, combina-os numa métrica M. Quando você precisa tomar uma decisão (vamos supor SIM/NÃO para simplificar), você define o mercado condicional: você pede às pessoas para apostar se (i) vai escolher SIM ou NÃO, (ii) se você escolher SIM, o valor de M, caso contrário, zero, (iii) O valor de M se NO estiver selecionado, caso contrário, será zero. Com essas três variáveis, você pode determinar se o mercado acha que SIM ou NÃO é mais favorável para o valor de M.

O 'preço das ações da empresa' (ou, no caso das criptomoedas, o preço dos tokens) é o indicador mais comumente citado, pois é fácil de entender e medir, mas esse mecanismo pode suportar vários indicadores: usuários ativos mensais, mediana da autoavaliação da felicidade de certos grupos, alguns indicadores quantificáveis de descentralização, etc.

O Futarchy foi originalmente inventado antes da era da inteligência artificial. No entanto, o Futarchy se encaixa naturalmente no paradigma 'solucionador complexo, validador simples' descrito na seção anterior, e os traders no Futarchy também podem ser inteligência artificial (ou uma combinação de humano + inteligência artificial). O papel do 'solucionador' (traders de mercado de previsão) é determinar como cada proposta de plano afetará o valor dos indicadores futuros. Isso é difícil. Se o solucionador estiver correto, eles ganham dinheiro; se estiverem errados, perdem dinheiro. Os validadores (pessoas que votam nos indicadores e ajustam os indicadores se perceberem que estão sendo 'manipulados' ou se tornarem obsoletos, e determinam o valor real do indicador em algum momento futuro) só precisam responder a uma pergunta mais simples: 'Qual é o valor atual do indicador?'

A destilação do poder de julgamento humano

O julgamento por destilação humana é um tipo de mecanismo cujo princípio de funcionamento é o seguinte. Há uma grande quantidade (pense nisso: 1 milhão) de perguntas a serem respondidas. Exemplos naturais incluem:

Quanta honra deve cada pessoa nesta lista receber por contribuir para um projeto ou tarefa?
Quais destes comentários violam as regras da plataforma de mídia social (ou subcomunidade)?
Quais desses endereços Ethereum fornecidos representam pessoas reais e únicas?
Quais destes objetos físicos contribuem positiva ou negativamente para a estética do seu ambiente?

Você tem uma equipe que pode responder a essas perguntas, mas o custo é gastar uma quantidade significativa de energia em cada resposta. Você só pede à equipe para responder a algumas perguntas (por exemplo, se houver uma lista total de 1 milhão de itens, a equipe pode responder apenas 100 desses itens). Você pode até fazer perguntas indiretas à equipe: não pergunte 'Quantos por cento do crédito total Alice deve receber?', mas sim 'Se Alice ou Bob deveriam receber mais crédito e em que proporção?'. Ao projetar o mecanismo do júri, você pode reutilizar mecanismos amplamente testados no mundo real, como comitês de alocação, tribunais (para determinar o valor do veredicto), avaliações, e é claro, os próprios participantes do júri também podem usar ferramentas de pesquisa de IA inovadoras para ajudá-los a encontrar respostas.

Então, você permite que qualquer pessoa envie uma lista de respostas numéricas para toda a coleção de problemas (por exemplo, fornecendo uma estimativa de quanto crédito cada participante deve receber na lista inteira). Os participantes são encorajados a usar a inteligência artificial para concluir essa tarefa, mas podem usar qualquer tecnologia: inteligência artificial, híbrida de humano-máquina, inteligência artificial que pode acessar pesquisas na internet e contratar autonomamente outros seres humanos ou trabalhadores de inteligência artificial, ou até macacos reforçados por teoria do controle.

Uma vez que todos os provedores de listas completas e os jurados tenham submetido as respostas, a lista completa será verificada com base nas respostas do júri e uma combinação da lista completa mais compatível com as respostas do júri será escolhida como a resposta final.

Os mecanismos de julgamento humanos destilados são diferentes do futarquia, mas existem algumas semelhanças importantes:

Em futarquia, os "solver" farão previsões e os "dados reais" em que se baseiam (para recompensar ou punir os solvers) são os valores de saída do oráculo operado pelo júri. *Nos julgamentos humanos por destilação, os "solucionadores" fornecem respostas para uma grande quantidade de questões, sendo que as suas previsões se baseiam em uma pequena parte das respostas de alta qualidade fornecidas pelo júri.

Um exemplo de um brinquedo para destilar julgamento humano para distribuição de crédito, veja o código Python aqui. O script pede que você sirva como um júri e inclui uma lista completa de gerados por IA (e gerados por humanos) alguns pré-incluídos no código. O mecanismo identifica uma combinação linear mais adequada à lista completa de respostas do júri. Neste caso, a combinação vencedora é 0,199 * Resposta de Claude + 0,801 * Resposta de Deepseek; Esta combinação está mais de acordo com a resposta do júri do que qualquer modelo isolado. Estes coeficientes serão também uma recompensa para os responsáveis.

Neste exemplo de 'derrotar Sauron', a 'humanidade como volante' é evidente em dois aspectos. Em primeiro lugar, cada questão é aplicada com julgamento humano de alta qualidade, embora ainda dependa do júri como avaliador 'tecnocrático'. Em segundo lugar, há um mecanismo de votação implícito que decide se 'derrotar Sauron' é o objetivo correto (em vez de, por exemplo, tentar fazer uma aliança com Sauron, ou entregar todas as terras a leste de um rio crucial a ele como um gesto de paz). Existem outros casos destilados de julgamento humano, nos quais a tarefa do júri está mais diretamente relacionada aos valores: por exemplo, considere uma plataforma de mídia social (ou subcomunidade) descentralizada, onde o trabalho do júri é marcar postagens selecionadas aleatoriamente como cumprindo ou não as regras da comunidade.

No paradigma do julgamento humano da destilação, existem algumas variáveis em aberto:

Como é realizada a amostragem? O papel do autor da lista completa consiste em fornecer um grande número de respostas; O papel de um jurado é fornecer respostas de alta qualidade. Precisamos selecionar os jurados de tal forma que a capacidade do modelo de corresponder às respostas dos jurados seja a maior indicação de seu desempenho geral. Algumas considerações incluem:
O equilíbrio entre o conhecimento especializado e preconceitos: Os jurados experientes geralmente se especializam em suas áreas de atuação, portanto, ao permitir que escolham o conteúdo a ser classificado, você obterá entradas de maior qualidade. Por outro lado, a abundância de escolhas pode levar a preconceitos (os jurados favorecem o conteúdo de pessoas com quem têm contato) ou a falhas de amostragem (algum conteúdo não é avaliado sistematicamente).
Franco Gottard: haverá conteúdo tentando 'brincar' com os mecanismos de inteligência artificial, por exemplo, contribuidores gerando uma grande quantidade de códigos impressionantes, mas inúteis. Isso significa que os jurados podem detectar isso, mas os modelos estáticos de IA não o farão a menos que façam um esforço consciente para tal. Uma possível maneira de capturar esse comportamento é adicionar um desafio, através do qual as pessoas podem sinalizar tais tentativas, garantindo que os jurados as julguem (incentivando assim os desenvolvedores de IA a capturá-las corretamente). Se os jurados concordarem, o denunciante será recompensado, mas se discordarem, terá que pagar uma multa.
Qual função de classificação você usa? Uma ideia usada no atual piloto do Deep Grant é perguntar aos jurados: "A ou B devem obter mais crédito e quanto?" A função de pontuação é score(x) = sum((log(x[B]) - log(x[A]) - log(juror_ratio)) ** 2 para (A, B, jurado_ratio) em júri_answers): Ou seja, para cada resposta do júri, pergunta-se a que distância está a taxa na lista completa da taxa fornecida pelo jurado e acrescenta uma pena proporcional ao quadrado da distância (no espaço logarítmico). Isso é para mostrar que há muito espaço de design para funções de pontuação, e a escolha da função de pontuação está relacionada à sua escolha de quais perguntas fazer aos seus jurados.
Como recompensar os enviadores de listas completas? Idealmente, você quer dar recompensas diferentes de zero a vários participantes com frequência para evitar mecanismos monopolistas, mas também quer atender à seguinte propriedade: os participantes não podem aumentar a recompensa enviando o mesmo conjunto de respostas (ou ligeiramente modificado) várias vezes. Uma abordagem promissora é calcular diretamente uma combinação linear da lista completa de respostas mais adequadas ao júri (com coeficientes não negativos e uma soma de 1) e usar esses mesmos coeficientes para dividir a recompensa. Também pode haver outros métodos.

No geral, o objetivo é pegar mecanismos de julgamento humano que são conhecidos por funcionar, são tendenciosos minimizados e resistiram ao teste do tempo (por exemplo, imagine como a estrutura adversarial de um sistema judicial inclui duas partes em uma disputa que têm muita informação, mas são tendenciosas, e um juiz que tem uma pequena quantidade de informações, mas pode não ser tendenciosa), e usar um mercado aberto de IA como um preditor razoavelmente de alta fidelidade e muito baixo custo desses mecanismos (semelhante a como funciona o modelo de "destilação" da grande profecia).

Financiamento profundo (financiamento profundo)

O financiamento em profundidade aplica o julgamento destilado humano ao problema do peso de preencher "Qual a percentagem de crédito de X pertence a Y?" no gráfico.

A maneira mais fácil de fazer isso é ilustrá-lo diretamente com um exemplo:

Resultado do exemplo de financiamento profundo de dois níveis: As origens das ideias do Ethereum. Confira o código Python aqui.

O objetivo aqui é atribuir o mérito das contribuições filosóficas ao Ethereum. Vamos ver um exemplo:

Os simulados de financiamento profundo exibidos aqui atribuem 20.5% do crédito ao movimento cypherpunk e 9.2% ao progresso tecnológico.
Em cada nó, você é confrontado com a questão: até que ponto é uma contribuição original (portanto, merece crédito por si só) e até que ponto é um rearranjo de influências upstream? Para o movimento cypherpunk, 40% é novo e 60% é dependente.
Você pode então olhar para o impacto a montante desses nós: o governo liberal mesquinho e o anarquismo ganharam 17,3% do crédito para o movimento cypherpunk, mas apenas 5% para a democracia direta na Suíça.
No entanto, note-se que o liberalismo de pequeno governo e o anarquismo também inspiraram a filosofia monetária do Bitcoin, influenciando assim a filosofia do Ethereum por dois caminhos. Para calcular a participação total do liberalismo de governo mínimo e do anarquismo no Ethereum, você precisa multiplicar as arestas em cada caminho e depois adicionar os caminhos: 0.205 * 0.6 * 0.173 + 0.195 * 0.648 * 0.201 ≈ 0.0466. Portanto, se você tiver que doar 100 dólares para recompensar todos que contribuíram para a filosofia do Ethereum, com base nesta simulação de financiamento em profundidade, os defensores do liberalismo de governo mínimo e do anarquismo receberão 4.66 dólares.

Este método destina-se a ser aplicado em áreas onde se baseiam em trabalhos anteriores e têm uma estrutura altamente clara. A academia (pense: referências a gráficos) e o software de código aberto (pense: dependências de bibliotecas e bifurcações) são dois exemplos naturais.

O objetivo de um sistema de financiamento profundo que funcione bem é criar e manter um gráfico global onde qualquer financiador interessado em apoiar um determinado projeto poderá enviar fundos para um endereço que represente esse nó, e os fundos se propagarão automaticamente para suas dependências (e recursão para suas dependências, etc.) com base no peso da borda do gráfico.

Você pode imaginar um protocolo descentralizado que usa um mecanismo de financiamento integrado para emitir seus tokens: a governança descentralizada do protocolo selecionará um júri, que executará o mecanismo de financiamento profundo, pois o protocolo emitirá automaticamente os tokens e os depositará em um nó correspondente a si mesmo. Ao fazer isso, o protocolo recompensa programaticamente todos os seus contribuidores diretos e indiretos, lembrando como o Bitcoin ou Ethereum recompensa um tipo específico de contribuinte (minerador) com recompensas de bloco. Ao influenciar o peso nas bordas, o júri pode continuamente definir os tipos de contribuições que valoriza. Esse mecanismo pode servir como uma alternativa descentralizada e sustentável a longo prazo para mineração, vendas ou lançamentos aéreos únicos.

Aumentar a privacidade

Em geral, para fazer o julgamento certo sobre as perguntas nos exemplos acima, você precisa ter acesso a informações privadas: logs de bate-papo internos da sua organização, mensagens enviadas secretamente por membros da comunidade e assim por diante. Um dos benefícios de usar apenas uma única IA, especialmente em ambientes menores, é que é mais aceitável para uma IA acessar informações do que expô-las a todos.

Para permitir que a análise ou o financiamento profundo tenham impacto em situações como essas, podemos tentar usar tecnologia de criptografia para permitir que a IA acesse informações privadas com segurança. A ideia é usar computação multipartidária (MPC), criptografia totalmente homomórfica (FHE), ambiente de execução confiável (TEE) ou mecanismos semelhantes para fornecer informações privadas, mas apenas se a única saída for diretamente inserida no mecanismo como um 'envio de lista completa'.

Se o fizeres, terás de restringir o conjunto de mecanismos ao modelo de IA (em vez de humano ou combinação de IA + humano, uma vez que não podes permitir que os humanos vejam os dados) e específico para modelos que funcionam em certas bases específicas (por exemplo, MPC, FHE, hardware confiável). Uma das principais áreas de pesquisa é encontrar uma versão prática recentemente eficaz e significativa.

Vantagens do design do motor + volante

Este design tem muitos benefícios esperados. Até agora, o benefício mais importante é que eles permitem a construção de DAOs, dando aos eleitores humanos controle sobre a direção, sem serem sobrecarregados por muitas decisões. Eles alcançam um meio-termo, em que ninguém tem que tomar N decisões, mas o poder que têm não é apenas fazer uma decisão (como geralmente funciona a delegação), mas também pode desencadear preferências ricas e difíceis de expressar diretamente.

Além disso, esse mecanismo parece ter uma característica de incentivo suave. O que quero dizer com "incentivo suave" aqui é a combinação de dois fatores:

Proliferação: Qualquer ação isolada tomada pelo mecanismo de votação não terá um impacto desproporcionado nos interesses de qualquer participante.
Caos: A relação entre decisões de voto e como elas afetam os interesses dos participantes é ainda mais complexa e difícil de calcular.

Os termos ofuscação e difusão aqui são retirados da criptografia, que são propriedades-chave da segurança criptográfica e da função hash.

Um exemplo muito bom de incentivo suave no mundo real de hoje é o Estado de Direito: os escalões superiores do governo não tomam regularmente ações como 'dar 200 milhões de dólares à empresa de Alice' ou 'multar a empresa de Bob em 100 milhões de dólares', mas sim através de regras destinadas a serem aplicadas de forma uniforme a um grande número de participantes e depois interpretadas por outro tipo de participantes. Quando este método funciona, a vantagem é que reduz significativamente os benefícios da corrupção e de outras formas de corrupção. Quando é violado (o que acontece frequentemente na prática), estes problemas rapidamente se tornam muito amplificados.

A IA claramente se tornará uma parte importante do futuro, o que inevitavelmente se tornará uma parte importante da governança futura. No entanto, há riscos óbvios se a IA for envolvida na governança: a IA é tendenciosa, pode ser intencionalmente sabotada durante o treinamento e o avanço da tecnologia da IA é tão rápido que 'dar poder à IA' pode significar, na prática, 'dar poder às pessoas responsáveis pela melhoria da IA'. A destilação do julgamento humano oferece uma alternativa para avançar, permitindo-nos aproveitar o poder da IA de forma aberta e livre, ao mesmo tempo que mantemos o controle democrático humano.

Um agradecimento especial a Devansh Mehta, Davide Crapis e Julian Zawistowski pelos seus comentários e revisão, bem como a Tina Zhen, Shaw Walters e outros pelo debate.

HEART5.49%

ETH-0.17%

Ver original

O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#BTC#
192k publicações
#ETH#
120k publicações
#PI#
94k publicações
4#GateioInto11#
76k publicações
5#ContentStar#
64k publicações
6#BOME#
59k publicações
7#GT#
56k publicações
8#DOGE#
53k publicações
9#MAGA#
52k publicações
10#SLERF#
51k publicações

Pino