Variant 投资合伙人：Código aberto AI 的困境与突破，为什么encriptação技术是最后一块拼图？

Question

Autor: Daniel Barabander Compilador: Deep Tide TechFlow Breve Resumo Atualmente, o desenvolvimento da IA básica é dominado por algumas empresas de tecnologia, que é caracterizada por fechada e falta de concorrência. Embora o desenvolvimento de software Código aberto seja uma solução potencial, a IA fundacional não funciona tão bem quanto os projetos tradicionais de código aberto (por exemplo, Linux) porque enfrenta um "problema de recursos": os contribuintes do Código aberto não só têm que pagar tempo, mas também têm que arcar com custos computacionais e de dados além de suas capacidades pessoais. Espera-se que a tecnologia de encriptação resolva este problema de recursos, incentivando os fornecedores de recursos a participar no projeto de IA subjacente. A combinação de IA aberta com tecnologia de encriptação pode apoiar o desenvolvimento de modelos em maior escala e impulsionar mais inovação para criar sistemas de IA mais avançados. INTRODUÇÃO De acordo com uma pesquisa realizada pelo Pew Research Center (Pew Research Center) em 2024, 64% dos americanos acreditam que o impacto das mídias sociais no país faz mais mal do que bem; 78 % afirmam que as empresas de redes sociais têm demasiado poder e influência na política; 83 % acreditam que é provável que estas plataformas censurem deliberadamente opiniões políticas das quais discordam. A insatisfação com as redes sociais tornou-se quase um dos poucos Consensos na sociedade americana. Olhando para trás, para a evolução das redes sociais nos últimos 20 anos, esta situação parece preordenada. A história não é complicada: um punhado de grandes empresas de tecnologia chamou a atenção dos usuários e, mais importante, os dados dos usuários. Apesar das esperanças iniciais de dados abertos, as empresas rapidamente mudaram sua estratégia, usando dados para construir efeitos de rede inquebráveis e desligar o acesso externo. O resultado é a situação atual: menos de 10 grandes empresas de tecnologia dominam a indústria de mídia social, criando um cenário de "monopólio oligopólio". Como o status quo é extremamente favorável a elas, essas empresas têm pouco incentivo para mudar. Este modelo é fechado e carece de concorrência. Hoje, a trajetória da tecnologia de IA parece estar se repetindo, mas desta vez o impacto é ainda mais abrangente. Um punhado de empresas de tecnologia construiu modelos de IA fundamentais assumindo o controle de GPUs e recursos de dados, e desativou o acesso a esses modelos. Para os novos entrantes que não têm bilhões de dólares em financiamento, é quase impossível desenvolver um modelo competitivo. Como o custo computacional do treinamento de apenas um modelo básico é de bilhões de dólares, as empresas de mídia social que se beneficiaram da última onda de tecnologia estão usando seu controle sobre os dados proprietários do usuário para desenvolver modelos que são difíceis para os concorrentes igualarem. Estamos a repetir os erros das redes sociais e a avançar para um mundo de IA fechado e não competitivo. Se essa tendência continuar, um punhado de empresas de tecnologia terá controle irrestrito sobre o acesso a informações e oportunidades. Código aberto IA e o "problema dos recursos" Se não queremos ver um mundo fechado de IA, quais são as nossas opções? A resposta óbvia foi desenvolver o modelo base como um projeto de software Código aberto. Historicamente, tivemos inúmeros projetos que construíram com sucesso o software subjacente em que confiamos todos os dias. O sucesso do Linux, por exemplo, prova que mesmo softwares centrais como um sistema operacional podem ser desenvolvidos de forma aberta. Então, por que os LLMs (modelos de linguagem grande) não podem? No entanto, as limitações especiais enfrentadas pelos modelos de IA subjacentes os tornam diferentes do software tradicional, o que também enfraquece muito sua viabilidade como um projeto tradicional de código aberto. Especificamente, os modelos fundamentais de IA exigem enormes recursos de computação e dados que estão muito além das capacidades de um indivíduo. Ao contrário dos projetos tradicionais do Código Aberto, que dependem apenas de pessoas doando seu tempo, o Código aberto AI também pede que as pessoas doem poder de computação e recursos de dados, o que é conhecido como o "problema dos recursos". Usando o modelo LLaMa da Meta como exemplo, podemos entender melhor esse problema de recursos. Ao contrário de concorrentes como OpenAI e Google, a Meta não esconde seus modelos atrás de APIs pagas, mas oferece abertamente pesos LLaMa para qualquer pessoa usar gratuitamente (com certas restrições). Esses pesos contêm o que o modelo aprende durante o treinamento Meta e são necessários para executar o modelo. Com esses pesos, o usuário pode ajustar o modelo ou usar a saída do modelo como entrada para um novo modelo. Embora o lançamento do LLaMa pela Meta mereça uma ponderação positiva, ele não conta como um verdadeiro projeto de software aberto. Nos bastidores, a Meta controla o processo de treinamento, confiando em seus próprios recursos de computação, dados e decisões, e decidindo unilateralmente quando disponibilizar o modelo ao público. A Meta não convida pesquisadores ou desenvolvedores independentes para participar de colaborações comunitárias, pois os recursos necessários para treinar ou reciclar modelos estão muito além das capacidades do indivíduo médio. Esses recursos incluem dezenas de milhares de GPUs de alto desempenho, data centers para armazenar essas GPUs, instalações de resfriamento sofisticadas e trilhões de tokens (unidades de dados de texto necessárias para treinamento de modelos) para treinamento. Como observado no relatório do Índice de IA de 2024 da Universidade de Stanford, "O aumento dramático nos custos de treinamento exclui efetivamente as universidades, que tradicionalmente têm sido potências da pesquisa em IA, do desenvolvimento de modelos fundamentais de alto nível". Por exemplo, Sam Altman mencionou que custa até US $ 100 milhões para treinar GPT-4, e isso nem inclui despesas de capital para hardware. Além disso, as despesas de capital da Meta aumentaram US$ 2,1 bilhões no segundo trimestre de 2024 em comparação com o mesmo período de 2023, principalmente para servidores, data centers e infraestrutura de rede relacionada ao treinamento de modelos de IA. Como resultado, embora os colaboradores da comunidade do LLama possam ter a capacidade técnica de melhorar a arquitetura do modelo, eles não têm os recursos para implementar essas melhorias. Em resumo, ao contrário dos projetos tradicionais de software Código aberto, os projetos de IA Código aberto exigem que os colaboradores não apenas invistam tempo, mas também incorram em altos custos computacionais e de dados. É irrealista confiar apenas na boa vontade e no voluntariado para motivar fornecedores de recursos suficientes. Precisam de mais incentivos. O BLOOM, por exemplo, é um modelo de 176 bilhões de parâmetros que reúne os esforços de 1.000 pesquisadores voluntários de mais de 250 instituições em mais de 70 países. Embora o sucesso do BLOOM tenha sido admirável (e eu apoio-o plenamente), demorou um ano a coordenar uma sessão de formação e contou com um financiamento de 3 milhões de euros de um instituto de investigação francês (sem contar com as despesas de capital do Supercomputador utilizado para treinar o modelo). O processo de depender de uma nova rodada de financiamento para coordenar e iterar o BLOOM é muito complicado para acompanhar a velocidade de desenvolvimento em grandes laboratórios de tecnologia. JÁ SE PASSARAM MAIS DE DOIS ANOS DESDE QUE BLOOM FOI LANÇADO, E A EQUIPE AINDA NÃO OUVIU FALAR DE NENHUM MODELO DE ACOMPANHAMENTO. Para que a IA seja possível, precisamos encontrar uma maneira de incentivar os provedores de recursos a contribuir com seu poder de computação e recursos de dados, em vez de deixar que os contribuintes do Código aberto suportem eles mesmos esses custos. Por que a tecnologia de encriptação pode resolver o "problema de recursos" da IA subjacente O principal avanço da tecnologia de encriptação é tornar possíveis projetos de software com altos custos de recursos através do mecanismo de "propriedade". Ele resolve o problema de recursos do Código aberto AI incentivando potenciais provedores de recursos a participar da rede, em vez de ter contribuintes do Código aberto arcando com o custo desses recursos antecipadamente. O BTC é um bom exemplo disso. Como o primeiro projeto de encriptação, o BTC é um projeto de software totalmente aberto cujo código é público desde o início. No entanto, o código em si não é a chave para o BTC. Não faz sentido apenas baixar e executar o software BTCNó e criar uma cadeia de blocos localmente. O verdadeiro valor da Mineração Bloco só pode ser realizado se a quantidade de computação for suficiente para exceder o poder computacional de qualquer contribuinte: manter um livro-razão descentralizado e descontrolado. Semelhante ao Código aberto AI subjacente, o BTC também é um projeto Código aberto que requer recursos além do escopo das capacidades de um indivíduo. Embora os dois exijam recursos computacionais por razões diferentes – o BTC precisa de recursos computacionais para garantir que a rede não possa ser adulterada, enquanto a IA subjacente requer recursos computacionais para otimizar e iterar em modelos – o que todos eles têm em comum é que ambos dependem de recursos que estão além das capacidades dos indivíduos. BTC, e qualquer outra rede de encriptação, é capaz de incentivar os participantes a contribuir com recursos para o projeto de software Código aberto, e o "segredo" é fornecer a propriedade da rede através de tokens. Como declarado na filosofia fundadora de Jesse, escrita para a Variant em 2020, a propriedade fornece um forte incentivo para que os provedores de recursos estejam dispostos a contribuir com recursos em troca de ganhos potenciais na rede. Esse mecanismo é semelhante à forma como as startups lidam com a escassez de financiamento em estágio inicial por meio de "capital de suor" (Sweat Equity) – pagando funcionários em estágio inicial (por exemplo, fundadores) principalmente na forma de propriedade da empresa, as startups são capazes de atrair mão de obra que, de outra forma, não seriam capazes de pagar. A tecnologia de encriptação expande o conceito de "capital de suor" de se concentrar em contribuintes de tempo para fornecedores de recursos. Como resultado, a Variant se concentra em investir em projetos que alavancam mecanismos de propriedade para construir efeitos de rede, como Uniswap, Morpho e World. Se queremos que a IA se torne uma realidade, então o mecanismo de propriedade implementado através da tecnologia de encriptação é a solução-chave para o problema dos recursos. Este mecanismo dá aos investigadores a liberdade de contribuírem com as suas ideias de design de modelo para o projeto Código aberto, uma vez que os recursos computacionais e de dados necessários para concretizar estas ideias serão suportados pelo fornecedor de recursos, que será recompensado com a obtenção da propriedade fracionada do projeto, em vez de ter de incorrer nos elevados custos iniciais do próprio investigador. No Código aberto AI, a propriedade pode assumir muitas formas, mas uma das mais esperadas é a propriedade do próprio modelo, que é também a solução proposta pela Pluralis. A abordagem proposta pela Pluralis é conhecida como Modelos de Protocolo. Neste modelo, o provedor de recursos computacionais pode treinar um modelo específico de código aberto contribuindo com poder de computação e, assim, receber uma propriedade fracionada para a receita de inferência futura do modelo. Uma vez que essa propriedade está ligada a um modelo específico, e seu valor é baseado na receita de inferência do modelo, os provedores de recursos de computação são incentivados a escolher o modelo ideal para treinar sem falsificar os dados de treinamento (uma vez que fornecer treinamento inútil vai diretamente para o valor esperado da receita de inferência futura). No entanto, uma questão-chave é: como a Pluralis garante a segurança da propriedade se o processo de treinamento exige que os pesos do modelo sejam enviados para o provedor de computação? A resposta está no uso da técnica de "paralelização de modelo" (Model Parallelism) para distribuir fragmentos de modelo para diferentes trabalhadores. Uma característica importante das redes neurais é que, mesmo que apenas uma pequena fração dos pesos do modelo seja conhecida, o computador ainda pode participar do treinamento, garantindo que o conjunto completo de pesos não possa ser extraído. Além disso, como muitos modelos diferentes são treinados ao mesmo tempo na plataforma Pluralis, o treinador será confrontado com um grande número de conjuntos de pesos diferentes, o que torna extremamente difícil reconstruir o modelo completo. A ideia central dos Modelos de Protocolo é que esses modelos podem ser treinados e usados, mas não podem ser extraídos em sua totalidade do protocolo (a menos que o poder de computação usado exceda os recursos necessários para treinar o modelo do zero). Este mecanismo resolve o problema frequentemente levantado pelos críticos do Código aberto de IA, de que concorrentes fechados de IA podem se apropriar indevidamente dos frutos do trabalho do Código aberto. Por que criptoção tecnologia + Código aberto = melhor IA No início do artigo, ilustrei os aspetos éticos e normativos da IA fechada analisando o controle da IA pela Big Tech. Mas, numa época de impotência, temo que tal argumento possa não ressoar na maioria dos leitores. Então, eu gostaria de oferecer duas razões práticas pelas quais a IA aberta, alimentada pela tecnologia de encriptação, pode realmente levar a uma IA melhor. Em primeiro lugar, a combinação de tecnologia de encriptação e IA permite a coordenação de mais recursos para impulsionar o desenvolvimento da próxima geração de modelos fundamentais, (Foundation Models). Estudos mostraram que tanto o aumento do poder de computação quanto os recursos de dados podem ajudar a melhorar o desempenho do modelo, e é por isso que o tamanho do modelo base vem se expandindo. O BTC nos mostra o potencial do software Código aberto combinado com a tecnologia de encriptação em termos de poder de computação. Tornou-se a maior e mais poderosa rede de computação do mundo, muito maior do que os recursos de computação em nuvem de propriedade da Big Tech. O que torna a tecnologia de encriptação única é a sua capacidade de transformar a concorrência isolada em competição colaborativa. Ao incentivar os fornecedores de recursos a contribuir com recursos para resolver problemas comuns, em vez de trabalhar em silos e duplicar esforços, a rede de encriptação permite o uso eficiente dos recursos. Código aberto AI, alimentado por tecnologia de encriptação, será capaz de alavancar os recursos de computação e dados do mundo para construir modelos que vão muito além da IA fechada. Por exemplo, a empresa Hyperbolic demonstrou o potencial deste modelo. Eles aproveitam ao máximo os recursos de computação distribuída, tornando possível para qualquer pessoa alugar GPUs a um custo mais baixo através de um mercado aberto. Em segundo lugar, a combinação de tecnologia de encriptação e IA impulsionará a aceleração da inovação. Isso porque, uma vez resolvido o problema dos recursos, a pesquisa de aprendizado de máquina pode retornar à sua natureza altamente iterativa e inovadora. Antes do advento dos grandes modelos de linguagem fundamentais (LLM), os pesquisadores no campo do aprendizado de máquina frequentemente divulgavam publicamente seus modelos e seus projetos de design reproduzíveis. Esses modelos normalmente usam o conjunto de dados Código aberto e têm requisitos computacionais relativamente baixos, permitindo que os pesquisadores otimizem e inovem continuamente em cima deles. É esse processo aberto e iterativo que levou a muitos avanços no campo da modelagem sequencial, como redes neurais recorrentes (RNN), redes de memória de longo prazo (LSTM) e mecanismos de atenção (Attention Mechanisms), isso torna possível a arquitetura do modelo Transformer. No entanto, esta abordagem aberta à investigação mudou desde o lançamento do GPT-3. Através do sucesso do GPT-3 e do ChatGPT, a OpenAI provou que, com recursos de computação e dados suficientes, é possível treinar grandes modelos de linguagem com recursos de compreensão de linguagem. Esta tendência levou a um aumento acentuado dos limiares de recursos, levando à exclusão gradual do meio académico e ao facto de as empresas Big Tech já não divulgarem as suas arquiteturas de modelos para manter uma vantagem competitiva. Esta situação limita a nossa capacidade de impulsionar a vanguarda da IA. Código aberto AI, implementado através da tecnologia de encriptação, pode mudar isso. Ele permite que os pesquisadores iterem em modelos de ponta novamente para descobrir o "próximo Transformer". Essa combinação não só resolve o problema dos recursos, mas também revigora a inovação no campo do aprendizado de máquina, abrindo um caminho mais amplo para o futuro da IA.