Variant 投资合伙人：Código aberto AI 的困境与突破，为什么encriptação技术是最后一块拼图？

Question

Autor: Daniel BarabanderCompilado por TechFlow da DeepTechResumo breveO desenvolvimento da IA básica atualmente é liderado por algumas poucas empresas de tecnologia, apresentando características de fechamento e falta de concorrência.Embora o desenvolvimento de software de código aberto seja uma solução potencial, a IA básica não pode operar da mesma forma que projetos de código aberto tradicionais, como o Linux, devido a um 'problema de recursos': os contribuidores de código aberto não apenas precisam dedicar tempo, mas também precisam arcar com os custos computacionais e de dados além de suas capacidades pessoais.A tecnologia de criptografia pode resolver o problema de recursos incentivando os provedores a participarem de projetos de IA de código aberto fundamentais.Combinar a inteligência artificial de código aberto com a tecnologia de criptografia pode apoiar o desenvolvimento de modelos em grande escala e impulsionar mais inovações para criar sistemas de inteligência artificial mais avançados.IntroduçãoDe acordo com uma pesquisa do Pew Research Center realizada em 2024, 64% dos americanos acreditam que as mídias sociais têm mais desvantagens do que vantagens para o país; 78% das pessoas afirmam que as empresas de mídia social têm poder e influência política excessivos; 83% acreditam que essas plataformas provavelmente censurarão intencionalmente pontos de vista políticos com os quais não concordam. A insatisfação com as mídias sociais se tornou quase um consenso raro na sociedade americana.Olhando para os últimos 20 anos de desenvolvimento das mídias sociais, essa situação parece ter sido predestinada. A história não é complicada: algumas poucas grandes empresas de tecnologia capturaram a atenção dos usuários e, o mais importante, controlaram os dados dos usuários. Embora inicialmente as pessoas tivessem esperança na abertura dos dados, essas empresas logo mudaram de estratégia, aproveitaram os dados para criar efeitos de rede inquebráveis e bloquearam o acesso externo. O resultado final é a situação atual: menos de 10 grandes empresas de tecnologia dominam a indústria de mídias sociais, formando um monopólio de poucos. Devido aos benefícios que essa situação traz para elas, essas empresas têm pouco incentivo para mudar. Esse modelo é fechado e carente de concorrência.Atualmente, o desenvolvimento da tecnologia de IA parece estar repetindo esta cena, mas desta vez o impacto é ainda mais profundo. Algumas poucas empresas de tecnologia, controlando GPU e recursos de dados, construíram modelos de IA básicos e fecharam o acesso a esses modelos. Para os recém-chegados sem bilhões de dólares em financiamento, é quase impossível desenvolver um modelo competitivo. O custo computacional apenas para treinar um modelo básico é da ordem dos bilhões de dólares, e as empresas de mídia social que se beneficiaram da última onda tecnológica estão utilizando o controle exclusivo de dados do usuário para desenvolver modelos inalcançáveis para os concorrentes. Estamos repetindo os erros das mídias sociais, caminhando em direção a um mundo de IA fechado e carente de competição. Se essa tendência persistir, poucas empresas de tecnologia terão controle ilimitado sobre a obtenção de informações e oportunidades.IA de código aberto e "questões de recursos"Se não quisermos ver um mundo de IA fechado, qual é a nossa opção? A resposta óbvia é desenvolver modelos básicos como projetos de software de código aberto. Na história, tivemos inúmeros projetos de código aberto que construíram com sucesso o software básico em que dependemos diariamente. Por exemplo, o sucesso do Linux prova que até mesmo software central como um sistema operacional pode ser desenvolvido de forma aberta. Então, por que não LLMs (modelos de linguagem grandes)?No entanto, as restrições especiais enfrentadas pelos modelos AI básicos os tornam diferentes do software tradicional, o que enfraquece muito a viabilidade deles como projetos de código aberto tradicionais. Especificamente, os modelos AI básicos exigem enormes recursos computacionais e de dados, muito além das capacidades individuais. Ao contrário dos projetos de código aberto tradicionais, que dependem apenas da doação de tempo das pessoas, o código aberto AI também exige a doação de capacidade computacional e recursos de dados, o que é chamado de "problema de recursos".Tomando o modelo LLaMa da Meta como exemplo, podemos entender melhor esse problema de recursos. Ao contrário de concorrentes como OpenAI e Google, a Meta não esconde o modelo por trás de uma API paga, mas disponibiliza publicamente os pesos do LLaMa para uso gratuito por qualquer pessoa (com algumas restrições). Esses pesos contêm o conhecimento que o modelo adquiriu durante o processo de treinamento da Meta e são um requisito essencial para executar o modelo. Com esses pesos, os usuários podem ajustar o modelo ou usar a saída do modelo como entrada para um novo modelo.Embora o Meta tenha divulgado o valor do peso da LLaMa, que merece reconhecimento, não pode ser considerado um projeto de software de código aberto genuíno. O Meta controla nos bastidores o processo de treinamento do modelo, confiando em seus recursos computacionais, dados e decisões, e decide unilateralmente quando abrir o modelo ao público. O Meta não convida pesquisadores ou desenvolvedores independentes para colaborar na comunidade, pois os recursos necessários para treinar ou re-treinar o modelo estão muito além das capacidades de um indivíduo comum. Esses recursos incluem dezenas de milhares de GPUs de alto desempenho, centros de dados para armazenar essas GPUs, instalações complexas de refrigeração e dezenas de trilhões de Tokens (unidades de dados textuais necessárias para o treinamento do modelo). Como apontado pelo relatório de Índice de Inteligência Artificial de 2024 da Universidade Stanford, "o acentuado aumento do custo de treinamento efetivamente exclui as universidades, que tradicionalmente são os líderes em pesquisa de IA, do desenvolvimento dos principais modelos básicos". Por exemplo, Sam Altman mencionou que o custo do treinamento do GPT-4 chegou a US$ 100 milhões, sem incluir os gastos de capital com instalações de hardware. Além disso, os gastos de capital do Meta no segundo trimestre de 2024 aumentaram US$ 2,1 bilhões em comparação com o mesmo período de 2023, principalmente para infraestrutura de servidores, centros de dados e rede relacionada ao treinamento de modelos de IA. Portanto, embora os contribuidores da comunidade da LLaMa possam ter a capacidade técnica de melhorar a arquitetura do modelo, eles não têm recursos suficientes para concretizar essas melhorias.Em resumo, ao contrário de projetos de software de código aberto tradicionais, os projetos de IA de código aberto não apenas exigem que os contribuidores dediquem tempo, mas também exigem que assumam custos elevados de computação e dados. Contar apenas com boa vontade e espírito voluntário para motivar um número suficiente de provedores de recursos é impraticável. Eles precisam de mais mecanismos de incentivo. Tomemos o modelo de linguagem BLOOM de código aberto como exemplo, que reúne os esforços de 1000 pesquisadores voluntários de mais de 70 países e 250 instituições, e possui 1760 bilhões de parâmetros. Embora o sucesso do BLOOM seja admirável (eu apoio totalmente isso), levou um ano para coordenar um treinamento e dependeu de uma doação de 3 milhões de euros de uma instituição de pesquisa francesa (sem contar o investimento em capital para o supercomputador usado para treinar o modelo). Depender de uma nova rodada de financiamento para coordenar e iterar o BLOOM é muito complicado e não pode competir com a velocidade de desenvolvimento de laboratórios de tecnologia de grande escala. Já se passaram mais de dois anos desde o lançamento do BLOOM e até agora não ouvimos falar de nenhuma modelagem subsequente feita pela equipe.Para tornar a IA de código aberto possível, precisamos encontrar uma maneira de incentivar os provedores de recursos a contribuírem com sua capacidade de computação e recursos de dados, em vez de deixar que os contribuidores de código aberto arquem com esses custos.Por que a tecnologia de criptografia pode resolver o problema de recursos do AI de código aberto fundamentalA chave para a inovação da tecnologia de criptografia está no mecanismo de 'propriedade', que torna projetos de software de código aberto de alto custo de recursos possíveis. Ele resolve o problema de recursos do AI de código aberto incentivando potenciais provedores de recursos a participarem da rede, em vez de fazer com que os colaboradores de código aberto assumam antecipadamente esses custos de recursos.O Bitcoin é um bom exemplo. Como o primeiro projeto de criptografia, o Bitcoin é um projeto de software completamente aberto, cujo código sempre foi público. No entanto, o código em si não é o ponto-chave do Bitcoin. Apenas baixar e executar o software do nó Bitcoin para criar um blockchain local não tem significado real. O verdadeiro valor desse software só pode ser visto quando a quantidade de cálculos para minerar blocos supera a capacidade de cálculo de qualquer contribuinte individual: manter um livro-razão descentralizado e sem controle central. Assim como a IA de código aberto básica, o Bitcoin também é um projeto de código aberto que requer recursos além da capacidade individual. Embora suas necessidades de recursos de computação sejam diferentes - o Bitcoin precisa de recursos de computação para garantir a integridade da rede, enquanto a IA básica precisa de recursos de computação para otimizar e iterar modelos - eles têm em comum a dependência de recursos além da capacidade individual.O "segredo" para o Bitcoin, assim como qualquer outra rede cripto, para poder incentivar os participantes a contribuir com recursos para projetos de software de código aberto é fornecer propriedade da rede por meio de tokens. Como declarado na filosofia fundadora de Jesse, escrita para a Variant em 2020, a propriedade fornece um forte incentivo para que os provedores de recursos estejam dispostos a contribuir com recursos em troca de ganhos potenciais na rede. Este mecanismo é semelhante à forma como as startups abordam o subfinanciamento em fase inicial através do "capital de suor" – ao pagar aos funcionários em fase inicial (por exemplo, fundadores) principalmente sob a forma de propriedade da empresa, as startups são capazes de atrair mão de obra que, de outra forma, não seriam capazes de pagar. A criptografia expande o conceito de "equidade de suor" de se concentrar em contribuintes de tempo para provedores de recursos. Como resultado, a Variant se concentra em investir em projetos que alavancam mecanismos de propriedade para construir efeitos de rede, como Uniswap, Morpho e World.Se quisermos que a IA de código aberto se torne realidade, o mecanismo de propriedade implementado por meio de tecnologia de criptografia é a solução fundamental para resolver o problema dos recursos. Esse mecanismo permite que os pesquisadores contribuam livremente com suas ideias de design de modelo para projetos de código aberto, pois os recursos computacionais e de dados necessários para implementar essas ideias serão fornecidos pelos provedores de recursos, que receberão parte da propriedade do projeto como recompensa, em vez de exigir que os pesquisadores arquem com altos custos iniciais. Na IA de código aberto, a propriedade pode assumir diversas formas, mas a mais esperada é a propriedade do modelo em si, que é a solução proposta pela Pluralis.A abordagem proposta pela Pluralis é conhecida como Modelos de Protocolo. Neste modelo, o provedor de recursos de computação pode contribuir com poder de computação para treinar um modelo de código aberto específico e, assim, receber propriedade parcial da receita de inferência futura desse modelo. Como essa propriedade está vinculada a um modelo específico e seu valor é baseado na receita de inferência do modelo, os provedores de recursos de computação são incentivados a escolher o modelo ideal para treinar sem falsificar os dados de treinamento (porque fornecer treinamento inútil reduz diretamente o valor esperado da receita de inferência futura). No entanto, uma questão-chave é: como a Pluralis garante a segurança da propriedade se o processo de treinamento exige que os pesos do modelo sejam enviados para o provedor de computação? A resposta está em usar o paralelismo de modelo para distribuir fragmentos de modelo para diferentes trabalhadores. Uma característica importante das redes neurais é que, mesmo que apenas uma pequena fração dos pesos do modelo seja conhecida, o computador ainda pode participar do treinamento, garantindo que o conjunto completo de pesos não possa ser extraído. Além disso, como muitos modelos diferentes são treinados ao mesmo tempo na plataforma Pluralis, o treinador será confrontado com um grande número de conjuntos de pesos diferentes, o que torna extremamente difícil reconstruir o modelo completo.O modelo de Protocolo tem como ideia central: esses modelos podem ser treinados e usados, mas não podem ser totalmente extraídos do protocolo (a menos que se utilize poder de computação superior ao necessário para treinar o modelo do zero). Esse mecanismo resolve a questão levantada com frequência pelos críticos de IA de código aberto, ou seja, que concorrentes fechados de IA podem se apropriar do trabalho árduo de projetos de código aberto.Por que a tecnologia criptográfica + código aberto = uma IA melhorNo início do artigo, analisei o controle da IA pelas grandes empresas de tecnologia e destaquei os problemas éticos e normativos da IA fechada. No entanto, numa era de internet marcada pela sensação de impotência, preocupa-me que esse argumento possa não ressoar com a maioria dos leitores. Por isso, pretendo apresentar dois motivos baseados em resultados reais para explicar por que a IA de código aberto suportada por tecnologia de criptografia pode verdadeiramente trazer uma IA melhor.Em primeiro lugar, a combinação de tecnologia de criptografia e IA de código aberto pode coordenar mais recursos para impulsionar o desenvolvimento dos Modelos de Fundação da próxima geração. Pesquisas mostram que tanto o aumento da capacidade de computação quanto dos recursos de dados ajudam a melhorar o desempenho do modelo, o que é a razão pela qual o escopo dos modelos de fundação continua a crescer. O Bitcoin nos mostrou o potencial da combinação de software de código aberto com tecnologia de criptografia em termos de capacidade de computação. Tornou-se a maior e mais poderosa rede de computação do mundo, muito além dos recursos de computação em nuvem das grandes empresas de tecnologia. A singularidade da tecnologia de criptografia está em sua capacidade de transformar a competição isolada em competição colaborativa. Ao incentivar os provedores de recursos a contribuir com recursos para resolver problemas comuns, em vez de lutar individualmente e duplicar esforços, as redes criptográficas conseguem utilizar eficientemente os recursos. A IA de código aberto com tecnologia de criptografia poderá aproveitar os recursos de computação e dados em todo o mundo para construir modelos muito maiores do que a IA fechada. Por exemplo, a empresa Hyperbolic já demonstrou o potencial desse modelo. Através de um mercado aberto, eles permitiram que qualquer pessoa alugue GPUs a baixo custo, aproveitando ao máximo os recursos de computação distribuída.Além disso, a combinação de tecnologia criptográfica e inteligência artificial de código aberto impulsionará a inovação. Isso ocorre porque, uma vez que o problema dos recursos é resolvido, a pesquisa em aprendizado de máquina pode retornar à sua natureza altamente iterativa e inovadora de código aberto. Antes do surgimento do modelo de linguagem de grande escala (LLM), os pesquisadores em aprendizado de máquina costumavam publicar abertamente seus modelos e os blueprints de design replicáveis. Esses modelos normalmente usam conjuntos de dados de código aberto, e os requisitos de computação são relativamente baixos, permitindo assim que os pesquisadores continuem a otimização e inovação. Foi esse processo aberto de iteração que gerou muitas inovações no campo da modelagem de sequências, como redes neurais recorrentes (RNN), redes neurais de longa memória (LSTM) e mecanismos de atenção, finalmente possibilitando a arquitetura do modelo Transformer. No entanto, esse modo aberto de pesquisa mudou após o lançamento do GPT-3. A OpenAI, com o sucesso do GPT-3 e do ChatGPT, provou que, desde que haja recursos computacionais e dados suficientes, é possível treinar grandes modelos de linguagem com capacidade de compreensão. Essa tendência resultou em um aumento acentuado do limiar de recursos, excluindo gradualmente o meio acadêmico, e as grandes empresas de tecnologia, a fim de manter uma vantagem competitiva, deixaram de divulgar suas arquiteturas de modelo. Essa situação limita nossa capacidade de impulsionar as tecnologias de IA de ponta.A inteligência artificial de código aberto implementada por meio de tecnologia de criptografia pode mudar essa situação. Isso permite que os pesquisadores iterem novamente nos modelos de ponta e descubram o 'próximo Transformer'. Essa combinação não apenas resolve problemas de recursos, mas também reativa a vitalidade inovadora no campo da aprendizagem de máquina, abrindo caminhos mais amplos para o futuro desenvolvimento da IA.