Encaminhar o título original: Decentralised Compute
O artigo de hoje aborda o setor emergente, mas frequentemente incompreendido, de computação descentralizada em criptomoedas. Adentramos no cenário de infraestrutura de IA para entender onde as alternativas descentralizadas podem competir realisticamente.
Exploramos perguntas como: ASI pode ser treinado em redes distribuídas? Quais vantagens únicas as redes de cripto oferecem? E por que a infraestrutura de computação sem permissão pode se tornar tão essencial para a IA quanto o Bitcoin é para as finanças.
Um padrão comum que você notará no artigo é o crescimento exponencial de tudo IA—investimento, computação e capacidades. Isso coincide com um ressurgimento nos mercados cripto e na mente das pessoas. Estamos muito animados com a interseção dessas duas ondas tecnológicas principais.
Olá!
Em um dia ensolarado em Memphis, Tennessee, um avião espião com hélice circulou repetidamente sobre um prédio industrial, seus passageiros fotografando freneticamente as instalações abaixo. Isso não foi uma cena de espionagem da Guerra Fria, mas de 2024. O alvo não era uma instalação militar ou um local de enriquecimento de urânio, mas uma antiga fábrica de eletrodomésticos que agora abriga um dos supercomputadores mais poderosos do mundo. Os passageiros não eram agentes estrangeiros, mas funcionários de uma empresa rival de centros de dados.
A cada poucas décadas, surge uma tecnologia transformadora com o potencial de alterar inquestionavelmente a trajetória da civilização. O que se segue é uma corrida entre as entidades mais poderosas do mundo para realizar essa tecnologia primeiro. As recompensas são tão imensas e as consequências do fracasso tão devastadoras que essas entidades mobilizam rapidamente todo o seu arsenal de recursos - talento humano e capital - para dominar a tecnologia.
No século XX, duas tecnologias destacadas se encaixam nesta definição - armas nucleares e exploração espacial. A corrida para aproveitar essas tecnologias envolveu as nações-estado mais poderosas. As vitórias dos Estados Unidos em ambas as áreas cimentaram seu status como a superpotência dominante do mundo, inaugurando uma era de prosperidade sem precedentes. Para os derrotados - a Alemanha nazista e a União Soviética - as consequências foram devastadoras, até mesmo terminais.
A gigantesca planta K-25 de 44 acres em Oak Ridge, Tennessee, EUA, onde o urânio para a primeira arma atômica foi produzidofonte)
A vitória da América teve um preço enorme. O Projeto Manhattan custou quase US$ 2 bilhões (aproximadamente US$ 30 bilhões ajustados pela inflação) e empregou mais de 120.000 pessoas - uma em cada mil americanos. A corrida espacial exigiu recursos ainda maiores. O programa Apollo custou US$ 28 bilhões nos anos 1960 (cerca de US$ 300 bilhões em dinheiro atual) e envolveu mais de 400.000 pessoas - uma em 490 americanos. No auge em 1966, a NASA comandava 4,4% do orçamento federal dos EUA inteiro.
A Apollo 11, momentos antes do lançamento na missão para a lua (fonte)
O lançamento do ChatGPT em 2022 marcou o início de uma nova corrida com proporções que alteram a civilização - a busca pela superinteligência artificial (ASI). Embora a IA já esteja incorporada à vida cotidiana - gerenciando feeds de mídia social, recomendações da Netflix e filtros de spam de e-mail - a emergência de grandes modelos de linguagem (LLMs) promete transformar tudo: produtividade humana, criação de mídia, pesquisa científica e a própria inovação.
Desta vez, os concorrentes não são os Estados-nação (pelo menos, por enquanto), mas as maiores corporações do mundo (Microsoft, Google, Meta, Amazon), as startups mais promissoras (OpenAI, Anthropic) e o indivíduo mais rico (Elon Musk). Enquanto a Big Tech canaliza um capital sem precedentes para a construção da infraestrutura para treinar modelos cada vez mais poderosos, as startups estão se assegurandorecorde quebrandofinanciamento de capital de risco. Elon é, bem, fazendo coisas de Elon (o centro de dados sob vigilância pertencia à sua empresa, xAI).
E então há todos os outros - empresas, empresas menores e startups - que podem não aspirar a construir ASI, mas estão ansiosos para aproveitar as capacidades de ponta desbloqueadas pela IA para otimizar seus negócios, perturbar uma indústria ou criar completamente novas. As recompensas potenciais são tão vastas que todos estão se esforçando para reivindicar sua parcela dessa nova economia impulsionada pela inteligência artificial.
No centro da revolução da IA está o seu componente mais essencial: a unidade de processamento gráfico (GPU). Originalmente projetada para alimentar jogos de vídeo, este chip de computador especializado tornou-se a commodity mais quente do mundo. A demanda por GPUs é tão avassaladora que as empresas frequentemente suportam listas de espera de mesesapenas para adquirir alguns. Essa demanda catapultou a NVIDIA, seu principal fabricante, para a posição da empresa mais valiosa do mundo.
Para empresas incapazes ou pouco dispostas a adquirir diretamente GPUs, alugar poder de computação tornou-se a melhor opção. Isso impulsionou o surgimento de provedores de nuvem de IA - empresas que operam centros de dados sofisticados projetados para atender às necessidades computacionais do boom de IA. No entanto, o aumento da demanda e sua natureza imprevisível significam que nem o preço nem a disponibilidade são garantidos.
Eu argumentouque a cripto funciona como uma tecnologia “Coasian”, projetada para “olear as engrenagens, pavimentar as estradas e fortalecer as pontes” para que outras inovações disruptivas floresçam. À medida que a IA emerge como a força transformadora de nossa era, a escassez e o custo exorbitante de acesso à GPU apresentam uma barreira à inovação. Várias empresas de cripto estão entrando em cena, com o objetivo de derrubar essas barreiras com incentivos baseados em blockchain.
No artigo de hoje, damos um passo atrás das criptomoedas para examinar os fundamentos da infraestrutura moderna de IA - como as redes neurais aprendem, por que as GPUs se tornaram essenciais e como os data centers de hoje estão evoluindo para atender às demandas computacionais sem precedentes. Em seguida, mergulhamos nas soluções de computação descentralizada, explorando onde elas podem competir realisticamente com os provedores tradicionais, as vantagens únicas que as redes de criptomoedas oferecem e por que - embora elas não nos proporcionem IA geral - ainda serão essenciais para garantir que os benefícios da IA permaneçam acessíveis a todos.
Vamos começar com o motivo pelo qual as GPUs são tão importantes em primeiro lugar.
Esta é David, uma escultura de mármore de 17 pés de altura e 6 toneladas, criada pelo gênio renascentista italiano Michelangelo. Ela retrata o herói bíblico da história de Davi e Golias e é considerada uma obra-prima por sua representação impecável da anatomia humana e atenção magistral à perspectiva e detalhes.
Como todas as esculturas de mármore, David começou como uma enorme laje áspera de mármore de Carrara. Para chegar à sua forma final, majestosa, Michelangelo teve que retirar metodicamente a pedra. Começando com golpes amplos e ousados para estabelecer a forma humana básica, ele progrediu para detalhes cada vez mais finos - a curva de um músculo, a tensão em uma veia, a sutil expressão de determinação nos olhos. Michelangelo levou três anos para libertar David da pedra.
Mas por que discutir uma figura de mármore de 500 anos em um artigo sobre IA?
Como David, toda rede neural começa como um potencial puro - uma coleção de nós inicializados com números aleatórios (pesos), tão informe quanto aquele enorme bloco de mármore de Carrara.
Este modelo bruto é alimentado repetidamente com dados de treinamento - inúmeras instâncias de entradas emparelhadas com suas saídas corretas. Cada ponto de dados que passa pela rede dispara milhares de cálculos. Em cada nó (neurônio), as conexões de entrada multiplicam o valor de entrada pelo peso da conexão, somam esses produtos e transformam o resultado por meio de uma 'função de ativação' que determina a força de disparo do neurônio.
Assim como Michelangelo dava um passo atrás, avaliava seu trabalho e corrigia o rumo, as redes neurais passam por um processo de refinamento. Após cada passagem para frente, a rede compara sua saída com a resposta correta e calcula sua margem de erro. Através de um processo chamado retropropagação, ela mede quanto cada conexão contribuiu para o erro e, como os golpes do cinzel de Michelangelo, faz ajustes em seus valores. Se uma conexão leva a uma previsão incorreta, sua influência diminui. Se ajuda a alcançar a resposta certa, sua influência se fortalece.
Quando todos os dados passam pela rede (completando uma etapa de propagação para frente e para trás por ponto de dados), marca o fim de uma "época". Esse processo se repete várias vezes, com cada passagem refinando a compreensão da rede. Durante as primeiras épocas, as mudanças de peso são dramáticas à medida que a rede faz ajustes amplos, como aqueles primeiros golpes de cinzel em negrito. Nas épocas posteriores, as mudanças se tornam mais sutis, ajustando as conexões para um desempenho ideal - assim como os delicados toques finais trouxeram os detalhes de David à tona.
Finalmente, após milhares ou milhões de iterações, o modelo treinado emerge. Como David, orgulhoso em sua forma final, a rede neural se transforma de ruído aleatório em um sistema capaz de reconhecer padrões, fazer previsões, gerar imagens de gatos andando de patinete ou permitir que os computadores entendam e respondam em linguagem humana.
Michelangelo, trabalhando sozinho em David, só podia fazer uma única batida de cinzel de cada vez, cada uma exigindo cálculos precisos de ângulo, força e posição. Essa precisão meticulosa é por isso que ele levou três anos incansáveis para completar sua obra-prima. Mas imagine milhares de escultores igualmente habilidosos trabalhando em David em perfeita coordenação - uma equipe nos cachos de cabelo, outra nos músculos do tronco e centenas mais nos detalhes intricados do rosto, mãos e pés. Esse esforço paralelo comprimiria esses três anos em meros dias.
Da mesma forma, enquanto as CPUs são poderosas e precisas, elas só podem realizar um cálculo de cada vez. Treinar uma rede neural não requer um cálculo complexo único, mas sim centenas de milhões de cálculos simples - principalmente multiplicações e adições em cada nó. Por exemplo, a rede neural de amostra mencionada anteriormente, com apenas 18 nós e cerca de 100 conexões (parâmetros), pode ser treinada em uma CPU dentro de um período de tempo razoável.
No entanto, os modelos mais poderosos de hoje, como o GPT-4 da OpenAI, possuem 1,8 trilhão de parâmetros! Mesmo os modelos modernos menores contêm pelo menos um bilhão de parâmetros. Treinar esses modelos um cálculo de cada vez levaria séculos. É aí que as GPUs se destacam: elas podem realizar um grande número de cálculos matemáticos simples simultaneamente, tornando-as ideais para processar múltiplos nós de rede neural em paralelo.
As GPUs modernas são incrivelmente poderosas. A mais recente GPU B200 da NVIDIA, por exemplo, consiste em mais de 200 bilhões de transistores e suporta 2,250 trilhões de cálculos paralelos por segundo (2,250 TFLOPS). Uma única GPU B200 pode lidar com modelos de até 740 bilhões de parâmetros. Essas máquinas representam feitos da engenharia moderna, o que explica por que a NVIDIA, vendendo cada unidade a $40,000, viu seu preço das ações disparar mais de 2,500% em cinco anos.
Jensen Huang apresentando o NVIDIA B200
No entanto, mesmo essas máquinas formidáveis não podem treinar modelos de IA sozinhas. Lembre-se de que durante o treinamento, cada instância de dados deve passar pelo modelo em um ciclo para frente e para trás individualmente. Modelos modernos de linguagem de grande escala (LLMs) são treinados em conjuntos de dados que abrangem toda a internet. GPT-4, por exemplo, processou cerca de 12 trilhões de tokens (aproximadamente 9 trilhões de palavras) e espera-se que a próxima geração de modelos seja capaz de lidar com até 100 trilhões de tokens. O uso de uma única GPU para um volume tão imenso de dados ainda levaria séculos.
A solução reside em adicionar mais uma camada de paralelismo - criando clusters de GPU onde as tarefas de treinamento são distribuídas entre várias GPUs trabalhando como um sistema unificado. As cargas de trabalho de treinamento do modelo podem ser paralelizadas de três maneiras:
Paralelismo de Dados: Múltiplas GPUs mantêm uma cópia completa do modelo de rede neural enquanto processam diferentes partes dos dados de treinamento. Cada GPU processa seu lote de dados atribuído de forma independente antes de sincronizar periodicamente com todas as outras GPUs. Nesse período de sincronização, as GPUs se comunicam entre si para encontrar uma média coletiva de seus pesos e, em seguida, atualizam seus pesos individuais para que sejam todos idênticos. Consequentemente, elas continuam treinando em seu lote de dados individualmente antes de ser hora de sincronizar novamente.
À medida que os modelos se tornam maiores, uma única cópia pode se tornar muito grande para caber em uma única GPU. Por exemplo, a mais recente GPU B200 pode suportar apenas 740 bilhões de parâmetros, enquanto o GPT-4 é um modelo com 1,8 trilhão de parâmetros. O paralelismo de dados entre GPUs individuais não funciona nesse caso.
Paralelismo de Tensor: Esta abordagem aborda a restrição de memória distribuindo o trabalho e os pesos de cada camada do modelo em várias GPUs. As GPUs trocam cálculos intermediários com todo o cluster durante cada etapa de propagação para a frente e para trás. Essas GPUs são normalmente agrupadas em servidores de oito unidades, conectadas via NVLink - a interconexão direta de GPU para GPU de alta velocidade da NVIDIA. Essa configuração requer conexões de alta largura de banda (até 400 Gb/s) e baixa latência entre as GPUs. Um cluster de tensores funciona efetivamente como uma única GPU massiva.
Paralelismo de pipeline: Este método divide o modelo em várias GPUs, com cada GPU lidando com camadas específicas. Os dados fluem por essas GPUs sequencialmente, como uma corrida de revezamento onde cada corredor (GPU) gerencia sua parte antes de passar o bastão. O paralelismo de pipeline é particularmente eficaz para conectar diferentes servidores de 8 GPUs dentro de um centro de dados, usando redes InfiniBand de alta velocidade para comunicação entre servidores. Embora seus requisitos de comunicação sejam maiores do que o paralelismo de dados, eles permanecem menores do que as trocas intensivas de GPU para GPU do paralelismo de tensor.
A escala dos clusters modernos é notável. GPT-4, com 1,8 trilhões de parâmetros e 120 camadas, exigiu 25.000 GPUs A100 para treinamento. O processo levou três meses e custou mais de $60 milhões. A A100 é duas gerações antigas; usando as GPUs B200 de hoje, seriam necessárias apenas cerca de 8.000 unidades e 20 dias de treinamento. Apenas mais uma demonstração de como a IA está avançando rapidamente.
Mas a classe de modelos GPT-4 são brinquedos antigos agora. O treinamento para a próxima geração de modelos avançados está em andamento em centros de dados que abrigam clusters de 100.000 B100 ou H100 GPUs (este último sendo uma geração mais antiga). Esses clusters, representando mais de US$ 4 bilhões em despesas de capital de GPU, são os supercomputadores mais poderosos da humanidade, entregando pelo menos quatro vezes a potência de computação bruta dos pertencentes ao governo.
Além de garantir o poder de computação bruto, os aspirantes da ASI enfrentam outro problema ao tentar configurar esses clusters: eletricidade. Cada uma dessas GPUs consome 700W de energia. Quando você combina 100.000 delas, o cluster inteiro (incluindo hardware de suporte) consome mais de 150MW de energia. Para se ter uma ideia, esse consumo equivale ao de uma cidade de 300.000 pessoas, comparável a Nova Orleans ou Zurique.
A loucura não para por aqui. A maioria dos aspirantes a ASI acredita que a Leis de escalonamento de LLM—que sugerem que o desempenho do modelo melhora previsivelmente com o aumento do tamanho do modelo, do tamanho do conjunto de dados e do treinamento computacional—continuará sendo verdadeiro. Já estão em andamento planos para treinar modelos ainda mais poderosos. Até 2025, estima-se que o custo de cada cluster de treinamento ultrapasse 10 bilhões de dólares. Até 2027, ultrapassará 100 bilhões de dólares. Conforme esses números se aproximam do investimento do governo dos EUA nos programas Apollo, fica claro por que alcançar a IAAS emergiu como a corrida definidora de nossa era.
Métricas para modelos a partir do GPT-5 são estimativas
À medida que o consumo de eletricidade cresce proporcionalmente com o tamanho dos clusters, as execuções de treinamento do próximo ano exigirão mais de 1GW de energia. No ano seguinte, 10GW ou mais. Sem indicações de desaceleração dessa expansão, espera-se que os centros de dados consumam aproximadamente 4,5% do global gerado até 2030. Redes elétricas existentes, já está lutando com as demandas atuais do modelo, não consegue gerar energia suficiente para futuros clusters. Isso levanta uma questão crítica: de onde virá essa energia? As Big Tech estão adotando uma abordagem de duas frentes.
A longo prazo, a única solução viável é que os aspirantes à ASI gerem sua própria eletricidade. Dadas suas metas climáticas, essa energia deve vir de fontes renováveis. A energia nuclear se destaca como a solução primária. Amazon recentemente adquiridoum campus de data center alimentado por uma usina nuclear por $650 milhões. Microsoftcontratou um chefe de tecnologias nucleares e é revivendo a histórica usina de Three Mile Island. O Google temadquiriu vários reatores nucleares pequenosda Kairos Power da Califórnia. Sam Altman da OpenAI apoiou startups de energia como Helion, Exowatt, e Oklo.
A Microsoft está reabrindo a Usina Nuclear de Three Mile Island (fonte da imagem)
Enquanto as sementes da energia nuclear estão sendo plantadas agora, os frutos (ou energia) levarão vários anos para dar frutos. E quanto aos requisitos de energia para a geração imediata de modelos? A solução provisória envolve treinamento distribuído em vários centros de dados. Em vez de concentrar demandas de energia massivas em um local, empresas como Microsoft e Google estão distribuindo seus clusters de treinamento em vários sites.
O desafio, é claro, é fazer com que esses sistemas distribuídos trabalhem juntos de forma eficaz. Mesmo na velocidade da luz, os dados levam aproximadamente 43ms para uma viagem de ida e volta da Costa Leste para a Costa Oeste dos EUA - uma eternidade em termos de computação. Além disso, se mesmo um chip ficar para trás, digamos, 10%, isso faz com que toda a execução do treinamento seja desacelerada na mesma proporção.
A solução reside em conectar centros de dados em vários locais com redes de fibra óptica de alta velocidade e aplicar uma combinação das técnicas de paralelismo discutidas anteriormente para sincronizar suas operações. O paralelismo do tensor é aplicado às GPUs dentro de cada servidor, permitindo que funcionem como uma única unidade. O paralelismo de pipeline, com suas demandas de rede mais baixas, é empregado para conectar servidores dentro do mesmo centro de dados. Por fim, os centros de dados em diferentes localizações (chamados de "ilhas") sincronizam suas informações periodicamente usando o paralelismo de dados.
Anteriormente, observamos que o paralelismo de dados é ineficaz para GPUs individuais porque elas não podem acomodar modelos grandes de forma independente. No entanto, essa dinâmica muda quando estamos paralelizando ilhas - cada uma contendo milhares de GPUs - em vez de unidades individuais. Os dados de treinamento são distribuídos por cada ilha, e essas ilhas sincronizam periodicamente por meio das conexões de fibra ótica relativamente mais lentas (em comparação com NVLink e Infiniband).
Vamos mudar nosso foco do treinamento e das GPUs para os próprios centros de dados.
Há vinte anos, a Amazon lançou a Amazon Web Services (AWS) — um dos negócios mais transformadores da história — e criou uma indústria completamente nova conhecida como computação em nuvem. Os líderes atuais em nuvem (Amazon, Microsoft, Google e Oracle) desfrutam de uma confortável dominação, gerando uma receita anual combinada de quase US$ 300 bilhões com margens de 30-40%. Agora, a emergência da IA criou novas oportunidades em um mercado que permaneceu largamente oligopolista por anos.
Os requisitos físicos, a complexidade técnica e a economia dos centros de dados de IA intensiva em GPU diferem drasticamente de seus equivalentes tradicionais.
Discutimos anteriormente como as GPUs consomem muita energia. Isso faz com que os data centers de IA sejam muito mais densos em termos de energia e, consequentemente, produzam mais calor. Embora os data centers tradicionais usem ventiladores gigantes (resfriamento a ar) para dissipar o calor, essa abordagem não é suficiente nem financeiramente viável para instalações de IA. Em vez disso, os data centers de IA estão adotando sistemas de resfriamento líquido onde blocos de água se conectam diretamente a GPUs e outros componentes quentes para dissipar o calor de forma mais eficiente e silenciosa. (As GPUs B200 vêm com essa arquitetura integrada). O suporte a sistemas de resfriamento líquido requer a adição de grandes torres de resfriamento, uma instalação centralizada de sistema de água e tubulação para transportar água de e para todas as GPUs — uma modificação fundamental na infraestrutura do data center.
Além do consumo absoluto de energia mais alto, os centros de dados de IA têm requisitos de carga distintos. Enquanto os centros de dados tradicionais mantêm um consumo de energia previsível, os padrões de uso de energia da carga de trabalho de IA são muito mais voláteis. Essa volatilidade ocorre porque as GPUs alternam periodicamente entre operar com capacidade máxima e diminuir quase para a parada quando o treinamento atinge checkpoints, onde os pesos são armazenados na memória ou, como vimos anteriormente, sincronizados com outras ilhas. Os centros de dados de IA requerem infraestrutura de energia especializada para gerenciar essas flutuações de carga.
Construir clusters de GPU é muito mais difícil do que construir nuvens de computadores regulares. As GPUs precisam se comunicar entre si muito rapidamente. Para que isso aconteça, elas devem ser empacotadas muito próximas umas das outras. Uma instalação de IA típica precisa de mais de 200.000 cabos especiais chamados conexões InfiniBand. Esses cabos permitem a comunicação entre as GPUs. Se apenas um cabo parar de funcionar, todo o sistema é desligado. O processo de treinamento não pode continuar até que esse cabo seja consertado.
Esses requisitos de infraestrutura tornam quase impossível adaptar os data centers tradicionais com GPUs de alto desempenho para torná-los prontos para IA. Tal atualização exigiria uma revisão estrutural quase completa. Em vez disso, as empresas estão construindo novos data centers especificamente projetados para IA do zero, com diferentes organizações buscando isso em escalas variadas.
Na vanguarda, as principais empresas de tecnologia estão correndo para construir seus próprios data centers de IA. A Meta está investindo pesado em instalações apenas para seu próprio desenvolvimento de IA, tratando-a como um investimento de capital direto, já que não oferece serviços em nuvem. A Microsoft está construindo centros igualmente massivos para alimentar seus próprios projetos de IA e atender clientes-chave como a OpenAI. A Oracle também entrou neste espaço agressivamente, garantindo a OpenAI como um cliente notável. A Amazon continua a expandir sua infraestrutura, particularmente para apoiar empresas emergentes de IA, como a Anthropic. A xAI de Elon Musk, não querendo depender de outra empresa, optou por construir seu próprio cluster de 100.000 GPUs.
Dentro do data center de 100.000 GPUs H100 do xAI (fonte)
Ao lado dos incumbentes, estão surgindo os “neoclouds” - provedores especializados em computação em nuvem focados exclusivamente em GPU para cargas de trabalho de IA. Esses neoclouds são divididos em duas categorias distintas com base na escala.
Grandes provedores de neocloud, incluindo CoreWeave, Crusoe, e LLama Labs, operar clusters de mais de 2.000 GPUs. Eles se diferenciam dos serviços em nuvem tradicionais de duas maneiras: oferecendo soluções de infraestrutura personalizadas em vez de pacotes padronizados e exigindo compromissos de longo prazo dos clientes em vez de acordos de pagamento por uso.
Seu modelo de negócio alavanca esses acordos de longo prazo e a solvência do cliente para garantir o financiamento de infraestrutura. A receita vem das taxas premium cobradas pelos serviços especializados e dos lucros da diferença entre os baixos custos de financiamento e os pagamentos do cliente.
Assim é como esse tipo de arranjo geralmente funciona: um provedor neocloud garante um contrato de três anos com uma startup de IA bem financiada para 10.000 GPUs H100 a US$ 40 milhões por mês. Usando essa receita garantida de US$ 1,44 bilhão, o provedor garante financiamento bancário favorável (a 6% de juros) para comprar e instalar infraestrutura no valor de US$ 700 milhões. As receitas mensais de US$ 40 milhões cobrem US$ 10 milhões em custos operacionais e US$ 20 milhões em pagamentos de empréstimos, gerando US$ 10 milhões em lucros mensais, enquanto a startup recebe poder de computação dedicado e personalizado.
Este modelo requer uma seleção de clientes excepcionalmente cuidadosa. Os provedores geralmente procuram empresas com grandes reservas de dinheiro ou forte apoio de investidores - muitas vezes com avaliações de US $ 500 milhões ou mais.
Pequenas nebulosas oferecem clusters de GPU de 2.000 ou menos e atendem a um segmento separado do mercado de IA - startups de pequeno e médio porte. Essas empresas treinam modelos menores (até 70 bilhões de parâmetros) ou ajustam modelos de código aberto. (O ajuste fino é o processo de adaptar um modelo base a casos de uso específicos.) Ambas as cargas de trabalho requerem computação moderada, mas dedicada por períodos mais curtos.
Esses provedores oferecem computação sob demanda com taxas por hora para acesso ininterrupto de cluster por duração fixa. Embora isso custe mais do que contratos de longo prazo, oferece às startups a flexibilidade de experimentar sem se comprometer com acordos de vários milhões de dólares.
Finalmente, além dos incumbentes em nuvem e dos provedores de neocloud, temos os intermediários do espaço de infraestrutura de IA: plataformas e agregadores. Esses intermediários não possuem infraestrutura de GPU, mas conectam proprietários de recursos de computação com aqueles que precisam deles.
Provedores de plataforma como HydraHosteFluidstackservir como o Shopify da computação GPU. Assim como o Shopify permite que os comerciantes lancem lojas online sem construir infraestrutura de comércio eletrônico, essas plataformas permitem que operadores de data center e proprietários de GPU ofereçam serviços de computação sem desenvolver suas próprias interfaces de clientes. Eles fornecem um pacote técnico completo para executar um negócio de computação GPU, incluindo ferramentas de gerenciamento de infraestrutura, sistemas de provisão de clientes e soluções de faturamento.
Agregadores de mercado comoVast.aifunction as the Amazon of the GPU world. They create a marketplace combining diverse compute offerings from various providers—ranging from consumer-grade RTX cards to professional H100 GPUs. GPU owners list their resources with detailed performance metrics and reliability ratings, while customers purchase compute time through a self-service platform.
Até agora, nossa discussão tem se concentrado no treinamento (ou ajuste fino) de modelos. No entanto, uma vez treinado, um modelo deve ser implantado para atender aos usuários finais - um processo chamado inferência. Toda vez que você está conversando com o ChatGPT, está usando GPUs executando cargas de trabalho de inferência que recebem sua entrada e geram a resposta do modelo. Vamos voltar a falar sobre estátuas de mármore por um minuto.
Este também é David - não o original de Michelangelo, mas uma cópia em gesso encomendada pela Rainha Victoria em 1857 para o Victoria and Albert Museum de Londres. Enquanto Michelangelo passou três anos exaustivos esculpindo cuidadosamente o mármore para criar o original em Florença, essa cópia em gesso foi feita a partir de um molde direto da estátua - reproduzindo perfeitamente cada curva, ângulo e detalhe que Michelangelo havia criado. O trabalho criativo intensivo aconteceu uma vez. Depois, tornou-se uma questão de replicar fielmente essas características. Hoje, réplicas de David aparecem em todos os lugares, desde salões de museus até pátios de cassinos em Las Vegas.
Isso é exatamente como a inferência funciona em IA. Treinar um grande modelo de linguagem é como o processo escultural original de Michelangelo - intensivo em computação, demorado e pesado em recursos, à medida que o modelo aprende gradualmente a forma correta da linguagem por meio de milhões de pequenos ajustes. Mas usar o modelo treinado - inferência - é mais como criar uma réplica. Quando você conversa com o ChatGPT, você não está ensinando a ele a linguagem do zero, mas usando uma cópia de um modelo cujos parâmetros (como as curvas e ângulos precisos de Davi) já foram aperfeiçoados.
As cargas de trabalho de inferência diferem fundamentalmente do treinamento. Enquanto o treinamento requer grandes clusters densos das últimas GPUs, como H100s, para lidar com cálculos intensivos, a inferência pode ser executada em servidores de GPU única usando hardware mais antigo, como A100s ou até mesmo placas de vídeo de consumo, o que a torna significativamente mais econômica. Dito isso, as cargas de trabalho de inferência têm suas próprias demandas únicas:
Essas características tornam as cargas de trabalho de inferência ideais para modelos de preço de oferta. Sob o preço de oferta, os recursos de GPU estão disponíveis com descontos significativos - geralmente 30-50% abaixo das taxas sob demanda - com o entendimento de que o serviço pode ser pausado quando os clientes de maior prioridade precisarem de recursos. Esse modelo é adequado para inferência porque a implantação redundante permite que as cargas de trabalho mudem rapidamente para GPUs disponíveis se forem interrompidas.
Nesse contexto de GPUs e computação em nuvem de IA, agora estamos em posição de começar a explorar onde as criptomoedas se encaixam em tudo isso. Vamos (finalmente) começar.
Projetos e relatórios frequentemente citam a observação de Peter Thiel de que 'IA está centralizando, cripto está descentralizando' ao discutir o papel da cripto no treinamento de IA. Embora a afirmação de Thiel seja inquestionavelmente verdadeira, acabamos de ver ampla evidência da clara vantagem da Big Tech no treinamento de IA poderosa - muitas vezes é mal utilizada para sugerir que cripto e computadores descentralizados oferecem a solução principal para contrabalançar a influência da Big Tech.
Tais afirmações ecoam exageros anteriores sobre o potencial das criptomoedas de revolucionar as redes sociais, os jogos e inúmeras outras indústrias. Elas não apenas são contraproducentes, mas também, como argumentarei em breve, irrealistas - pelo menos a curto prazo.
Em vez disso, vou adotar uma abordagem mais pragmática. Vou supor que uma startup de IA em busca de computação não se preocupa com os princípios da descentralização ou com a oposição ideológica ao Big Tech. Em vez disso, eles têm um problema - eles querem acesso a computação confiável de GPU com o menor custo possível. Se um projeto de criptomoeda puder fornecer uma solução melhor para esse problema do que alternativas não cripto, eles o usarão.
Para isso, vamos primeiro entender com quem os projetos de criptografia estão competindo. Anteriormente, discutimos as diferentes categorias de provedores de nuvem de IA - Big Tech e hyperscalers, grandes neoclouds, pequenos neoclouds, provedores de plataformas e marketplaces.
A tese fundamental por trás da computação descentralizada (como todos os projetos DePIN) é que o mercado de computação atual opera de forma ineficiente. A demanda por GPU permanece excepcionalmente alta, enquanto o fornecimento está fragmentado e subutilizado em centros de dados globais e residências individuais. A maioria dos projetos neste setor compete diretamente com os mercados, agregando esse fornecimento disperso para reduzir as ineficiências.
Com isso estabelecido, vamos ver como esses projetos (e mercados de computação em geral) podem ajudar com diferentes cargas de trabalho de IA - treinamento, ajuste fino e inferência.
Antes de mais nada. Não, a ASI não será treinada em uma rede global de GPUs descentralizadas. Pelo menos, não na trajetória atual da IA. Aqui está o porquê.
Anteriormente, discutimos o quão grandes estão ficando os clusters de modelos de base. São necessários 100.000 dos GPUs mais poderosos do mundo para começar a competir. Esse número só aumenta a cada ano que passa. Em 2026, espera-se que o custo de uma execução de treinamento ultrapasse US$ 100 bilhões, exigindo talvez um milhão de GPUs ou mais.
Somente empresas de tecnologia gigantes, apoiadas por grandes neoclouds e parcerias diretas com a Nvidia, podem montar clusters dessa magnitude. Lembre-se, estamos em uma corrida pela IAAS, e todos os participantes estão altamente motivados e capitalizados. Se houver um suprimento adicional dessas muitas GPUs (o que não há), eles serão os primeiros a adquiri-las.
Mesmo que um projeto de criptografia de alguma forma tenha acumulado o cálculo necessário, dois obstáculos fundamentais impedem o desenvolvimento de ASI descentralizado:
Primeiro, as GPUs ainda precisam ser conectadas em grandes clusters para funcionar efetivamente. Mesmo que esses clusters sejam divididos entre ilhas em cidades, eles terão que ser conectados por linhas de fibra óptica dedicadas. Nenhum desses é possível em um ambiente descentralizado. Além da aquisição de GPUs, estabelecer centros de dados prontos para AI exige um planejamento meticuloso - tipicamente um processo de um a dois anos. (xAI fez isso em apenas 122 dias, mas é improvável que Elon lance um token tão cedo.)
Em segundo lugar, apenas criar um data center de IA não é suficiente para criar uma IA superinteligente. Como fundador da Anthropic, Dario Amodei recentemente explicado, a escalabilidade em IA é análoga a uma reação química. Assim como uma reação química requer múltiplos reagentes em proporções precisas para prosseguir, a escalabilidade bem-sucedida da IA depende de três ingredientes essenciais crescendo em conjunto: redes maiores, tempos de treinamento mais longos e conjuntos de dados maiores. Se você aumentar o tamanho de um componente sem os outros, o processo fica parado.
Mesmo que consigamos de alguma forma acumular tanto o cálculo quanto fazer com que os clusters trabalhem juntos, ainda precisamos de terabytes de dados de alta qualidade para que o modelo treinado seja bom. Sem as fontes de dados proprietárias das Big Techs, o capital para fechar acordos de vários milhões de dólares com fóruns online e veículos de mídia, ou modelos existentes para gerar dados sintéticos, adquirir dados de treinamento adequados é impossível.
Houve alguma especulação recente de que as leis de escala podem atingir um patamar, com LLMs potencialmente atingindo tetos de desempenho. Alguns interpretam isso como uma abertura para o desenvolvimento descentralizado de IA. No entanto, isso ignora um fator crucial - a concentração de talentos. As principais empresas de tecnologia e laboratórios de IA do mundo abrigam os principais pesquisadores de hoje. Qualquer caminho alternativo de avanço para AGI provavelmente surgirá desses centros. Dados o cenário competitivo, tais descobertas permaneceriam estritamente guardadas.
Considerando todos esses argumentos, tenho 99,99% de certeza de que o treinamento de ASI - ou até mesmo dos modelos mais poderosos do mundo - não será feito em um projeto de computação descentralizada. Nesse caso, quais modelos a criptografia poderia realmente ajudar a treinar?
Para que os modelos sejam treinados em clusters de GPU separados localizados em diferentes localizações geográficas, precisamos implementar o paralelismo de dados entre eles. (Lembrando que o paralelismo de dados é como diferentes ilhas de GPUs, cada uma trabalhando em pedaços separados dos dados de treinamento, sincronizam entre si). Quanto maior o modelo sendo treinado, maior a quantidade de dados que precisa ser trocada entre essas ilhas. Como discutimos, para modelos de fronteira com mais de um trilhão de parâmetros, a largura de banda necessária é grande o suficiente para exigir conexões dedicadas de fibra óptica.
Entretanto, para modelos menores, os requisitos de largura de banda diminuem proporcionalmente. Avanços recentes em algoritmos de treinamento de baixa comunicação, particularmente em sincronização atrasada, criaram oportunidades promissoras para treinamento de modelos de pequeno a médio porte de forma descentralizada. Duas equipes estão liderando esses esforços experimentais.
Pesquisa Nous é uma empresa aceleradora de IA e líder no desenvolvimento de IA de código aberto. Eles são mais conhecidos por sua série Hermes de modelos de linguagem e projetos inovadores como World Sim. No início deste ano, eles operaram uma sub-rede BitTensor com classificação LLM por alguns meses. Eles mergulharam os pés na computação descentralizada, liberando o DisTrOprojeto de Treinamento Distribuído pela Internet), onde treinaram com sucesso um modelo Llama-2 de 1,2B parâmetros, alcançando uma redução de 857x nos requisitos de largura de banda entre GPUs.
O relatório DisTrO da Nous Research
Prime Intellect, uma startup que desenvolve infraestrutura para IA descentralizada em escala, tem como objetivo agregar recursos computacionais globais e permitir o treinamento colaborativo de modelos de ponta por meio de sistemas distribuídos. Seu Framework OpenDiLoCo(implementando DeepMind’sMétodo de baixa comunicação distribuída) treinou com sucesso um modelo de um bilhão de parâmetros em dois continentes e três países, mantendo uma utilização de computação de 90-95%.
Mas como funcionam essas corridas de treinamento descentralizadas?
O paralelismo de dados tradicional exige que as GPUs compartilhem e façam a média de seus pesos após cada etapa de treinamento — impossível em conexões com a internet. Em vez disso, esses projetos permitem que cada "ilha" de GPUs treine independentemente por centenas de etapas antes de sincronizar. Pense nisso como equipes de pesquisa independentes trabalhando no mesmo projeto: em vez de verificar constantemente uns com os outros, eles fazem progressos significativos de forma independente antes de compartilhar suas descobertas.
DisTrO e OpenDiLoCo só sincronizam a cada 500 passos, utilizando uma abordagem de otimizador duplo:
Quando eles sincronizam, em vez de compartilhar todos os pesos, eles compartilham um “pseudo-gradient”—essencialmente a diferença entre seus pesos atuais e os pesos da última sincronização. Isso é notavelmente eficiente, como compartilhar apenas o que mudou em um documento em vez de enviar o documento inteiro toda vez.
INTELECTO-1, uma implementação prática do OpenDiLoCo pela Prime Intellect, está impulsionando ainda mais essa abordagem ao treinar um modelo de parâmetro 10B — o maior esforço de treinamento descentralizado até o momento. Eles adicionaram otimizações importantes, como:
INTELLECT-1, treinado por mais de 20 clusters de GPU distribuídos pelo mundo, recentemente completou pré-treinamento e em breve será lançado como um modelo totalmente de código aberto.
Painel de treinamento do INTELLECT-1
Times como Macrocosmoestão usando algoritmos semelhantes paratreinar modelosno ecossistema Bittensor.
Se esses algoritmos de treinamento descentralizados continuarem a melhorar, eles poderão ser capazes de suportar modelos de até 100 bilhões de parâmetros com a próxima geração de GPUs. Mesmo modelos dessa magnitude podem ser muito úteis para uma ampla variedade de casos de uso:
O ajuste fino é o processo de pegar um modelo de base pré-treinado (geralmente um de código aberto da Meta, Mistral ou Alibaba) e treiná-lo ainda mais em um conjunto de dados específico para adaptá-lo a tarefas ou domínios específicos. Isso requer significativamente menos computação do que treinar do zero, pois o modelo já aprendeu padrões de linguagem gerais e só precisa ajustar seus pesos para o novo domínio.
Calcular os requisitos para ajustar a escala com o tamanho do modelo. Supondo o treinamento em um H100:
Dadas essas especificações, o ajuste fino não exige os complexos algoritmos de treinamento distribuído discutidos anteriormente. O modelo sob demanda, em que os desenvolvedores alugam clusters de GPU por períodos curtos e concentrados, fornece suporte adequado. Os mercados de computação descentralizada com disponibilidade robusta de GPU estão idealmente posicionados para lidar com essas cargas de trabalho.
A inferência é onde os mercados de computação descentralizada têm o caminho mais claro para a adequação ao mercado de produtos. Ironicamente, este é o fluxo de trabalho menos discutido no contexto da formação descentralizada. Isso decorre de dois fatores: a inferência não tem o apelo de 100.000 execuções de treinamento de "modelo de deus" de GPU e, em parte, por causa da fase atual da revolução da IA.
Hoje em dia, a maioria dos cálculos está realmente voltada para o treinamento. A corrida para a ASI está levando a investimentos maciços em infraestrutura de treinamento. No entanto, esse equilíbrio inevitavelmente muda à medida que as aplicações de IA passam da pesquisa para a produção. Para que um modelo de negócio em torno da IA seja sustentável, a receita gerada pela inferência deve superar os custos tanto do treinamento quanto da inferência combinados. Embora o treinamento do GPT-4 tenha sido extremamente caro, esse foi um custo único. As despesas contínuas de cálculo e o caminho para a lucratividade da OpenAI são impulsionados pelo atendimento de bilhões de solicitações de inferência de clientes pagantes.
Marketplace de computação, descentralizada ou não, por natureza de agregar uma variedade de modelos de GPU (antigos e novos) de todo o mundo, encontra-se em uma posição única para atender cargas de trabalho de inferência.
Os mercados de computação, sejam descentralizados ou tradicionais, naturalmente se destacam nas cargas de trabalho de inferência ao agregar modelos diversos de GPU (tanto atuais quanto legados) globalmente. Suas vantagens inerentes se alinham perfeitamente aos requisitos de inferência: distribuição geográfica ampla, tempo de atividade consistente, redundância do sistema e compatibilidade entre gerações de GPU.
Discutimos os diferentes fluxos de trabalho que a computação descentralizada pode e não pode ajudar. Agora, precisamos responder a outra pergunta importante: por que um desenvolvedor escolheria proteger a computação de um provedor descentralizado em vez de um centralizado? Quais vantagens convincentes as soluções descentralizadas oferecem?
As stablecoins alcançaram o encaixe produto-mercado oferecendo uma alternativa superior a pagamentos tradicionais de fronteira. Um grande fator é que stablecoins são simplesmente muito mais baratas! De maneira similar, o maior fator que impulsiona a escolha de provedores de nuvem de um desenvolvedor de IA é o custo. Para que provedores de computação descentralizada compitam efetivamente, eles devem primeiro oferecer preços superiores.
Um mercado de computação, como todos os mercados, é um negócio de efeitos de rede. Quanto maior o fornecimento de GPUs em uma plataforma, maior a liquidez e disponibilidade para os clientes, o que, por sua vez, atrai mais demanda. À medida que a demanda cresce, isso incentiva mais proprietários de GPUs a se juntarem à rede, criando um ciclo virtuoso. O aumento do fornecimento também permite preços mais competitivos por meio de uma melhor correspondência e redução do tempo ocioso. Quando os clientes podem encontrar consistentemente a computação de que precisam a taxas atrativas, eles têm mais probabilidade de construir dependências técnicas duradouras na plataforma, o que fortalece ainda mais os efeitos de rede.
Essa dinâmica é particularmente poderosa na inferência, onde a distribuição geográfica do fornecimento pode realmente aprimorar a oferta de produtos, reduzindo a latência para os usuários finais. O primeiro mercado a alcançar essa roda de liquidez em escala terá uma vantagem competitiva significativa, pois tanto fornecedores quanto clientes enfrentam custos de mudança uma vez que se integram às ferramentas e fluxos de trabalho da plataforma.
O volante de efeitos de rede do mercado de GPU
Em mercados onde o vencedor leva tudo,inicializando a redee atingir a velocidade de escape é a fase mais crítica. Aqui, as criptomoedas fornecem projetos de computação descentralizada com uma ferramenta muito poderosa que seus concorrentes centralizados simplesmente não possuem: incentivos token.
Os mecanismos podem ser simples, mas poderosos. O protocolo primeiro lançaria um token que inclui um cronograma de recompensas inflacionárias, possivelmente distribuindo alocações iniciais para contribuidores iniciais por meio de airdrops. Essas emissões de tokens serviriam como a principal ferramenta para inicializar ambos os lados do mercado.
Para os provedores de GPU, a estrutura de recompensa deve ser cuidadosamente projetada para moldar o comportamento do lado da oferta. Os provedores ganhariam tokens proporcionais à sua contribuição computacional e taxas de utilização, mas o sistema deve ir além das recompensas lineares simples. O protocolo poderia implementar multiplicadores de recompensa dinâmicos para corrigir desequilíbrios geográficos ou de tipo de hardware, semelhante à forma como a Uber usa preços dinâmicos para incentivar os motoristas em áreas de alta demanda.
Um provedor pode ganhar 1,5x de recompensa por oferecer computação em regiões carentes ou 2x de recompensa por fornecer tipos de GPU temporariamente escassos. Uma maior hierarquização do sistema de recompensas com base em taxas de utilização consistentes incentivaria os prestadores a manter uma disponibilidade estável, em vez de alternar oportunisticamente entre plataformas.
Do lado da demanda, os clientes receberiam recompensas de token que subsidiariam efetivamente seu uso. O protocolo poderia oferecer recompensas aumentadas para compromissos de computação mais longos, incentivando os usuários a construir dependências técnicas mais profundas na plataforma. Essas recompensas poderiam ser estruturadas de forma a se alinharem com as prioridades estratégicas da plataforma, como capturar a demanda em uma geografia específica.
As taxas base para cálculo podem ser mantidas ou ligeiramente abaixo das taxas de mercado, com os protocolos utilizandooráculos zkTLSpara monitorar continuamente e comparar os preços dos concorrentes. As recompensas do token serviriam como uma camada adicional de incentivo sobre essas taxas base competitivas. Esse modelo de precificação dupla permitiria que a plataforma mantivesse a competitividade de preços enquanto usava incentivos de token para impulsionar comportamentos específicos que fortalecem a rede.
Ao distribuir incentivos de token, tanto provedores quanto clientes começariam a acumular uma participação na rede. Enquanto alguns, talvez a maioria, poderiam vender essas participações, outros as manteriam, tornando-se efetivamente partes interessadas e evangelistas da plataforma. Esses participantes engajados teriam interesse no sucesso da rede, contribuindo para seu crescimento e adoção além de seu uso direto ou fornecimento de recursos de computação.
Com o tempo, à medida que a rede atinge a velocidade de escape e estabelece fortes efeitos de rede, esses incentivos de token podem ser gradualmente reduzidos. Os benefícios naturais de ser o maior mercado - melhor correspondência, maior utilização, cobertura geográfica mais ampla - se tornariam impulsionadores auto-sustentáveis de crescimento.
Como os incentivos de tokens podem impulsionar a roda gigante do mercado de GPU
Embora preço e alcance sejam diferenciadores críticos, as redes de computação descentralizadas abordam uma preocupação crescente: restrições operacionais de provedores centralizados. Os provedores de nuvem tradicionais já demonstraram sua disposição para suspender ou encerrar serviços com base em políticas de conteúdo e pressões externas. Esses precedentes levantam questões legítimas sobre como políticas similares podem se estender ao desenvolvimento e implantação de modelos de IA.
À medida que os modelos de IA se tornam mais sofisticados e lidam com casos de uso cada vez mais diversos, existe uma possibilidade real de que os provedores de nuvem possam implementar restrições no treinamento e na prestação de modelos, semelhantes às suas abordagens existentes de moderação de conteúdo. Isso pode afetar não apenas o conteúdo NSFW e tópicos controversos, mas também casos de uso legítimos em áreas como imagens médicas, pesquisa científica ou artes criativas que possam acionar filtros automatizados excessivamente cautelosos.
Uma rede descentralizada oferece uma alternativa ao permitir que os participantes do mercado tomem suas próprias decisões de infraestrutura, potencialmente criando um ambiente mais livre e sem restrições para a inovação.
O lado negativo da arquitetura sem permissão é que a privacidade se torna mais desafiadora. Quando a computação é distribuída em uma rede de provedores em vez de ser contida nos data centers de uma única entidade confiável, os desenvolvedores precisam ser cuidadosos com a segurança dos dados. Embora a criptografia e os ambientes de execução confiáveis possam ajudar, há uma compensação inerente entre resistência à censura e privacidade que os desenvolvedores devem navegar com base em seus requisitos específicos.
Dada a demanda extremamente alta por computação de IA, os provedores de GPU podem explorar sua posição para extrair o lucro máximo dos clientes bem-sucedidos. Em um post do ano passado, o famoso desenvolvedor solo Pieter Levels compartilhou como ele e outros desenvolvedores experimentaram seus provedores aumentando repentinamente os preços em mais de 600% após compartilharem publicamente os números de receita de seus aplicativos de IA.
Sistemas descentralizados podem oferecer uma solução para este problema - aplicação de contratos confiáveis. Quando os acordos são codificados na cadeia em vez de serem enterrados nos termos de serviço, eles se tornam transparentes e imutáveis. Um provedor não pode aumentar arbitrariamente os preços ou alterar os termos no meio do contrato sem que as alterações sejam explicitamente aceitas através do protocolo.
Além do preço, as redes descentralizadas podem aproveitarambientes de execução confiáveis (TEEs) para fornecer computação verificável. Isso garante que os desenvolvedores estejam realmente recebendo os recursos de GPU pelos quais estão pagando, tanto em termos de especificações de hardware quanto de acesso dedicado. Por exemplo, quando um desenvolvedor paga por acesso dedicado a oito GPUs H100 para treinamento de modelo, as provas criptográficas podem verificar se suas cargas de trabalho estão realmente sendo executadas em H100s com 80 GB de memória por GPU, em vez de serem silenciosamente rebaixadas para placas de baixo custo ou terem recursos compartilhados com outros usuários.
Redes de computadores descentralizadas podem fornecer aos desenvolvedores alternativas verdadeiramente sem permissão. Ao contrário dos provedores tradicionais que exigem extensos processos de KYC e verificações de crédito, qualquer pessoa pode ingressar nessas redes e começar a consumir ou fornecer recursos de computação. Isso reduz drasticamente a barreira de entrada, especialmente para desenvolvedores em mercados emergentes ou aqueles que trabalham em projetos experimentais.
A importância dessa natureza sem permissão se torna ainda mais poderosa quando consideramos o futuro dos agentes de IA. Os agentes de IA acabaram de começar a encontrar seu caminho, com agentes verticalmente integradosespera-se que ultrapasse o tamanho da indústria SaaS. Com empresas como gate,Terminal da VerdadeeZerebroEstamos vendo os primeiros sinais de agentes ganhando autonomia e aprendendo a usar ferramentas externas como mídias sociais e geradores de imagens.
À medida que esses sistemas autônomos se tornam mais sofisticados, eles podem precisar provisionar dinamicamente seus próprios recursos de computação. Uma rede descentralizada onde os contratos podem ser executados sem confiança por meio de código, em vez de intermediários humanos, é a infraestrutura natural para esse futuro. Os agentes poderiam negociar contratos autonomamente, monitorar o desempenho e ajustar o uso de computação com base na demanda, tudo isso sem exigir intervenção ou aprovação humana.
O conceito de redes de computação descentralizadas não é novo - projetos têm tentado democratizar o acesso a recursos de computação escassos muito antes do atual boom de IA.Rede Render opera desde 2017, agregando recursos de GPU para renderização de gráficos de computador. Akashlançado em 2020 para criar um mercado aberto para computação geral. Ambos os projetos encontraram sucesso moderado em suas áreas específicas, mas agora estão focados em cargas de trabalho de IA.
Da mesma forma, redes de armazenamento descentralizado como FilecoineArweaveestão expandindo para a computação. Eles reconhecem que, à medida que a IA se torna a principal consumidora de armazenamento e computação, oferecer soluções integradas faz sentido.
Assim como os centros de dados tradicionais lutam para competir com instalações de IA projetadas especificamente, essas redes estabelecidas enfrentam uma batalha difícil contra soluções nativas de IA. Elas não possuem o DNA para executar a complexa orquestração necessária para cargas de trabalho de IA. Em vez disso, elas estão encontrando seu caminho ao se tornarem provedoras de computação para outras redes específicas de IA. Por exemplo, tanto o Render quanto o Akash agora disponibilizam suas GPUs no marketplace da io.net.
Quem são esses novos mercados nativos de IA?io.neté um dos primeiros líderes na agregação de fornecimento de GPU de nível empresarial, com mais de 300.000 GPUs verificados em sua rede. Eles afirmam oferecer 90% de economia de custos em relação aos incumbentes centralizados e alcançaram ganhos diários de mais de $25.000 ($9 milhões anualizados). Da mesma forma, Aethiragrega mais de 40.000 GPUs (incluindo mais de 4.000 H100s) para atender tanto casos de uso de IA quanto de computação em nuvem.
Anteriormente, discutimos como o Prime Intellect está criando estruturas para treinamento descentralizado em escala. Além desses esforços, eles também fornecem um Mercado de GPUonde os usuários podem alugar H100s sob demanda.Gensyné outro projeto apostando alto na treinamento descentralizado com uma abordagem semelhante de treinamento mais uma abordagem de mercado de GPU.
Embora todas essas sejam marketplaces agnósticos de carga de trabalho (suportam tanto treinamento quanto inferência), alguns projetos estão se concentrando apenas na inferência - a carga de trabalho de computação descentralizada que mais nos empolga. O principal deles é o Exo Labs, que permite aos usuários executar LLMs de nível de fronteira em dispositivos cotidianos. Eles desenvolveram uma plataforma de código aberto que permite a distribuição de tarefas de inferência de IA em vários dispositivos, como iPhones, Androids e Macs. Eles recentemente demonstradoexecutando um modelo 70-B (escalável até 400-B) distribuído em quatro Mac Minis M4 Pro.
Quando Satoshi lançou o Bitcoin em 2008, seus benefícios - ouro digital com oferta limitada e dinheiro resistente à censura - eram puramente teóricos. O sistema financeiro tradicional, apesar de suas falhas, estava funcionando. Bancos centrais ainda não haviam embarcado na impressão de dinheiro sem precedentes. Sanções internacionais não estavam sendo usadas como arma contra economias inteiras. A necessidade de uma alternativa parecia acadêmica e não urgente.
Levou uma década de flexibilização quantitativa, culminando na expansão monetária da era COVID, para que os benefícios teóricos do Bitcoin se cristalizassem em valor tangível. Hoje, à medida que a inflação corrói as economias e as tensões geopolíticas ameaçam a dominação do dólar, o papel do Bitcoin como “ouro digital” evoluiu de um sonho ciberpunk para um ativo adotado por instituições e Estados-nação.
Esse padrão se repetiu com stablecoins. Assim que uma blockchain de propósito geral no Ethereum estava disponível, as stablecoins imediatamente se tornaram um dos casos de uso mais promissores. No entanto, foram necessários anos de melhorias graduais na tecnologia e nas economias de países como Argentina e Turquia, devastados pela inflação, para que as stablecoins evoluíssem de uma inovação cripto de nicho para uma infraestrutura financeira crítica movimentando trilhões de dólares em volume anual.
Cripto é, por natureza, uma tecnologia defensiva - inovações que parecem desnecessárias nos bons momentos, mas se tornam essenciais durante crises. A necessidade dessas soluções só se torna aparente quando os sistemas incumbentes falham ou revelam suas verdadeiras cores.
Hoje, estamos vivendo a era de ouro da IA. O capital de risco flui livremente, as empresas competem para oferecer os preços mais baixos e as restrições, se houver, são raras. Nesse ambiente, as alternativas descentralizadas podem parecer desnecessárias. Por que lidar com as complexidades da economia de tokens e sistemas de prova quando os provedores tradicionais funcionam muito bem?
Mas, seguindo as principais ondas de tecnologia do passado, esta benevolência é temporária. Mal estamos há dois anos na revolução da IA. À medida que a tecnologia amadurece e os vencedores da corrida da IA emergem, seu verdadeiro poder surgirá. As mesmas empresas que hoje oferecem acesso generoso eventualmente irão afirmar controle - através de preços, políticas, permissões.
Esta não é apenas mais um ciclo de tecnologia em jogo. A IA está se tornando o novo substrato da civilização - a lente através da qual processaremos informações, criaremos arte, tomaremos decisões e, em última análise, evoluiremos como espécie. A computação é mais do que apenas um recurso; é a moeda da própria inteligência. Aqueles que controlam seu fluxo moldarão a fronteira cognitiva da humanidade.
A computação descentralizada não se trata de oferecer GPUs mais baratos ou opções de implantação mais flexíveis (embora deva oferecer ambos para ter sucesso). Trata-se de garantir que o acesso à inteligência artificial - a tecnologia mais transformadora da humanidade - permaneça imune à censura e soberana. É nosso escudo contra um futuro inevitável em que um punhado de empresas ditam não apenas quem pode usar a IA, mas como podem pensar com ela.
Estamos construindo esses sistemas hoje não porque eles são imediatamente necessários, mas porque eles serão essenciais amanhã. Quando a IA se tornar tão fundamental para a sociedade quanto o dinheiro, a computação sem permissão não será apenas uma alternativa - será tão crucial para resistir à hegemonia digital quanto o Bitcoin e as stablecoins são para resistir ao controle financeiro.
A corrida para a superinteligência artificial pode estar além do alcance de sistemas descentralizados. Mas garantir que os frutos dessa inteligência permaneçam acessíveis a todos? Essa é uma corrida que vale a pena correr.
Encaminhar o título original: Decentralised Compute
O artigo de hoje aborda o setor emergente, mas frequentemente incompreendido, de computação descentralizada em criptomoedas. Adentramos no cenário de infraestrutura de IA para entender onde as alternativas descentralizadas podem competir realisticamente.
Exploramos perguntas como: ASI pode ser treinado em redes distribuídas? Quais vantagens únicas as redes de cripto oferecem? E por que a infraestrutura de computação sem permissão pode se tornar tão essencial para a IA quanto o Bitcoin é para as finanças.
Um padrão comum que você notará no artigo é o crescimento exponencial de tudo IA—investimento, computação e capacidades. Isso coincide com um ressurgimento nos mercados cripto e na mente das pessoas. Estamos muito animados com a interseção dessas duas ondas tecnológicas principais.
Olá!
Em um dia ensolarado em Memphis, Tennessee, um avião espião com hélice circulou repetidamente sobre um prédio industrial, seus passageiros fotografando freneticamente as instalações abaixo. Isso não foi uma cena de espionagem da Guerra Fria, mas de 2024. O alvo não era uma instalação militar ou um local de enriquecimento de urânio, mas uma antiga fábrica de eletrodomésticos que agora abriga um dos supercomputadores mais poderosos do mundo. Os passageiros não eram agentes estrangeiros, mas funcionários de uma empresa rival de centros de dados.
A cada poucas décadas, surge uma tecnologia transformadora com o potencial de alterar inquestionavelmente a trajetória da civilização. O que se segue é uma corrida entre as entidades mais poderosas do mundo para realizar essa tecnologia primeiro. As recompensas são tão imensas e as consequências do fracasso tão devastadoras que essas entidades mobilizam rapidamente todo o seu arsenal de recursos - talento humano e capital - para dominar a tecnologia.
No século XX, duas tecnologias destacadas se encaixam nesta definição - armas nucleares e exploração espacial. A corrida para aproveitar essas tecnologias envolveu as nações-estado mais poderosas. As vitórias dos Estados Unidos em ambas as áreas cimentaram seu status como a superpotência dominante do mundo, inaugurando uma era de prosperidade sem precedentes. Para os derrotados - a Alemanha nazista e a União Soviética - as consequências foram devastadoras, até mesmo terminais.
A gigantesca planta K-25 de 44 acres em Oak Ridge, Tennessee, EUA, onde o urânio para a primeira arma atômica foi produzidofonte)
A vitória da América teve um preço enorme. O Projeto Manhattan custou quase US$ 2 bilhões (aproximadamente US$ 30 bilhões ajustados pela inflação) e empregou mais de 120.000 pessoas - uma em cada mil americanos. A corrida espacial exigiu recursos ainda maiores. O programa Apollo custou US$ 28 bilhões nos anos 1960 (cerca de US$ 300 bilhões em dinheiro atual) e envolveu mais de 400.000 pessoas - uma em 490 americanos. No auge em 1966, a NASA comandava 4,4% do orçamento federal dos EUA inteiro.
A Apollo 11, momentos antes do lançamento na missão para a lua (fonte)
O lançamento do ChatGPT em 2022 marcou o início de uma nova corrida com proporções que alteram a civilização - a busca pela superinteligência artificial (ASI). Embora a IA já esteja incorporada à vida cotidiana - gerenciando feeds de mídia social, recomendações da Netflix e filtros de spam de e-mail - a emergência de grandes modelos de linguagem (LLMs) promete transformar tudo: produtividade humana, criação de mídia, pesquisa científica e a própria inovação.
Desta vez, os concorrentes não são os Estados-nação (pelo menos, por enquanto), mas as maiores corporações do mundo (Microsoft, Google, Meta, Amazon), as startups mais promissoras (OpenAI, Anthropic) e o indivíduo mais rico (Elon Musk). Enquanto a Big Tech canaliza um capital sem precedentes para a construção da infraestrutura para treinar modelos cada vez mais poderosos, as startups estão se assegurandorecorde quebrandofinanciamento de capital de risco. Elon é, bem, fazendo coisas de Elon (o centro de dados sob vigilância pertencia à sua empresa, xAI).
E então há todos os outros - empresas, empresas menores e startups - que podem não aspirar a construir ASI, mas estão ansiosos para aproveitar as capacidades de ponta desbloqueadas pela IA para otimizar seus negócios, perturbar uma indústria ou criar completamente novas. As recompensas potenciais são tão vastas que todos estão se esforçando para reivindicar sua parcela dessa nova economia impulsionada pela inteligência artificial.
No centro da revolução da IA está o seu componente mais essencial: a unidade de processamento gráfico (GPU). Originalmente projetada para alimentar jogos de vídeo, este chip de computador especializado tornou-se a commodity mais quente do mundo. A demanda por GPUs é tão avassaladora que as empresas frequentemente suportam listas de espera de mesesapenas para adquirir alguns. Essa demanda catapultou a NVIDIA, seu principal fabricante, para a posição da empresa mais valiosa do mundo.
Para empresas incapazes ou pouco dispostas a adquirir diretamente GPUs, alugar poder de computação tornou-se a melhor opção. Isso impulsionou o surgimento de provedores de nuvem de IA - empresas que operam centros de dados sofisticados projetados para atender às necessidades computacionais do boom de IA. No entanto, o aumento da demanda e sua natureza imprevisível significam que nem o preço nem a disponibilidade são garantidos.
Eu argumentouque a cripto funciona como uma tecnologia “Coasian”, projetada para “olear as engrenagens, pavimentar as estradas e fortalecer as pontes” para que outras inovações disruptivas floresçam. À medida que a IA emerge como a força transformadora de nossa era, a escassez e o custo exorbitante de acesso à GPU apresentam uma barreira à inovação. Várias empresas de cripto estão entrando em cena, com o objetivo de derrubar essas barreiras com incentivos baseados em blockchain.
No artigo de hoje, damos um passo atrás das criptomoedas para examinar os fundamentos da infraestrutura moderna de IA - como as redes neurais aprendem, por que as GPUs se tornaram essenciais e como os data centers de hoje estão evoluindo para atender às demandas computacionais sem precedentes. Em seguida, mergulhamos nas soluções de computação descentralizada, explorando onde elas podem competir realisticamente com os provedores tradicionais, as vantagens únicas que as redes de criptomoedas oferecem e por que - embora elas não nos proporcionem IA geral - ainda serão essenciais para garantir que os benefícios da IA permaneçam acessíveis a todos.
Vamos começar com o motivo pelo qual as GPUs são tão importantes em primeiro lugar.
Esta é David, uma escultura de mármore de 17 pés de altura e 6 toneladas, criada pelo gênio renascentista italiano Michelangelo. Ela retrata o herói bíblico da história de Davi e Golias e é considerada uma obra-prima por sua representação impecável da anatomia humana e atenção magistral à perspectiva e detalhes.
Como todas as esculturas de mármore, David começou como uma enorme laje áspera de mármore de Carrara. Para chegar à sua forma final, majestosa, Michelangelo teve que retirar metodicamente a pedra. Começando com golpes amplos e ousados para estabelecer a forma humana básica, ele progrediu para detalhes cada vez mais finos - a curva de um músculo, a tensão em uma veia, a sutil expressão de determinação nos olhos. Michelangelo levou três anos para libertar David da pedra.
Mas por que discutir uma figura de mármore de 500 anos em um artigo sobre IA?
Como David, toda rede neural começa como um potencial puro - uma coleção de nós inicializados com números aleatórios (pesos), tão informe quanto aquele enorme bloco de mármore de Carrara.
Este modelo bruto é alimentado repetidamente com dados de treinamento - inúmeras instâncias de entradas emparelhadas com suas saídas corretas. Cada ponto de dados que passa pela rede dispara milhares de cálculos. Em cada nó (neurônio), as conexões de entrada multiplicam o valor de entrada pelo peso da conexão, somam esses produtos e transformam o resultado por meio de uma 'função de ativação' que determina a força de disparo do neurônio.
Assim como Michelangelo dava um passo atrás, avaliava seu trabalho e corrigia o rumo, as redes neurais passam por um processo de refinamento. Após cada passagem para frente, a rede compara sua saída com a resposta correta e calcula sua margem de erro. Através de um processo chamado retropropagação, ela mede quanto cada conexão contribuiu para o erro e, como os golpes do cinzel de Michelangelo, faz ajustes em seus valores. Se uma conexão leva a uma previsão incorreta, sua influência diminui. Se ajuda a alcançar a resposta certa, sua influência se fortalece.
Quando todos os dados passam pela rede (completando uma etapa de propagação para frente e para trás por ponto de dados), marca o fim de uma "época". Esse processo se repete várias vezes, com cada passagem refinando a compreensão da rede. Durante as primeiras épocas, as mudanças de peso são dramáticas à medida que a rede faz ajustes amplos, como aqueles primeiros golpes de cinzel em negrito. Nas épocas posteriores, as mudanças se tornam mais sutis, ajustando as conexões para um desempenho ideal - assim como os delicados toques finais trouxeram os detalhes de David à tona.
Finalmente, após milhares ou milhões de iterações, o modelo treinado emerge. Como David, orgulhoso em sua forma final, a rede neural se transforma de ruído aleatório em um sistema capaz de reconhecer padrões, fazer previsões, gerar imagens de gatos andando de patinete ou permitir que os computadores entendam e respondam em linguagem humana.
Michelangelo, trabalhando sozinho em David, só podia fazer uma única batida de cinzel de cada vez, cada uma exigindo cálculos precisos de ângulo, força e posição. Essa precisão meticulosa é por isso que ele levou três anos incansáveis para completar sua obra-prima. Mas imagine milhares de escultores igualmente habilidosos trabalhando em David em perfeita coordenação - uma equipe nos cachos de cabelo, outra nos músculos do tronco e centenas mais nos detalhes intricados do rosto, mãos e pés. Esse esforço paralelo comprimiria esses três anos em meros dias.
Da mesma forma, enquanto as CPUs são poderosas e precisas, elas só podem realizar um cálculo de cada vez. Treinar uma rede neural não requer um cálculo complexo único, mas sim centenas de milhões de cálculos simples - principalmente multiplicações e adições em cada nó. Por exemplo, a rede neural de amostra mencionada anteriormente, com apenas 18 nós e cerca de 100 conexões (parâmetros), pode ser treinada em uma CPU dentro de um período de tempo razoável.
No entanto, os modelos mais poderosos de hoje, como o GPT-4 da OpenAI, possuem 1,8 trilhão de parâmetros! Mesmo os modelos modernos menores contêm pelo menos um bilhão de parâmetros. Treinar esses modelos um cálculo de cada vez levaria séculos. É aí que as GPUs se destacam: elas podem realizar um grande número de cálculos matemáticos simples simultaneamente, tornando-as ideais para processar múltiplos nós de rede neural em paralelo.
As GPUs modernas são incrivelmente poderosas. A mais recente GPU B200 da NVIDIA, por exemplo, consiste em mais de 200 bilhões de transistores e suporta 2,250 trilhões de cálculos paralelos por segundo (2,250 TFLOPS). Uma única GPU B200 pode lidar com modelos de até 740 bilhões de parâmetros. Essas máquinas representam feitos da engenharia moderna, o que explica por que a NVIDIA, vendendo cada unidade a $40,000, viu seu preço das ações disparar mais de 2,500% em cinco anos.
Jensen Huang apresentando o NVIDIA B200
No entanto, mesmo essas máquinas formidáveis não podem treinar modelos de IA sozinhas. Lembre-se de que durante o treinamento, cada instância de dados deve passar pelo modelo em um ciclo para frente e para trás individualmente. Modelos modernos de linguagem de grande escala (LLMs) são treinados em conjuntos de dados que abrangem toda a internet. GPT-4, por exemplo, processou cerca de 12 trilhões de tokens (aproximadamente 9 trilhões de palavras) e espera-se que a próxima geração de modelos seja capaz de lidar com até 100 trilhões de tokens. O uso de uma única GPU para um volume tão imenso de dados ainda levaria séculos.
A solução reside em adicionar mais uma camada de paralelismo - criando clusters de GPU onde as tarefas de treinamento são distribuídas entre várias GPUs trabalhando como um sistema unificado. As cargas de trabalho de treinamento do modelo podem ser paralelizadas de três maneiras:
Paralelismo de Dados: Múltiplas GPUs mantêm uma cópia completa do modelo de rede neural enquanto processam diferentes partes dos dados de treinamento. Cada GPU processa seu lote de dados atribuído de forma independente antes de sincronizar periodicamente com todas as outras GPUs. Nesse período de sincronização, as GPUs se comunicam entre si para encontrar uma média coletiva de seus pesos e, em seguida, atualizam seus pesos individuais para que sejam todos idênticos. Consequentemente, elas continuam treinando em seu lote de dados individualmente antes de ser hora de sincronizar novamente.
À medida que os modelos se tornam maiores, uma única cópia pode se tornar muito grande para caber em uma única GPU. Por exemplo, a mais recente GPU B200 pode suportar apenas 740 bilhões de parâmetros, enquanto o GPT-4 é um modelo com 1,8 trilhão de parâmetros. O paralelismo de dados entre GPUs individuais não funciona nesse caso.
Paralelismo de Tensor: Esta abordagem aborda a restrição de memória distribuindo o trabalho e os pesos de cada camada do modelo em várias GPUs. As GPUs trocam cálculos intermediários com todo o cluster durante cada etapa de propagação para a frente e para trás. Essas GPUs são normalmente agrupadas em servidores de oito unidades, conectadas via NVLink - a interconexão direta de GPU para GPU de alta velocidade da NVIDIA. Essa configuração requer conexões de alta largura de banda (até 400 Gb/s) e baixa latência entre as GPUs. Um cluster de tensores funciona efetivamente como uma única GPU massiva.
Paralelismo de pipeline: Este método divide o modelo em várias GPUs, com cada GPU lidando com camadas específicas. Os dados fluem por essas GPUs sequencialmente, como uma corrida de revezamento onde cada corredor (GPU) gerencia sua parte antes de passar o bastão. O paralelismo de pipeline é particularmente eficaz para conectar diferentes servidores de 8 GPUs dentro de um centro de dados, usando redes InfiniBand de alta velocidade para comunicação entre servidores. Embora seus requisitos de comunicação sejam maiores do que o paralelismo de dados, eles permanecem menores do que as trocas intensivas de GPU para GPU do paralelismo de tensor.
A escala dos clusters modernos é notável. GPT-4, com 1,8 trilhões de parâmetros e 120 camadas, exigiu 25.000 GPUs A100 para treinamento. O processo levou três meses e custou mais de $60 milhões. A A100 é duas gerações antigas; usando as GPUs B200 de hoje, seriam necessárias apenas cerca de 8.000 unidades e 20 dias de treinamento. Apenas mais uma demonstração de como a IA está avançando rapidamente.
Mas a classe de modelos GPT-4 são brinquedos antigos agora. O treinamento para a próxima geração de modelos avançados está em andamento em centros de dados que abrigam clusters de 100.000 B100 ou H100 GPUs (este último sendo uma geração mais antiga). Esses clusters, representando mais de US$ 4 bilhões em despesas de capital de GPU, são os supercomputadores mais poderosos da humanidade, entregando pelo menos quatro vezes a potência de computação bruta dos pertencentes ao governo.
Além de garantir o poder de computação bruto, os aspirantes da ASI enfrentam outro problema ao tentar configurar esses clusters: eletricidade. Cada uma dessas GPUs consome 700W de energia. Quando você combina 100.000 delas, o cluster inteiro (incluindo hardware de suporte) consome mais de 150MW de energia. Para se ter uma ideia, esse consumo equivale ao de uma cidade de 300.000 pessoas, comparável a Nova Orleans ou Zurique.
A loucura não para por aqui. A maioria dos aspirantes a ASI acredita que a Leis de escalonamento de LLM—que sugerem que o desempenho do modelo melhora previsivelmente com o aumento do tamanho do modelo, do tamanho do conjunto de dados e do treinamento computacional—continuará sendo verdadeiro. Já estão em andamento planos para treinar modelos ainda mais poderosos. Até 2025, estima-se que o custo de cada cluster de treinamento ultrapasse 10 bilhões de dólares. Até 2027, ultrapassará 100 bilhões de dólares. Conforme esses números se aproximam do investimento do governo dos EUA nos programas Apollo, fica claro por que alcançar a IAAS emergiu como a corrida definidora de nossa era.
Métricas para modelos a partir do GPT-5 são estimativas
À medida que o consumo de eletricidade cresce proporcionalmente com o tamanho dos clusters, as execuções de treinamento do próximo ano exigirão mais de 1GW de energia. No ano seguinte, 10GW ou mais. Sem indicações de desaceleração dessa expansão, espera-se que os centros de dados consumam aproximadamente 4,5% do global gerado até 2030. Redes elétricas existentes, já está lutando com as demandas atuais do modelo, não consegue gerar energia suficiente para futuros clusters. Isso levanta uma questão crítica: de onde virá essa energia? As Big Tech estão adotando uma abordagem de duas frentes.
A longo prazo, a única solução viável é que os aspirantes à ASI gerem sua própria eletricidade. Dadas suas metas climáticas, essa energia deve vir de fontes renováveis. A energia nuclear se destaca como a solução primária. Amazon recentemente adquiridoum campus de data center alimentado por uma usina nuclear por $650 milhões. Microsoftcontratou um chefe de tecnologias nucleares e é revivendo a histórica usina de Three Mile Island. O Google temadquiriu vários reatores nucleares pequenosda Kairos Power da Califórnia. Sam Altman da OpenAI apoiou startups de energia como Helion, Exowatt, e Oklo.
A Microsoft está reabrindo a Usina Nuclear de Three Mile Island (fonte da imagem)
Enquanto as sementes da energia nuclear estão sendo plantadas agora, os frutos (ou energia) levarão vários anos para dar frutos. E quanto aos requisitos de energia para a geração imediata de modelos? A solução provisória envolve treinamento distribuído em vários centros de dados. Em vez de concentrar demandas de energia massivas em um local, empresas como Microsoft e Google estão distribuindo seus clusters de treinamento em vários sites.
O desafio, é claro, é fazer com que esses sistemas distribuídos trabalhem juntos de forma eficaz. Mesmo na velocidade da luz, os dados levam aproximadamente 43ms para uma viagem de ida e volta da Costa Leste para a Costa Oeste dos EUA - uma eternidade em termos de computação. Além disso, se mesmo um chip ficar para trás, digamos, 10%, isso faz com que toda a execução do treinamento seja desacelerada na mesma proporção.
A solução reside em conectar centros de dados em vários locais com redes de fibra óptica de alta velocidade e aplicar uma combinação das técnicas de paralelismo discutidas anteriormente para sincronizar suas operações. O paralelismo do tensor é aplicado às GPUs dentro de cada servidor, permitindo que funcionem como uma única unidade. O paralelismo de pipeline, com suas demandas de rede mais baixas, é empregado para conectar servidores dentro do mesmo centro de dados. Por fim, os centros de dados em diferentes localizações (chamados de "ilhas") sincronizam suas informações periodicamente usando o paralelismo de dados.
Anteriormente, observamos que o paralelismo de dados é ineficaz para GPUs individuais porque elas não podem acomodar modelos grandes de forma independente. No entanto, essa dinâmica muda quando estamos paralelizando ilhas - cada uma contendo milhares de GPUs - em vez de unidades individuais. Os dados de treinamento são distribuídos por cada ilha, e essas ilhas sincronizam periodicamente por meio das conexões de fibra ótica relativamente mais lentas (em comparação com NVLink e Infiniband).
Vamos mudar nosso foco do treinamento e das GPUs para os próprios centros de dados.
Há vinte anos, a Amazon lançou a Amazon Web Services (AWS) — um dos negócios mais transformadores da história — e criou uma indústria completamente nova conhecida como computação em nuvem. Os líderes atuais em nuvem (Amazon, Microsoft, Google e Oracle) desfrutam de uma confortável dominação, gerando uma receita anual combinada de quase US$ 300 bilhões com margens de 30-40%. Agora, a emergência da IA criou novas oportunidades em um mercado que permaneceu largamente oligopolista por anos.
Os requisitos físicos, a complexidade técnica e a economia dos centros de dados de IA intensiva em GPU diferem drasticamente de seus equivalentes tradicionais.
Discutimos anteriormente como as GPUs consomem muita energia. Isso faz com que os data centers de IA sejam muito mais densos em termos de energia e, consequentemente, produzam mais calor. Embora os data centers tradicionais usem ventiladores gigantes (resfriamento a ar) para dissipar o calor, essa abordagem não é suficiente nem financeiramente viável para instalações de IA. Em vez disso, os data centers de IA estão adotando sistemas de resfriamento líquido onde blocos de água se conectam diretamente a GPUs e outros componentes quentes para dissipar o calor de forma mais eficiente e silenciosa. (As GPUs B200 vêm com essa arquitetura integrada). O suporte a sistemas de resfriamento líquido requer a adição de grandes torres de resfriamento, uma instalação centralizada de sistema de água e tubulação para transportar água de e para todas as GPUs — uma modificação fundamental na infraestrutura do data center.
Além do consumo absoluto de energia mais alto, os centros de dados de IA têm requisitos de carga distintos. Enquanto os centros de dados tradicionais mantêm um consumo de energia previsível, os padrões de uso de energia da carga de trabalho de IA são muito mais voláteis. Essa volatilidade ocorre porque as GPUs alternam periodicamente entre operar com capacidade máxima e diminuir quase para a parada quando o treinamento atinge checkpoints, onde os pesos são armazenados na memória ou, como vimos anteriormente, sincronizados com outras ilhas. Os centros de dados de IA requerem infraestrutura de energia especializada para gerenciar essas flutuações de carga.
Construir clusters de GPU é muito mais difícil do que construir nuvens de computadores regulares. As GPUs precisam se comunicar entre si muito rapidamente. Para que isso aconteça, elas devem ser empacotadas muito próximas umas das outras. Uma instalação de IA típica precisa de mais de 200.000 cabos especiais chamados conexões InfiniBand. Esses cabos permitem a comunicação entre as GPUs. Se apenas um cabo parar de funcionar, todo o sistema é desligado. O processo de treinamento não pode continuar até que esse cabo seja consertado.
Esses requisitos de infraestrutura tornam quase impossível adaptar os data centers tradicionais com GPUs de alto desempenho para torná-los prontos para IA. Tal atualização exigiria uma revisão estrutural quase completa. Em vez disso, as empresas estão construindo novos data centers especificamente projetados para IA do zero, com diferentes organizações buscando isso em escalas variadas.
Na vanguarda, as principais empresas de tecnologia estão correndo para construir seus próprios data centers de IA. A Meta está investindo pesado em instalações apenas para seu próprio desenvolvimento de IA, tratando-a como um investimento de capital direto, já que não oferece serviços em nuvem. A Microsoft está construindo centros igualmente massivos para alimentar seus próprios projetos de IA e atender clientes-chave como a OpenAI. A Oracle também entrou neste espaço agressivamente, garantindo a OpenAI como um cliente notável. A Amazon continua a expandir sua infraestrutura, particularmente para apoiar empresas emergentes de IA, como a Anthropic. A xAI de Elon Musk, não querendo depender de outra empresa, optou por construir seu próprio cluster de 100.000 GPUs.
Dentro do data center de 100.000 GPUs H100 do xAI (fonte)
Ao lado dos incumbentes, estão surgindo os “neoclouds” - provedores especializados em computação em nuvem focados exclusivamente em GPU para cargas de trabalho de IA. Esses neoclouds são divididos em duas categorias distintas com base na escala.
Grandes provedores de neocloud, incluindo CoreWeave, Crusoe, e LLama Labs, operar clusters de mais de 2.000 GPUs. Eles se diferenciam dos serviços em nuvem tradicionais de duas maneiras: oferecendo soluções de infraestrutura personalizadas em vez de pacotes padronizados e exigindo compromissos de longo prazo dos clientes em vez de acordos de pagamento por uso.
Seu modelo de negócio alavanca esses acordos de longo prazo e a solvência do cliente para garantir o financiamento de infraestrutura. A receita vem das taxas premium cobradas pelos serviços especializados e dos lucros da diferença entre os baixos custos de financiamento e os pagamentos do cliente.
Assim é como esse tipo de arranjo geralmente funciona: um provedor neocloud garante um contrato de três anos com uma startup de IA bem financiada para 10.000 GPUs H100 a US$ 40 milhões por mês. Usando essa receita garantida de US$ 1,44 bilhão, o provedor garante financiamento bancário favorável (a 6% de juros) para comprar e instalar infraestrutura no valor de US$ 700 milhões. As receitas mensais de US$ 40 milhões cobrem US$ 10 milhões em custos operacionais e US$ 20 milhões em pagamentos de empréstimos, gerando US$ 10 milhões em lucros mensais, enquanto a startup recebe poder de computação dedicado e personalizado.
Este modelo requer uma seleção de clientes excepcionalmente cuidadosa. Os provedores geralmente procuram empresas com grandes reservas de dinheiro ou forte apoio de investidores - muitas vezes com avaliações de US $ 500 milhões ou mais.
Pequenas nebulosas oferecem clusters de GPU de 2.000 ou menos e atendem a um segmento separado do mercado de IA - startups de pequeno e médio porte. Essas empresas treinam modelos menores (até 70 bilhões de parâmetros) ou ajustam modelos de código aberto. (O ajuste fino é o processo de adaptar um modelo base a casos de uso específicos.) Ambas as cargas de trabalho requerem computação moderada, mas dedicada por períodos mais curtos.
Esses provedores oferecem computação sob demanda com taxas por hora para acesso ininterrupto de cluster por duração fixa. Embora isso custe mais do que contratos de longo prazo, oferece às startups a flexibilidade de experimentar sem se comprometer com acordos de vários milhões de dólares.
Finalmente, além dos incumbentes em nuvem e dos provedores de neocloud, temos os intermediários do espaço de infraestrutura de IA: plataformas e agregadores. Esses intermediários não possuem infraestrutura de GPU, mas conectam proprietários de recursos de computação com aqueles que precisam deles.
Provedores de plataforma como HydraHosteFluidstackservir como o Shopify da computação GPU. Assim como o Shopify permite que os comerciantes lancem lojas online sem construir infraestrutura de comércio eletrônico, essas plataformas permitem que operadores de data center e proprietários de GPU ofereçam serviços de computação sem desenvolver suas próprias interfaces de clientes. Eles fornecem um pacote técnico completo para executar um negócio de computação GPU, incluindo ferramentas de gerenciamento de infraestrutura, sistemas de provisão de clientes e soluções de faturamento.
Agregadores de mercado comoVast.aifunction as the Amazon of the GPU world. They create a marketplace combining diverse compute offerings from various providers—ranging from consumer-grade RTX cards to professional H100 GPUs. GPU owners list their resources with detailed performance metrics and reliability ratings, while customers purchase compute time through a self-service platform.
Até agora, nossa discussão tem se concentrado no treinamento (ou ajuste fino) de modelos. No entanto, uma vez treinado, um modelo deve ser implantado para atender aos usuários finais - um processo chamado inferência. Toda vez que você está conversando com o ChatGPT, está usando GPUs executando cargas de trabalho de inferência que recebem sua entrada e geram a resposta do modelo. Vamos voltar a falar sobre estátuas de mármore por um minuto.
Este também é David - não o original de Michelangelo, mas uma cópia em gesso encomendada pela Rainha Victoria em 1857 para o Victoria and Albert Museum de Londres. Enquanto Michelangelo passou três anos exaustivos esculpindo cuidadosamente o mármore para criar o original em Florença, essa cópia em gesso foi feita a partir de um molde direto da estátua - reproduzindo perfeitamente cada curva, ângulo e detalhe que Michelangelo havia criado. O trabalho criativo intensivo aconteceu uma vez. Depois, tornou-se uma questão de replicar fielmente essas características. Hoje, réplicas de David aparecem em todos os lugares, desde salões de museus até pátios de cassinos em Las Vegas.
Isso é exatamente como a inferência funciona em IA. Treinar um grande modelo de linguagem é como o processo escultural original de Michelangelo - intensivo em computação, demorado e pesado em recursos, à medida que o modelo aprende gradualmente a forma correta da linguagem por meio de milhões de pequenos ajustes. Mas usar o modelo treinado - inferência - é mais como criar uma réplica. Quando você conversa com o ChatGPT, você não está ensinando a ele a linguagem do zero, mas usando uma cópia de um modelo cujos parâmetros (como as curvas e ângulos precisos de Davi) já foram aperfeiçoados.
As cargas de trabalho de inferência diferem fundamentalmente do treinamento. Enquanto o treinamento requer grandes clusters densos das últimas GPUs, como H100s, para lidar com cálculos intensivos, a inferência pode ser executada em servidores de GPU única usando hardware mais antigo, como A100s ou até mesmo placas de vídeo de consumo, o que a torna significativamente mais econômica. Dito isso, as cargas de trabalho de inferência têm suas próprias demandas únicas:
Essas características tornam as cargas de trabalho de inferência ideais para modelos de preço de oferta. Sob o preço de oferta, os recursos de GPU estão disponíveis com descontos significativos - geralmente 30-50% abaixo das taxas sob demanda - com o entendimento de que o serviço pode ser pausado quando os clientes de maior prioridade precisarem de recursos. Esse modelo é adequado para inferência porque a implantação redundante permite que as cargas de trabalho mudem rapidamente para GPUs disponíveis se forem interrompidas.
Nesse contexto de GPUs e computação em nuvem de IA, agora estamos em posição de começar a explorar onde as criptomoedas se encaixam em tudo isso. Vamos (finalmente) começar.
Projetos e relatórios frequentemente citam a observação de Peter Thiel de que 'IA está centralizando, cripto está descentralizando' ao discutir o papel da cripto no treinamento de IA. Embora a afirmação de Thiel seja inquestionavelmente verdadeira, acabamos de ver ampla evidência da clara vantagem da Big Tech no treinamento de IA poderosa - muitas vezes é mal utilizada para sugerir que cripto e computadores descentralizados oferecem a solução principal para contrabalançar a influência da Big Tech.
Tais afirmações ecoam exageros anteriores sobre o potencial das criptomoedas de revolucionar as redes sociais, os jogos e inúmeras outras indústrias. Elas não apenas são contraproducentes, mas também, como argumentarei em breve, irrealistas - pelo menos a curto prazo.
Em vez disso, vou adotar uma abordagem mais pragmática. Vou supor que uma startup de IA em busca de computação não se preocupa com os princípios da descentralização ou com a oposição ideológica ao Big Tech. Em vez disso, eles têm um problema - eles querem acesso a computação confiável de GPU com o menor custo possível. Se um projeto de criptomoeda puder fornecer uma solução melhor para esse problema do que alternativas não cripto, eles o usarão.
Para isso, vamos primeiro entender com quem os projetos de criptografia estão competindo. Anteriormente, discutimos as diferentes categorias de provedores de nuvem de IA - Big Tech e hyperscalers, grandes neoclouds, pequenos neoclouds, provedores de plataformas e marketplaces.
A tese fundamental por trás da computação descentralizada (como todos os projetos DePIN) é que o mercado de computação atual opera de forma ineficiente. A demanda por GPU permanece excepcionalmente alta, enquanto o fornecimento está fragmentado e subutilizado em centros de dados globais e residências individuais. A maioria dos projetos neste setor compete diretamente com os mercados, agregando esse fornecimento disperso para reduzir as ineficiências.
Com isso estabelecido, vamos ver como esses projetos (e mercados de computação em geral) podem ajudar com diferentes cargas de trabalho de IA - treinamento, ajuste fino e inferência.
Antes de mais nada. Não, a ASI não será treinada em uma rede global de GPUs descentralizadas. Pelo menos, não na trajetória atual da IA. Aqui está o porquê.
Anteriormente, discutimos o quão grandes estão ficando os clusters de modelos de base. São necessários 100.000 dos GPUs mais poderosos do mundo para começar a competir. Esse número só aumenta a cada ano que passa. Em 2026, espera-se que o custo de uma execução de treinamento ultrapasse US$ 100 bilhões, exigindo talvez um milhão de GPUs ou mais.
Somente empresas de tecnologia gigantes, apoiadas por grandes neoclouds e parcerias diretas com a Nvidia, podem montar clusters dessa magnitude. Lembre-se, estamos em uma corrida pela IAAS, e todos os participantes estão altamente motivados e capitalizados. Se houver um suprimento adicional dessas muitas GPUs (o que não há), eles serão os primeiros a adquiri-las.
Mesmo que um projeto de criptografia de alguma forma tenha acumulado o cálculo necessário, dois obstáculos fundamentais impedem o desenvolvimento de ASI descentralizado:
Primeiro, as GPUs ainda precisam ser conectadas em grandes clusters para funcionar efetivamente. Mesmo que esses clusters sejam divididos entre ilhas em cidades, eles terão que ser conectados por linhas de fibra óptica dedicadas. Nenhum desses é possível em um ambiente descentralizado. Além da aquisição de GPUs, estabelecer centros de dados prontos para AI exige um planejamento meticuloso - tipicamente um processo de um a dois anos. (xAI fez isso em apenas 122 dias, mas é improvável que Elon lance um token tão cedo.)
Em segundo lugar, apenas criar um data center de IA não é suficiente para criar uma IA superinteligente. Como fundador da Anthropic, Dario Amodei recentemente explicado, a escalabilidade em IA é análoga a uma reação química. Assim como uma reação química requer múltiplos reagentes em proporções precisas para prosseguir, a escalabilidade bem-sucedida da IA depende de três ingredientes essenciais crescendo em conjunto: redes maiores, tempos de treinamento mais longos e conjuntos de dados maiores. Se você aumentar o tamanho de um componente sem os outros, o processo fica parado.
Mesmo que consigamos de alguma forma acumular tanto o cálculo quanto fazer com que os clusters trabalhem juntos, ainda precisamos de terabytes de dados de alta qualidade para que o modelo treinado seja bom. Sem as fontes de dados proprietárias das Big Techs, o capital para fechar acordos de vários milhões de dólares com fóruns online e veículos de mídia, ou modelos existentes para gerar dados sintéticos, adquirir dados de treinamento adequados é impossível.
Houve alguma especulação recente de que as leis de escala podem atingir um patamar, com LLMs potencialmente atingindo tetos de desempenho. Alguns interpretam isso como uma abertura para o desenvolvimento descentralizado de IA. No entanto, isso ignora um fator crucial - a concentração de talentos. As principais empresas de tecnologia e laboratórios de IA do mundo abrigam os principais pesquisadores de hoje. Qualquer caminho alternativo de avanço para AGI provavelmente surgirá desses centros. Dados o cenário competitivo, tais descobertas permaneceriam estritamente guardadas.
Considerando todos esses argumentos, tenho 99,99% de certeza de que o treinamento de ASI - ou até mesmo dos modelos mais poderosos do mundo - não será feito em um projeto de computação descentralizada. Nesse caso, quais modelos a criptografia poderia realmente ajudar a treinar?
Para que os modelos sejam treinados em clusters de GPU separados localizados em diferentes localizações geográficas, precisamos implementar o paralelismo de dados entre eles. (Lembrando que o paralelismo de dados é como diferentes ilhas de GPUs, cada uma trabalhando em pedaços separados dos dados de treinamento, sincronizam entre si). Quanto maior o modelo sendo treinado, maior a quantidade de dados que precisa ser trocada entre essas ilhas. Como discutimos, para modelos de fronteira com mais de um trilhão de parâmetros, a largura de banda necessária é grande o suficiente para exigir conexões dedicadas de fibra óptica.
Entretanto, para modelos menores, os requisitos de largura de banda diminuem proporcionalmente. Avanços recentes em algoritmos de treinamento de baixa comunicação, particularmente em sincronização atrasada, criaram oportunidades promissoras para treinamento de modelos de pequeno a médio porte de forma descentralizada. Duas equipes estão liderando esses esforços experimentais.
Pesquisa Nous é uma empresa aceleradora de IA e líder no desenvolvimento de IA de código aberto. Eles são mais conhecidos por sua série Hermes de modelos de linguagem e projetos inovadores como World Sim. No início deste ano, eles operaram uma sub-rede BitTensor com classificação LLM por alguns meses. Eles mergulharam os pés na computação descentralizada, liberando o DisTrOprojeto de Treinamento Distribuído pela Internet), onde treinaram com sucesso um modelo Llama-2 de 1,2B parâmetros, alcançando uma redução de 857x nos requisitos de largura de banda entre GPUs.
O relatório DisTrO da Nous Research
Prime Intellect, uma startup que desenvolve infraestrutura para IA descentralizada em escala, tem como objetivo agregar recursos computacionais globais e permitir o treinamento colaborativo de modelos de ponta por meio de sistemas distribuídos. Seu Framework OpenDiLoCo(implementando DeepMind’sMétodo de baixa comunicação distribuída) treinou com sucesso um modelo de um bilhão de parâmetros em dois continentes e três países, mantendo uma utilização de computação de 90-95%.
Mas como funcionam essas corridas de treinamento descentralizadas?
O paralelismo de dados tradicional exige que as GPUs compartilhem e façam a média de seus pesos após cada etapa de treinamento — impossível em conexões com a internet. Em vez disso, esses projetos permitem que cada "ilha" de GPUs treine independentemente por centenas de etapas antes de sincronizar. Pense nisso como equipes de pesquisa independentes trabalhando no mesmo projeto: em vez de verificar constantemente uns com os outros, eles fazem progressos significativos de forma independente antes de compartilhar suas descobertas.
DisTrO e OpenDiLoCo só sincronizam a cada 500 passos, utilizando uma abordagem de otimizador duplo:
Quando eles sincronizam, em vez de compartilhar todos os pesos, eles compartilham um “pseudo-gradient”—essencialmente a diferença entre seus pesos atuais e os pesos da última sincronização. Isso é notavelmente eficiente, como compartilhar apenas o que mudou em um documento em vez de enviar o documento inteiro toda vez.
INTELECTO-1, uma implementação prática do OpenDiLoCo pela Prime Intellect, está impulsionando ainda mais essa abordagem ao treinar um modelo de parâmetro 10B — o maior esforço de treinamento descentralizado até o momento. Eles adicionaram otimizações importantes, como:
INTELLECT-1, treinado por mais de 20 clusters de GPU distribuídos pelo mundo, recentemente completou pré-treinamento e em breve será lançado como um modelo totalmente de código aberto.
Painel de treinamento do INTELLECT-1
Times como Macrocosmoestão usando algoritmos semelhantes paratreinar modelosno ecossistema Bittensor.
Se esses algoritmos de treinamento descentralizados continuarem a melhorar, eles poderão ser capazes de suportar modelos de até 100 bilhões de parâmetros com a próxima geração de GPUs. Mesmo modelos dessa magnitude podem ser muito úteis para uma ampla variedade de casos de uso:
O ajuste fino é o processo de pegar um modelo de base pré-treinado (geralmente um de código aberto da Meta, Mistral ou Alibaba) e treiná-lo ainda mais em um conjunto de dados específico para adaptá-lo a tarefas ou domínios específicos. Isso requer significativamente menos computação do que treinar do zero, pois o modelo já aprendeu padrões de linguagem gerais e só precisa ajustar seus pesos para o novo domínio.
Calcular os requisitos para ajustar a escala com o tamanho do modelo. Supondo o treinamento em um H100:
Dadas essas especificações, o ajuste fino não exige os complexos algoritmos de treinamento distribuído discutidos anteriormente. O modelo sob demanda, em que os desenvolvedores alugam clusters de GPU por períodos curtos e concentrados, fornece suporte adequado. Os mercados de computação descentralizada com disponibilidade robusta de GPU estão idealmente posicionados para lidar com essas cargas de trabalho.
A inferência é onde os mercados de computação descentralizada têm o caminho mais claro para a adequação ao mercado de produtos. Ironicamente, este é o fluxo de trabalho menos discutido no contexto da formação descentralizada. Isso decorre de dois fatores: a inferência não tem o apelo de 100.000 execuções de treinamento de "modelo de deus" de GPU e, em parte, por causa da fase atual da revolução da IA.
Hoje em dia, a maioria dos cálculos está realmente voltada para o treinamento. A corrida para a ASI está levando a investimentos maciços em infraestrutura de treinamento. No entanto, esse equilíbrio inevitavelmente muda à medida que as aplicações de IA passam da pesquisa para a produção. Para que um modelo de negócio em torno da IA seja sustentável, a receita gerada pela inferência deve superar os custos tanto do treinamento quanto da inferência combinados. Embora o treinamento do GPT-4 tenha sido extremamente caro, esse foi um custo único. As despesas contínuas de cálculo e o caminho para a lucratividade da OpenAI são impulsionados pelo atendimento de bilhões de solicitações de inferência de clientes pagantes.
Marketplace de computação, descentralizada ou não, por natureza de agregar uma variedade de modelos de GPU (antigos e novos) de todo o mundo, encontra-se em uma posição única para atender cargas de trabalho de inferência.
Os mercados de computação, sejam descentralizados ou tradicionais, naturalmente se destacam nas cargas de trabalho de inferência ao agregar modelos diversos de GPU (tanto atuais quanto legados) globalmente. Suas vantagens inerentes se alinham perfeitamente aos requisitos de inferência: distribuição geográfica ampla, tempo de atividade consistente, redundância do sistema e compatibilidade entre gerações de GPU.
Discutimos os diferentes fluxos de trabalho que a computação descentralizada pode e não pode ajudar. Agora, precisamos responder a outra pergunta importante: por que um desenvolvedor escolheria proteger a computação de um provedor descentralizado em vez de um centralizado? Quais vantagens convincentes as soluções descentralizadas oferecem?
As stablecoins alcançaram o encaixe produto-mercado oferecendo uma alternativa superior a pagamentos tradicionais de fronteira. Um grande fator é que stablecoins são simplesmente muito mais baratas! De maneira similar, o maior fator que impulsiona a escolha de provedores de nuvem de um desenvolvedor de IA é o custo. Para que provedores de computação descentralizada compitam efetivamente, eles devem primeiro oferecer preços superiores.
Um mercado de computação, como todos os mercados, é um negócio de efeitos de rede. Quanto maior o fornecimento de GPUs em uma plataforma, maior a liquidez e disponibilidade para os clientes, o que, por sua vez, atrai mais demanda. À medida que a demanda cresce, isso incentiva mais proprietários de GPUs a se juntarem à rede, criando um ciclo virtuoso. O aumento do fornecimento também permite preços mais competitivos por meio de uma melhor correspondência e redução do tempo ocioso. Quando os clientes podem encontrar consistentemente a computação de que precisam a taxas atrativas, eles têm mais probabilidade de construir dependências técnicas duradouras na plataforma, o que fortalece ainda mais os efeitos de rede.
Essa dinâmica é particularmente poderosa na inferência, onde a distribuição geográfica do fornecimento pode realmente aprimorar a oferta de produtos, reduzindo a latência para os usuários finais. O primeiro mercado a alcançar essa roda de liquidez em escala terá uma vantagem competitiva significativa, pois tanto fornecedores quanto clientes enfrentam custos de mudança uma vez que se integram às ferramentas e fluxos de trabalho da plataforma.
O volante de efeitos de rede do mercado de GPU
Em mercados onde o vencedor leva tudo,inicializando a redee atingir a velocidade de escape é a fase mais crítica. Aqui, as criptomoedas fornecem projetos de computação descentralizada com uma ferramenta muito poderosa que seus concorrentes centralizados simplesmente não possuem: incentivos token.
Os mecanismos podem ser simples, mas poderosos. O protocolo primeiro lançaria um token que inclui um cronograma de recompensas inflacionárias, possivelmente distribuindo alocações iniciais para contribuidores iniciais por meio de airdrops. Essas emissões de tokens serviriam como a principal ferramenta para inicializar ambos os lados do mercado.
Para os provedores de GPU, a estrutura de recompensa deve ser cuidadosamente projetada para moldar o comportamento do lado da oferta. Os provedores ganhariam tokens proporcionais à sua contribuição computacional e taxas de utilização, mas o sistema deve ir além das recompensas lineares simples. O protocolo poderia implementar multiplicadores de recompensa dinâmicos para corrigir desequilíbrios geográficos ou de tipo de hardware, semelhante à forma como a Uber usa preços dinâmicos para incentivar os motoristas em áreas de alta demanda.
Um provedor pode ganhar 1,5x de recompensa por oferecer computação em regiões carentes ou 2x de recompensa por fornecer tipos de GPU temporariamente escassos. Uma maior hierarquização do sistema de recompensas com base em taxas de utilização consistentes incentivaria os prestadores a manter uma disponibilidade estável, em vez de alternar oportunisticamente entre plataformas.
Do lado da demanda, os clientes receberiam recompensas de token que subsidiariam efetivamente seu uso. O protocolo poderia oferecer recompensas aumentadas para compromissos de computação mais longos, incentivando os usuários a construir dependências técnicas mais profundas na plataforma. Essas recompensas poderiam ser estruturadas de forma a se alinharem com as prioridades estratégicas da plataforma, como capturar a demanda em uma geografia específica.
As taxas base para cálculo podem ser mantidas ou ligeiramente abaixo das taxas de mercado, com os protocolos utilizandooráculos zkTLSpara monitorar continuamente e comparar os preços dos concorrentes. As recompensas do token serviriam como uma camada adicional de incentivo sobre essas taxas base competitivas. Esse modelo de precificação dupla permitiria que a plataforma mantivesse a competitividade de preços enquanto usava incentivos de token para impulsionar comportamentos específicos que fortalecem a rede.
Ao distribuir incentivos de token, tanto provedores quanto clientes começariam a acumular uma participação na rede. Enquanto alguns, talvez a maioria, poderiam vender essas participações, outros as manteriam, tornando-se efetivamente partes interessadas e evangelistas da plataforma. Esses participantes engajados teriam interesse no sucesso da rede, contribuindo para seu crescimento e adoção além de seu uso direto ou fornecimento de recursos de computação.
Com o tempo, à medida que a rede atinge a velocidade de escape e estabelece fortes efeitos de rede, esses incentivos de token podem ser gradualmente reduzidos. Os benefícios naturais de ser o maior mercado - melhor correspondência, maior utilização, cobertura geográfica mais ampla - se tornariam impulsionadores auto-sustentáveis de crescimento.
Como os incentivos de tokens podem impulsionar a roda gigante do mercado de GPU
Embora preço e alcance sejam diferenciadores críticos, as redes de computação descentralizadas abordam uma preocupação crescente: restrições operacionais de provedores centralizados. Os provedores de nuvem tradicionais já demonstraram sua disposição para suspender ou encerrar serviços com base em políticas de conteúdo e pressões externas. Esses precedentes levantam questões legítimas sobre como políticas similares podem se estender ao desenvolvimento e implantação de modelos de IA.
À medida que os modelos de IA se tornam mais sofisticados e lidam com casos de uso cada vez mais diversos, existe uma possibilidade real de que os provedores de nuvem possam implementar restrições no treinamento e na prestação de modelos, semelhantes às suas abordagens existentes de moderação de conteúdo. Isso pode afetar não apenas o conteúdo NSFW e tópicos controversos, mas também casos de uso legítimos em áreas como imagens médicas, pesquisa científica ou artes criativas que possam acionar filtros automatizados excessivamente cautelosos.
Uma rede descentralizada oferece uma alternativa ao permitir que os participantes do mercado tomem suas próprias decisões de infraestrutura, potencialmente criando um ambiente mais livre e sem restrições para a inovação.
O lado negativo da arquitetura sem permissão é que a privacidade se torna mais desafiadora. Quando a computação é distribuída em uma rede de provedores em vez de ser contida nos data centers de uma única entidade confiável, os desenvolvedores precisam ser cuidadosos com a segurança dos dados. Embora a criptografia e os ambientes de execução confiáveis possam ajudar, há uma compensação inerente entre resistência à censura e privacidade que os desenvolvedores devem navegar com base em seus requisitos específicos.
Dada a demanda extremamente alta por computação de IA, os provedores de GPU podem explorar sua posição para extrair o lucro máximo dos clientes bem-sucedidos. Em um post do ano passado, o famoso desenvolvedor solo Pieter Levels compartilhou como ele e outros desenvolvedores experimentaram seus provedores aumentando repentinamente os preços em mais de 600% após compartilharem publicamente os números de receita de seus aplicativos de IA.
Sistemas descentralizados podem oferecer uma solução para este problema - aplicação de contratos confiáveis. Quando os acordos são codificados na cadeia em vez de serem enterrados nos termos de serviço, eles se tornam transparentes e imutáveis. Um provedor não pode aumentar arbitrariamente os preços ou alterar os termos no meio do contrato sem que as alterações sejam explicitamente aceitas através do protocolo.
Além do preço, as redes descentralizadas podem aproveitarambientes de execução confiáveis (TEEs) para fornecer computação verificável. Isso garante que os desenvolvedores estejam realmente recebendo os recursos de GPU pelos quais estão pagando, tanto em termos de especificações de hardware quanto de acesso dedicado. Por exemplo, quando um desenvolvedor paga por acesso dedicado a oito GPUs H100 para treinamento de modelo, as provas criptográficas podem verificar se suas cargas de trabalho estão realmente sendo executadas em H100s com 80 GB de memória por GPU, em vez de serem silenciosamente rebaixadas para placas de baixo custo ou terem recursos compartilhados com outros usuários.
Redes de computadores descentralizadas podem fornecer aos desenvolvedores alternativas verdadeiramente sem permissão. Ao contrário dos provedores tradicionais que exigem extensos processos de KYC e verificações de crédito, qualquer pessoa pode ingressar nessas redes e começar a consumir ou fornecer recursos de computação. Isso reduz drasticamente a barreira de entrada, especialmente para desenvolvedores em mercados emergentes ou aqueles que trabalham em projetos experimentais.
A importância dessa natureza sem permissão se torna ainda mais poderosa quando consideramos o futuro dos agentes de IA. Os agentes de IA acabaram de começar a encontrar seu caminho, com agentes verticalmente integradosespera-se que ultrapasse o tamanho da indústria SaaS. Com empresas como gate,Terminal da VerdadeeZerebroEstamos vendo os primeiros sinais de agentes ganhando autonomia e aprendendo a usar ferramentas externas como mídias sociais e geradores de imagens.
À medida que esses sistemas autônomos se tornam mais sofisticados, eles podem precisar provisionar dinamicamente seus próprios recursos de computação. Uma rede descentralizada onde os contratos podem ser executados sem confiança por meio de código, em vez de intermediários humanos, é a infraestrutura natural para esse futuro. Os agentes poderiam negociar contratos autonomamente, monitorar o desempenho e ajustar o uso de computação com base na demanda, tudo isso sem exigir intervenção ou aprovação humana.
O conceito de redes de computação descentralizadas não é novo - projetos têm tentado democratizar o acesso a recursos de computação escassos muito antes do atual boom de IA.Rede Render opera desde 2017, agregando recursos de GPU para renderização de gráficos de computador. Akashlançado em 2020 para criar um mercado aberto para computação geral. Ambos os projetos encontraram sucesso moderado em suas áreas específicas, mas agora estão focados em cargas de trabalho de IA.
Da mesma forma, redes de armazenamento descentralizado como FilecoineArweaveestão expandindo para a computação. Eles reconhecem que, à medida que a IA se torna a principal consumidora de armazenamento e computação, oferecer soluções integradas faz sentido.
Assim como os centros de dados tradicionais lutam para competir com instalações de IA projetadas especificamente, essas redes estabelecidas enfrentam uma batalha difícil contra soluções nativas de IA. Elas não possuem o DNA para executar a complexa orquestração necessária para cargas de trabalho de IA. Em vez disso, elas estão encontrando seu caminho ao se tornarem provedoras de computação para outras redes específicas de IA. Por exemplo, tanto o Render quanto o Akash agora disponibilizam suas GPUs no marketplace da io.net.
Quem são esses novos mercados nativos de IA?io.neté um dos primeiros líderes na agregação de fornecimento de GPU de nível empresarial, com mais de 300.000 GPUs verificados em sua rede. Eles afirmam oferecer 90% de economia de custos em relação aos incumbentes centralizados e alcançaram ganhos diários de mais de $25.000 ($9 milhões anualizados). Da mesma forma, Aethiragrega mais de 40.000 GPUs (incluindo mais de 4.000 H100s) para atender tanto casos de uso de IA quanto de computação em nuvem.
Anteriormente, discutimos como o Prime Intellect está criando estruturas para treinamento descentralizado em escala. Além desses esforços, eles também fornecem um Mercado de GPUonde os usuários podem alugar H100s sob demanda.Gensyné outro projeto apostando alto na treinamento descentralizado com uma abordagem semelhante de treinamento mais uma abordagem de mercado de GPU.
Embora todas essas sejam marketplaces agnósticos de carga de trabalho (suportam tanto treinamento quanto inferência), alguns projetos estão se concentrando apenas na inferência - a carga de trabalho de computação descentralizada que mais nos empolga. O principal deles é o Exo Labs, que permite aos usuários executar LLMs de nível de fronteira em dispositivos cotidianos. Eles desenvolveram uma plataforma de código aberto que permite a distribuição de tarefas de inferência de IA em vários dispositivos, como iPhones, Androids e Macs. Eles recentemente demonstradoexecutando um modelo 70-B (escalável até 400-B) distribuído em quatro Mac Minis M4 Pro.
Quando Satoshi lançou o Bitcoin em 2008, seus benefícios - ouro digital com oferta limitada e dinheiro resistente à censura - eram puramente teóricos. O sistema financeiro tradicional, apesar de suas falhas, estava funcionando. Bancos centrais ainda não haviam embarcado na impressão de dinheiro sem precedentes. Sanções internacionais não estavam sendo usadas como arma contra economias inteiras. A necessidade de uma alternativa parecia acadêmica e não urgente.
Levou uma década de flexibilização quantitativa, culminando na expansão monetária da era COVID, para que os benefícios teóricos do Bitcoin se cristalizassem em valor tangível. Hoje, à medida que a inflação corrói as economias e as tensões geopolíticas ameaçam a dominação do dólar, o papel do Bitcoin como “ouro digital” evoluiu de um sonho ciberpunk para um ativo adotado por instituições e Estados-nação.
Esse padrão se repetiu com stablecoins. Assim que uma blockchain de propósito geral no Ethereum estava disponível, as stablecoins imediatamente se tornaram um dos casos de uso mais promissores. No entanto, foram necessários anos de melhorias graduais na tecnologia e nas economias de países como Argentina e Turquia, devastados pela inflação, para que as stablecoins evoluíssem de uma inovação cripto de nicho para uma infraestrutura financeira crítica movimentando trilhões de dólares em volume anual.
Cripto é, por natureza, uma tecnologia defensiva - inovações que parecem desnecessárias nos bons momentos, mas se tornam essenciais durante crises. A necessidade dessas soluções só se torna aparente quando os sistemas incumbentes falham ou revelam suas verdadeiras cores.
Hoje, estamos vivendo a era de ouro da IA. O capital de risco flui livremente, as empresas competem para oferecer os preços mais baixos e as restrições, se houver, são raras. Nesse ambiente, as alternativas descentralizadas podem parecer desnecessárias. Por que lidar com as complexidades da economia de tokens e sistemas de prova quando os provedores tradicionais funcionam muito bem?
Mas, seguindo as principais ondas de tecnologia do passado, esta benevolência é temporária. Mal estamos há dois anos na revolução da IA. À medida que a tecnologia amadurece e os vencedores da corrida da IA emergem, seu verdadeiro poder surgirá. As mesmas empresas que hoje oferecem acesso generoso eventualmente irão afirmar controle - através de preços, políticas, permissões.
Esta não é apenas mais um ciclo de tecnologia em jogo. A IA está se tornando o novo substrato da civilização - a lente através da qual processaremos informações, criaremos arte, tomaremos decisões e, em última análise, evoluiremos como espécie. A computação é mais do que apenas um recurso; é a moeda da própria inteligência. Aqueles que controlam seu fluxo moldarão a fronteira cognitiva da humanidade.
A computação descentralizada não se trata de oferecer GPUs mais baratos ou opções de implantação mais flexíveis (embora deva oferecer ambos para ter sucesso). Trata-se de garantir que o acesso à inteligência artificial - a tecnologia mais transformadora da humanidade - permaneça imune à censura e soberana. É nosso escudo contra um futuro inevitável em que um punhado de empresas ditam não apenas quem pode usar a IA, mas como podem pensar com ela.
Estamos construindo esses sistemas hoje não porque eles são imediatamente necessários, mas porque eles serão essenciais amanhã. Quando a IA se tornar tão fundamental para a sociedade quanto o dinheiro, a computação sem permissão não será apenas uma alternativa - será tão crucial para resistir à hegemonia digital quanto o Bitcoin e as stablecoins são para resistir ao controle financeiro.
A corrida para a superinteligência artificial pode estar além do alcance de sistemas descentralizados. Mas garantir que os frutos dessa inteligência permaneçam acessíveis a todos? Essa é uma corrida que vale a pena correr.