Nuestra tesis de IA cripto (Parte II): La computación descentralizada es el Rey

Avanzado12/17/2024, 1:10:42 PM
En la Parte II de mi tesis, profundizaré en cuatro de los subsectores más prometedores en Cripto IA: Cómputo descentralizado: Entrenamiento, Inferencia y mercados de GPU, Redes de datos, IA verificable, Agentes de IA que viven en cadena. Esta pieza representa la culminación de semanas de investigación profunda y conversaciones con fundadores y equipos en todo el panorama de la Cripto IA. No está diseñada para ser una inmersión profunda exhaustiva en cada sector, eso es una madriguera para otro día.

No me he sacudido de este gran error.

Todavía me persigue porque era la apuesta más obvia para cualquier persona que prestara atención, sin embargo, no invertí ni un solo dólar.

No, no fue el próximo asesino de Solana o un memecoin con un perro que lleva un sombrero divertido.

Fue… NVIDIA.

Precio de las acciones de NVDA año a la fecha. Fuente: Google

En solo un año, NVDA se triplicó, pasando de una capitalización de mercado de $1T a $3T. Incluso superó a Bitcoin en el mismo período.

Claro, parte de eso es publicidad engañosa sobre la inteligencia artificial. Pero una gran parte de ello está fundamentada en la realidad. NVIDIA informó ingresos de $60 mil millones para el ejercicio fiscal 2024, un asombroso aumento del 126% con respecto a 2023. Este crecimiento fue impulsado por las grandes empresas de tecnología que adquirieron GPUs en una carrera global de la inteligencia artificial hacia la AGI.

Entonces, ¿por qué lo perdí?

Durante dos años, estuve centrado en la cripto y no miré hacia afuera para ver lo que estaba sucediendo en la IA. Ese fue un gran error y todavía me pesa.

Pero no estoy cometiendo el mismo error dos veces.

Hoy, la IA Cripto se siente extrañamente similar. Estamos al borde de una explosión de innovación. Los paralelos con la Fiebre del Oro de California de mediados del siglo XIX son difíciles de ignorar: las industrias y ciudades surgieron de la noche a la mañana, la infraestructura avanzó a un ritmo frenético y las fortunas fueron hechas por aquellos que se atrevieron a saltar.

Al igual que NVIDIA en sus primeros días, Crypto AI parecerá obvio a la luz retrospectiva.

En Parte I de mi tesis, expliqué por qué la inteligencia artificial en el ámbito de laCripto es la oportunidad más emocionante de hoy para inversores y constructores.

Aquí hay un resumen rápido:

  • Muchos todavía lo desestiman como “vaporware”.
  • La IA de las criptomonedas se encuentra en su ciclo inicial, probablemente a 1 o 2 años de distancia del pico de exageración.
  • Hay una oportunidad de crecimiento de más de $230 mil millones en este espacio, como mínimo.

En su núcleo, Crypto AI es IA con infraestructura de cripto superpuesta. Esto significa que es más probable que siga la trayectoria de crecimiento exponencial de la IA que el mercado cripto en general. Entonces, para mantenerse adelante, debes sintonizar la última investigación de IA en Arxiv y hablar con los fundadores que creen que están construyendo la próxima gran cosa.

En la Parte II de mi tesis, profundizaré en cuatro de los subsectores más prometedores en Cripto IA:

  1. Compute descentralizado: mercados de entrenamiento, inferencia y GPU
  2. Redes de datos
  3. IA verificable
  4. Agentes de IA que viven en cadena

Esta pieza representa la culminación de semanas de investigación profunda y conversaciones con fundadores y equipos en todo el panorama de la IA Cripto. No está diseñada para ser una inmersión profunda exhaustiva en cada sector, eso es un agujero de conejo para otro día.

En su lugar, considérelo como una hoja de ruta de alto nivel creada para despertar la curiosidad, afilar su investigación y guiar el pensamiento de inversión.

Mapeando el panorama

Me imagino la pila de IA descentralizada como un ecosistema en capas: comienza con cálculos descentralizados y redes de datos abiertos en un extremo, que alimentan el entrenamiento de modelos de IA descentralizados.

Cada inferencia se verifica, tanto los insumos como los resultados, utilizando una combinación de criptografía, incentivos criptoeconómicos y redes de evaluación. Estos resultados verificados fluyen hacia agentes de IA que pueden operar de forma autónoma en la cadena, así como aplicaciones de IA para consumidores y empresas en las que los usuarios realmente pueden confiar.

Las redes de coordinación lo unen todo, permitiendo una comunicación y colaboración fluida en todo el ecosistema.

En esta visión, cualquier persona que construya en IA podría aprovechar una o más capas de esta pila, dependiendo de sus necesidades específicas. Ya sea aprovechando la informática descentralizada para el entrenamiento de modelos o utilizando redes de evaluación para garantizar salidas de alta calidad, la pila ofrece una variedad de opciones.

Gracias a la composabilidad inherente de la cadena de bloques, creo que naturalmente nos estamos moviendo hacia un futuro modular. Cada capa se está volviendo altamente especializada, con protocolos optimizados para funciones distintas en lugar de un enfoque integrado todo en uno.

Fuente: topology.vc

Ha habido una explosión cámbrica de startups construyendo en cada capa del stack de IA descentralizada, la mayoría fundadas en los últimos 1-3 años. Está claro: todavía estamos en una etapa temprana.

El mapa más completo y actualizado del panorama de startups de inteligencia artificial en Crypto que he visto es mantenido por Casey y su equipo en topology.vc. Es un recurso invaluable para cualquier persona que siga el espacio.

Mientras me sumerjo en los subsectores de Crypto AI, me pregunto constantemente: ¿qué tan grande es la oportunidad aquí? No estoy interesado en apuestas pequeñas, busco mercados que puedan escalar a cientos de miles de millones.

1. Tamaño del mercado

Comencemos con el tamaño del mercado. Al evaluar un subsector, me pregunto: ¿está creando un mercado completamente nuevo o perturbando uno existente?

Tomemos como ejemplo la computación descentralizada. Es una categoría disruptiva cuyo potencial se puede estimar mirando el mercado establecido de computación en la nube, que vale ~$680B hoy y se espera que alcance los $2.5T en 2032.

Nuevos mercados sin precedentes, como los agentes de IA, son más difíciles de cuantificar. Sin datos históricos, evaluarlos implica una combinación de conjeturas educadas y verificaciones instintivas sobre los problemas que están resolviendo. Y la trampa es que a veces, lo que parece un nuevo mercado es realmente solo una solución en busca de un problema.

2. Timing

El momento lo es todo. La tecnología tiende a mejorar y a abaratarse con el tiempo, pero el ritmo del progreso varía.

¿Qué tan madura está la tecnología en un subsector dado? ¿Está lista para escalar, o todavía se encuentra en la fase de investigación, con aplicaciones prácticas a años de distancia? El momento determina si un sector merece atención inmediata o si debe ser dejado en la categoría de “esperar y ver”.

Tomemos el cifrado completamente homomórfico (FHE) como ejemplo: el potencial es innegable, pero hoy en día todavía es demasiado lento para un uso generalizado. Es probable que pasen varios años antes de que se vuelva viable a gran escala. Al centrarnos primero en sectores más cercanos a la escalabilidad, puedo dedicar mi tiempo y energía donde se está construyendo el impulso y la oportunidad.

Si tuviera que mapear estas categorías en un gráfico de tamaño vs. tiempo, se vería algo así. Ten en cuenta que esto es más un boceto conceptual que una guía estricta. Hay muchos matices, por ejemplo, dentro de la inferencia verificable, enfoques diferentes como zkML y opML están en diferentes niveles de preparación para su uso.

Dicho esto, estoy convencido de que la escala de la IA será tan masiva que incluso lo que hoy parece un “nicho” podría convertirse en un mercado importante.

También vale la pena señalar que el progreso tecnológico no siempre sigue una línea recta, a menudo ocurre en saltos. Mis puntos de vista sobre el momento y el tamaño del mercado cambiarán cuando ocurran avances emergentes.

Con este marco en mente, desglosemos cada subsector.

Sector 1: Computación descentralizada

TL;dr

  • La informática descentralizada es la columna vertebral de la inteligencia artificial descentralizada.
  • Los mercados de GPU, el entrenamiento descentralizado y la inferencia descentralizada están profundamente interconectados y prosperan juntos.
  • El lado de la oferta suele provenir de centros de datos de pequeño y mediano tamaño y de GPUs de consumo.
  • La demanda es pequeña pero creciente. Hoy proviene de usuarios sensibles al precio y la latencia, y de startups de IA más pequeñas.
  • El mayor desafío para los mercados de GPU Web3 hoy en día es hacer que funcionen realmente.
  • Orquestar GPUs en una red descentralizada requiere ingeniería avanzada y una arquitectura de red bien diseñada y robusta.

1.1. Mercados de GPU / Redes de Cómputo

Varios equipos de Crypto AI se están posicionando para capitalizar la escasez de GPU en relación con la demanda mediante la construcción de redes descentralizadas que aprovechan la reserva global de potencia de cómputo latente.

La propuesta de valor principal para los mercados de GPU es triple:

  1. Puede acceder a la informática a “hasta un 90% más barato” que AWS, que proviene (1) de eliminar intermediarios y (2) abrir el lado de la oferta. Básicamente, estos mercados le permiten aprovechar el costo marginal más bajo de la informática a nivel mundial.
  2. Mayor flexibilidad: sin contratos de permanencia, sin KYC, sin tiempos de espera.
  3. Resistencia a la censura

Para abordar el lado de la oferta del mercado, estos mercados obtienen recursos informáticos de:

  • GPUs de grado empresarial (por ejemplo, A100s, H100s) de centros de datos de tamaño mediano a pequeño que luchan por encontrar demanda por sí mismos o mineros de Bitcoin que buscan diversificar. También sé de equipos que aprovechan proyectos de infraestructura gubernamentales grandes, donde se han construido centros de datos como parte de iniciativas de crecimiento tecnológico. A menudo, estos proveedores tienen incentivos para mantener sus GPUs en la red, lo que les ayuda a compensar los costos de amortización de sus GPUs.
  • GPU de grado de consumidor de millones de jugadores y usuarios domésticos que conectan sus computadoras a la red a cambio de incentivos de tokens

Por otro lado, la demanda de cómputo descentralizado hoy proviene de:

  1. Usuarios sensibles al precio y a la latencia. Este segmento prioriza la asequibilidad sobre la velocidad. Piense en investigadores que exploran nuevos campos, desarrolladores de IA independientes y otros usuarios preocupados por los costos que no necesitan procesamiento en tiempo real. Debido a las limitaciones presupuestarias, muchos de ellos pueden tener dificultades con los hiperescaladores tradicionales como AWS o Azure. Debido a que están bastante distribuidos entre la población, el marketing dirigido es crucial para atraer a este grupo.
  2. Las startups de IA más pequeñas enfrentan desafíos para asegurar recursos informáticos flexibles y escalables sin comprometerse con contratos a largo plazo con los principales proveedores de servicios en la nube. El desarrollo empresarial es vital para atraer a este segmento, ya que están buscando activamente alternativas a la dependencia de los hiperescaladores.
  3. Las startups de IA de criptografía que construyen productos de IA descentralizados pero sin su propia oferta de cómputo deberán aprovechar los recursos de una de estas redes.
  4. Juegos en la nube: Si bien no está directamente impulsado por la IA, los juegos en la nube son una fuente creciente de demanda de recursos de GPU.

Lo fundamental que hay que recordar: los desarrolladores siempre priorizan los costos y la fiabilidad.

El verdadero desafío: la demanda, no la oferta

Las startups en este espacio a menudo presumen del tamaño de sus redes de suministro de GPU como una señal de éxito. Pero esto es engañoso, en el mejor de los casos es una métrica de vanidad.

La verdadera restricción no es la oferta sino la demanda. Las métricas clave a seguir no son el número de GPUs disponibles, sino la tasa de utilización y el número de GPUs realmente alquiladas.

Los tokens son excelentes para arrancar el lado de suministro, creando los incentivos necesarios para escalar rápidamente. Sin embargo, no resuelven inherentemente el problema de la demanda. La verdadera prueba es llevar el producto a un estado lo suficientemente bueno como para que la demanda latente se materialice.

Haseeb Qureshi (Dragonfly) lo dice mejor:

Hacer que las redes informáticas funcionen realmente

Contrariamente a la creencia popular, el mayor obstáculo para los mercados distribuidos de GPU web3 hoy en día es simplemente hacer que funcionen correctamente.

Este no es un problema trivial.

La orquestación de GPU en una red distribuida es compleja, con capas de desafíos: asignación de recursos, escalado dinámico de cargas de trabajo, equilibrio de carga entre nodos y GPU, administración de latencia, transferencia de datos, tolerancia a fallas y manejo de hardware diverso disperso en varias geografías. Podría seguir y seguir.

Lograr esto requiere una ingeniería seria y una arquitectura de red robusta y adecuadamente diseñada.

Para ponerlo en perspectiva, consideremos Kubernetes de Google. Es ampliamente considerado como el estándar de oro para la orquestación de contenedores, automatizando procesos como el equilibrio de carga y la escalabilidad en entornos distribuidos, desafíos muy similares a los enfrentados por las redes de GPU distribuidas. Kubernetes en sí mismo se construyó sobre más de una década de experiencia de Google, y aún así, tomó años de iteración implacable para hacerlo bien.

Algunos de los mercados de cómputo de GPU que ya están en funcionamiento hoy en día pueden manejar cargas de trabajo a pequeña escala, pero las grietas comienzan a aparecer tan pronto como intentan escalar. Sospecho que esto se debe a que fueron construidos sobre bases arquitectónicas mal diseñadas.

Otro desafío/oportunidad para las redes informáticas descentralizadas es garantizar la confiabilidad: verificar que cada nodo realmente esté proporcionando la potencia informática que afirma. Actualmente, esto depende de la reputación de la red y, en algunos casos, los proveedores de informática se clasifican según puntuaciones de reputación. La cadena de bloques parece ser un ajuste natural para sistemas de verificación sin confianza. Empresas emergentes como Gensyn y Esferónestán impulsando un enfoque sin confianza para resolver este problema.

Hoy en día, muchos equipos de web3 todavía están navegando por estos desafíos, lo que significa que la oportunidad está totalmente abierta.

Tamaño del mercado de computación descentralizada

¿Qué tan grande es el mercado de las redes de cálculo descentralizado?

Hoy en día, probablemente sea solo una pequeña fracción de la industria de computación en la nube de $680B - $2.5T. Sin embargo, a pesar de la fricción adicional para los usuarios, siempre habrá cierta demanda mientras los costos sigan siendo inferiores a los de los proveedores tradicionales.

Creo que los costos se mantendrán bajos a corto y mediano plazo debido a una combinación de subsidios de tokens y la liberación de suministro por parte de usuarios que no son sensibles al precio (por ejemplo, si puedo alquilar mi computadora portátil para juegos por dinero extra, estoy contento ya sea que sean $20 o $50 al mes).

Pero el verdadero potencial de crecimiento para las redes informáticas descentralizadas y la verdadera expansión de su TAM vendrá cuando:

  1. La formación descentralizada de modelos de IA se vuelve práctica
  2. La demanda de inferencia explota y los centros de datos existentes no pueden satisfacerla. Esto ya está comenzando a manifestarse. Jensen Huang dice que la demanda de inferencia va aaumentar “mil millones de veces”.
  3. Los Acuerdos de Nivel de Servicio (SLAs) adecuados se vuelven disponibles, abordando una barrera crítica para la adopción empresarial. Actualmente, el cálculo descentralizado opera en base a un mejor esfuerzo, dejando a los usuarios con niveles variables de calidad de servicio (por ej. % tiempo de actividad). Con los SLAs en su lugar, estas redes podrían ofrecer fiabilidad estandarizada y métricas de rendimiento, haciendo que el cálculo descentralizado sea una alternativa viable a los proveedores tradicionales de cálculo en la nube.

La computación descentralizada y sin permisos se erige como la capa base, la infraestructura fundamental, para un ecosistema de IA descentralizado.

A pesar de la expansión continua en la cadena de suministro de silicio (es decir, las GPU), creo que solo estamos en el amanecer de la era de la Inteligencia de la humanidad. Habrá una demanda insaciable de cómputo.

Esté atento al punto de inflexión que podría desencadenar una importante recalificación de todos los mercados de GPU en funcionamiento. Probablemente llegue pronto.

Otras notas:

  • El mercado de GPU exclusivo está abarrotado, con competencia entre plataformas descentralizadas y también el ascenso de las neonubes de IA de web2como Vast.ai y Lambda.
  • Los nodos pequeños (por ejemplo, 4 x H100) no tienen mucha demanda debido a su uso limitado, pero buena suerte encontrando a alguien que venda grandes clústeres, todavía están muy solicitados.
  • ¿Un jugador dominante aglutinará toda la oferta de computación para los protocolos descentralizados, o seguirá fragmentada entre múltiples mercados? Me inclino hacia lo primero y una distribución de ley de potencias en los resultados, ya que la consolidación a menudo impulsa la eficiencia en la infraestructura. Pero llevará tiempo para desarrollarse y, mientras tanto, la fragmentación y la desorganización continúan.
  • Los desarrolladores quieren centrarse en construir aplicaciones, no en lidiar con la implementación y configuración. Los mercados deben abstraer estas complejidades, haciendo el acceso a la informática lo más sencillo posible.

1.2. Entrenamiento Descentralizado

TL;dr

  • Si las leyes de escala se mantienen, entrenar la próxima generación de modelos de IA de vanguardia en un solo centro de datos algún día será imposible, físicamente.
  • El entrenamiento de modelos de IA requiere una gran cantidad de transferencia de datos entre GPU. La baja velocidad de transferencia de datos (interconexión) entre GPU distribuidas suele ser la mayor barrera.
  • Los investigadores están explorando múltiples enfoques simultáneamente, y están ocurriendo avances (por ejemplo, Open DiLoCo, DisTrO). Estos avances se acumularán y se compilarán, acelerando el progreso en el espacio.
  • Es probable que el futuro de la formación descentralizada se encuentre en modelos más pequeños y especializados diseñados para aplicaciones de nicho en lugar de modelos fronterizos centrados en la AGI.
  • La demanda de inferencia está lista para dispararse con el cambio hacia modelos como o1 de OpenAI, creando oportunidades para redes de inferencia descentralizadas.

Imagínate esto: un modelo de IA masivo y transformador, no desarrollado en laboratorios elitistas secretos, sino creado por millones de personas comunes. Los jugadores, cuyas GPU suelen generar explosiones cinematográficas de Call of Duty, ahora prestan su hardware a algo más grande: un modelo de IA de código abierto y de propiedad colectiva sin guardianes centrales.

En este futuro, los modelos a escala de la fundación no son solo el dominio de los mejores laboratorios de IA.

Pero vamos a fundamentar esta visión en la realidad actual. Por ahora, la mayor parte del entrenamiento intensivo de IA sigue estando anclado en centros de datos centralizados, y esto probablemente será lo normal durante algún tiempo.

Empresas como OpenAI están escalando sus enormes clústeres. Elon Musk recientemente anunció que xAI está a punto de completar un centro de datos que cuenta con el equivalente a 200.000 GPU H100.

Pero no se trata solo del recuento bruto de GPU. Utilización de FLOPS del modelo (MFU): una métrica introducida en El documento PaLM de Googleen 2022, rastrea qué tan eficazmente se utiliza la capacidad máxima de una GPU. Sorprendentemente, el MFU a menudo oscila alrededor del 35-40%.

¿Por qué tan bajo? Si bien el rendimiento de las GPU ha aumentado considerablemente en los últimos años siguiendo la ley de Moore, las mejoras en la red, la memoria y el almacenamiento han quedado rezagadas, creando cuellos de botella. Como resultado, las GPU a menudo permanecen inactivas, esperando datos.

El entrenamiento de IA sigue estando altamente centralizado hoy en día debido a una palabra: eficiencia.

Entrenar modelos grandes depende de técnicas como:

• Paralelismo de datos: dividir conjuntos de datos en varias GPU para realizar operaciones en paralelo, lo que acelera el proceso de entrenamiento.

• Paralelismo del modelo: distribución de partes del modelo entre las GPU para evitar las restricciones de memoria.

Estos métodos requieren GPUs para intercambiar datos constantemente, lo que hace que la velocidad de interconexión, es decir, la velocidad a la que se transfieren los datos entre las computadoras de la red, sea absolutamente esencial.

Cuando el entrenamiento de modelos de IA de frontera puede costar más de 1.000 millones de dólares, cada ganancia de eficiencia es importante.

Con sus interconexiones de alta velocidad, los centros de datos centralizados permiten una transferencia rápida de datos entre las GPU y generan ahorros significativos de costos durante el tiempo de entrenamiento que las configuraciones descentralizadas no pueden igualar… aún.

Superando la velocidad lenta de interconexión

Si hablas con personas que trabajan en el campo de la IA, muchos te dirán que el entrenamiento descentralizado simplemente no funciona.

En configuraciones descentralizadas, los clústeres de GPU no están físicamente ubicados en el mismo lugar, por lo que transferir datos entre ellos es mucho más lento y se convierte en un cuello de botella. El entrenamiento requiere que las GPU sincronicen e intercambien datos en cada paso. Cuanto más separadas estén, mayor será la latencia. Una mayor latencia significa una velocidad de entrenamiento más lenta y costos más altos.

Lo que podría tardar unos días en un centro de datos centralizado podría extenderse a dos semanas con un enfoque descentralizado a un costo más alto. Simplemente no es viable.

Pero esto va a cambiar.

La buena noticia es que ha habido un enorme aumento del interés en la investigación sobre el entrenamiento distribuido. Los investigadores están explorando múltiples enfoques simultáneamente, como lo demuestra la avalancha de estudios y artículos publicados. Estos avances se acumularán y se compilarán, acelerando el progreso en este ámbito.

También se trata de probar en producción y ver hasta dónde podemos empujar los límites.

Algunas técnicas de capacitación descentralizada ya pueden manejar modelos más pequeños en entornos de interconexión lenta. Ahora, la investigación de vanguardia está trabajando para extender estos métodos a modelos cada vez más grandes.

  • Por ejemplo, el Intelecto Primario abrir papel DiCoLodemuestra un enfoque práctico que implica “islas” de GPUs realizando 500 pasos locales antes de sincronizarse, reduciendo los requisitos de ancho de banda hasta 500 veces. Lo que comenzó como la investigación de Google DeepMind en modelos más pequeños ahora se ha escalado para entrenar un modelo de 10 mil millones de parámetros en noviembre, y hoy se ha hecho completamente de código abierto.
  • Nous Researchestá llevando el listón aún más alto con su marco DisTrO, que utiliza optimizadores para lograr una reducción de hasta 10,000 veces en los requisitos de comunicación entre GPU durante el entrenamiento de un modelo de 1.2B parámetros que te dejará con la boca abierta.
  • Y el impulso sigue construyéndose. En diciembre, Nous anunció la pre-entrenamiento de un modelo de 15B de parámetros con una curva de pérdida (cómo disminuye el error del modelo con el tiempo) y una tasa de convergencia (la velocidad a la que se estabiliza el rendimiento del modelo) que coincide o supera los resultados típicamente vistos con configuraciones de entrenamiento centralizadas. Sí, mejor que centralizado.
  • SWARM Paralelismo y DTFMHE son otros métodos para entrenar modelos de IA muy grandes en diferentes tipos de dispositivos, incluso si esos dispositivos tienen velocidades y conexiones variables.

Otro desafío es gestionar una amplia gama de hardware de GPU, que incluye GPUs de consumo con memoria limitada que son típicas en redes descentralizadas. Técnicas como el paralelismo de modelos (dividir capas de modelos entre dispositivos) pueden ayudar a que esto sea factible.

El Futuro del Entrenamiento Descentralizado

Los métodos actuales de formación descentralizada siguen limitando el tamaño de los modelos a cifras muy por debajo de la frontera (se informa que GPT-4 está cerca de un billón de parámetros, 100 veces más grande que el modelo de 10B de Prime Intellect). Para escalar realmente, necesitaremos avances en la arquitectura de modelos, una mejor infraestructura de red y una división más inteligente de tareas entre dispositivos.

Y podemos soñar en grande. Imagine un mundo en el que el entrenamiento descentralizado agrega más potencia de cómputo de GPU de la que incluso los centros de datos centralizados más grandes podrían reunir.

Investigación Pluralis (un equipo brillante en el entrenamiento descentralizado, uno para seguir de cerca) argumenta que esto no solo es posible, sino inevitable. Los centros de datos centralizados están limitados por restricciones físicas como el espacio y el disponibilidad de energía, mientras que las redes descentralizadas pueden aprovechar un pozo efectivamente ilimitado de recursos globales.

Incluso Jensen Huang de NVIDIA ha reconocido que entrenamiento descentralizado asincrónicoPodría desbloquear el verdadero potencial de la escala de IA. Las redes de entrenamiento distribuido también son más tolerantes a fallos.

Entonces, en un futuro potencial, los modelos de IA más poderosos del mundo serán entrenados de manera descentralizada.

Es una perspectiva emocionante, pero aún no estoy completamente convencido. Necesitamos pruebas más sólidas de que el entrenamiento descentralizado de los modelos más grandes es técnicamente y económicamente viable.

Aquí es donde veo una inmensa promesa: el punto óptimo de la capacitación descentralizada podría residir en modelos más pequeños, especializados y de código abierto diseñados para casos de uso específicos, en lugar de competir con los modelos de frontera ultra grandes impulsados por AGI. Ciertas arquitecturas, especialmente los modelos sin transformadores, ya están demostrando ser un ajuste natural para las configuraciones descentralizadas.

Y hay otra pieza en este rompecabezas: tokens. Una vez que el entrenamiento descentralizado se vuelva factible a gran escala, los tokens podrían desempeñar un papel fundamental en incentivar y recompensar a los contribuyentes, iniciando efectivamente estas redes.

El camino hacia esta visión es largo, pero el progreso es profundamente alentador. Los avances en la formación descentralizada beneficiarán a todos, incluso a las grandes empresas tecnológicas y a los laboratorios de investigación de IA de primer nivel, ya que la escala de los modelos futuros superará la capacidad de un único centro de datos.

El futuro es distribuido. Y cuando una tecnología tiene un potencial tan amplio, la historia muestra que siempre mejora y avanza más rápido de lo que cualquiera espera.

1.3. Inferencia descentralizada

En este momento, la mayor parte de la potencia de cómputo de la IA se está canalizando hacia el entrenamiento de modelos masivos. Los principales laboratorios de IA están en una carrera armamentista para desarrollar los mejores modelos fundacionales y, en última instancia, lograr AGI.

Pero aquí está mi opinión: este intenso enfoque informático en la formación se desplazará hacia la inferencia en los próximos años. A medida que la IA se incorpore cada vez más en las aplicaciones que usamos a diario, desde la atención médica hasta el entretenimiento, los recursos informáticos necesarios para respaldar la inferencia serán asombrosos.

Y no es solo especulación. El escalado de cómputo en tiempo de inferencia es la última palabra de moda en IA. OpenAI lanzó recientemente una versión preliminar/mini de su último modelo, o1 (nombre en clave: Strawberry), ¿y el gran cambio? Se toma su tiempo para pensar preguntándose primero cuáles son los pasos que debe seguir para responder a la pregunta, y luego pasa por cada uno de esos pasos.

Este modelo está diseñado para tareas más complejas y que requieren mucha planificación, como Resolviendo crucigramas—y aborda problemas que requieren un razonamiento más profundo. Notarás que es más lento, tarda más tiempo en generar respuestas, pero los resultados son mucho más reflexivos y matizados. También es mucho más caro de ejecutar (25 veces el costo de GPT-4)

El cambio de enfoque es claro: el próximo salto en el rendimiento de la IA no vendrá solo de entrenar modelos más grandes, sino también de escalar el uso de cálculo durante la inferencia.

Si quieres leer más, varios estudios papelesdemostrar:

  • La ampliación de la computación inferencial a través de muestreo repetido conduce a grandes mejoras en varias tareas.
  • También hay una ley de escala exponencial para la inferencia.

Una vez que se entrenan los modelos poderosos, sus tareas de inferencia, donde los modelos hacen cosas, se pueden descargar en redes informáticas descentralizadas. Esto tiene mucho sentido porque:

  • La inferencia requiere muchos menos recursos que el entrenamiento. Una vez entrenados, los modelos pueden comprimirse y optimizarse mediante técnicas como cuantización, poda o destilación. Incluso se pueden dividir con paralelismo de tensor o de canalización para ejecutarse en dispositivos de consumo diario. No necesitas una GPU de gama alta para alimentar la inferencia.
  • Ya está sucediendo.Laboratorios Exo ha descubierto cómo ejecutar un modelo Llama3 de parámetros 450B en hardware de consumo como MacBooks y Mac Minis. La distribución de la inferencia entre muchos dispositivos puede manejar incluso cargas de trabajo a gran escala de manera eficiente y rentable.
  • Mejor experiencia del usuario. Ejecutar cálculos más cerca del usuario reduce la latencia, lo cual es fundamental para aplicaciones en tiempo real como juegos, realidad aumentada o coches autónomos. Cada milisegundo cuenta.

Piense en la inferencia descentralizada como una CDN (red de entrega de contenido) para IA: en lugar de entregar sitios web rápidamente conectándose a servidores cercanos, la inferencia descentralizada aprovecha la potencia de cómputo local para ofrecer respuestas de IA en un tiempo récord. Al adoptar la inferencia descentralizada, las aplicaciones de IA se vuelven más eficientes, receptivas y confiables.

La tendencia es clara. El nuevo chip M4 Pro de Apple rivales de NVIDIARTX 3070 Ti: una GPU que, hasta hace poco, era el dominio de los jugadores más hardcore. El hardware que ya tenemos tiene cada vez más capacidad para manejar cargas de trabajo de IA avanzadas.

Valor agregado de las criptomonedas

Para que las redes de inferencia descentralizadas tengan éxito, debe haber incentivos económicos convincentes para la participación. Los nodos en la red deben ser compensados por sus contribuciones de cálculo. El sistema debe asegurar una distribución justa y eficiente de las recompensas. La diversidad geográfica es esencial, reduciendo la latencia para las tareas de inferencia y mejorando la tolerancia a fallos.

¿Y la mejor manera de construir redes descentralizadas? Cripto.

Los tokens proporcionan un mecanismo poderoso para alinear los intereses de los participantes, asegurando que todos estén trabajando hacia el mismo objetivo: escalar la red y aumentar el valor del token.

Los tokens también potencian el crecimiento de la red. Ayudan a resolver el clásico problema del huevo y la gallina que paraliza la mayoría de las redes al recompensar a los primeros adoptantes y fomentar la participación desde el primer día.

El éxito de Bitcoin y Ethereum demuestra este punto, ya que han agregado las mayores piscinas de potencia informática del planeta.

Las redes de inferencia descentralizadas son las siguientes en la línea. Con diversidad geográfica, reducen la latencia, mejoran la tolerancia a fallos y acercan la IA al usuario. Y con incentivos impulsados por cripto, escalarán más rápido y mejor de lo que las redes tradicionales podrían hacerlo nunca.

Descargo de responsabilidad:

  1. Este artículo es reproducido de [[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Cadena de Pensamiento](https://www.chainofthought.xyz/)\]. Todos los derechos de autor pertenecen al autor original [Teng Yan]. Si hay objeciones a esta reimpresión, póngase en contacto con el Aprende Gateequipo y lo resolverán rápidamente.
  2. Descargo de responsabilidad de responsabilidad: Las opiniones expresadas en este artículo son únicamente las del autor y no constituyen ningún consejo de inversión.
  3. Las traducciones del artículo a otros idiomas son realizadas por el equipo de Aprende de gate. A menos que se mencione lo contrario, está prohibido copiar, distribuir o plagiar los artículos traducidos.

Nuestra tesis de IA cripto (Parte II): La computación descentralizada es el Rey

Avanzado12/17/2024, 1:10:42 PM
En la Parte II de mi tesis, profundizaré en cuatro de los subsectores más prometedores en Cripto IA: Cómputo descentralizado: Entrenamiento, Inferencia y mercados de GPU, Redes de datos, IA verificable, Agentes de IA que viven en cadena. Esta pieza representa la culminación de semanas de investigación profunda y conversaciones con fundadores y equipos en todo el panorama de la Cripto IA. No está diseñada para ser una inmersión profunda exhaustiva en cada sector, eso es una madriguera para otro día.

No me he sacudido de este gran error.

Todavía me persigue porque era la apuesta más obvia para cualquier persona que prestara atención, sin embargo, no invertí ni un solo dólar.

No, no fue el próximo asesino de Solana o un memecoin con un perro que lleva un sombrero divertido.

Fue… NVIDIA.

Precio de las acciones de NVDA año a la fecha. Fuente: Google

En solo un año, NVDA se triplicó, pasando de una capitalización de mercado de $1T a $3T. Incluso superó a Bitcoin en el mismo período.

Claro, parte de eso es publicidad engañosa sobre la inteligencia artificial. Pero una gran parte de ello está fundamentada en la realidad. NVIDIA informó ingresos de $60 mil millones para el ejercicio fiscal 2024, un asombroso aumento del 126% con respecto a 2023. Este crecimiento fue impulsado por las grandes empresas de tecnología que adquirieron GPUs en una carrera global de la inteligencia artificial hacia la AGI.

Entonces, ¿por qué lo perdí?

Durante dos años, estuve centrado en la cripto y no miré hacia afuera para ver lo que estaba sucediendo en la IA. Ese fue un gran error y todavía me pesa.

Pero no estoy cometiendo el mismo error dos veces.

Hoy, la IA Cripto se siente extrañamente similar. Estamos al borde de una explosión de innovación. Los paralelos con la Fiebre del Oro de California de mediados del siglo XIX son difíciles de ignorar: las industrias y ciudades surgieron de la noche a la mañana, la infraestructura avanzó a un ritmo frenético y las fortunas fueron hechas por aquellos que se atrevieron a saltar.

Al igual que NVIDIA en sus primeros días, Crypto AI parecerá obvio a la luz retrospectiva.

En Parte I de mi tesis, expliqué por qué la inteligencia artificial en el ámbito de laCripto es la oportunidad más emocionante de hoy para inversores y constructores.

Aquí hay un resumen rápido:

  • Muchos todavía lo desestiman como “vaporware”.
  • La IA de las criptomonedas se encuentra en su ciclo inicial, probablemente a 1 o 2 años de distancia del pico de exageración.
  • Hay una oportunidad de crecimiento de más de $230 mil millones en este espacio, como mínimo.

En su núcleo, Crypto AI es IA con infraestructura de cripto superpuesta. Esto significa que es más probable que siga la trayectoria de crecimiento exponencial de la IA que el mercado cripto en general. Entonces, para mantenerse adelante, debes sintonizar la última investigación de IA en Arxiv y hablar con los fundadores que creen que están construyendo la próxima gran cosa.

En la Parte II de mi tesis, profundizaré en cuatro de los subsectores más prometedores en Cripto IA:

  1. Compute descentralizado: mercados de entrenamiento, inferencia y GPU
  2. Redes de datos
  3. IA verificable
  4. Agentes de IA que viven en cadena

Esta pieza representa la culminación de semanas de investigación profunda y conversaciones con fundadores y equipos en todo el panorama de la IA Cripto. No está diseñada para ser una inmersión profunda exhaustiva en cada sector, eso es un agujero de conejo para otro día.

En su lugar, considérelo como una hoja de ruta de alto nivel creada para despertar la curiosidad, afilar su investigación y guiar el pensamiento de inversión.

Mapeando el panorama

Me imagino la pila de IA descentralizada como un ecosistema en capas: comienza con cálculos descentralizados y redes de datos abiertos en un extremo, que alimentan el entrenamiento de modelos de IA descentralizados.

Cada inferencia se verifica, tanto los insumos como los resultados, utilizando una combinación de criptografía, incentivos criptoeconómicos y redes de evaluación. Estos resultados verificados fluyen hacia agentes de IA que pueden operar de forma autónoma en la cadena, así como aplicaciones de IA para consumidores y empresas en las que los usuarios realmente pueden confiar.

Las redes de coordinación lo unen todo, permitiendo una comunicación y colaboración fluida en todo el ecosistema.

En esta visión, cualquier persona que construya en IA podría aprovechar una o más capas de esta pila, dependiendo de sus necesidades específicas. Ya sea aprovechando la informática descentralizada para el entrenamiento de modelos o utilizando redes de evaluación para garantizar salidas de alta calidad, la pila ofrece una variedad de opciones.

Gracias a la composabilidad inherente de la cadena de bloques, creo que naturalmente nos estamos moviendo hacia un futuro modular. Cada capa se está volviendo altamente especializada, con protocolos optimizados para funciones distintas en lugar de un enfoque integrado todo en uno.

Fuente: topology.vc

Ha habido una explosión cámbrica de startups construyendo en cada capa del stack de IA descentralizada, la mayoría fundadas en los últimos 1-3 años. Está claro: todavía estamos en una etapa temprana.

El mapa más completo y actualizado del panorama de startups de inteligencia artificial en Crypto que he visto es mantenido por Casey y su equipo en topology.vc. Es un recurso invaluable para cualquier persona que siga el espacio.

Mientras me sumerjo en los subsectores de Crypto AI, me pregunto constantemente: ¿qué tan grande es la oportunidad aquí? No estoy interesado en apuestas pequeñas, busco mercados que puedan escalar a cientos de miles de millones.

1. Tamaño del mercado

Comencemos con el tamaño del mercado. Al evaluar un subsector, me pregunto: ¿está creando un mercado completamente nuevo o perturbando uno existente?

Tomemos como ejemplo la computación descentralizada. Es una categoría disruptiva cuyo potencial se puede estimar mirando el mercado establecido de computación en la nube, que vale ~$680B hoy y se espera que alcance los $2.5T en 2032.

Nuevos mercados sin precedentes, como los agentes de IA, son más difíciles de cuantificar. Sin datos históricos, evaluarlos implica una combinación de conjeturas educadas y verificaciones instintivas sobre los problemas que están resolviendo. Y la trampa es que a veces, lo que parece un nuevo mercado es realmente solo una solución en busca de un problema.

2. Timing

El momento lo es todo. La tecnología tiende a mejorar y a abaratarse con el tiempo, pero el ritmo del progreso varía.

¿Qué tan madura está la tecnología en un subsector dado? ¿Está lista para escalar, o todavía se encuentra en la fase de investigación, con aplicaciones prácticas a años de distancia? El momento determina si un sector merece atención inmediata o si debe ser dejado en la categoría de “esperar y ver”.

Tomemos el cifrado completamente homomórfico (FHE) como ejemplo: el potencial es innegable, pero hoy en día todavía es demasiado lento para un uso generalizado. Es probable que pasen varios años antes de que se vuelva viable a gran escala. Al centrarnos primero en sectores más cercanos a la escalabilidad, puedo dedicar mi tiempo y energía donde se está construyendo el impulso y la oportunidad.

Si tuviera que mapear estas categorías en un gráfico de tamaño vs. tiempo, se vería algo así. Ten en cuenta que esto es más un boceto conceptual que una guía estricta. Hay muchos matices, por ejemplo, dentro de la inferencia verificable, enfoques diferentes como zkML y opML están en diferentes niveles de preparación para su uso.

Dicho esto, estoy convencido de que la escala de la IA será tan masiva que incluso lo que hoy parece un “nicho” podría convertirse en un mercado importante.

También vale la pena señalar que el progreso tecnológico no siempre sigue una línea recta, a menudo ocurre en saltos. Mis puntos de vista sobre el momento y el tamaño del mercado cambiarán cuando ocurran avances emergentes.

Con este marco en mente, desglosemos cada subsector.

Sector 1: Computación descentralizada

TL;dr

  • La informática descentralizada es la columna vertebral de la inteligencia artificial descentralizada.
  • Los mercados de GPU, el entrenamiento descentralizado y la inferencia descentralizada están profundamente interconectados y prosperan juntos.
  • El lado de la oferta suele provenir de centros de datos de pequeño y mediano tamaño y de GPUs de consumo.
  • La demanda es pequeña pero creciente. Hoy proviene de usuarios sensibles al precio y la latencia, y de startups de IA más pequeñas.
  • El mayor desafío para los mercados de GPU Web3 hoy en día es hacer que funcionen realmente.
  • Orquestar GPUs en una red descentralizada requiere ingeniería avanzada y una arquitectura de red bien diseñada y robusta.

1.1. Mercados de GPU / Redes de Cómputo

Varios equipos de Crypto AI se están posicionando para capitalizar la escasez de GPU en relación con la demanda mediante la construcción de redes descentralizadas que aprovechan la reserva global de potencia de cómputo latente.

La propuesta de valor principal para los mercados de GPU es triple:

  1. Puede acceder a la informática a “hasta un 90% más barato” que AWS, que proviene (1) de eliminar intermediarios y (2) abrir el lado de la oferta. Básicamente, estos mercados le permiten aprovechar el costo marginal más bajo de la informática a nivel mundial.
  2. Mayor flexibilidad: sin contratos de permanencia, sin KYC, sin tiempos de espera.
  3. Resistencia a la censura

Para abordar el lado de la oferta del mercado, estos mercados obtienen recursos informáticos de:

  • GPUs de grado empresarial (por ejemplo, A100s, H100s) de centros de datos de tamaño mediano a pequeño que luchan por encontrar demanda por sí mismos o mineros de Bitcoin que buscan diversificar. También sé de equipos que aprovechan proyectos de infraestructura gubernamentales grandes, donde se han construido centros de datos como parte de iniciativas de crecimiento tecnológico. A menudo, estos proveedores tienen incentivos para mantener sus GPUs en la red, lo que les ayuda a compensar los costos de amortización de sus GPUs.
  • GPU de grado de consumidor de millones de jugadores y usuarios domésticos que conectan sus computadoras a la red a cambio de incentivos de tokens

Por otro lado, la demanda de cómputo descentralizado hoy proviene de:

  1. Usuarios sensibles al precio y a la latencia. Este segmento prioriza la asequibilidad sobre la velocidad. Piense en investigadores que exploran nuevos campos, desarrolladores de IA independientes y otros usuarios preocupados por los costos que no necesitan procesamiento en tiempo real. Debido a las limitaciones presupuestarias, muchos de ellos pueden tener dificultades con los hiperescaladores tradicionales como AWS o Azure. Debido a que están bastante distribuidos entre la población, el marketing dirigido es crucial para atraer a este grupo.
  2. Las startups de IA más pequeñas enfrentan desafíos para asegurar recursos informáticos flexibles y escalables sin comprometerse con contratos a largo plazo con los principales proveedores de servicios en la nube. El desarrollo empresarial es vital para atraer a este segmento, ya que están buscando activamente alternativas a la dependencia de los hiperescaladores.
  3. Las startups de IA de criptografía que construyen productos de IA descentralizados pero sin su propia oferta de cómputo deberán aprovechar los recursos de una de estas redes.
  4. Juegos en la nube: Si bien no está directamente impulsado por la IA, los juegos en la nube son una fuente creciente de demanda de recursos de GPU.

Lo fundamental que hay que recordar: los desarrolladores siempre priorizan los costos y la fiabilidad.

El verdadero desafío: la demanda, no la oferta

Las startups en este espacio a menudo presumen del tamaño de sus redes de suministro de GPU como una señal de éxito. Pero esto es engañoso, en el mejor de los casos es una métrica de vanidad.

La verdadera restricción no es la oferta sino la demanda. Las métricas clave a seguir no son el número de GPUs disponibles, sino la tasa de utilización y el número de GPUs realmente alquiladas.

Los tokens son excelentes para arrancar el lado de suministro, creando los incentivos necesarios para escalar rápidamente. Sin embargo, no resuelven inherentemente el problema de la demanda. La verdadera prueba es llevar el producto a un estado lo suficientemente bueno como para que la demanda latente se materialice.

Haseeb Qureshi (Dragonfly) lo dice mejor:

Hacer que las redes informáticas funcionen realmente

Contrariamente a la creencia popular, el mayor obstáculo para los mercados distribuidos de GPU web3 hoy en día es simplemente hacer que funcionen correctamente.

Este no es un problema trivial.

La orquestación de GPU en una red distribuida es compleja, con capas de desafíos: asignación de recursos, escalado dinámico de cargas de trabajo, equilibrio de carga entre nodos y GPU, administración de latencia, transferencia de datos, tolerancia a fallas y manejo de hardware diverso disperso en varias geografías. Podría seguir y seguir.

Lograr esto requiere una ingeniería seria y una arquitectura de red robusta y adecuadamente diseñada.

Para ponerlo en perspectiva, consideremos Kubernetes de Google. Es ampliamente considerado como el estándar de oro para la orquestación de contenedores, automatizando procesos como el equilibrio de carga y la escalabilidad en entornos distribuidos, desafíos muy similares a los enfrentados por las redes de GPU distribuidas. Kubernetes en sí mismo se construyó sobre más de una década de experiencia de Google, y aún así, tomó años de iteración implacable para hacerlo bien.

Algunos de los mercados de cómputo de GPU que ya están en funcionamiento hoy en día pueden manejar cargas de trabajo a pequeña escala, pero las grietas comienzan a aparecer tan pronto como intentan escalar. Sospecho que esto se debe a que fueron construidos sobre bases arquitectónicas mal diseñadas.

Otro desafío/oportunidad para las redes informáticas descentralizadas es garantizar la confiabilidad: verificar que cada nodo realmente esté proporcionando la potencia informática que afirma. Actualmente, esto depende de la reputación de la red y, en algunos casos, los proveedores de informática se clasifican según puntuaciones de reputación. La cadena de bloques parece ser un ajuste natural para sistemas de verificación sin confianza. Empresas emergentes como Gensyn y Esferónestán impulsando un enfoque sin confianza para resolver este problema.

Hoy en día, muchos equipos de web3 todavía están navegando por estos desafíos, lo que significa que la oportunidad está totalmente abierta.

Tamaño del mercado de computación descentralizada

¿Qué tan grande es el mercado de las redes de cálculo descentralizado?

Hoy en día, probablemente sea solo una pequeña fracción de la industria de computación en la nube de $680B - $2.5T. Sin embargo, a pesar de la fricción adicional para los usuarios, siempre habrá cierta demanda mientras los costos sigan siendo inferiores a los de los proveedores tradicionales.

Creo que los costos se mantendrán bajos a corto y mediano plazo debido a una combinación de subsidios de tokens y la liberación de suministro por parte de usuarios que no son sensibles al precio (por ejemplo, si puedo alquilar mi computadora portátil para juegos por dinero extra, estoy contento ya sea que sean $20 o $50 al mes).

Pero el verdadero potencial de crecimiento para las redes informáticas descentralizadas y la verdadera expansión de su TAM vendrá cuando:

  1. La formación descentralizada de modelos de IA se vuelve práctica
  2. La demanda de inferencia explota y los centros de datos existentes no pueden satisfacerla. Esto ya está comenzando a manifestarse. Jensen Huang dice que la demanda de inferencia va aaumentar “mil millones de veces”.
  3. Los Acuerdos de Nivel de Servicio (SLAs) adecuados se vuelven disponibles, abordando una barrera crítica para la adopción empresarial. Actualmente, el cálculo descentralizado opera en base a un mejor esfuerzo, dejando a los usuarios con niveles variables de calidad de servicio (por ej. % tiempo de actividad). Con los SLAs en su lugar, estas redes podrían ofrecer fiabilidad estandarizada y métricas de rendimiento, haciendo que el cálculo descentralizado sea una alternativa viable a los proveedores tradicionales de cálculo en la nube.

La computación descentralizada y sin permisos se erige como la capa base, la infraestructura fundamental, para un ecosistema de IA descentralizado.

A pesar de la expansión continua en la cadena de suministro de silicio (es decir, las GPU), creo que solo estamos en el amanecer de la era de la Inteligencia de la humanidad. Habrá una demanda insaciable de cómputo.

Esté atento al punto de inflexión que podría desencadenar una importante recalificación de todos los mercados de GPU en funcionamiento. Probablemente llegue pronto.

Otras notas:

  • El mercado de GPU exclusivo está abarrotado, con competencia entre plataformas descentralizadas y también el ascenso de las neonubes de IA de web2como Vast.ai y Lambda.
  • Los nodos pequeños (por ejemplo, 4 x H100) no tienen mucha demanda debido a su uso limitado, pero buena suerte encontrando a alguien que venda grandes clústeres, todavía están muy solicitados.
  • ¿Un jugador dominante aglutinará toda la oferta de computación para los protocolos descentralizados, o seguirá fragmentada entre múltiples mercados? Me inclino hacia lo primero y una distribución de ley de potencias en los resultados, ya que la consolidación a menudo impulsa la eficiencia en la infraestructura. Pero llevará tiempo para desarrollarse y, mientras tanto, la fragmentación y la desorganización continúan.
  • Los desarrolladores quieren centrarse en construir aplicaciones, no en lidiar con la implementación y configuración. Los mercados deben abstraer estas complejidades, haciendo el acceso a la informática lo más sencillo posible.

1.2. Entrenamiento Descentralizado

TL;dr

  • Si las leyes de escala se mantienen, entrenar la próxima generación de modelos de IA de vanguardia en un solo centro de datos algún día será imposible, físicamente.
  • El entrenamiento de modelos de IA requiere una gran cantidad de transferencia de datos entre GPU. La baja velocidad de transferencia de datos (interconexión) entre GPU distribuidas suele ser la mayor barrera.
  • Los investigadores están explorando múltiples enfoques simultáneamente, y están ocurriendo avances (por ejemplo, Open DiLoCo, DisTrO). Estos avances se acumularán y se compilarán, acelerando el progreso en el espacio.
  • Es probable que el futuro de la formación descentralizada se encuentre en modelos más pequeños y especializados diseñados para aplicaciones de nicho en lugar de modelos fronterizos centrados en la AGI.
  • La demanda de inferencia está lista para dispararse con el cambio hacia modelos como o1 de OpenAI, creando oportunidades para redes de inferencia descentralizadas.

Imagínate esto: un modelo de IA masivo y transformador, no desarrollado en laboratorios elitistas secretos, sino creado por millones de personas comunes. Los jugadores, cuyas GPU suelen generar explosiones cinematográficas de Call of Duty, ahora prestan su hardware a algo más grande: un modelo de IA de código abierto y de propiedad colectiva sin guardianes centrales.

En este futuro, los modelos a escala de la fundación no son solo el dominio de los mejores laboratorios de IA.

Pero vamos a fundamentar esta visión en la realidad actual. Por ahora, la mayor parte del entrenamiento intensivo de IA sigue estando anclado en centros de datos centralizados, y esto probablemente será lo normal durante algún tiempo.

Empresas como OpenAI están escalando sus enormes clústeres. Elon Musk recientemente anunció que xAI está a punto de completar un centro de datos que cuenta con el equivalente a 200.000 GPU H100.

Pero no se trata solo del recuento bruto de GPU. Utilización de FLOPS del modelo (MFU): una métrica introducida en El documento PaLM de Googleen 2022, rastrea qué tan eficazmente se utiliza la capacidad máxima de una GPU. Sorprendentemente, el MFU a menudo oscila alrededor del 35-40%.

¿Por qué tan bajo? Si bien el rendimiento de las GPU ha aumentado considerablemente en los últimos años siguiendo la ley de Moore, las mejoras en la red, la memoria y el almacenamiento han quedado rezagadas, creando cuellos de botella. Como resultado, las GPU a menudo permanecen inactivas, esperando datos.

El entrenamiento de IA sigue estando altamente centralizado hoy en día debido a una palabra: eficiencia.

Entrenar modelos grandes depende de técnicas como:

• Paralelismo de datos: dividir conjuntos de datos en varias GPU para realizar operaciones en paralelo, lo que acelera el proceso de entrenamiento.

• Paralelismo del modelo: distribución de partes del modelo entre las GPU para evitar las restricciones de memoria.

Estos métodos requieren GPUs para intercambiar datos constantemente, lo que hace que la velocidad de interconexión, es decir, la velocidad a la que se transfieren los datos entre las computadoras de la red, sea absolutamente esencial.

Cuando el entrenamiento de modelos de IA de frontera puede costar más de 1.000 millones de dólares, cada ganancia de eficiencia es importante.

Con sus interconexiones de alta velocidad, los centros de datos centralizados permiten una transferencia rápida de datos entre las GPU y generan ahorros significativos de costos durante el tiempo de entrenamiento que las configuraciones descentralizadas no pueden igualar… aún.

Superando la velocidad lenta de interconexión

Si hablas con personas que trabajan en el campo de la IA, muchos te dirán que el entrenamiento descentralizado simplemente no funciona.

En configuraciones descentralizadas, los clústeres de GPU no están físicamente ubicados en el mismo lugar, por lo que transferir datos entre ellos es mucho más lento y se convierte en un cuello de botella. El entrenamiento requiere que las GPU sincronicen e intercambien datos en cada paso. Cuanto más separadas estén, mayor será la latencia. Una mayor latencia significa una velocidad de entrenamiento más lenta y costos más altos.

Lo que podría tardar unos días en un centro de datos centralizado podría extenderse a dos semanas con un enfoque descentralizado a un costo más alto. Simplemente no es viable.

Pero esto va a cambiar.

La buena noticia es que ha habido un enorme aumento del interés en la investigación sobre el entrenamiento distribuido. Los investigadores están explorando múltiples enfoques simultáneamente, como lo demuestra la avalancha de estudios y artículos publicados. Estos avances se acumularán y se compilarán, acelerando el progreso en este ámbito.

También se trata de probar en producción y ver hasta dónde podemos empujar los límites.

Algunas técnicas de capacitación descentralizada ya pueden manejar modelos más pequeños en entornos de interconexión lenta. Ahora, la investigación de vanguardia está trabajando para extender estos métodos a modelos cada vez más grandes.

  • Por ejemplo, el Intelecto Primario abrir papel DiCoLodemuestra un enfoque práctico que implica “islas” de GPUs realizando 500 pasos locales antes de sincronizarse, reduciendo los requisitos de ancho de banda hasta 500 veces. Lo que comenzó como la investigación de Google DeepMind en modelos más pequeños ahora se ha escalado para entrenar un modelo de 10 mil millones de parámetros en noviembre, y hoy se ha hecho completamente de código abierto.
  • Nous Researchestá llevando el listón aún más alto con su marco DisTrO, que utiliza optimizadores para lograr una reducción de hasta 10,000 veces en los requisitos de comunicación entre GPU durante el entrenamiento de un modelo de 1.2B parámetros que te dejará con la boca abierta.
  • Y el impulso sigue construyéndose. En diciembre, Nous anunció la pre-entrenamiento de un modelo de 15B de parámetros con una curva de pérdida (cómo disminuye el error del modelo con el tiempo) y una tasa de convergencia (la velocidad a la que se estabiliza el rendimiento del modelo) que coincide o supera los resultados típicamente vistos con configuraciones de entrenamiento centralizadas. Sí, mejor que centralizado.
  • SWARM Paralelismo y DTFMHE son otros métodos para entrenar modelos de IA muy grandes en diferentes tipos de dispositivos, incluso si esos dispositivos tienen velocidades y conexiones variables.

Otro desafío es gestionar una amplia gama de hardware de GPU, que incluye GPUs de consumo con memoria limitada que son típicas en redes descentralizadas. Técnicas como el paralelismo de modelos (dividir capas de modelos entre dispositivos) pueden ayudar a que esto sea factible.

El Futuro del Entrenamiento Descentralizado

Los métodos actuales de formación descentralizada siguen limitando el tamaño de los modelos a cifras muy por debajo de la frontera (se informa que GPT-4 está cerca de un billón de parámetros, 100 veces más grande que el modelo de 10B de Prime Intellect). Para escalar realmente, necesitaremos avances en la arquitectura de modelos, una mejor infraestructura de red y una división más inteligente de tareas entre dispositivos.

Y podemos soñar en grande. Imagine un mundo en el que el entrenamiento descentralizado agrega más potencia de cómputo de GPU de la que incluso los centros de datos centralizados más grandes podrían reunir.

Investigación Pluralis (un equipo brillante en el entrenamiento descentralizado, uno para seguir de cerca) argumenta que esto no solo es posible, sino inevitable. Los centros de datos centralizados están limitados por restricciones físicas como el espacio y el disponibilidad de energía, mientras que las redes descentralizadas pueden aprovechar un pozo efectivamente ilimitado de recursos globales.

Incluso Jensen Huang de NVIDIA ha reconocido que entrenamiento descentralizado asincrónicoPodría desbloquear el verdadero potencial de la escala de IA. Las redes de entrenamiento distribuido también son más tolerantes a fallos.

Entonces, en un futuro potencial, los modelos de IA más poderosos del mundo serán entrenados de manera descentralizada.

Es una perspectiva emocionante, pero aún no estoy completamente convencido. Necesitamos pruebas más sólidas de que el entrenamiento descentralizado de los modelos más grandes es técnicamente y económicamente viable.

Aquí es donde veo una inmensa promesa: el punto óptimo de la capacitación descentralizada podría residir en modelos más pequeños, especializados y de código abierto diseñados para casos de uso específicos, en lugar de competir con los modelos de frontera ultra grandes impulsados por AGI. Ciertas arquitecturas, especialmente los modelos sin transformadores, ya están demostrando ser un ajuste natural para las configuraciones descentralizadas.

Y hay otra pieza en este rompecabezas: tokens. Una vez que el entrenamiento descentralizado se vuelva factible a gran escala, los tokens podrían desempeñar un papel fundamental en incentivar y recompensar a los contribuyentes, iniciando efectivamente estas redes.

El camino hacia esta visión es largo, pero el progreso es profundamente alentador. Los avances en la formación descentralizada beneficiarán a todos, incluso a las grandes empresas tecnológicas y a los laboratorios de investigación de IA de primer nivel, ya que la escala de los modelos futuros superará la capacidad de un único centro de datos.

El futuro es distribuido. Y cuando una tecnología tiene un potencial tan amplio, la historia muestra que siempre mejora y avanza más rápido de lo que cualquiera espera.

1.3. Inferencia descentralizada

En este momento, la mayor parte de la potencia de cómputo de la IA se está canalizando hacia el entrenamiento de modelos masivos. Los principales laboratorios de IA están en una carrera armamentista para desarrollar los mejores modelos fundacionales y, en última instancia, lograr AGI.

Pero aquí está mi opinión: este intenso enfoque informático en la formación se desplazará hacia la inferencia en los próximos años. A medida que la IA se incorpore cada vez más en las aplicaciones que usamos a diario, desde la atención médica hasta el entretenimiento, los recursos informáticos necesarios para respaldar la inferencia serán asombrosos.

Y no es solo especulación. El escalado de cómputo en tiempo de inferencia es la última palabra de moda en IA. OpenAI lanzó recientemente una versión preliminar/mini de su último modelo, o1 (nombre en clave: Strawberry), ¿y el gran cambio? Se toma su tiempo para pensar preguntándose primero cuáles son los pasos que debe seguir para responder a la pregunta, y luego pasa por cada uno de esos pasos.

Este modelo está diseñado para tareas más complejas y que requieren mucha planificación, como Resolviendo crucigramas—y aborda problemas que requieren un razonamiento más profundo. Notarás que es más lento, tarda más tiempo en generar respuestas, pero los resultados son mucho más reflexivos y matizados. También es mucho más caro de ejecutar (25 veces el costo de GPT-4)

El cambio de enfoque es claro: el próximo salto en el rendimiento de la IA no vendrá solo de entrenar modelos más grandes, sino también de escalar el uso de cálculo durante la inferencia.

Si quieres leer más, varios estudios papelesdemostrar:

  • La ampliación de la computación inferencial a través de muestreo repetido conduce a grandes mejoras en varias tareas.
  • También hay una ley de escala exponencial para la inferencia.

Una vez que se entrenan los modelos poderosos, sus tareas de inferencia, donde los modelos hacen cosas, se pueden descargar en redes informáticas descentralizadas. Esto tiene mucho sentido porque:

  • La inferencia requiere muchos menos recursos que el entrenamiento. Una vez entrenados, los modelos pueden comprimirse y optimizarse mediante técnicas como cuantización, poda o destilación. Incluso se pueden dividir con paralelismo de tensor o de canalización para ejecutarse en dispositivos de consumo diario. No necesitas una GPU de gama alta para alimentar la inferencia.
  • Ya está sucediendo.Laboratorios Exo ha descubierto cómo ejecutar un modelo Llama3 de parámetros 450B en hardware de consumo como MacBooks y Mac Minis. La distribución de la inferencia entre muchos dispositivos puede manejar incluso cargas de trabajo a gran escala de manera eficiente y rentable.
  • Mejor experiencia del usuario. Ejecutar cálculos más cerca del usuario reduce la latencia, lo cual es fundamental para aplicaciones en tiempo real como juegos, realidad aumentada o coches autónomos. Cada milisegundo cuenta.

Piense en la inferencia descentralizada como una CDN (red de entrega de contenido) para IA: en lugar de entregar sitios web rápidamente conectándose a servidores cercanos, la inferencia descentralizada aprovecha la potencia de cómputo local para ofrecer respuestas de IA en un tiempo récord. Al adoptar la inferencia descentralizada, las aplicaciones de IA se vuelven más eficientes, receptivas y confiables.

La tendencia es clara. El nuevo chip M4 Pro de Apple rivales de NVIDIARTX 3070 Ti: una GPU que, hasta hace poco, era el dominio de los jugadores más hardcore. El hardware que ya tenemos tiene cada vez más capacidad para manejar cargas de trabajo de IA avanzadas.

Valor agregado de las criptomonedas

Para que las redes de inferencia descentralizadas tengan éxito, debe haber incentivos económicos convincentes para la participación. Los nodos en la red deben ser compensados por sus contribuciones de cálculo. El sistema debe asegurar una distribución justa y eficiente de las recompensas. La diversidad geográfica es esencial, reduciendo la latencia para las tareas de inferencia y mejorando la tolerancia a fallos.

¿Y la mejor manera de construir redes descentralizadas? Cripto.

Los tokens proporcionan un mecanismo poderoso para alinear los intereses de los participantes, asegurando que todos estén trabajando hacia el mismo objetivo: escalar la red y aumentar el valor del token.

Los tokens también potencian el crecimiento de la red. Ayudan a resolver el clásico problema del huevo y la gallina que paraliza la mayoría de las redes al recompensar a los primeros adoptantes y fomentar la participación desde el primer día.

El éxito de Bitcoin y Ethereum demuestra este punto, ya que han agregado las mayores piscinas de potencia informática del planeta.

Las redes de inferencia descentralizadas son las siguientes en la línea. Con diversidad geográfica, reducen la latencia, mejoran la tolerancia a fallos y acercan la IA al usuario. Y con incentivos impulsados por cripto, escalarán más rápido y mejor de lo que las redes tradicionales podrían hacerlo nunca.

Descargo de responsabilidad:

  1. Este artículo es reproducido de [[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Cadena de Pensamiento](https://www.chainofthought.xyz/)\]. Todos los derechos de autor pertenecen al autor original [Teng Yan]. Si hay objeciones a esta reimpresión, póngase en contacto con el Aprende Gateequipo y lo resolverán rápidamente.
  2. Descargo de responsabilidad de responsabilidad: Las opiniones expresadas en este artículo son únicamente las del autor y no constituyen ningún consejo de inversión.
  3. Las traducciones del artículo a otros idiomas son realizadas por el equipo de Aprende de gate. A menos que se mencione lo contrario, está prohibido copiar, distribuir o plagiar los artículos traducidos.
Empieza ahora
¡Registrarse y recibe un bono de
$100
!