Socio de inversión de Variant: los desafíos y avances del código abierto de IA, ¿por qué la tecnología de encriptación es la última pieza del rompecabezas?

Question

Autor: Daniel BarabanderCompilado por TechFlow de DeepC.Resumen breveEl desarrollo de la inteligencia artificial básica actual está dominado por unas pocas empresas de tecnología, lo que presenta características de cerrazón y falta de competencia.Aunque el desarrollo de software de código abierto es una solución potencial, la IA básica no puede funcionar como proyectos de código abierto tradicionales (como Linux) debido a un "problema de recursos": los contribuyentes de código abierto no solo necesitan invertir tiempo, sino también asumir costos computacionales y de datos más allá de sus capacidades personales.La tecnología de cifrado tiene el potencial de resolver este problema de recursos al incentivar la participación de proveedores de recursos en proyectos de inteligencia artificial de código abierto.La combinación de inteligencia artificial de código abierto y tecnología de cifrado puede respaldar el desarrollo de modelos a mayor escala y fomentar más innovaciones para crear sistemas de inteligencia artificial más avanzados.IntroducciónSegún una encuesta realizada por el Centro de Investigación Pew en 2024, el 64% de los estadounidenses considera que el impacto de las redes sociales en el país es más perjudicial que beneficioso; el 78% cree que las empresas de redes sociales tienen demasiado poder e influencia en la política; el 83% piensa que es muy probable que estas plataformas censuren intencionalmente puntos de vista políticos con los que no están de acuerdo. El descontento con las redes sociales casi se ha convertido en uno de los pocos consensos en la sociedad estadounidense.Al revisar el desarrollo de las redes sociales en los últimos 20 años, parece que esta situación estaba destinada desde el principio. La historia no es complicada: unas pocas grandes empresas tecnológicas captaron la atención de los usuarios y, lo que es más importante, controlaron sus datos. Aunque al principio la gente tenía esperanzas en la apertura de los datos, estas empresas pronto cambiaron de estrategia, aprovecharon los datos para establecer efectos de red inquebrantables y cerraron el acceso externo. Esto finalmente ha llevado a la situación actual: menos de 10 grandes empresas tecnológicas dominan la industria de las redes sociales, creando un oligopolio. Debido a que esta situación les favorece en gran medida, estas empresas apenas tienen incentivos para cambiar. Este modelo es cerrado y carece de competencia.Hoy en día, la trayectoria de desarrollo de la tecnología de inteligencia artificial parece estar reproduciendo esta escena, pero esta vez con un impacto mucho más profundo. Unas pocas empresas tecnológicas han construido modelos de IA básicos controlando las GPU y los recursos de datos, y han restringido el acceso externo a estos modelos. Para los recién llegados sin miles de millones de dólares, desarrollar un modelo competitivo es casi imposible. El simple costo computacional de entrenar un modelo base requiere miles de millones de dólares, y las empresas de redes sociales que se beneficiaron de la última ola tecnológica están utilizando su control sobre los datos de los usuarios exclusivos para desarrollar modelos inalcanzables para la competencia. Estamos repitiendo los errores de las redes sociales, avanzando hacia un mundo de IA cerrado y carente de competencia. Si esta tendencia continúa, unas pocas empresas tecnológicas tendrán un control ilimitado sobre la obtención de información y oportunidades.Inteligencia artificial de código abierto y el "problema de los recursos"Si no queremos ver un mundo de IA cerrado, ¿cuáles son nuestras opciones? La respuesta obvia es desarrollar modelos base como proyectos de software de código abierto. En la historia, hemos tenido numerosos proyectos de código abierto que han construido exitosamente el software base en el que confiamos en nuestra vida diaria. Por ejemplo, el éxito de Linux demuestra que incluso software fundamental como un sistema operativo puede ser desarrollado de manera abierta. Entonces, ¿por qué no los LLMs (modelos de lenguaje grandes)?Sin embargo, los modelos de IA básicos enfrentan limitaciones especiales que los hacen diferentes del software tradicional, lo que también socava en gran medida su viabilidad como proyectos de código abierto tradicionales. Específicamente, los modelos de IA básicos requieren recursos computacionales y de datos enormes, mucho más allá de la capacidad de una persona. A diferencia de los proyectos de código abierto tradicionales que dependen únicamente de la donación de tiempo, la IA de código abierto también requiere que las personas donen potencia informática y recursos de datos, lo que se conoce como el "problema de recursos".Tomando el modelo LLaMa de Meta como ejemplo, podemos entender mejor este problema de recursos. A diferencia de competidores como OpenAI y Google, Meta no oculta el modelo detrás de una API de pago, sino que proporciona públicamente los pesos de LLaMa para que cualquier persona los use de forma gratuita (con ciertas restricciones). Estos pesos contienen el conocimiento que el modelo ha aprendido durante el entrenamiento en Meta y son necesarios para ejecutar el modelo. Con estos pesos, los usuarios pueden ajustar el modelo o utilizar la salida del modelo como entrada para un nuevo modelo.Aunque Meta ha publicado el valor de peso de LLaMa, que es digno de reconocimiento, no puede considerarse como un verdadero proyecto de software de código abierto. Meta controla en secreto el proceso de entrenamiento del modelo, confiando en sus propios recursos de cálculo, datos y decisiones, y decide unilateralmente cuándo abrir el modelo al público. Meta no ha invitado a investigadores independientes o desarrolladores a participar en colaboraciones comunitarias, ya que los recursos necesarios para entrenar o re-entrenar el modelo están mucho más allá de la capacidad de una persona común. Estos recursos incluyen decenas de miles de GPU de alto rendimiento, centros de datos para almacenar estos GPU, instalaciones de enfriamiento complejas, y decenas de miles de millones de Tokens utilizados para el entrenamiento (unidades de datos de texto necesarias para el entrenamiento del modelo). Como señaló el Informe de Índice de Inteligencia Artificial de la Universidad de Stanford en 2024, 'el aumento brusco del costo de entrenamiento ha excluido efectivamente a las universidades, que tradicionalmente han sido los líderes en la investigación de IA, del desarrollo de modelos base de vanguardia'. Por ejemplo, Sam Altman mencionó que el costo de entrenamiento de GPT-4 llegó a los 100 millones de dólares, y esto ni siquiera incluye el gasto de capital en las instalaciones de hardware. Además, el gasto de capital de Meta en el segundo trimestre de 2024 aumentó en 21 mil millones de dólares en comparación con el mismo período de 2023, principalmente para infraestructuras de servidores, centros de datos y redes relacionadas con el entrenamiento de modelos de IA. Por lo tanto, aunque los colaboradores de la comunidad de LLaMa pueden tener la capacidad técnica para mejorar la arquitectura del modelo, carecen de los recursos suficientes para realizar estas mejoras.En resumen, a diferencia de los proyectos de software de código abierto tradicionales, los proyectos de IA de código abierto no solo requieren que los contribuyentes inviertan tiempo, sino que también necesitan asumir costos computacionales y de datos elevados. Es poco realista depender únicamente de la buena voluntad y el espíritu voluntario para motivar a suficientes proveedores de recursos. Necesitan mecanismos de incentivos adicionales. Tomemos como ejemplo el modelo de lenguaje de código abierto BLOOM, que reúne los esfuerzos de 1000 investigadores voluntarios de más de 70 países y 250 instituciones, con 176 mil millones de parámetros. Aunque el éxito de BLOOM es admirable (cuento con todo mi apoyo), coordinar un entrenamiento llevó un año y dependió de una subvención de 3 millones de euros proporcionada por una institución de investigación francesa (sin incluir el gasto de capital en superordenadores utilizados para entrenar el modelo). Dependiendo de una nueva ronda de financiación para coordinar y actualizar BLOOM es demasiado engorroso y no puede compararse con la velocidad de desarrollo de los grandes laboratorios tecnológicos. Han pasado más de dos años desde el lanzamiento de BLOOM y aún no se ha escuchado que el equipo haya desarrollado ningún modelo de seguimiento.Para hacer posible el AI de código abierto, necesitamos encontrar una forma de motivar a los proveedores de recursos a contribuir con su capacidad de cálculo y recursos de datos, en lugar de hacer que los contribuyentes de código abierto asuman estos costos.¿Por qué la tecnología de cifrado puede resolver el "problema de recursos" de la IA de código abierto básica?La clave para el avance de la tecnología de cifrado radica en el mecanismo de 'propiedad', que hace posible que los proyectos de software de código abierto de alto costo de recursos sean viables. Resuelve el problema de los recursos en la IA de código abierto incentivando a los potenciales proveedores de recursos a participar en la red, en lugar de hacer que los contribuyentes de código abierto asuman previamente estos costos de recursos.Bitcoin is just a very good example. As the earliest encryption project, Bitcoin is a completely open source software project, and its code has been open from the beginning. However, the code itself is not the key to Bitcoin. Simply downloading and running the Bitcoin node software, creating a blockchain locally, is not meaningful. Only when the calculation of mining blocks is sufficient to exceed the computing power of any single contributor, can the true value of the software be reflected: maintaining a decentralized, uncontrolled ledger. Similar to basic open source AI, Bitcoin is also an open source project that requires resources beyond individual capabilities. Although the reasons for the demand for computing resources of the two are different - Bitcoin needs computing resources to ensure that the network is tamper-resistant, and basic AI needs computing resources to optimize and iterate models - their common point is that they both need to rely on resources beyond individual capabilities.Bitcoin, así como cualquier otra red criptográfica, puede incentivar a los participantes a proporcionar recursos para proyectos de software de código abierto a través del 'secreto' de proporcionar propiedad de la red a través de tokens. Como Jesse explicó en la idea fundacional escrita para Variant en 2020, la propiedad proporciona un fuerte incentivo a los proveedores de recursos para contribuir y obtener potenciales ganancias en la red. Este mecanismo es similar a las startups que resuelven la falta de fondos en etapas tempranas a través de 'equity de sudor' - al pagar a los primeros empleados (como los fundadores) principalmente en forma de propiedad de la empresa, las startups pueden atraer mano de obra que inicialmente no podrían costear. La criptografía ha llevado el concepto de 'equity de sudor' desde el enfoque en contribuciones de tiempo hacia los proveedores de recursos. Por lo tanto, Variant se centra en invertir en proyectos que utilizan el mecanismo de propiedad para construir efectos de red, como Uniswap, Morpho y World.Si queremos que la AI de código abierto sea una realidad, el mecanismo de propiedad implementado a través de la tecnología de cifrado es la solución clave para resolver el problema de los recursos. Este mecanismo permite que los investigadores contribuyan libremente con sus ideas de diseño de modelos a proyectos de código abierto, ya que los recursos de cálculo y datos necesarios para implementar estas ideas serán proporcionados por proveedores de recursos que recibirán una parte de la propiedad del proyecto como recompensa, en lugar de exigir a los investigadores afrontar los altos costos iniciales. En la AI de código abierto, la propiedad puede adoptar diversas formas, pero una de las más esperadas es la propiedad del modelo en sí, que es también la solución propuesta por Pluralis.El enfoque propuesto por Pluralis se conoce como Modelos de Protocolo. En este modelo, el proveedor de recursos informáticos puede contribuir con la potencia informática para entrenar un modelo de código abierto específico y, por lo tanto, recibir la propiedad parcial de los ingresos de inferencia futuros de ese modelo. Dado que esta propiedad está vinculada a un modelo específico y su valor se basa en los ingresos de inferencia del modelo, se incentiva a los proveedores de recursos informáticos a elegir el modelo óptimo para entrenar sin falsificar los datos de entrenamiento (ya que proporcionar un entrenamiento inútil reduce directamente el valor esperado de los ingresos de inferencia futuros). Sin embargo, una pregunta clave es: ¿cómo garantiza Pluralis la seguridad de la propiedad si el proceso de entrenamiento requiere que las ponderaciones del modelo se envíen al proveedor de proceso? La respuesta está en el uso del paralelismo de modelos para distribuir particiones de modelo a diferentes trabajadores. Una característica importante de las redes neuronales es que, incluso si solo se conoce una pequeña fracción de los pesos del modelo, el computador aún puede participar en el entrenamiento, lo que garantiza que no se pueda extraer el conjunto completo de pesos. Además, debido a que muchos modelos diferentes se entrenan al mismo tiempo en la plataforma Pluralis, el entrenador se enfrentará a una gran cantidad de juegos de pesas diferentes, lo que hace que sea extremadamente difícil reconstruir el modelo completo.El concepto central de los Modelos de Protocolo es que estos modelos pueden ser entrenados y utilizados, pero no pueden ser extraídos completamente del protocolo (a menos que se utilice una capacidad informática que exceda los recursos necesarios para entrenar un modelo desde cero). Este mecanismo resuelve el problema que a menudo plantean los críticos de la IA de código abierto, que es la posibilidad de que competidores cerrados puedan apropiarse de los logros de los proyectos de código abierto.¿Por qué la tecnología de cifrado + open source = un mejor AI?Al comienzo del artículo, expliqué los problemas éticos y normativos de la IA cerrada a través del análisis del control de la IA por parte de las grandes empresas de tecnología. Sin embargo, en una era de internet llena de impotencia, me preocupa que este argumento pueda no resonar con la mayoría de los lectores. Por lo tanto, quiero presentar dos razones desde el efecto real para demostrar por qué la IA de código abierto respaldada por tecnología de cifrado puede realmente traer una IA mejor.En primer lugar, la combinación de tecnología de cifrado y AI de código abierto puede coordinar más recursos y promover el desarrollo de los modelos básicos de próxima generación. Las investigaciones han demostrado que tanto el aumento de la capacidad de cálculo como el de los recursos de datos contribuyen a mejorar el rendimiento del modelo, lo que explica por qué el tamaño de los modelos básicos sigue aumentando constantemente. Bitcoin nos ha mostrado el potencial de la combinación de software de código abierto y tecnología de cifrado en términos de capacidad de cálculo. Se ha convertido en la red de computación más grande y poderosa del mundo, superando con creces los recursos de computación en la nube de las grandes empresas de tecnología. Lo que hace que la tecnología de cifrado sea única es su capacidad para convertir la competencia aislada en competencia colaborativa. Al incentivar a los proveedores de recursos a contribuir con sus recursos para resolver problemas comunes en lugar de luchar individualmente y duplicar esfuerzos, la red de cifrado logra una utilización eficiente de los recursos. Con AI de código abierto basada en tecnología de cifrado, será posible aprovechar los recursos de cálculo y datos a nivel mundial para construir modelos que superen con creces los modelos de IA cerrados. Por ejemplo, la empresa Hyperbolic ya ha demostrado el potencial de este enfoque. A través de un mercado abierto, permiten a cualquiera alquilar una GPU a un costo más bajo, aprovechando al máximo los recursos de cómputo distribuido.En segundo lugar, la combinación de la tecnología de cifrado con la inteligencia artificial de código abierto impulsará la aceleración de la innovación. Esto se debe a que una vez que se resuelva el problema de recursos, la investigación en aprendizaje automático podrá volver a su naturaleza abierta altamente iterativa e innovadora. Antes de la aparición de los modelos de lenguaje a gran escala (LLM), los investigadores en el campo del aprendizaje automático solían publicar abiertamente sus modelos y los planos de diseño replicables. Estos modelos suelen utilizar conjuntos de datos de código abierto y tienen demandas computacionales relativamente bajas, lo que permite a los investigadores seguir optimizándolos e innovando. Es precisamente este proceso iterativo abierto el que ha dado lugar a numerosos avances en el campo del modelado de secuencias, como las redes neuronales recurrentes (RNN), las redes neuronales de memoria a corto y largo plazo (LSTM) y los mecanismos de atención, lo que finalmente hace posible la arquitectura del modelo Transformer. Sin embargo, este enfoque de investigación abierto ha cambiado con el lanzamiento de GPT-3. OpenAI ha demostrado con éxito a través de GPT-3 y ChatGPT que, siempre que se dediquen suficientes recursos computacionales y datos, es posible entrenar modelos de lenguaje a gran escala con capacidad de comprensión del lenguaje. Esta tendencia ha provocado un fuerte aumento en el umbral de recursos, lo que ha llevado a la exclusión gradual del ámbito académico, al mismo tiempo que las grandes empresas tecnológicas, para mantener su ventaja competitiva, ya no hacen públicas sus arquitecturas de modelos. Esta situación limita nuestra capacidad de impulsar las tecnologías más avanzadas en inteligencia artificial.La inteligencia artificial de código abierto impulsada por tecnología de cifrado puede cambiar esta situación. Permite a los investigadores iterar nuevamente en modelos de vanguardia para descubrir el 'próximo Transformador'. Esta combinación no solo puede resolver problemas de recursos, sino también reactivar la innovación en el campo del aprendizaje automático y abrir caminos más amplios para el futuro desarrollo de la IA.