“Una obra de arte nunca se completa, solo se abandona.”
Todos hablan de Agentes de IA, pero lo que quieren decir no es lo mismo, lo que conlleva a diferentes comprensiones de los Agentes de IA desde nuestra perspectiva, la del público y la de los profesionales de la IA.
Hace mucho tiempo, escribí que Cripto es la ilusión de la IA. Desde entonces, la combinación de Cripto y AI ha sido un amor unilateral. Los profesionales de AI rara vez mencionan Web3 o blockchain, mientras que los entusiastas de Cripto están profundamente enamorados de AI. Después de presenciar el fenómeno en el que incluso los marcos de los Agentes de AI pueden ser tokenizados, no está claro si esto realmente podría llevar a los profesionales de AI a nuestro mundo.
AI es el agente de Cripto. Esta es la mejor anotación desde una perspectiva cripto para ver el actual aumento de la IA. El entusiasmo de Cripto por la IA es diferente al de otras industrias; especialmente esperamos integrar la emisión y operación de activos financieros con ella.
En su núcleo, el Agente de IA tiene al menos tres fuentes. La AGI (Inteligencia Artificial General) de OpenAI considera esto como un paso importante, convirtiendo el término en una palabra de moda popular más allá de los círculos técnicos. Sin embargo, en esencia, un Agente no es un concepto nuevo. Incluso con el empoderamiento de la IA, es difícil decir que es una tendencia tecnológica revolucionaria.
La primera fuente es el Agente de IA tal como se ve en OpenAI. Similar al nivel L3 en la conducción autónoma, un Agente de IA puede ser visto como poseedor de ciertas capacidades avanzadas de asistencia pero aún no puede reemplazar completamente a un humano.
Leyenda de la imagen: Fase AGI de la planificación de OpenAI
Fuente de imagen: https://www.bloomberg.com/
La segunda fuente es, como su nombre sugiere, el Agente de IA, que es un Agente potenciado por IA. El concepto de agencia y mecanismos de delegación no es nuevo en el campo de la informática. Sin embargo, bajo la visión de OpenAI, el Agente se convertirá en la etapa L3 tras las formas conversacionales (como ChatGPT) y las formas de razonamiento (como varios bots). La característica clave de esta etapa es la capacidad de "realizar ciertos comportamientos de forma autónoma", o, como lo define Harrison Chase, fundador de LangChain: "Un Agente de IA es un sistema que utiliza LLM (Modelo de Lenguaje Grande) para tomar decisiones de flujo de control en un programa."
Aquí es donde se vuelve intrigante. Antes del advenimiento de los LLM, un Agente ejecutaba principalmente procesos de automatización establecidos por humanos. Por ejemplo, al diseñar un web scraper, los programadores establecían un User-Agent para simular detalles como la versión del navegador y el sistema operativo utilizado por los usuarios reales. Si se empleara un Agente de IA para imitar el comportamiento humano de manera más precisa, podría llevar a la creación de un framework de web scraper basado en un Agente de IA, haciendo que el scraper sea 'más parecido a un humano'.
En tales transiciones, la introducción de los Agentes de IA debe integrarse con los escenarios existentes, ya que apenas existen campos completamente nuevos. Incluso las capacidades de autocompletado y generación de código en herramientas como Curosr y Github Copilot son simplemente mejoras funcionales dentro del marco del Protocolo del Servidor de Lenguaje (LSP), con numerosos ejemplos de dicha evolución:
Para aclarar, en la interacción humano-computadora, la combinación de la GUI de Web 1.0 y los navegadores permitió realmente al público utilizar computadoras sin barreras, representada por la combinación de Windows e IE. Las API se convirtieron en el estándar de abstracción y transmisión de datos detrás de Internet, y durante la era de Web 2.0, surgieron navegadores como Chrome, con un cambio hacia dispositivos móviles que cambió los hábitos de uso de Internet de las personas. Ahora, superaplicaciones como WeChat y plataformas Meta cubren todos los aspectos de la vida de las personas.
La tercera fuente es el concepto de "Intento" en el espacio Cripto, lo que ha llevado al aumento del interés en torno a los Agentes de IA. Sin embargo, tenga en cuenta que esto solo es aplicable dentro de Cripto. Desde scripts de Bitcoin con funcionalidad limitada hasta contratos inteligentes de Ethereum, el concepto de Agente en sí mismo ha sido ampliamente utilizado. La posterior aparición de puentes entre cadenas, abstracciones de cadenas, de Cuentas Poseídas Externamente (EOA) a billeteras de Abstracción de Cuentas (AA) son extensiones naturales de esta línea de pensamiento. Por lo tanto, cuando los Agentes de IA "invaden" Cripto, no es sorprendente que naturalmente lleven a escenarios de DeFi.
Aquí es donde surge la confusión en torno al concepto de Agente de IA. En el contexto de Cripto, lo que en realidad estamos tratando de lograr es un Agente de "gestión financiera automatizada, generación automatizada de memes". Sin embargo, bajo la definición de OpenAI, tal escenario arriesgado requeriría que se implemente verdaderamente el nivel 4 o nivel 5. Mientras tanto, el público está experimentando con la generación automática de código o la asistencia de resumen y escritura impulsada por IA, que no están al mismo nivel que los objetivos que estamos persiguiendo.
Una vez que entendamos lo que realmente queremos, podemos centrarnos en la lógica organizativa de los Agentes de IA. Los detalles técnicos seguirán, ya que el concepto de un Agente de IA se trata en última instancia de eliminar las barreras para la adopción de tecnología a gran escala, al igual que los navegadores revolucionaron la industria de PC personal. Nuestro enfoque se centrará en dos puntos: examinar los Agentes de IA desde la perspectiva de la interacción humano-computadora y comprender las diferencias y conexiones entre los Agentes de IA y LLM, lo que nos llevará a la tercera parte: lo que la combinación de Cripto y Agentes de IA finalmente dejará atrás.
Antes de los modelos de interacción humano-computadora conversacionales como ChatGPT, las formas principales de interacción humano-computadora eran GUI (Interfaz Gráfica de Usuario) y CLI (Interfaz de Línea de Comandos). La mentalidad de GUI evolucionó hacia diversas formas específicas como navegadores y aplicaciones, mientras que la combinación de CLI y Shell experimentó cambios mínimos.
Pero esto es solo la "interfaz de usuario" de la interacción entre humanos y computadoras. A medida que Internet ha evolucionado, el aumento en el volumen y la variedad de datos ha llevado a más interacciones "en segundo plano" entre los datos y entre las aplicaciones. Estos dos aspectos dependen el uno del otro, incluso una simple acción de navegación web requiere en realidad su colaboración.
Si la interacción humana con navegadores y aplicaciones se considera el punto de entrada del usuario, los enlaces y transiciones entre las APIs respaldan el funcionamiento real de internet. De hecho, esto también forma parte del Agente. Los usuarios comunes no necesitan entender términos como líneas de comando y APIs para lograr sus objetivos.
Lo mismo ocurre con LLMs. Ahora, los usuarios pueden ir aún más lejos, no hay necesidad de buscar más. Todo el proceso se puede describir en los siguientes pasos:
Se puede encontrar que en este proceso, el desafío más grande es Google, porque los usuarios no necesitan abrir el motor de búsqueda, sino diversas ventanas de diálogo similares a GPT, y la entrada de tráfico está cambiando silenciosamente. Es por esta razón que algunas personas piensan que este LLM revoluciona la vida de los motores de búsqueda.
Entonces, ¿qué papel juega el Agente de IA en este proceso?
En resumen, el Agente de IA es una extensión especializada de LLM.
Los LLM actuales no son AGI (Inteligencia Artificial General) y están lejos del organizador L5 imaginado por OpenAI. Sus capacidades están significativamente limitadas. Por ejemplo, los LLM son propensos a alucinaciones si se les alimenta con demasiada entrada de usuario. Una razón clave radica en el mecanismo de entrenamiento. Por ejemplo, si le dices repetidamente a GPT que 1+1=3, existe la probabilidad de que responda 4 cuando se le pregunte sobre 1+1+1=?.
Esto sucede porque la retroalimentación de GPT se deriva completamente de la entrada del usuario. Si el modelo no está conectado a Internet, es posible que su funcionamiento sea alterado por sus entradas, lo que resulta en un modelo que solo "sabe" que 1+1=3. Sin embargo, si se permite que el modelo se conecte a Internet, su mecanismo de retroalimentación se vuelve más diverso, ya que la gran mayoría de los datos en línea afirmarían que 1+1=2.
Ahora, ¿qué pasa si debemos usar LLMs localmente y queremos evitar tales problemas?
Una solución directa es usar dos LLMs simultáneamente, requiriéndoles que validen mutuamente las respuestas del otro para reducir la probabilidad de errores. Si esto no es suficiente, otro enfoque podría implicar que dos usuarios manejen un solo proceso, uno haciendo las preguntas y el otro refinándolas, para hacer que el lenguaje sea más preciso y lógico.
Por supuesto, estar conectado a Internet no elimina por completo los problemas. Por ejemplo, si el LLM obtiene respuestas de fuentes no confiables, la situación podría empeorar. Sin embargo, evitar esos datos reduce la cantidad de información disponible. Para abordar esto, los datos existentes se pueden dividir, recombinar o incluso utilizar para generar nuevos datos basados en conjuntos de datos antiguos para que las respuestas sean más confiables. Este enfoque es básicamente el concepto de RAG (Generación con recuperación aumentada) en la comprensión del lenguaje natural.
Los humanos y las máquinas necesitan entenderse mutuamente. Cuando varios LLM colaboran e interactúan, básicamente recurrimos al modelo operativo de Agentes de IA. Estos sirven como intermediarios humanos, accediendo a otros recursos, incluidos modelos grandes y otros agentes.
Esto nos lleva a la conexión entre LLMs y Agentes de IA:
LLMs son agregaciones de conocimiento con las que los humanos interactúan a través de interfaces de chat. Sin embargo, en la práctica, ciertos flujos de trabajo específicos pueden ser condensados en programas más pequeños, bots o conjuntos de instrucciones. Estos se definen como Agentes.
Los Agentes de IA siguen siendo un subconjunto de LLMs, pero no deben confundirse con ellos. La característica definitoria de los Agentes de IA radica en su énfasis en la colaboración con programas externos, LLMs y otros agentes. Por eso, a menudo se resume a los Agentes de IA como LLM + API.
Para ilustrar esto en el flujo de trabajo de LLM, tomemos como ejemplo una llamada de API a través de un Agente de IA:
¿Recuerdas la evolución de la interacción entre humanos y computadoras? Los navegadores, las APIs y otros elementos de la Web 1.0 y la Web 2.0 aún existen, pero los usuarios ya no necesitan interactuar directamente con ellos. En su lugar, pueden simplemente interactuar con los Agentes de Inteligencia Artificial. Las llamadas a las APIs y los procesos relacionados se pueden realizar de manera conversacional. Estos servicios de API pueden abarcar cualquier tipo de datos, ya sean locales, en línea o de aplicaciones externas, siempre que las interfaces estén abiertas y los usuarios tengan los permisos necesarios para acceder a ellas.
Un flujo de trabajo completo del agente de IA, como se muestra arriba, trata a LLM como un componente separado del agente de IA o como dos subprocesos dentro de un solo flujo de trabajo. Independientemente de cómo se dividan, el objetivo siempre es satisfacer las necesidades del usuario. Desde la perspectiva de la interacción humano-computadora, incluso puede sentirse como si los usuarios estuvieran hablando consigo mismos. Solo necesitas expresar completamente tus pensamientos y el agente de IA/LLM/agente de IA adivinará tus necesidades repetidamente. Al incorporar mecanismos de retroalimentación y asegurarse de que el LLM recuerde el contexto actual, el agente de IA evita perder el rumbo de sus tareas.
En resumen, los Agentes de IA son creaciones más personalizadas y humanizadas, lo que los diferencia de los scripts tradicionales y las herramientas de automatización. Actúan como asistentes personales, teniendo en cuenta las necesidades reales del usuario. Sin embargo, es importante tener en cuenta que esta personalización aún se basa en inferencias probabilísticas. Un Agente de IA de nivel L3 no posee capacidades de comprensión y expresión a nivel humano, lo que hace que su integración con API externas sea inherentemente riesgosa.
La capacidad de monetizar los marcos de IA es una de las principales razones por las que sigo interesado en la cripto. En las pilas de tecnología de IA tradicionales, los marcos no son particularmente importantes, al menos no en comparación con los datos y la potencia de cálculo. La monetización de los productos de IA rara vez comienza con el marco, ya que la mayoría de los algoritmos y marcos de modelos de IA son de código abierto. Lo que permanece propietario son elementos sensibles como los datos.
Esencialmente, los marcos o modelos de IA son contenedores y combinaciones de algoritmos, como una olla para guisar ganso. Sin embargo, la calidad del ganso y el dominio del proceso de cocción son lo que realmente definen el sabor. En teoría, el producto a la venta debería ser el ganso, pero los clientes de Web3 parecen preferir comprar la olla mientras descartan el ganso.
La razón de esto no es complicada. La mayoría de los productos de inteligencia artificial Web3 se basan en marcos, algoritmos y productos de inteligencia artificial existentes, adaptándolos a sus propósitos. De hecho, los principios técnicos detrás de los diferentes marcos de inteligencia artificial cripto no son muy diferentes. Dado que la tecnología en sí misma carece de diferenciación, la atención se desplaza hacia el branding, los escenarios de aplicación y otras distinciones superficiales. Como resultado, incluso pequeñas modificaciones al marco de inteligencia artificial se convierten en la base para respaldar varios tokens, lo que lleva a una burbuja de marcos dentro de los ecosistemas de agentes de inteligencia artificial cripto.
Porque no es necesario invertir mucho en datos de entrenamiento o algoritmos, diferenciar los marcos por nombre se vuelve especialmente crucial. Incluso un marco asequible como DeepSeek V3 todavía exige costos significativos en términos de potencia de GPU, electricidad y esfuerzo.
En cierto sentido, esto se alinea con la tendencia reciente de Web3: las plataformas que emiten tokens a menudo son más valiosas que los propios tokens. Proyectos como Pump.Fun y Hyperliquid ejemplifican esto. Originalmente, se suponía que los Agentes representaban aplicaciones y activos, pero los marcos que emiten Agentes ahora se han convertido en las mercancías más populares.
Esto refleja una forma de anclaje de valor. Dado que los Agentes carecen de diferenciación, los marcos para la emisión de Agentes se vuelven más estables y crean un efecto de sifonado de valor para la emisión de activos. Esto marca la versión 1.0 de la integración de cripto y Agentes de IA.
La versión 2.0 está emergiendo ahora, ejemplificada por la convergencia de DeFi y los agentes de IA. Si bien el concepto de DeFAI puede haber sido desencadenado por la exageración del mercado, una mirada más profunda a las siguientes tendencias sugiere lo contrario:
Dentro de este contexto de transformación de DeFi, la IA está remodelando la lógica fundamental de DeFi. Anteriormente, la lógica central de DeFi consistía en verificar la viabilidad de los contratos inteligentes. Ahora, los Agentes de IA están alterando la lógica de fabricación de DeFi. Ya no es necesario entender DeFi para crear productos DeFi. Esto representa un paso más allá de la abstracción de la cadena, proporcionando un empoderamiento fundamental más profundo.
La era en la que cualquiera puede ser un programador está en el horizonte. Las complejas computaciones se pueden externalizar a LLM y las API detrás de los Agentes de IA, lo que permite a las personas centrarse únicamente en sus ideas. El lenguaje natural se puede transformar eficientemente en lógica de programación.
Este artículo no menciona ningún token o marco de trabajo de Crypto AI Agent, ya que Cookie.Fun ya ha hecho un excelente trabajo, una plataforma para la agregación de información de Agentes de IA y el descubrimiento de tokens, seguido de los marcos de trabajo de Agentes de IA y, por último, la fugaz aparición y desaparición de los tokens de Agentes. Continuar enumerando dicha información aquí sería de poco valor.
Sin embargo, a través de observaciones durante este período, el mercado todavía carece de una discusión significativa sobre hacia qué apuntan finalmente los Agentes de IA de Cripto. No podemos seguir enfocándonos en los indicadores; la esencia radica en los cambios que ocurren a nivel de memoria.
Es precisamente la capacidad en constante evolución de transformar varios activos en formas tokenizadas lo que hace que la Cripto sea tan cautivadora.
“Una obra de arte nunca se completa, solo se abandona.”
Todos hablan de Agentes de IA, pero lo que quieren decir no es lo mismo, lo que conlleva a diferentes comprensiones de los Agentes de IA desde nuestra perspectiva, la del público y la de los profesionales de la IA.
Hace mucho tiempo, escribí que Cripto es la ilusión de la IA. Desde entonces, la combinación de Cripto y AI ha sido un amor unilateral. Los profesionales de AI rara vez mencionan Web3 o blockchain, mientras que los entusiastas de Cripto están profundamente enamorados de AI. Después de presenciar el fenómeno en el que incluso los marcos de los Agentes de AI pueden ser tokenizados, no está claro si esto realmente podría llevar a los profesionales de AI a nuestro mundo.
AI es el agente de Cripto. Esta es la mejor anotación desde una perspectiva cripto para ver el actual aumento de la IA. El entusiasmo de Cripto por la IA es diferente al de otras industrias; especialmente esperamos integrar la emisión y operación de activos financieros con ella.
En su núcleo, el Agente de IA tiene al menos tres fuentes. La AGI (Inteligencia Artificial General) de OpenAI considera esto como un paso importante, convirtiendo el término en una palabra de moda popular más allá de los círculos técnicos. Sin embargo, en esencia, un Agente no es un concepto nuevo. Incluso con el empoderamiento de la IA, es difícil decir que es una tendencia tecnológica revolucionaria.
La primera fuente es el Agente de IA tal como se ve en OpenAI. Similar al nivel L3 en la conducción autónoma, un Agente de IA puede ser visto como poseedor de ciertas capacidades avanzadas de asistencia pero aún no puede reemplazar completamente a un humano.
Leyenda de la imagen: Fase AGI de la planificación de OpenAI
Fuente de imagen: https://www.bloomberg.com/
La segunda fuente es, como su nombre sugiere, el Agente de IA, que es un Agente potenciado por IA. El concepto de agencia y mecanismos de delegación no es nuevo en el campo de la informática. Sin embargo, bajo la visión de OpenAI, el Agente se convertirá en la etapa L3 tras las formas conversacionales (como ChatGPT) y las formas de razonamiento (como varios bots). La característica clave de esta etapa es la capacidad de "realizar ciertos comportamientos de forma autónoma", o, como lo define Harrison Chase, fundador de LangChain: "Un Agente de IA es un sistema que utiliza LLM (Modelo de Lenguaje Grande) para tomar decisiones de flujo de control en un programa."
Aquí es donde se vuelve intrigante. Antes del advenimiento de los LLM, un Agente ejecutaba principalmente procesos de automatización establecidos por humanos. Por ejemplo, al diseñar un web scraper, los programadores establecían un User-Agent para simular detalles como la versión del navegador y el sistema operativo utilizado por los usuarios reales. Si se empleara un Agente de IA para imitar el comportamiento humano de manera más precisa, podría llevar a la creación de un framework de web scraper basado en un Agente de IA, haciendo que el scraper sea 'más parecido a un humano'.
En tales transiciones, la introducción de los Agentes de IA debe integrarse con los escenarios existentes, ya que apenas existen campos completamente nuevos. Incluso las capacidades de autocompletado y generación de código en herramientas como Curosr y Github Copilot son simplemente mejoras funcionales dentro del marco del Protocolo del Servidor de Lenguaje (LSP), con numerosos ejemplos de dicha evolución:
Para aclarar, en la interacción humano-computadora, la combinación de la GUI de Web 1.0 y los navegadores permitió realmente al público utilizar computadoras sin barreras, representada por la combinación de Windows e IE. Las API se convirtieron en el estándar de abstracción y transmisión de datos detrás de Internet, y durante la era de Web 2.0, surgieron navegadores como Chrome, con un cambio hacia dispositivos móviles que cambió los hábitos de uso de Internet de las personas. Ahora, superaplicaciones como WeChat y plataformas Meta cubren todos los aspectos de la vida de las personas.
La tercera fuente es el concepto de "Intento" en el espacio Cripto, lo que ha llevado al aumento del interés en torno a los Agentes de IA. Sin embargo, tenga en cuenta que esto solo es aplicable dentro de Cripto. Desde scripts de Bitcoin con funcionalidad limitada hasta contratos inteligentes de Ethereum, el concepto de Agente en sí mismo ha sido ampliamente utilizado. La posterior aparición de puentes entre cadenas, abstracciones de cadenas, de Cuentas Poseídas Externamente (EOA) a billeteras de Abstracción de Cuentas (AA) son extensiones naturales de esta línea de pensamiento. Por lo tanto, cuando los Agentes de IA "invaden" Cripto, no es sorprendente que naturalmente lleven a escenarios de DeFi.
Aquí es donde surge la confusión en torno al concepto de Agente de IA. En el contexto de Cripto, lo que en realidad estamos tratando de lograr es un Agente de "gestión financiera automatizada, generación automatizada de memes". Sin embargo, bajo la definición de OpenAI, tal escenario arriesgado requeriría que se implemente verdaderamente el nivel 4 o nivel 5. Mientras tanto, el público está experimentando con la generación automática de código o la asistencia de resumen y escritura impulsada por IA, que no están al mismo nivel que los objetivos que estamos persiguiendo.
Una vez que entendamos lo que realmente queremos, podemos centrarnos en la lógica organizativa de los Agentes de IA. Los detalles técnicos seguirán, ya que el concepto de un Agente de IA se trata en última instancia de eliminar las barreras para la adopción de tecnología a gran escala, al igual que los navegadores revolucionaron la industria de PC personal. Nuestro enfoque se centrará en dos puntos: examinar los Agentes de IA desde la perspectiva de la interacción humano-computadora y comprender las diferencias y conexiones entre los Agentes de IA y LLM, lo que nos llevará a la tercera parte: lo que la combinación de Cripto y Agentes de IA finalmente dejará atrás.
Antes de los modelos de interacción humano-computadora conversacionales como ChatGPT, las formas principales de interacción humano-computadora eran GUI (Interfaz Gráfica de Usuario) y CLI (Interfaz de Línea de Comandos). La mentalidad de GUI evolucionó hacia diversas formas específicas como navegadores y aplicaciones, mientras que la combinación de CLI y Shell experimentó cambios mínimos.
Pero esto es solo la "interfaz de usuario" de la interacción entre humanos y computadoras. A medida que Internet ha evolucionado, el aumento en el volumen y la variedad de datos ha llevado a más interacciones "en segundo plano" entre los datos y entre las aplicaciones. Estos dos aspectos dependen el uno del otro, incluso una simple acción de navegación web requiere en realidad su colaboración.
Si la interacción humana con navegadores y aplicaciones se considera el punto de entrada del usuario, los enlaces y transiciones entre las APIs respaldan el funcionamiento real de internet. De hecho, esto también forma parte del Agente. Los usuarios comunes no necesitan entender términos como líneas de comando y APIs para lograr sus objetivos.
Lo mismo ocurre con LLMs. Ahora, los usuarios pueden ir aún más lejos, no hay necesidad de buscar más. Todo el proceso se puede describir en los siguientes pasos:
Se puede encontrar que en este proceso, el desafío más grande es Google, porque los usuarios no necesitan abrir el motor de búsqueda, sino diversas ventanas de diálogo similares a GPT, y la entrada de tráfico está cambiando silenciosamente. Es por esta razón que algunas personas piensan que este LLM revoluciona la vida de los motores de búsqueda.
Entonces, ¿qué papel juega el Agente de IA en este proceso?
En resumen, el Agente de IA es una extensión especializada de LLM.
Los LLM actuales no son AGI (Inteligencia Artificial General) y están lejos del organizador L5 imaginado por OpenAI. Sus capacidades están significativamente limitadas. Por ejemplo, los LLM son propensos a alucinaciones si se les alimenta con demasiada entrada de usuario. Una razón clave radica en el mecanismo de entrenamiento. Por ejemplo, si le dices repetidamente a GPT que 1+1=3, existe la probabilidad de que responda 4 cuando se le pregunte sobre 1+1+1=?.
Esto sucede porque la retroalimentación de GPT se deriva completamente de la entrada del usuario. Si el modelo no está conectado a Internet, es posible que su funcionamiento sea alterado por sus entradas, lo que resulta en un modelo que solo "sabe" que 1+1=3. Sin embargo, si se permite que el modelo se conecte a Internet, su mecanismo de retroalimentación se vuelve más diverso, ya que la gran mayoría de los datos en línea afirmarían que 1+1=2.
Ahora, ¿qué pasa si debemos usar LLMs localmente y queremos evitar tales problemas?
Una solución directa es usar dos LLMs simultáneamente, requiriéndoles que validen mutuamente las respuestas del otro para reducir la probabilidad de errores. Si esto no es suficiente, otro enfoque podría implicar que dos usuarios manejen un solo proceso, uno haciendo las preguntas y el otro refinándolas, para hacer que el lenguaje sea más preciso y lógico.
Por supuesto, estar conectado a Internet no elimina por completo los problemas. Por ejemplo, si el LLM obtiene respuestas de fuentes no confiables, la situación podría empeorar. Sin embargo, evitar esos datos reduce la cantidad de información disponible. Para abordar esto, los datos existentes se pueden dividir, recombinar o incluso utilizar para generar nuevos datos basados en conjuntos de datos antiguos para que las respuestas sean más confiables. Este enfoque es básicamente el concepto de RAG (Generación con recuperación aumentada) en la comprensión del lenguaje natural.
Los humanos y las máquinas necesitan entenderse mutuamente. Cuando varios LLM colaboran e interactúan, básicamente recurrimos al modelo operativo de Agentes de IA. Estos sirven como intermediarios humanos, accediendo a otros recursos, incluidos modelos grandes y otros agentes.
Esto nos lleva a la conexión entre LLMs y Agentes de IA:
LLMs son agregaciones de conocimiento con las que los humanos interactúan a través de interfaces de chat. Sin embargo, en la práctica, ciertos flujos de trabajo específicos pueden ser condensados en programas más pequeños, bots o conjuntos de instrucciones. Estos se definen como Agentes.
Los Agentes de IA siguen siendo un subconjunto de LLMs, pero no deben confundirse con ellos. La característica definitoria de los Agentes de IA radica en su énfasis en la colaboración con programas externos, LLMs y otros agentes. Por eso, a menudo se resume a los Agentes de IA como LLM + API.
Para ilustrar esto en el flujo de trabajo de LLM, tomemos como ejemplo una llamada de API a través de un Agente de IA:
¿Recuerdas la evolución de la interacción entre humanos y computadoras? Los navegadores, las APIs y otros elementos de la Web 1.0 y la Web 2.0 aún existen, pero los usuarios ya no necesitan interactuar directamente con ellos. En su lugar, pueden simplemente interactuar con los Agentes de Inteligencia Artificial. Las llamadas a las APIs y los procesos relacionados se pueden realizar de manera conversacional. Estos servicios de API pueden abarcar cualquier tipo de datos, ya sean locales, en línea o de aplicaciones externas, siempre que las interfaces estén abiertas y los usuarios tengan los permisos necesarios para acceder a ellas.
Un flujo de trabajo completo del agente de IA, como se muestra arriba, trata a LLM como un componente separado del agente de IA o como dos subprocesos dentro de un solo flujo de trabajo. Independientemente de cómo se dividan, el objetivo siempre es satisfacer las necesidades del usuario. Desde la perspectiva de la interacción humano-computadora, incluso puede sentirse como si los usuarios estuvieran hablando consigo mismos. Solo necesitas expresar completamente tus pensamientos y el agente de IA/LLM/agente de IA adivinará tus necesidades repetidamente. Al incorporar mecanismos de retroalimentación y asegurarse de que el LLM recuerde el contexto actual, el agente de IA evita perder el rumbo de sus tareas.
En resumen, los Agentes de IA son creaciones más personalizadas y humanizadas, lo que los diferencia de los scripts tradicionales y las herramientas de automatización. Actúan como asistentes personales, teniendo en cuenta las necesidades reales del usuario. Sin embargo, es importante tener en cuenta que esta personalización aún se basa en inferencias probabilísticas. Un Agente de IA de nivel L3 no posee capacidades de comprensión y expresión a nivel humano, lo que hace que su integración con API externas sea inherentemente riesgosa.
La capacidad de monetizar los marcos de IA es una de las principales razones por las que sigo interesado en la cripto. En las pilas de tecnología de IA tradicionales, los marcos no son particularmente importantes, al menos no en comparación con los datos y la potencia de cálculo. La monetización de los productos de IA rara vez comienza con el marco, ya que la mayoría de los algoritmos y marcos de modelos de IA son de código abierto. Lo que permanece propietario son elementos sensibles como los datos.
Esencialmente, los marcos o modelos de IA son contenedores y combinaciones de algoritmos, como una olla para guisar ganso. Sin embargo, la calidad del ganso y el dominio del proceso de cocción son lo que realmente definen el sabor. En teoría, el producto a la venta debería ser el ganso, pero los clientes de Web3 parecen preferir comprar la olla mientras descartan el ganso.
La razón de esto no es complicada. La mayoría de los productos de inteligencia artificial Web3 se basan en marcos, algoritmos y productos de inteligencia artificial existentes, adaptándolos a sus propósitos. De hecho, los principios técnicos detrás de los diferentes marcos de inteligencia artificial cripto no son muy diferentes. Dado que la tecnología en sí misma carece de diferenciación, la atención se desplaza hacia el branding, los escenarios de aplicación y otras distinciones superficiales. Como resultado, incluso pequeñas modificaciones al marco de inteligencia artificial se convierten en la base para respaldar varios tokens, lo que lleva a una burbuja de marcos dentro de los ecosistemas de agentes de inteligencia artificial cripto.
Porque no es necesario invertir mucho en datos de entrenamiento o algoritmos, diferenciar los marcos por nombre se vuelve especialmente crucial. Incluso un marco asequible como DeepSeek V3 todavía exige costos significativos en términos de potencia de GPU, electricidad y esfuerzo.
En cierto sentido, esto se alinea con la tendencia reciente de Web3: las plataformas que emiten tokens a menudo son más valiosas que los propios tokens. Proyectos como Pump.Fun y Hyperliquid ejemplifican esto. Originalmente, se suponía que los Agentes representaban aplicaciones y activos, pero los marcos que emiten Agentes ahora se han convertido en las mercancías más populares.
Esto refleja una forma de anclaje de valor. Dado que los Agentes carecen de diferenciación, los marcos para la emisión de Agentes se vuelven más estables y crean un efecto de sifonado de valor para la emisión de activos. Esto marca la versión 1.0 de la integración de cripto y Agentes de IA.
La versión 2.0 está emergiendo ahora, ejemplificada por la convergencia de DeFi y los agentes de IA. Si bien el concepto de DeFAI puede haber sido desencadenado por la exageración del mercado, una mirada más profunda a las siguientes tendencias sugiere lo contrario:
Dentro de este contexto de transformación de DeFi, la IA está remodelando la lógica fundamental de DeFi. Anteriormente, la lógica central de DeFi consistía en verificar la viabilidad de los contratos inteligentes. Ahora, los Agentes de IA están alterando la lógica de fabricación de DeFi. Ya no es necesario entender DeFi para crear productos DeFi. Esto representa un paso más allá de la abstracción de la cadena, proporcionando un empoderamiento fundamental más profundo.
La era en la que cualquiera puede ser un programador está en el horizonte. Las complejas computaciones se pueden externalizar a LLM y las API detrás de los Agentes de IA, lo que permite a las personas centrarse únicamente en sus ideas. El lenguaje natural se puede transformar eficientemente en lógica de programación.
Este artículo no menciona ningún token o marco de trabajo de Crypto AI Agent, ya que Cookie.Fun ya ha hecho un excelente trabajo, una plataforma para la agregación de información de Agentes de IA y el descubrimiento de tokens, seguido de los marcos de trabajo de Agentes de IA y, por último, la fugaz aparición y desaparición de los tokens de Agentes. Continuar enumerando dicha información aquí sería de poco valor.
Sin embargo, a través de observaciones durante este período, el mercado todavía carece de una discusión significativa sobre hacia qué apuntan finalmente los Agentes de IA de Cripto. No podemos seguir enfocándonos en los indicadores; la esencia radica en los cambios que ocurren a nivel de memoria.
Es precisamente la capacidad en constante evolución de transformar varios activos en formas tokenizadas lo que hace que la Cripto sea tan cautivadora.