Hierba - Una Revolución de Datos

Intermedio12/9/2024, 8:36:14 AM
La hierba le da a los modelos de inteligencia artificial y a las aplicaciones acceso a todo Internet como conjunto de datos, que se recopila a través de una red de nodos en todo el mundo que contribuyen con su ancho de banda de Internet inactivo. Tienen una fuerte tracción inicial con más de 2.5 millones de usuarios.

Resumen Ejecutivo

La IA generativa es la innovación más importante en la memoria reciente y se está volviendo aún más importante a medida que avanza el tiempo. La IA generativa es básicamente un producto de tres elementos:

Algoritmos + Datos + Cálculo = Inteligencia

Esto significa que Datos y Computación probablemente se convertirán en dos de los activos más importantes del mundo, y el acceso a ellos será increíblemente importante.

Los modelos de IA generativos son ávidos de datos. Los datos en los que operan los modelos de IA generativos más significativos son el valor de Internet de los datos, que es una aproximación a la suma de todo el conocimiento humano.

La criptografía se trata de brindar acceso a nuevos recursos digitales en todo el mundo y convertir en activos cosas que antes no lo eran mediante tokens. Grass hace esto para los datos.

Grass proporciona a los modelos de IA y aplicaciones acceso a todo Internet como conjunto de datos en tiempo real, que se recopila a través de una red de nodos en todo el mundo que contribuyen con su ancho de banda de Internet inactivo. Tienen una sólida tracción inicial con más de 2.5 millones de usuarios.[1]

El mercado potencial a largo plazo para Grass es enorme y está relacionado con el tamaño del mercado de IA y su crecimiento futuro. En el pasado, recopilar conjuntos de datos de esta escala estaba reservado solo para los gigantes tecnológicos más grandes. Grass aporta una nueva economía a los datos, reduciendo los costos. Esto democratiza el acceso a los datos no solo para servir a las grandes empresas de élite, sino también a la industria de IA de cola larga.

El Problema

El entrenamiento y ajuste fino del modelo de IA requiere enormes cantidades de datos. Históricamente, gran parte de esos datos se han recopilado mediante la extracción de datos de sitios web por parte de los creadores de modelos de IA. Este proceso de extracción de datos presenta varios desafíos:

  • Web scraping es costoso. Solo hay un par de grandes organizaciones que son capaces de hacer scraping de toda la web periódicamente. Esto excluye a los desarrolladores de IA más pequeños de acceder a los datos.
  • Bloqueo de IP. Ha habido un juego del gato y el ratón entre esos servicios de scraping y los creadores de contenido. Es bastante sencillo bloquear una dirección IP para detener el scraping, lo que dificulta lograr los objetivos de scraping y recopilar los datos necesarios para el entrenamiento y ajuste fino de la inteligencia artificial.
  • Recursos desperdiciados. Rastrear la web es una tarea que puede beneficiar a muchos clientes. El hardware, el ancho de banda y la potencia de cálculo necesarios para esto son ineficientes si los realiza un solo cliente.
  • Frescura de datos. Es engorroso y costoso escanear todo Internet. Esto hace que sea poco práctico para la mayoría de los usuarios escanear con frecuencia, lo que hace que los datos sean menos frescos/recientes, lo que afecta la calidad de los modelos de IA.

Solución de Grass

Grass tiene como objetivo resolver estos problemas mediante la creación de una red federada de raspadores web. Cada individuo que participa en la red de Grass contribuye con una parte de su ancho de banda de Internet no utilizado para proporcionar una pequeña cantidad de raspado desde su dirección IP. Luego, Grass recopila datos de cada uno de estos nodos para formar un conjunto de datos combinado que es útil para el entrenamiento y ajuste fino de la IA. Es un uso elegante y adecuado de redes distribuidas impulsadas por criptomonedas.

También existen otros casos de uso empresarial para Internet sin usar, como:

  • Recopilando datos locales/geo, como anuncios
  • Realizando investigación académica
  • Verificando los precios locales

Hoy en día, Grass recopila datos utilizando hardware existente (laptops, computadoras de escritorio, etc.). En el futuro, Grass planea ofrecer un dispositivo de recopilación de datos, que es un dispositivo de hardware personalizado dedicado exclusivamente a la recopilación de datos, lo que genera eficiencias debido a que el dispositivo está optimizado para esa tarea en particular.

Beneficios de la Hierba

Hay varios beneficios de usar una red distribuida para la recopilación de datos:

  • Acceso democratizado a datos web que se vuelve más barato a escala. En lugar de que un solo cliente recopile datos para sus propias necesidades, Grass recopila datos en nombre de muchos clientes. Estos datos pueden revenderse varias veces, creando economías de escala en los datos, reduciendo los costos económicos del raspado y haciendo que el mercado sea más eficiente. A escala, Grass puede hipotéticamente convertirse en la solución de recopilación de datos más rentable para los clientes, creando un efecto de red económica en torno a su protocolo. Esto significa que la recopilación de datos ahora está disponible para cualquiera, no solo para un par de grandes empresas que tienen los recursos para rastrear la web.
  • El bloqueo de IP se vuelve inviable. Al distribuir el raspado, se vuelve mucho más difícil detectar y detener el raspado, ya que cada nodo solo realiza una cantidad relativamente menor de captura de datos y es difícil de distinguir del tráfico típico de Internet. Esto da como resultado conjuntos de datos más completos para el entrenamiento.
  • El ancho de banda de Internet se utiliza de manera más eficiente. Dado que Grass es efectivamente una forma de consumo colaborativo de ancho de banda de Internet no utilizado, es más eficiente que la provisión de nuevo ancho de banda solo para rascar.
  • Los datos son más precisos y recientes. Se vuelve rentable raspar con más frecuencia de lo que un cliente típico podría hacer por su cuenta. Esto resulta en menos datos obsoletos. Esto es importante ya que los modelos de IA resultantes están más actualizados.

El desafío: creadores de contenido que monetizan sus datos

Una de las cosas complicadas de navegar al raspar datos son los creadores de contenido. Esto incluye sitios como NY Times y Reddit, que han comenzado a monetizar sus datos mediante su licencia a terceros para entrenar modelos de IA. Naturalmente, son protectores de los datos en sus sitios, ya que esos datos representan flujos de ingresos altamente lucrativos para ellos. De hecho, Reddit ha prohibido que su API de desarrollador se use para el aprendizaje automático para proteger su modelo de negocio de licenciar sus datos a creadores de modelos de IA (ver términos de servicioaquí).

¿Qué le depara el futuro a los creadores de contenido? Bueno, considera que para el contenido generado por el usuario (UGC), como Reddit, hay un argumento de que los usuarios son dueños de sus propios datos (en lugar de la plataforma), ya que el contenido fue creado por los usuarios y debería ser propiedad de esos usuarios. Este argumento aún no ha sido completamente explorado desde un punto de vista legal. Será interesante estar atento a esto en el futuro. Sin embargo, si los usuarios realmente son dueños de sus datos contribuidos, entonces Grass podría representar un camino hipotético para ayudar a esos usuarios a monetizar sus propios datos contribuidos. Por ejemplo, Grass podría recompensar a los propios contribuyentes de Reddit por voluntariarse para contribuir con sus datos que han creado en Reddit.

Para creadores de contenido pagado como el NY Times, el contenido es creado por escritores pagados, y como tal no hay argumento para los datos propiedad del usuario. Por lo tanto, Grass podría simplemente excluir esos sitios de ser raspados. Alternativamente, Grass puede escalar hasta el punto en que sea factible para Grass mismo convertirse en cliente de esos sitios y pagar tarifas de licencia. La forma en que esto podría funcionar hipotéticamente es que los clientes de Grass podrían pagar por los datos, y luego Grass podría compartir los ingresos con los creadores de contenido, lo que permitiría la creación de modelos de IA con un presupuesto flexible. Alternativamente, Grass podría lograr una escala tal que pudiera negociar un acuerdo de licencia a granel en nombre de todos sus clientes.

Lanzamiento de Grass

Grass tuvo un lanzamiento extremadamente impresionante a principios de este año:

  • La hierba tuvo el airdrop más ampliamente distribuido en la historia de Solana.[2]
  • Más de 2 millones de billeteras afirmóel airdrop, causando que la red de Solana se colapse bajo presión.
  • Hay más de 2,5 millones de usuarios totales de Grass en todo el mundo. [3]
  • Grass tiene la capacidad y los datos para entrenar el modelo ChatGPT 3.5 de OpenAI.
  • Como demostración de su plataforma, Grass ha publicado en código abierto un conjunto de datos que consta de 600 millones de publicaciones y comentarios de 2024 en Reddit (ver aquípor el anuncio yaquípara el conjunto de datos).

A partir de la redacción, el token Grass tenía acción positiva del preciopost-lanzamiento (+115%), lo cual es inusual ya que la mayoría de los tokens caen en los días/semanas siguientes a la lista. Esto probablemente refleja su enfoque inteligente hacia la distribución de airdrops, así como la creencia en el futuro y el potencial de Grass. En general, este es un gran comienzo para la red y creemos que allana el camino para muchos años prósperos por venir.

Rendimiento del Token de Grass desde su lanzamiento el 28 de octubre de 2024

Fuente: TradingView.

Comience a contribuirtu ancho de banda de Internet no utilizado conectando tu billetera Solana y ganando el token Grass.

¿Quieres usar los conjuntos de datos de Grass para tu negocio, investigación o proyecto? Contacta al equipo en Gate.discover@grassfoundation.io.

Notas al pie

[1] Fuente: https://www.getgrass.io/.
[2] Fuente: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] Fuente: https://www.getgrass.io/.

Descargo de responsabilidad:

  1. Este artículo ha sido reimpreso de gate.[Hack VC], Todos los derechos de autor pertenecen al autor original [Ed Roman]. Si hay objeciones a esta reimpresión, por favor contacta al Gate Learnequipo y lo manejarán rápidamente.
  2. Descargo de responsabilidad: Las opiniones expresadas en este artículo son únicamente las del autor y no constituyen ningún consejo de inversión.
  3. Las traducciones del artículo a otros idiomas son realizadas por el equipo de gate Learn. A menos que se mencione, está prohibido copiar, distribuir o plagiar los artículos traducidos.

Hierba - Una Revolución de Datos

Intermedio12/9/2024, 8:36:14 AM
La hierba le da a los modelos de inteligencia artificial y a las aplicaciones acceso a todo Internet como conjunto de datos, que se recopila a través de una red de nodos en todo el mundo que contribuyen con su ancho de banda de Internet inactivo. Tienen una fuerte tracción inicial con más de 2.5 millones de usuarios.

Resumen Ejecutivo

La IA generativa es la innovación más importante en la memoria reciente y se está volviendo aún más importante a medida que avanza el tiempo. La IA generativa es básicamente un producto de tres elementos:

Algoritmos + Datos + Cálculo = Inteligencia

Esto significa que Datos y Computación probablemente se convertirán en dos de los activos más importantes del mundo, y el acceso a ellos será increíblemente importante.

Los modelos de IA generativos son ávidos de datos. Los datos en los que operan los modelos de IA generativos más significativos son el valor de Internet de los datos, que es una aproximación a la suma de todo el conocimiento humano.

La criptografía se trata de brindar acceso a nuevos recursos digitales en todo el mundo y convertir en activos cosas que antes no lo eran mediante tokens. Grass hace esto para los datos.

Grass proporciona a los modelos de IA y aplicaciones acceso a todo Internet como conjunto de datos en tiempo real, que se recopila a través de una red de nodos en todo el mundo que contribuyen con su ancho de banda de Internet inactivo. Tienen una sólida tracción inicial con más de 2.5 millones de usuarios.[1]

El mercado potencial a largo plazo para Grass es enorme y está relacionado con el tamaño del mercado de IA y su crecimiento futuro. En el pasado, recopilar conjuntos de datos de esta escala estaba reservado solo para los gigantes tecnológicos más grandes. Grass aporta una nueva economía a los datos, reduciendo los costos. Esto democratiza el acceso a los datos no solo para servir a las grandes empresas de élite, sino también a la industria de IA de cola larga.

El Problema

El entrenamiento y ajuste fino del modelo de IA requiere enormes cantidades de datos. Históricamente, gran parte de esos datos se han recopilado mediante la extracción de datos de sitios web por parte de los creadores de modelos de IA. Este proceso de extracción de datos presenta varios desafíos:

  • Web scraping es costoso. Solo hay un par de grandes organizaciones que son capaces de hacer scraping de toda la web periódicamente. Esto excluye a los desarrolladores de IA más pequeños de acceder a los datos.
  • Bloqueo de IP. Ha habido un juego del gato y el ratón entre esos servicios de scraping y los creadores de contenido. Es bastante sencillo bloquear una dirección IP para detener el scraping, lo que dificulta lograr los objetivos de scraping y recopilar los datos necesarios para el entrenamiento y ajuste fino de la inteligencia artificial.
  • Recursos desperdiciados. Rastrear la web es una tarea que puede beneficiar a muchos clientes. El hardware, el ancho de banda y la potencia de cálculo necesarios para esto son ineficientes si los realiza un solo cliente.
  • Frescura de datos. Es engorroso y costoso escanear todo Internet. Esto hace que sea poco práctico para la mayoría de los usuarios escanear con frecuencia, lo que hace que los datos sean menos frescos/recientes, lo que afecta la calidad de los modelos de IA.

Solución de Grass

Grass tiene como objetivo resolver estos problemas mediante la creación de una red federada de raspadores web. Cada individuo que participa en la red de Grass contribuye con una parte de su ancho de banda de Internet no utilizado para proporcionar una pequeña cantidad de raspado desde su dirección IP. Luego, Grass recopila datos de cada uno de estos nodos para formar un conjunto de datos combinado que es útil para el entrenamiento y ajuste fino de la IA. Es un uso elegante y adecuado de redes distribuidas impulsadas por criptomonedas.

También existen otros casos de uso empresarial para Internet sin usar, como:

  • Recopilando datos locales/geo, como anuncios
  • Realizando investigación académica
  • Verificando los precios locales

Hoy en día, Grass recopila datos utilizando hardware existente (laptops, computadoras de escritorio, etc.). En el futuro, Grass planea ofrecer un dispositivo de recopilación de datos, que es un dispositivo de hardware personalizado dedicado exclusivamente a la recopilación de datos, lo que genera eficiencias debido a que el dispositivo está optimizado para esa tarea en particular.

Beneficios de la Hierba

Hay varios beneficios de usar una red distribuida para la recopilación de datos:

  • Acceso democratizado a datos web que se vuelve más barato a escala. En lugar de que un solo cliente recopile datos para sus propias necesidades, Grass recopila datos en nombre de muchos clientes. Estos datos pueden revenderse varias veces, creando economías de escala en los datos, reduciendo los costos económicos del raspado y haciendo que el mercado sea más eficiente. A escala, Grass puede hipotéticamente convertirse en la solución de recopilación de datos más rentable para los clientes, creando un efecto de red económica en torno a su protocolo. Esto significa que la recopilación de datos ahora está disponible para cualquiera, no solo para un par de grandes empresas que tienen los recursos para rastrear la web.
  • El bloqueo de IP se vuelve inviable. Al distribuir el raspado, se vuelve mucho más difícil detectar y detener el raspado, ya que cada nodo solo realiza una cantidad relativamente menor de captura de datos y es difícil de distinguir del tráfico típico de Internet. Esto da como resultado conjuntos de datos más completos para el entrenamiento.
  • El ancho de banda de Internet se utiliza de manera más eficiente. Dado que Grass es efectivamente una forma de consumo colaborativo de ancho de banda de Internet no utilizado, es más eficiente que la provisión de nuevo ancho de banda solo para rascar.
  • Los datos son más precisos y recientes. Se vuelve rentable raspar con más frecuencia de lo que un cliente típico podría hacer por su cuenta. Esto resulta en menos datos obsoletos. Esto es importante ya que los modelos de IA resultantes están más actualizados.

El desafío: creadores de contenido que monetizan sus datos

Una de las cosas complicadas de navegar al raspar datos son los creadores de contenido. Esto incluye sitios como NY Times y Reddit, que han comenzado a monetizar sus datos mediante su licencia a terceros para entrenar modelos de IA. Naturalmente, son protectores de los datos en sus sitios, ya que esos datos representan flujos de ingresos altamente lucrativos para ellos. De hecho, Reddit ha prohibido que su API de desarrollador se use para el aprendizaje automático para proteger su modelo de negocio de licenciar sus datos a creadores de modelos de IA (ver términos de servicioaquí).

¿Qué le depara el futuro a los creadores de contenido? Bueno, considera que para el contenido generado por el usuario (UGC), como Reddit, hay un argumento de que los usuarios son dueños de sus propios datos (en lugar de la plataforma), ya que el contenido fue creado por los usuarios y debería ser propiedad de esos usuarios. Este argumento aún no ha sido completamente explorado desde un punto de vista legal. Será interesante estar atento a esto en el futuro. Sin embargo, si los usuarios realmente son dueños de sus datos contribuidos, entonces Grass podría representar un camino hipotético para ayudar a esos usuarios a monetizar sus propios datos contribuidos. Por ejemplo, Grass podría recompensar a los propios contribuyentes de Reddit por voluntariarse para contribuir con sus datos que han creado en Reddit.

Para creadores de contenido pagado como el NY Times, el contenido es creado por escritores pagados, y como tal no hay argumento para los datos propiedad del usuario. Por lo tanto, Grass podría simplemente excluir esos sitios de ser raspados. Alternativamente, Grass puede escalar hasta el punto en que sea factible para Grass mismo convertirse en cliente de esos sitios y pagar tarifas de licencia. La forma en que esto podría funcionar hipotéticamente es que los clientes de Grass podrían pagar por los datos, y luego Grass podría compartir los ingresos con los creadores de contenido, lo que permitiría la creación de modelos de IA con un presupuesto flexible. Alternativamente, Grass podría lograr una escala tal que pudiera negociar un acuerdo de licencia a granel en nombre de todos sus clientes.

Lanzamiento de Grass

Grass tuvo un lanzamiento extremadamente impresionante a principios de este año:

  • La hierba tuvo el airdrop más ampliamente distribuido en la historia de Solana.[2]
  • Más de 2 millones de billeteras afirmóel airdrop, causando que la red de Solana se colapse bajo presión.
  • Hay más de 2,5 millones de usuarios totales de Grass en todo el mundo. [3]
  • Grass tiene la capacidad y los datos para entrenar el modelo ChatGPT 3.5 de OpenAI.
  • Como demostración de su plataforma, Grass ha publicado en código abierto un conjunto de datos que consta de 600 millones de publicaciones y comentarios de 2024 en Reddit (ver aquípor el anuncio yaquípara el conjunto de datos).

A partir de la redacción, el token Grass tenía acción positiva del preciopost-lanzamiento (+115%), lo cual es inusual ya que la mayoría de los tokens caen en los días/semanas siguientes a la lista. Esto probablemente refleja su enfoque inteligente hacia la distribución de airdrops, así como la creencia en el futuro y el potencial de Grass. En general, este es un gran comienzo para la red y creemos que allana el camino para muchos años prósperos por venir.

Rendimiento del Token de Grass desde su lanzamiento el 28 de octubre de 2024

Fuente: TradingView.

Comience a contribuirtu ancho de banda de Internet no utilizado conectando tu billetera Solana y ganando el token Grass.

¿Quieres usar los conjuntos de datos de Grass para tu negocio, investigación o proyecto? Contacta al equipo en Gate.discover@grassfoundation.io.

Notas al pie

[1] Fuente: https://www.getgrass.io/.
[2] Fuente: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] Fuente: https://www.getgrass.io/.

Descargo de responsabilidad:

  1. Este artículo ha sido reimpreso de gate.[Hack VC], Todos los derechos de autor pertenecen al autor original [Ed Roman]. Si hay objeciones a esta reimpresión, por favor contacta al Gate Learnequipo y lo manejarán rápidamente.
  2. Descargo de responsabilidad: Las opiniones expresadas en este artículo son únicamente las del autor y no constituyen ningún consejo de inversión.
  3. Las traducciones del artículo a otros idiomas son realizadas por el equipo de gate Learn. A menos que se mencione, está prohibido copiar, distribuir o plagiar los artículos traducidos.
Empieza ahora
¡Registrarse y recibe un bono de
$100
!