Pourquoi le calcul décentralisé est-il un moteur clé du développement de l'IA ?

Avancé1/7/2025, 10:59:25 AM
L'article d'aujourd'hui couvre le secteur émergent mais souvent mal compris du calcul décentralisé en crypto. Nous plongeons dans le paysage de l'infrastructure de l'IA pour comprendre où les alternatives décentralisées peuvent réellement rivaliser.

Transférer le titre original: Decentralised Compute

L'article d'aujourd'hui porte sur le secteur émergent mais souvent mal compris de l'informatique décentralisée dans la crypto. Nous plongeons dans le paysage de l'infrastructure de l'IA pour comprendre où les alternatives décentralisées peuvent réellement concurrencer.

Nous explorons des questions telles que : ASI peut-il être formé sur des réseaux distribués ? Quels avantages uniques les réseaux cryptographiques offrent-ils ? Et pourquoi l'infrastructure de calcul sans autorisation pourrait devenir aussi essentielle pour l'IA que le Bitcoin l'est pour la finance.

Un modèle courant que vous remarquerez dans l'article est la croissance exponentielle de tout ce qui concerne l'IA - l'investissement, le calcul et les capacités. Cela coïncide avec une résurgence des marchés et de l'intérêt pour la crypto. Nous sommes très enthousiastes à propos de l'intersection de ces deux grandes vagues technologiques.

Bonjour!

Par une journée ensoleillée à Memphis, Tennessee, un avion espion à hélice a tourné en rond à plusieurs reprises au-dessus d'un bâtiment industriel, ses passagers photographiant frénétiquement les installations en dessous. Ce n'était pas une scène d'espionnage de la guerre froide mais de 2024. La cible n'était pas une installation militaire ou un site d'enrichissement d'uranium, mais une ancienne usine d'appareils électroménagers abritant maintenant l'un des superordinateurs les plus puissants au monde. Les passagers n'étaient pas des agents étrangers mais des employés d'une entreprise concurrente de centres de données.

Tous les quelques décennies, une technologie transformative émerge avec le potentiel de modifier indéniablement la trajectoire de la civilisation. Ce qui suit est une course entre les entités les plus puissantes du monde pour réaliser cette technologie en premier. Les récompenses sont si immenses et les conséquences de l'échec si dévastatrices que ces entités mobilisent rapidement tout leur arsenal de ressources - talent humain et capital - pour maîtriser cette technologie.

Au XXe siècle, deux technologies exceptionnelles correspondaient à cette définition : les armes nucléaires et l'exploration spatiale. La course pour maîtriser ces technologies impliquait les États-nations les plus puissants. Les victoires des États-Unis dans ces deux domaines ont confirmé leur statut de superpuissance mondiale dominante, ouvrant ainsi une ère de prospérité sans précédent. Pour les vaincus - l'Allemagne nazie et l'Union soviétique - les conséquences ont été dévastatrices, voire terminales.

La gigantesque usine K-25 de 44 acres à Oak Ridge, Tennessee, États-Unis, où l'uranium pour la première arme atomique a été produit (source)

La victoire de l'Amérique a eu un coût énorme. Le projet Manhattan a coûté près de 2 milliards de dollars (environ 30 milliards de dollars ajustés pour l'inflation) et a employé plus de 120 000 personnes, soit une personne sur mille Américains. La course à l'espace a demandé encore plus de ressources. Le programme Apollo a coûté 28 milliards de dollars dans les années 1960 (environ 300 milliards de dollars d'aujourd'hui) et a impliqué plus de 400 000 personnes, soit une personne sur 490 Américains. À son apogée en 1966, la NASA a commandé 4,4 % de l'ensemble du budget fédéral des États-Unis.

Le Apollo 11, juste avant le décollage pour la mission sur la lune ( source)

Le lancement de ChatGPT en 2022 a marqué l'aube d'une nouvelle course aux proportions altérant la civilisation — la poursuite de l'intelligence artificielle superintelligente (ASI). Alors que l'IA est déjà tissée dans la vie quotidienne — gérant les flux de médias sociaux, les recommandations Netflix et les filtres anti-spam par e-mail — l'émergence de grands modèles linguistiques (LLM) promet de transformer tout : la productivité humaine, la création de médias, la recherche scientifique et l'innovation elle-même.

Cette fois, les concurrents ne sont pas des états-nations (du moins, pas encore), mais les plus grandes entreprises du monde (Microsoft, Google, Meta, Amazon), les startups les plus en vogue (OpenAI, Anthropic) et l'individu le plus riche (Elon Musk). Alors que les Big Tech investissent un capital sans précédent dans la construction de l'infrastructure pour former des modèles de plus en plus puissants, les startups se sécurisent record-breakingfinancement par capital-risque. Elon est, eh bien, faire des choses à la Elon (le centre de données sous surveillance appartenait à sa société, xAI).

Et puis il y a tous les autres - entreprises, petites entreprises et start-ups - qui peuvent ne pas aspirer à construire ASI mais qui sont désireux de tirer parti des capacités de pointe débloquées par l'IA pour optimiser leur entreprise, perturber une industrie ou en créer de nouvelles entièrement. Les récompenses potentielles sont si vastes que tout le monde se précipite pour revendiquer sa part de cette nouvelle économie pilotée par l'intelligence artificielle.

Au cœur de la révolution de l'IA se trouve son composant le plus essentiel: l'unité de traitement graphique (GPU). À l'origine conçue pour alimenter les jeux vidéo, cette puce informatique spécialisée est devenue la marchandise la plus recherchée au monde. La demande de GPU est si écrasante que les entreprises endurent souventlistes d'attente de plusieurs moisjuste pour en acquérir quelques-uns. Cette demande a propulsé NVIDIA, leur principal fabricant, à la position de la société la plus précieuse au monde.

Pour les entreprises incapables ou réticentes à acheter directement des GPU, la location de puissance de calcul est devenue la meilleure option. Cela a alimenté la montée des fournisseurs de cloud AI - des entreprises exploitant des centres de données sophistiqués conçus pour répondre aux besoins de calcul de l'essor de l'IA. Cependant, la demande croissante et sa nature imprévisible signifient que ni le prix ni la disponibilité ne sont garantis.

Je argumentéque la crypto fonctionne comme une technologie "Coasian", conçue pour "lubrifier les roues, paver les routes et renforcer les ponts" afin de permettre l'épanouissement d'autres innovations perturbatrices. Alors que l'IA émerge en tant que force transformatrice de notre époque, la rareté et le coût exorbitant de l'accès aux GPU constituent un obstacle à l'innovation. Plusieurs entreprises crypto interviennent pour briser ces barrières grâce à des incitations basées sur la blockchain.

Dans l'article d'aujourd'hui, nous commençons par nous éloigner de la crypto pour examiner les fondements de l'infrastructure moderne de l'IA - comment les réseaux neuronaux apprennent, pourquoi les GPU sont devenus essentiels et comment les centres de données d'aujourd'hui évoluent pour répondre à des demandes de calcul sans précédent. Ensuite, nous plongeons dans les solutions de calcul décentralisées, explorant où elles peuvent réellement concurrencer les fournisseurs traditionnels, les avantages uniques offerts par les réseaux cryptographiques et pourquoi - bien qu'ils ne nous donnent pas l'IA générale - ils seront toujours essentiels pour garantir que les avantages de l'IA restent accessibles à tous.

Commençons par comprendre pourquoi les GPU sont si importants en premier lieu.

GPUs

Il s'agit de David, une sculpture en marbre de 17 pieds de haut et de 6 tonnes créée par le génie de la Renaissance italienne, le maître Michel-Ange. Il représente le héros biblique de l'histoire de David et Goliath et est considéré comme un chef-d'œuvre pour sa représentation impeccable de l'anatomie humaine et son attention magistrale à la perspective et au détail.

Comme toutes les sculptures en marbre, David a commencé sous la forme d'une énorme et rugueuse dalle de marbre de Carrare. Pour parvenir à sa forme finale et majestueuse, Michel-Ange a dû enlever méthodiquement des morceaux de pierre. Partant de larges et audacieux coups pour établir la forme humaine de base, il a progressé vers des détails de plus en plus fins - la courbe d'un muscle, la tension dans une veine, l'expression subtile de la détermination dans les yeux. Il a fallu trois ans à Michel-Ange pour libérer David de la pierre.

Mais pourquoi discuter d'une figure en marbre vieille de 500 ans dans un article sur l'IA?

Comme David, chaque réseau neuronal commence comme un potentiel pur - une collection de nœuds initialisée avec des nombres aléatoires (poids), aussi informe que ce bloc massif de marbre de Carrare.

Ce modèle brut est alimenté à plusieurs reprises avec des données d'entraînement - d'innombrables exemples d'entrées associées à leurs sorties correctes. Chaque point de données traversant le réseau déclenche des milliers de calculs. À chaque nœud (neurone), les connexions entrantes multiplient la valeur d'entrée par le poids de la connexion, additionnent ces produits et transforment le résultat par une « fonction d'activation » qui détermine la force de déclenchement du neurone.

Tout comme Michel-Ange reculait, évaluait son travail et corrigeait le tir, les réseaux neuronaux subissent un processus de raffinement. Après chaque passage en avant, le réseau compare sa sortie à la réponse correcte et calcule sa marge d'erreur. Grâce à un processus appelé rétropropagation, il mesure la contribution de chaque connexion à l'erreur et, comme les coups de ciseau de Michel-Ange, ajuste ses valeurs. Si une connexion conduit à une prédiction incorrecte, son influence diminue. Si elle contribue à atteindre la bonne réponse, son influence se renforce.

Lorsque toutes les données passent par le réseau (complétant une étape de propagation avant et arrière par point de données), cela marque la fin d'une « époque ». Ce processus se répète plusieurs fois, chaque passage affinant la compréhension du réseau. Au cours des premières époques, les changements de poids sont spectaculaires car le réseau effectue des ajustements importants, comme les premières frappes audacieuses du ciseau. Dans les époques ultérieures, les changements deviennent plus subtils, affinant les connexions pour des performances optimales, tout comme les touches finales délicates mettent en valeur les détails de David.

Enfin, après des milliers ou des millions d'itérations, le modèle entraîné émerge. Comme David se tenant fier dans sa forme finie, le réseau neuronal se transforme du bruit aléatoire en un système capable de reconnaître des motifs, de faire des prédictions, de générer des images de chats en train de faire du scooter, ou de permettre aux ordinateurs de comprendre et de répondre dans le langage humain.

Pourquoi les GPUs?

Michel-Ange, travaillant seul sur David, ne pouvait faire qu'une seule frappe de ciseau à la fois, nécessitant chacune des calculs précis d'angle, de force et de position. Cette précision minutieuse est la raison pour laquelle il lui a fallu trois années inlassables pour achever son chef-d'œuvre. Mais imaginez des milliers de sculpteurs tout aussi qualifiés travaillant sur David en parfaite coordination - une équipe sur les boucles de cheveux, une autre sur les muscles du torse, et des centaines d'autres sur les détails complexes du visage, des mains et des pieds. Un tel effort parallèle compresserait ces trois années en quelques jours à peine.

De même, bien que les processeurs soient puissants et précis, ils ne peuvent effectuer qu'un seul calcul à la fois. L'entraînement d'un réseau neuronal ne nécessite pas un seul calcul complexe mais des centaines de millions de calculs simples, principalement des multiplications et des additions à chaque nœud. Par exemple, le réseau neuronal mentionné précédemment, avec seulement 18 nœuds et environ 100 connexions (paramètres), peut être entraîné sur un processeur dans un délai raisonnable.

Cependant, les modèles les plus puissants d'aujourd'hui, comme le GPT-4 d'OpenAI, ont 1,8 billion de paramètres! Même les modèles modernes plus petits contiennent au moins un milliard de paramètres. Former ces modèles un calcul à la fois prendrait des siècles. C'est là que les GPU excellent: ils peuvent effectuer un grand nombre de calculs mathématiques simples simultanément, ce qui les rend idéaux pour le traitement de plusieurs nœuds de réseau neuronal en parallèle.

Les GPU modernes sont incroyablement puissants. Le dernier GPU B200 de NVIDIA, par exemple, est composé de plus de 200 milliards de transistors et prend en charge 2 250 billions de calculs parallèles par seconde (2 250 TFLOPS). Un seul GPU B200 peut gérer des modèles jusqu'à 740 milliards de paramètres. Ces machines représentent des exploits de l'ingénierie moderne, ce qui explique pourquoi NVIDIA, vendant chaque unité à 40 000 $, a vu son cours de bourse augmenter de plus de 2 500 % en cinq ans.

Jensen Huang présentant le NVIDIA B200

Pourtant, même ces machines redoutables ne peuvent entraîner seules des modèles d'IA. Rappelez-vous que pendant l'entraînement, chaque instance de données doit passer à travers le modèle dans un cycle avant et arrière individuellement. Les modèles de langage modernes de grande taille (LLM) sont formés sur des ensembles de données englobant la totalité d'Internet. GPT-4, par exemple, a traité environ 12 billions de jetons (environ 9 billions de mots), et la prochaine génération de modèles devrait gérer jusqu'à 100 billions de jetons. Utiliser un seul GPU pour un volume aussi immense de données prendrait encore des siècles.

La solution réside dans l'ajout d'une autre couche de parallélisme - la création de clusters de GPU où les tâches d'entraînement sont réparties entre de nombreux GPU travaillant comme un système unifié. Les charges de travail de formation du modèle peuvent être parallélisées de trois manières :

Parallélisme des données : plusieurs GPU conservent chacun une copie complète du modèle de réseau neuronal tout en traitant différentes parties des données d'entraînement. Chaque GPU traite indépendamment son lot de données attribué avant de se synchroniser périodiquement avec tous les autres GPU. Pendant cette période de synchronisation, les GPU communiquent entre eux pour trouver une moyenne collective de leurs poids, puis mettent à jour leurs poids individuels de manière à ce qu'ils soient tous identiques. En conséquence, ils continuent à s'entraîner sur leur lot de données individuellement avant qu'il ne soit temps de se synchroniser à nouveau.

À mesure que les modèles deviennent plus grands, une seule copie peut devenir trop volumineuse pour tenir sur un seul GPU. Par exemple, le dernier GPU B200 ne peut contenir que 740 milliards de paramètres tandis que GPT-4 est un modèle de 1,8 billion de paramètres. La parallélisme des données entre les GPU individuels ne fonctionne pas dans ce cas.

Parallélisme de tenseur : Cette approche résout la contrainte de mémoire en répartissant le travail et les poids de chaque couche de modèle sur plusieurs GPU. Les GPU échangent des calculs intermédiaires avec l'ensemble du cluster à chaque étape de propagation avant et arrière. Ces GPU sont généralement regroupés dans des serveurs de huit unités, connectés via NVLink - l'interconnexion directe haute vitesse GPU-à-GPU de NVIDIA. Cette configuration nécessite des connexions à large bande passante (jusqu'à 400 Gb/s) et à faible latence entre les GPU. Un cluster de tenseurs fonctionne efficacement comme un seul GPU massif.

Parallélisme de pipeline : Cette méthode divise le modèle entre plusieurs GPU, chaque GPU gérant des couches spécifiques. Les données circulent à travers ces GPU de manière séquentielle, comme dans une course de relais où chaque coureur (GPU) gère sa partie avant de passer le témoin. Le parallélisme de pipeline est particulièrement efficace pour connecter différents serveurs à 8 GPU au sein d'un centre de données, en utilisant des réseaux InfiniBand haute vitesse pour la communication inter-serveur. Bien que ses exigences en matière de communication dépassent le parallélisme des données, elles restent inférieures aux échanges intensifs entre GPU du parallélisme tensoriel.

L'échelle des grappes modernes est remarquable. GPT-4, avec 1,8 billion de paramètres et 120 couches, a nécessité 25 000 GPU A100 pour l'entraînement. Le processus a duré trois mois et coûté plus de 60 millions de dollars. L'A100 est deux générations plus vieux; l'utilisation des GPU B200 d'aujourd'hui ne nécessiterait que environ 8 000 unités et 20 jours d'entraînement. Juste une autre démonstration de la rapidité avec laquelle l'IA évolue.

Mais la classe de modèles GPT-4 est maintenant obsolète. La formation pour la prochaine génération de modèles avancés est en cours dans les centres de données abritant des clusters de 100 000 GPU B100 ou H100 (ces derniers étant une génération plus ancienne). Ces clusters, représentant plus de 4 milliards de dollars de dépenses en capital de GPU, sont les supercalculateurs les plus puissants de l'humanité, offrant au moins quatre fois la puissance de calcul brute de ceux appartenant au gouvernement.

Mis à part la sécurisation du calcul brut, les aspirants à l'ASI se heurtent à un autre problème lorsqu'ils essaient de configurer ces clusters : l'électricité. Chacun de ces GPU consomme 700W de puissance. Lorsque vous combinez 100 000 d'entre eux, l'ensemble du cluster (y compris le matériel de support) consomme plus de 150 MW de puissance. Pour mettre cela en perspective, cette consommation équivaut à celle d'une ville de 300 000 habitants, comparable à La Nouvelle-Orléans ou Zurich.

La folie ne s'arrête pas là. La plupart des aspirants à l'ASI croient que le Lois d'échelle LLM—ce qui suggère que les performances du modèle s'améliorent de manière prévisible avec l'augmentation de la taille du modèle, de la taille de l'ensemble de données et du calcul d'entraînement—continuera à être vrai. Des plans sont déjà en cours pour des exécutions de formation de modèles encore plus puissants. D'ici 2025, le coût de chaque grappe d'entraînement devrait dépasser 10 milliards de dollars. D'ici 2027, plus de 100 milliards de dollars. À mesure que ces chiffres se rapprochent de l'investissement du gouvernement américain dans les programmes Apollo, il devient clair pourquoi l'ASI est devenue la course déterminante de notre époque.

Les métriques pour les modèles commençant par GPT-5 sont des estimations

Avec l'augmentation de la consommation d'électricité proportionnellement à la taille des clusters, les prochains cycles de formation nécessiteront plus de 1 GW de puissance l'année prochaine. L'année suivante, 10 GW ou plus. Sans indication de ralentissement de cette expansion, on prévoit que les centres de données consommeront environ 4,5 % du total mondial généré d'ici 2030. Les réseaux électriques existants, déjà en difficulté avec les exigences du modèle actuel, ne peut pas générer suffisamment d'énergie pour les futurs clusters. Cela soulève une question cruciale : d'où viendra cette énergie? Les grandes entreprises technologiques adoptent une approche à deux volets.

À long terme, la seule solution viable est que les aspirants à l'ASI génèrent leur propre électricité. Compte tenu de leurs engagements climatiques, cette énergie doit provenir de sources renouvelables. L'énergie nucléaire se distingue comme la solution principale. Amazonrécemment acheté un campus de centres de données alimenté par une centrale nucléaire pour 650 millions de dollars. Microsoft a engagéun responsable des technologies nucléaires et estrelance de la centrale historique de Three Mile Island. Google a acquis plusieurs petits réacteurs nucléairesde Kairos Power en Californie. Sam Altman d'OpenAI a soutenu des startups énergétiques comme Helion, Exowatt, et Oklo.

Microsoft rouvre la centrale nucléaire de Three Mile Island (source d'image)

Alors que les graines de l’énergie nucléaire sont en train d’être semées, les fruits (ou l’énergie) mettront plusieurs années à porter. Qu’en est-il des besoins énergétiques pour la génération immédiate des modèles ? La solution provisoire implique une formation distribuée dans plusieurs centres de données. Plutôt que de concentrer les demandes d’énergie massives en un seul endroit, des entreprises comme Microsoft et Google répartissent leurs clusters de formation sur plusieurs sites.

Le défi, bien sûr, est de faire fonctionner efficacement ces systèmes distribués ensemble. Même à la vitesse de la lumière, les données prennent environ 43 ms pour un aller-retour du côté est au côté ouest des États-Unis - une éternité en termes informatiques. De plus, si même une puce est en retard de, disons 10%, cela ralentit l'ensemble de l'exécution de l'entraînement de la même marge.

La solution réside dans la connexion des centres de données sur plusieurs sites via des réseaux à fibre optique à haut débit et l'application d'une combinaison des techniques de parallélisme discutées précédemment pour synchroniser leurs opérations. Le parallélisme des tenseurs est appliqué aux GPU de chaque serveur, leur permettant de fonctionner comme une unité unique. Le parallélisme en pipeline, avec ses exigences réseau plus faibles, est utilisé pour relier les serveurs au sein du même centre de données. Enfin, les centres de données situés dans des emplacements différents (appelés «îles») synchronisent périodiquement leurs informations en utilisant le parallélisme des données.

Auparavant, nous avons noté que le parallélisme des données est inefficace pour les GPU individuels car ils ne peuvent pas prendre en charge de grands modèles de manière indépendante. Cependant, cette dynamique change lorsque nous parallélisons des îles - chacune contenant des milliers de GPU - plutôt que des unités individuelles. Les données d'entraînement sont réparties sur chaque île et ces îles se synchronisent périodiquement via des connexions à fibre optique relativement plus lentes (par rapport à NVLink et Infiniband).

Centres de données

Déplaçons notre attention de la formation et des GPU vers les centres de données eux-mêmes.

Il y a vingt ans, Amazon a lancé Amazon Web Services (AWS) - l'une des entreprises les plus transformatrices de l'histoire - et a créé une toute nouvelle industrie connue sous le nom d'informatique en nuage. Les leaders actuels du cloud (Amazon, Microsoft, Google et Oracle) bénéficient d'une domination confortable, réalisant un chiffre d'affaires annuel combiné de près de 300 milliards de dollars avec des marges de 30 à 40%. Aujourd'hui, l'émergence de l'IA a créé de nouvelles opportunités sur un marché qui est resté largement oligopolistique pendant des années.

Les exigences physiques, la complexité technique et l'économie des centres de données d'IA intensifs en GPU diffèrent considérablement de celles de leurs homologues traditionnels.

Nous avons discuté plus tôt de la consommation d'énergie élevée des GPU. Cela conduit à ce que les centres de données d'IA soient beaucoup plus denses en énergie et, par conséquent, produisent plus de chaleur. Alors que les centres de données traditionnels utilisent des ventilateurs géants (refroidissement par air) pour dissiper la chaleur, cette approche n'est ni suffisante ni économiquement viable pour les installations d'IA. Au lieu de cela, les centres de données d'IA adoptent des systèmes de refroidissement liquide où les blocs d'eau se fixent directement aux GPU et autres composants chauds pour dissiper la chaleur de manière plus efficace et silencieuse. (Les GPU B200 sont dotés de cette architecture intégrée). Le support des systèmes de refroidissement liquide nécessite l'ajout de grandes tours de refroidissement, d'une installation de système d'eau centralisé et de tuyaux pour transporter l'eau vers et depuis tous les GPU - une modification fondamentale de l'infrastructure du centre de données.

Au-delà d’une consommation d’énergie absolue plus élevée, les centres de données d’IA ont des exigences de charge distinctes. Alors que les centres de données traditionnels maintiennent une consommation d’énergie prévisible, les modèles d’utilisation de l’énergie des charges de travail de l’IA sont beaucoup plus volatils. Cette volatilité se produit parce que les GPU alternent périodiquement entre fonctionner à 100 % de leur capacité et ralentir jusqu’à s’arrêter presque lorsque l’entraînement atteint des points de contrôle, où les poids sont soit stockés en mémoire, soit, comme nous l’avons vu précédemment, synchronisés avec d’autres îles. Les centres de données basés sur l’IA ont besoin d’une infrastructure d’alimentation spécialisée pour gérer ces fluctuations de charge.

La construction de clusters GPU est beaucoup plus difficile que la construction de clouds informatiques classiques. Les GPU doivent pouvoir communiquer entre eux très rapidement. Pour cela, ils doivent être très proches les uns des autres. Un centre d'IA typique nécessite plus de 200 000 câbles spéciaux appelés connexions InfiniBand. Ces câbles permettent aux GPU de communiquer. Si un seul câble cesse de fonctionner, tout le système s'arrête. Le processus de formation ne peut pas continuer tant que ce câble n'est pas réparé.

Ces exigences en matière d'infrastructure rendent presque impossible la modernisation des centres de données traditionnels avec des GPU haute performance pour les rendre compatibles avec l'IA. Une telle mise à niveau nécessiterait une refonte structurelle presque complète. Au lieu de cela, les entreprises construisent de nouveaux centres de données spécialement conçus pour l'IA, à partir de zéro, différentes organisations poursuivant cette démarche à des échelles variables.

À l’avant-garde, les grandes entreprises technologiques s’efforcent de construire leurs propres centres de données basés sur l’IA. Meta investit massivement dans des installations uniquement pour son propre développement d’IA, le traitant comme un investissement direct en capital puisqu’il n’offre pas de services cloud. Microsoft est en train de construire des centres tout aussi massifs pour alimenter à la fois ses propres projets d’IA et servir des clients clés comme OpenAI. Oracle s’est également lancé de manière agressive dans cet espace, faisant d’OpenAI un client notable. Amazon continue d’étendre son infrastructure, en particulier pour soutenir les entreprises émergentes d’IA comme Anthropic. La xAI d’Elon Musk, ne voulant pas dépendre d’une autre entreprise, a choisi de construire son propre cluster de 100 000 GPU.

À l’intérieur du centre de données de 100 000 GPU H100 de xAI (source)

Aux côtés des incumbents, des «neoclouds» émergent - des fournisseurs de cloud spécialisés se concentrant exclusivement sur le calcul GPU pour les charges de travail en IA. Ces neoclouds se divisent en deux catégories distinctes basées sur l'échelle.

Les grands fournisseurs de néocloud, notamment gate.io,CoreWeave, Crusoe, et LLama Labs, exploiter des grappes de plus de 2 000 GPU. Ils se différencient des services cloud traditionnels de deux manières : en proposant des solutions d'infrastructure personnalisées au lieu de forfaits standardisés, et en exigeant des engagements à long terme de la part des clients au lieu d'arrangements de paiement à l'utilisation.

Leur modèle économique exploite ces accords à long terme et la solvabilité des clients pour sécuriser le financement de l'infrastructure. Les revenus proviennent des tarifs premium facturés pour les services spécialisés et des bénéfices générés par l'écart entre les coûts de financement bas et les paiements des clients.

Voici comment fonctionne généralement un tel arrangement : un fournisseur de néocloud conclut un contrat de trois ans avec une startup en IA bien financée pour 10 000 GPU H100 à 40 millions de dollars par mois. Grâce à ce flux de revenus garanti de 1,44 milliard de dollars, le fournisseur obtient un financement bancaire avantageux (à 6% d'intérêt) pour acheter et installer une infrastructure d'une valeur de 700 millions de dollars. Les revenus mensuels de 40 millions de dollars couvrent 10 millions de dollars de frais d'exploitation et 20 millions de dollars de remboursement de prêt, générant 10 millions de dollars de bénéfices mensuels tandis que la startup reçoit une puissance de calcul sur mesure et dédiée.

Ce modèle nécessite une sélection de clients exceptionnellement soigneuse. Les fournisseurs cherchent généralement des entreprises disposant de grandes réserves de liquidités ou bénéficiant d'un solide soutien financier - souvent des évaluations de 500 millions de dollars ou plus.

Les petites néo-nuages offrent des clusters GPU de 2 000 unités ou moins et s'adressent à un segment séparé du marché de l'IA - les petites et moyennes start-ups. Ces entreprises entraînent soit des modèles plus petits (jusqu'à 70 milliards de paramètres), soit adaptent des modèles open source (l'adaptation de modèles de base à des cas d'utilisation spécifiques est appelée fine-tuning). Ces deux types de charges de travail nécessitent des ressources informatiques modérées mais dédiées sur des périodes plus courtes.

Ces fournisseurs proposent des services informatiques à la demande avec des tarifs horaires pour un accès continu et de durée fixe. Bien que cela coûte plus cher que les contrats à long terme, cela donne aux startups la flexibilité d'expérimenter sans s'engager dans des accords de plusieurs millions de dollars.

Finalement, en dehors des géants du cloud et des fournisseurs de néo-cloud, nous avons les intermédiaires de l'espace de l'infrastructure d'IA : les plateformes et les agrégateurs. Ces intermédiaires ne possèdent pas d'infrastructure GPU, mais connectent les propriétaires de ressources de calcul à ceux qui en ont besoin.

Les fournisseurs de plateforme comme gate.io HydraHostetFluidstackservir de Shopify du calcul GPU. Tout comme Shopify permet aux marchands de lancer des magasins en ligne sans construire d'infrastructure de commerce électronique, ces plateformes permettent aux opérateurs de data centers et aux propriétaires de GPU d'offrir des services de calcul sans développer leurs propres interfaces client. Ils fournissent un package technique complet pour gérer une activité de calcul GPU, y compris des outils de gestion de l'infrastructure, des systèmes de provisionnement client et des solutions de facturation.

Les agrégateurs de places de marché comme Vast.aifonctionner comme l'Amazon du monde des GPU. Ils créent une place de marché regroupant différentes offres de calcul provenant de différents fournisseurs, allant des cartes RTX grand public aux GPU H100 professionnels. Les propriétaires de GPU répertorient leurs ressources avec des métriques de performance détaillées et des évaluations de fiabilité, tandis que les clients achètent du temps de calcul via une plate-forme en libre-service.

Inférence

Jusqu'à présent, notre discussion s'est concentrée sur la formation (ou le réglage fin) des modèles. Cependant, une fois formé, un modèle doit être déployé pour servir les utilisateurs finaux - un processus appelé inférence. Chaque fois que vous discutez avec ChatGPT, vous utilisez des GPU exécutant des charges de travail d'inférence qui prennent votre entrée et génèrent la réponse du modèle. Revenons à parler des statues de marbre pendant une minute.

Ceci est également David, mais pas l'original de Michel-Ange, mais une copie en plâtre commandée par la reine Victoria en 1857 pour le Victoria and Albert Museum de Londres. Alors que Michel-Ange a passé trois années épuisantes à sculpter soigneusement le marbre pour créer l'original à Florence, cette copie en plâtre a été réalisée à partir d'un moule direct de la statue, reproduisant parfaitement chaque courbe, angle et détail que Michel-Ange avait créés. Le travail créatif intensif a eu lieu une fois. Ensuite, il s'agissait de reproduire fidèlement ces caractéristiques. Aujourd'hui, des répliques de David apparaissent partout, des halls de musée aux cours des casinos de Las Vegas.

C'est exactement ainsi que fonctionne l'inférence en IA. Entraîner un grand modèle de langue est comme le processus sculptural original de Michel-Ange - intensif en calcul, chronophage et exigeant en ressources alors que le modèle apprend progressivement la bonne "forme" du langage grâce à des millions de petits ajustements. Mais utiliser le modèle entraîné - l'inférence - revient davantage à créer une réplique. Lorsque vous discutez avec ChatGPT, vous ne lui apprenez pas le langage à partir de zéro, mais utilisez une copie d'un modèle dont les paramètres (comme les courbes et angles précis de David) ont déjà été perfectionnés.

Les charges de travail d'inférence diffèrent fondamentalement de la formation. Alors que la formation nécessite de grands clusters denses des dernières GPU comme les H100 pour gérer des calculs intensifs, l'inférence peut fonctionner sur des serveurs à GPU unique utilisant du matériel plus ancien comme les A100 ou même des cartes grand public, ce qui le rend considérablement plus rentable. Cela étant dit, les charges de travail d'inférence ont leurs propres exigences uniques :

  • Large couverture géographique : Les modèles doivent être déployés dans plusieurs centres de données à travers le monde pour garantir que les utilisateurs à Singapour obtiennent des réponses aussi rapidement que les utilisateurs à San Francisco
  • Disponibilité élevée : Contrairement à la formation, qui peut être mise en pause et reprise, l'inférence doit être disponible 24/7 car les utilisateurs s'attendent à des réponses instantanées à tout moment
  • Redondance: plusieurs serveurs doivent être prêts à traiter les demandes en cas de défaillance ou de surcharge de certains d'entre eux.

Ces caractéristiques rendent les charges de travail d'inférence idéales pour les modèles de tarification spot. Avec la tarification spot, les ressources GPU sont disponibles à des remises importantes, souvent de 30 à 50 % en dessous des tarifs à la demande, avec la compréhension que le service peut être interrompu lorsque des clients à plus haute priorité ont besoin de ressources. Ce modèle convient à l'inférence car le déploiement redondant permet aux charges de travail de basculer rapidement vers les GPU disponibles en cas d'interruption.

Dans ce contexte de GPUs et de calcul en nuage d'IA, nous sommes maintenant en mesure d'explorer où la crypto s'inscrit dans tout cela. Allons-y (enfin).

Où se situe la cryptographie

Les projets et les rapports citent fréquemment l’observation de Peter Thiel selon laquelle « l’IA centralise, la crypto se décentralise » lorsqu’ils discutent du rôle de la crypto dans la formation de l’IA. Bien que la déclaration de Thiel soit incontestablement vraie, nous venons de voir de nombreuses preuves de l’avantage évident de Big Tech dans la formation d’une IA puissante – il est souvent détourné de suggérer que la crypto et les ordinateurs décentralisés offrent la principale solution pour contrebalancer l’influence de Big Tech.

De telles affirmations font écho à des exagérations antérieures sur le potentiel de la crypto-monnaie à révolutionner les médias sociaux, les jeux et d'innombrables autres industries. Elles sont non seulement contre-productives, mais aussi, comme je le soutiendrai bientôt, irréalistes - du moins à court terme.

Au lieu de cela, je vais adopter une approche plus pragmatique. Je vais supposer qu'une startup en IA à la recherche de puissance de calcul ne se soucie pas des principes de décentralisation ou de l'opposition idéologique croissante aux géants de la technologie. Ils ont plutôt un problème : ils veulent accéder à une puissance de calcul GPU fiable au coût le plus bas possible. Si un projet de crypto peut fournir une meilleure solution à ce problème que les alternatives non-crypto, ils l'utiliseront.

Pour ce faire, commençons par comprendre avec qui les projets de crypto concurrencent. Plus tôt, nous avons discuté des différentes catégories de fournisseurs de cloud AI : les Big Tech et les hyperscalers, les grands néo-clouds, les petits néo-clouds, les fournisseurs de plateformes et les places de marché.

La thèse fondamentale derrière le calcul décentralisé (comme tous les projets DePIN) est que le marché actuel du calcul fonctionne de manière inefficace. La demande en GPU reste exceptionnellement élevée, tandis que l'offre est fragmentée et sous-utilisée dans les centres de données mondiaux et les foyers individuels. La plupart des projets de ce secteur rivalisent directement avec les places de marché en agrégeant cette offre dispersée pour réduire les inefficacités.

Avec cela établi, examinons comment ces projets (et les places de marché de calcul en général) peuvent aider avec différents travaux de l'IA - l'entraînement, le réglage fin et l'inférence.

Formation

Avant tout, non, ASI ne sera pas formé sur un réseau mondial de GPU décentralisés. Du moins, pas selon la trajectoire actuelle de l'IA. Voici pourquoi.

Plus tôt, nous avons discuté de la taille croissante des clusters de modèles de base. Vous avez besoin de 100 000 des GPU les plus puissants au monde pour même commencer à rivaliser. Ce nombre ne cesse d'augmenter chaque année. D'ici 2026, le coût d'une exécution d'entraînement devrait dépasser les 100 milliards de dollars, nécessitant peut-être un million de GPU ou plus.

Seules les grandes entreprises technologiques, soutenues par de grands néoclouds et des partenariats directs avec Nvidia, peuvent assembler des grappes de cette envergure. Rappelez-vous, nous sommes dans une course pour l'ASI, et tous les participants sont à la fois très motivés et capitalisés. S'il y a un approvisionnement supplémentaire de ces nombreux GPU (ce n'est pas le cas), alors ils seront les premiers à les récupérer.

Même si un projet de crypto parvient d'une manière ou d'une autre à rassembler la puissance de calcul requise, deux obstacles fondamentaux empêchent le développement d'IA décentralisée :

Tout d'abord, les GPU doivent encore être connectés en grands clusters pour fonctionner efficacement. Même si ces clusters sont répartis entre des îles dans les villes, ils devront être connectés par des lignes de fibre optique dédiées. Rien de tout cela n'est possible dans un environnement décentralisé. Outre l'achat de GPU, l'établissement de centres de données prêts pour l'IA demande une planification minutieuse, généralement un processus d'un à deux ans. (xAI l'a fait en seulement 122 jours, mais il est peu probable qu'Elon lance un jeton prochainement.)

Deuxièmement, la création d'un centre de données AI ne suffit pas à engendrer une IA superintelligente. Comme l'a souligné Dario Amodei, le fondateur d'Anthropic,récemment expliqué, l'échelle dans l'IA est analogue à une réaction chimique. Tout comme une réaction chimique nécessite plusieurs réactifs en proportions précises pour avancer, l'échelle réussie de l'IA dépend de trois ingrédients essentiels qui croissent de concert: des réseaux plus grands, des temps d'entraînement plus longs et des ensembles de données plus grands. Si vous augmentez la taille d'un composant sans les autres, le processus s'arrête.

Même si nous parvenons à accumuler à la fois le calcul et à faire fonctionner les clusters ensemble, nous avons encore besoin de téraoctets de données de haute qualité pour que le modèle entraîné soit bon. Sans les sources de données propriétaires de Big Tech, le capital pour conclure des accords de plusieurs millions de dollars avec des forums en ligne et des médias, ou des modèles existants pour générer des données synthétiques, l'acquisition de données d'entraînement adéquates est impossible.

Il y a eu récemment des spéculations selon lesquelles les lois d'échelle pourraient atteindre un plateau, les LLMs risquant potentiellement de toucher des plafonds de performance. Certains interprètent cela comme une opportunité pour le développement de l'IA décentralisée. Cependant, cela néglige un facteur crucial - la concentration des talents. Les grandes entreprises technologiques d'aujourd'hui et les laboratoires d'IA abritent les chercheurs de premier plan mondial. Toute percée alternative vers l'AGI émergera probablement de ces centres. Compte tenu du paysage concurrentiel, de telles découvertes resteraient étroitement gardées.

En tenant compte de tous ces arguments, je suis certain à 99,99% que la formation de l'ASI - ou même des modèles les plus puissants du monde - ne sera pas formée sur un projet de calcul décentralisé. Dans ce cas, quels modèles la crypto pourrait-elle réellement aider à former?

Afin que les modèles puissent être formés sur des clusters de GPU séparés placés dans des emplacements géographiques différents, nous devons mettre en œuvre le parallélisme des données entre eux. (Rappelez-vous que le parallélisme des données est la façon dont différentes îles de GPU, chacune travaillant sur des morceaux séparés des données d'entraînement, se synchronisent les unes avec les autres). Plus le modèle formé est grand, plus la quantité de données à échanger entre ces îles est grande. Comme nous l'avons discuté, pour les modèles de pointe avec plus d'un billion de paramètres, la largeur de bande nécessaire est suffisamment grande pour nécessiter des connexions fibre optique dédiées.

Cependant, pour les modèles plus petits, les besoins en bande passante diminuent proportionnellement. Des percées récentes dans les algorithmes d'entraînement à faible communication, en particulier dans la synchronisation retardée, ont créé des opportunités prometteuses pour former des modèles de petite à moyenne taille de manière décentralisée. Deux équipes mènent ces efforts expérimentaux.

Nous Rechercheest une entreprise d'accélération de l'IA et un acteur majeur dans le développement de l'IA open source. Ils sont surtout connus pour leur série Hermes de modèles de langage et des projets innovants comme World Sim. Plus tôt cette année, ils ont exploité un sous-réseau BitTensor de classe LLM pendant quelques mois. Ils ont trempé leurs orteils dans le calcul décentralisé en publiant le DisTrOprojet DTI (Distributed Training Over the Internet), où ils ont réussi à former avec succès un modèle Llama-2 à 1,2 milliard de paramètres tout en réduisant de 857 fois les exigences de bande passante inter-GPU.

Le rapport DisTrO de Nous Research

Prime Intellect, une start-up qui développe une infrastructure pour l’IA décentralisée à grande échelle, vise à agréger les ressources de calcul mondiales et à permettre l’entraînement collaboratif de modèles de pointe par le biais de systèmes distribués. Leur Cadre OpenDiLoCo (mise en œuvre de l’application de DeepMind Méthode de distribution à faible communication) a réussi à former un modèle d'un milliard de paramètres à travers deux continents et trois pays tout en maintenant une utilisation de calcul de 90 à 95 %.

Mais comment fonctionnent ces courses d'entraînement décentralisées ?

Le parallélisme des données traditionnelles exige que les GPU partagent et moyennent leurs poids après chaque étape d'entraînement, ce qui est impossible via les connexions internet. Au lieu de cela, ces projets permettent à chaque Île de GPU de s'entraînement de manière indépendante pendant des centaines d'étapes avant de se synchroniser. Pensez-y comme des équipes de recherche indépendantes travaillant sur le même projet : plutôt que de vérifier constamment les uns avec les autres, ils font des progrès significatifs de manière indépendante avant de partager leurs découvertes.

DisTrO et OpenDiLoCo ne se synchronisent que toutes les 500 étapes, en utilisant une approche à double optimiseur :

  • Un optimiseur “intra” qui gère les mises à jour locales sur chaque GPU, comme une équipe faisant des découvertes locales
  • Un optimiseur "externe" qui gère les synchronisations périodiques entre les GPU, agissant comme un coordinateur qui rassemble toutes les découvertes ensemble

Lorsqu’ils se synchronisent, plutôt que de partager tous les poids, ils partagent un « pseudo-gradient », c’est-à-dire essentiellement la différence entre leurs poids actuels et les poids de la dernière synchronisation. C’est remarquablement efficace, comme partager uniquement ce qui a été modifié dans un document plutôt que d’envoyer le document entier à chaque fois.

INTELLECT-1, une implémentation pratique d'OpenDiLoCo par Prime Intellect, pousse cette approche encore plus loin en entraînant un modèle de 10 milliards de paramètres - le plus grand effort de formation décentralisée à ce jour. Ils ont ajouté des optimisations clés comme :

  • Compresser les données dont ils ont besoin de partager, rendant la communication beaucoup plus efficace
  • Mise en place de systèmes de sauvegarde afin que la formation puisse se poursuivre même si certains ordinateurs tombent en panne
  • Rendre le processus de synchronisation extrêmement rapide, en moins d'une minute

INTELLECT-1, formé par plus de 20 clusters GPU répartis à travers le monde, a récemment terminé préformation et sera bientôt publié en tant que modèle entièrement open source.

Tableau de bord d’entraînement INTELLECT-1

Des équipes comme Le Macrocosmeutilisent des algorithmes similaires pourmodèles de traindans l'écosystème Bittensor.

Si ces algorithmes d'entraînement décentralisés continuent de s'améliorer, ils pourraient être capables de prendre en charge des modèles allant jusqu'à 100 milliards de paramètres avec la prochaine génération de GPU. Même des modèles de cette taille peuvent être très utiles pour une grande variété de cas d'utilisation:

  1. Recherche et expérimentation avec des architectures novatrices qui ne nécessitent pas de calcul à l'échelle de la frontière
  2. Des modèles généraux de taille plus petite qui sont optimisés pour les performances et la vitesse plutôt que pour l'intelligence brute
  3. Modèles spécifiques au domaine

Affiner

Le peaufinage est le processus de prendre un modèle de base pré-entraîné (généralement un modèle open-source de Meta, Mistral ou Alibaba) et de le former davantage sur un ensemble de données spécifique pour l'adapter à des tâches ou des domaines particuliers. Cela nécessite beaucoup moins de calcul que la formation à partir de zéro, car le modèle a déjà appris des schémas de langage généraux et n'a besoin que d'ajuster ses poids pour le nouveau domaine.

Calculer les exigences de calcul pour l'ajustement fin de l'échelle en fonction de la taille du modèle. En supposant une formation sur un H100 :

  • Petits modèles (1-7B de paramètres) : une seule GPU, terminé en moins de 12 heures
  • Modèles moyens (7-13B) : 2-4 grappes de GPU, achèvement en 36 heures
  • Grands modèles (>30B): jusqu'à 8 clusters de GPU, achèvement en 4 jours

Compte tenu de ces spécifications, l'ajustement fin ne nécessite pas les algorithmes d'entraînement distribué complexes précédemment discutés. Le modèle à la demande, où les développeurs louent des clusters GPU pour de courtes périodes concentrées, fournit un support adéquat. Les places de marché de calcul décentralisées disposant d'une disponibilité robuste des GPU sont idéalement positionnées pour gérer ces charges de travail.

Inférence

L'inférence est l'endroit où les places de marché de calcul décentralisées ont le plus clairement le potentiel de s'adapter au marché. Ironiquement, c'est le flux de travail le moins discuté dans le contexte de la formation décentralisée. Cela découle de deux facteurs : l'inférence ne présente pas l'attrait des 100 000 exécutions d'entraînement de modèles GPU « god model », et en partie en raison de la phase actuelle de la révolution de l'IA.

À ce jour, la majorité du calcul est en effet destinée à l’entraînement. La course à l’ASI entraîne des investissements initiaux massifs dans les infrastructures de formation. Cependant, cet équilibre change inévitablement à mesure que les applications d’IA passent de la recherche à la production. Pour qu’un modèle économique autour de l’IA soit durable, les revenus générés par l’inférence doivent dépasser les coûts de formation et d’inférence combinés. Bien que la formation de GPT-4 ait été extrêmement coûteuse, il s’agissait d’un coût unique. Les dépenses de calcul en cours, et le chemin d’OpenAI vers la rentabilité, sont motivés par le traitement de milliards de demandes d’inférence aux clients payants.

Les places de marché de calcul, décentralisées ou non, par nature de regrouper une variété de modèles de GPU (anciens et nouveaux) du monde entier, se trouvent dans une position unique pour servir les charges de travail d'inférence.

Les places de marché de calcul, qu'elles soient décentralisées ou traditionnelles, excellent naturellement dans les charges de travail d'inférence en agrégeant divers modèles de GPU (actuels et anciens) à l'échelle mondiale. Leurs avantages inhérents correspondent parfaitement aux exigences d'inférence : distribution géographique étendue, disponibilité constante, redondance du système et compatibilité entre les générations de GPU.

Mais pourquoi la cryptomonnaie?

Nous avons discuté des différents flux de travail que le calcul décentralisé peut et ne peut pas aider. Maintenant, nous devons répondre à une autre question importante: pourquoi un développeur choisirait-il de sécuriser le calcul auprès d'un fournisseur décentralisé plutôt que centralisé ? Quels avantages convaincants les solutions décentralisées offrent-elles ?

Tarification et Gamme

Les stablecoins ont atteint leur ajustement produit-marché en offrant une alternative supérieure aux paiements transfrontaliers traditionnels. Un gros facteur est que les stablecoins sont tout simplement beaucoup moins chers ! De même, le facteur le plus important qui influence le choix d'un développeur d'IA pour un fournisseur de cloud est le coût. Pour que les fournisseurs de calcul décentralisés puissent concurrencer efficacement, ils doivent d'abord offrir des tarifs supérieurs.

Un marché informatique, comme tous les marchés, est une entreprise à effets de réseau. Plus l'offre de GPU sur une plateforme est grande, plus la liquidité et la disponibilité pour les clients augmentent, ce qui attire davantage de demande. À mesure que la demande augmente, cela incite davantage de propriétaires de GPU à rejoindre le réseau, créant ainsi un cercle vertueux. Une offre accrue permet également une tarification plus compétitive grâce à une meilleure correspondance et une réduction des temps d'inactivité. Lorsque les clients peuvent trouver de manière cohérente les calculs dont ils ont besoin à des tarifs attractifs, ils sont plus susceptibles de développer des dépendances techniques durables sur la plateforme, renforçant ainsi davantage les effets de réseau.

Cette dynamique est particulièrement puissante dans l'inférence, où la répartition géographique de l'offre peut réellement améliorer l'offre de produits en réduisant la latence pour les utilisateurs finaux. Le premier marché à réaliser cette roue de liquidité à grande échelle bénéficiera d'un avantage concurrentiel important, car les fournisseurs et les clients font face à des coûts de changement une fois qu'ils se sont intégrés aux outils et flux de travail d'une plateforme.

L'effet de réseau du marché des GPU est un volant d'inertie

Dans de tels marchés où tout est une question de gagnant emporte tout,amorcer le réseauet atteindre la vitesse de fuite est la phase la plus critique. Ici, la crypto-monnaie offre aux projets de calcul décentralisés un outil très puissant que leurs concurrents centralisés ne possèdent tout simplement pas : des incitations en jetons.

Les mécanismes peuvent être simples mais puissants. Le protocole lancerait d'abord un jeton comprenant un calendrier de récompenses inflationnistes, distribuant éventuellement des allocations initiales aux premiers contributeurs via des largages aériens. Ces émissions de jetons serviraient d'outil principal pour démarrer les deux côtés du marché.

Pour les fournisseurs de GPU, la structure de récompense doit être soigneusement conçue pour façonner le comportement du côté de l’offre. Les fournisseurs gagneraient des jetons proportionnels à leurs taux de calcul et d’utilisation, mais le système devrait aller au-delà des simples récompenses linéaires. Le protocole pourrait mettre en œuvre des multiplicateurs de récompense dynamiques pour remédier aux déséquilibres géographiques ou matériels, de la même manière qu’Uber utilise les prix de pointe pour inciter les chauffeurs dans les zones à forte demande.

Un fournisseur peut gagner 1,5 fois plus de récompenses en proposant des calculs dans des régions mal desservies ou 2 fois plus de récompenses en fournissant temporairement des types de GPU rares. Une autre stratification du système de récompense basée sur des taux d'utilisation constants encouragerait les fournisseurs à maintenir une disponibilité stable plutôt que de passer opportunément d'une plateforme à l'autre.

Du côté de la demande, les clients recevraient des récompenses en jetons qui subventionnent efficacement leur utilisation. Le protocole pourrait offrir des récompenses accrues pour des engagements de calcul plus longs, incitant les utilisateurs à développer des dépendances techniques plus profondes sur la plateforme. Ces récompenses pourraient être structurées de manière à correspondre aux priorités stratégiques de la plateforme, telles que la capture de la demande dans une géographie particulière.

Les taux de base pour les calculs pourraient être maintenus à des niveaux équivalents ou légèrement inférieurs aux taux du marché, les protocoles utilisant oracles zkTLS pour surveiller en permanence et s’aligner sur les prix des concurrents. Les récompenses symboliques serviraient alors de couche d’incitation supplémentaire en plus de ces taux de base compétitifs. Ce modèle de double tarification permettrait à la plateforme de maintenir la compétitivité des prix tout en utilisant des incitations symboliques pour susciter des comportements spécifiques qui renforcent le réseau.

En distribuant des incitations en jetons, les fournisseurs et les clients commenceraient à accumuler une participation dans le réseau. Alors que certains, peut-être la plupart, vendraient ces participations, d'autres les conserveraient, devenant ainsi des parties prenantes et des défenseurs de la plateforme. Ces participants engagés auraient un intérêt financier dans le succès du réseau, contribuant à sa croissance et à son adoption au-delà de leur utilisation directe ou de leur fourniture de ressources informatiques.

Au fil du temps, à mesure que le réseau atteint la vitesse d'échappement et établit de forts effets de réseau, ces incitations en jetons peuvent être progressivement réduites. Les avantages naturels d'être le plus grand marché - meilleure correspondance, meilleure utilisation, couverture géographique plus large - deviendraient des moteurs auto-entretenus de la croissance.

Comment les incitations de jetons peuvent stimuler la roue libre du marché des GPU

Résistance à la censure

Alors que le prix et la gamme sont des différenciateurs essentiels, les réseaux de calcul décentralisés abordent une préoccupation croissante : les restrictions opérationnelles des fournisseurs centralisés. Les fournisseurs de cloud traditionnels ont déjà démontré leur volonté de suspendre ou de résilier des services en fonction de politiques de contenu et pressions externes. Ces précédents soulèvent des questions légitimes sur la manière dont des politiques similaires pourraient s'étendre au développement et au déploiement de modèles d'IA.

À mesure que les modèles d'IA deviennent plus sophistiqués et s'attaquent à des cas d'utilisation de plus en plus divers, il existe une réelle possibilité que les fournisseurs de cloud mettent en place des restrictions sur la formation et le service des modèles, similaires à leurs approches actuelles de modération de contenu. Cela pourrait affecter non seulement le contenu NSFW et les sujets controversés, mais également les cas d'utilisation légitimes dans des domaines tels que l'imagerie médicale, la recherche scientifique ou les arts créatifs, qui pourraient déclencher des filtres automatisés excessivement prudents.

Un réseau décentralisé offre une alternative en permettant aux participants du marché de prendre leurs propres décisions en matière d'infrastructure, créant potentiellement un environnement plus libre et plus ouvert à l'innovation.

L'inconvénient de l'architecture sans autorisation est que la confidentialité devient plus difficile. Lorsque le calcul est réparti sur un réseau de fournisseurs plutôt que contenu dans les centres de données d'une seule entité de confiance, les développeurs doivent réfléchir à la sécurité des données. Bien que le chiffrement et les environnements d'exécution de confiance puissent aider, il y a un compromis inhérent entre la résistance à la censure et la confidentialité que les développeurs doivent gérer en fonction de leurs besoins spécifiques.

Confiance et exécution de contrat

Compte tenu de la demande astronomique en calculs IA, les fournisseurs de GPU peuvent exploiter leur position pour extraire un profit maximum des clients réussis. Dans un post de l'année dernière, le célèbre développeur solo Pieter Levels a partagé comment lui et d'autres développeurs ont connu une augmentation soudaine des prix de leurs fournisseurs de plus de 600% après avoir rendu publics les chiffres de revenus de leur application d'IA.

Les systèmes décentralisés peuvent offrir une solution à ce problème - l'application de contrats sans confiance. Lorsque les accords sont encodés sur la chaîne plutôt que cachés dans les conditions de service, ils deviennent transparents et immuables. Un fournisseur ne peut pas arbitrairement augmenter les prix ou modifier les conditions en cours de contrat sans que les modifications soient explicitement acceptées par le protocole.

Au-delà de la tarification, les réseaux décentralisés peuvent tirer partienvironnements d'exécution sécurisés (TEEs)pour fournir un calcul vérifiable. Cela garantit que les développeurs obtiennent réellement les ressources GPU pour lesquelles ils paient, tant en termes de spécifications matérielles que d'accès dédié. Par exemple, lorsqu'un développeur paie pour un accès dédié à huit GPU H100 pour l'entraînement du modèle, des preuves cryptographiques peuvent vérifier que leurs charges de travail sont effectivement exécutées sur des H100 avec les 80 Go de mémoire par GPU, plutôt que d'être silencieusement rétrogradées vers des cartes de gamme inférieure ou de partager des ressources avec d'autres utilisateurs.

Permissionless

Les réseaux informatiques décentralisés peuvent fournir aux développeurs des alternatives vraiment sans permission. Contrairement aux fournisseurs traditionnels qui nécessitent des processus KYC et des vérifications de crédit approfondis, n'importe qui peut rejoindre ces réseaux et commencer à consommer ou à fournir des ressources informatiques. Cela abaisse considérablement la barrière à l'entrée, en particulier pour les développeurs des marchés émergents ou ceux travaillant sur des projets expérimentaux.

L'importance de cette nature sans permission devient encore plus puissante lorsque nous considérons l'avenir des agents d'IA. Les agents d'IA viennent de commencer à trouver leur équilibre, avec agents intégrés verticalementprévoit de dépasser la taille de l'industrie SaaS. Avec des acteurs tels queTerminal de véritéetZerebro, nous voyons les premiers signes des agents acquérant de l'autonomie et apprenant à utiliser des outils externes tels que les médias sociaux et les générateurs d'images.

À mesure que ces systèmes autonomes deviennent plus sophistiqués, ils peuvent avoir besoin de provisionner dynamiquement leurs propres ressources de calcul. Un réseau décentralisé où les contrats peuvent être exécutés de manière fiable par du code plutôt que par des intermédiaires humains est l'infrastructure naturelle pour cet avenir. Les agents pourraient négocier des contrats de manière autonome, surveiller les performances et ajuster leur utilisation de calcul en fonction de la demande, le tout sans nécessiter d'intervention ou d'approbation humaine.

Le paysage

Le concept de réseaux de calcul décentralisés n'est pas nouveau - des projets ont cherché à démocratiser l'accès aux ressources informatiques rares bien avant le boom actuel de l'IA.Réseau Renderopère depuis 2017, en agrégeant des ressources GPU pour le rendu d'images de synthèse.Akash lancé en 2020 pour créer un marché ouvert pour le calcul général. Les deux projets ont rencontré un succès modéré dans leurs créneaux, mais se concentrent désormais sur les charges de travail liées à l'IA.

De même, les réseaux de stockage décentralisé comme FilecoinetArweave se développent dans le domaine du calcul. Ils reconnaissent que, à mesure que l'IA devient le principal consommateur de stockage et de calcul, il est logique de proposer des solutions intégrées.

Tout comme les centres de données traditionnels peinent à rivaliser avec les installations d'IA spécialement conçues, ces réseaux établis se heurtent à une lutte difficile contre les solutions nativement IA. Ils n'ont pas le ADN nécessaire pour exécuter l'orchestration complexe requise pour les charges de travail d'IA. Au lieu de cela, ils trouvent leur place en devenant des fournisseurs de calcul pour d'autres réseaux spécifiques à l'IA. Par exemple, Render et Akash rendent désormais leurs GPU disponibles sur la place de marché io.net.

Qui sont ces nouvelles places de marché natives d'IA ?io.netest l'un des premiers leaders dans l'agrégation de l'approvisionnement en GPU de qualité entreprise, avec plus de 300 000 GPU vérifiés sur son réseau. Ils affirment offrir 90% d'économies de coûts par rapport aux incumbents centralisés et ont atteint des gains quotidiens de plus de 25 000 $ (9 millions de dollars par an). De même, Aethiragrège plus de 40 000 GPU (dont plus de 4 000 H100) pour servir à la fois les cas d'utilisation de l'IA et de l'informatique en nuage.

Plus tôt, nous avons discuté de la façon dont Prime Intellect crée les cadres pour la formation décentralisée à grande échelle. Outre ces efforts, ils fournissent également un marché des GPUoù les utilisateurs peuvent louer des H100 à la demande.Gensyn est un autre projet qui mise gros sur la formation décentralisée avec une approche similaire en matière de formation et un marché des GPU.

Alors que ce sont tous des marchés agnostiques en termes de charge de travail (ils prennent en charge à la fois la formation et l'inférence), quelques projets se concentrent uniquement sur l'inférence - la charge de travail de calcul décentralisé qui nous passionne le plus. Parmi ceux-ci, Exo Labs, qui permet aux utilisateurs d'exécuter des LLM de niveau frontière sur des appareils quotidiens. Ils ont développé une plateforme open source qui permet la distribution des tâches d'inférence en IA sur plusieurs appareils tels que des iPhones, des Androids et des Macs. Ils a récemment démontréexécution d'un modèle 70-B (évolutif jusqu'à 400-B) réparti sur quatre Mac Mini M4 Pro.

Infrastructure essentielle

Lorsque Satoshi a lancé Bitcoin en 2008, ses avantages - de l'or numérique avec une offre limitée et de l'argent résistant à la censure - étaient purement théoriques. Le système financier traditionnel, malgré ses défauts, fonctionnait. Les banques centrales n'avaient pas encore entrepris une impression monétaire sans précédent. Les sanctions internationales n'étaient pas utilisées comme des armes contre des économies entières. Le besoin d'une alternative semblait être d'ordre académique plutôt qu'urgent.

Il a fallu une décennie d'assouplissement quantitatif, culminant dans l'expansion monétaire de l'ère COVID, pour que les avantages théoriques du Bitcoin se cristallisent en une valeur tangible. Aujourd'hui, alors que l'inflation érode les économies et que les tensions géopolitiques menacent la domination du dollar, le rôle du Bitcoin en tant que « or numérique » a évolué d'un rêve de cypherpunk à un actif adopté par les institutions et les États-nations.

Ce schéma s'est répété avec les stablecoins. Dès qu'une blockchain polyvalente sur Ethereum était disponible, les stablecoins sont immédiatement devenus l'un des cas d'utilisation les plus prometteurs. Pourtant, il a fallu des années d'améliorations progressives de la technologie et des économies de pays comme l'Argentine et la Turquie, ravagés par l'inflation, pour que les stablecoins évoluent d'une innovation crypto de niche en une infrastructure financière critique déplaçant des billions de dollars de volume annuel.

La crypto est par nature une technologie défensive - des innovations qui semblent inutiles en période de prospérité mais deviennent essentielles en période de crise. Le besoin de ces solutions ne devient apparent que lorsque les systèmes en place échouent ou révèlent leur vraie nature.

Aujourd'hui, nous vivons l'âge d'or de l'IA. Les flux de capital-risque sont abondants, les entreprises rivalisent pour proposer les prix les plus bas et les restrictions, le cas échéant, sont rares. Dans cet environnement, les alternatives décentralisées peuvent sembler inutiles. Pourquoi se compliquer avec les économies de jetons et les systèmes de preuve lorsque les prestataires traditionnels fonctionnent très bien ?

Mais en se basant sur les grandes vagues technologiques du passé, cette bienveillance est temporaire. Nous ne sommes guère que deux ans dans la révolution de l'IA. À mesure que la technologie mûrit et que les gagnants de la course à l'IA émergent, leur véritable pouvoir va se manifester. Les mêmes entreprises qui offrent aujourd'hui un accès généreux finiront par imposer leur contrôle - par le biais des prix, des politiques, des autorisations.

Ce n'est pas simplement un autre cycle technologique en jeu. L'IA devient le nouveau substrat de la civilisation - la lentille à travers laquelle nous traiterons l'information, créerons de l'art, prendrons des décisions et évoluerons finalement en tant qu'espèce. Le calcul est plus qu'une simple ressource ; c'est la monnaie de l'intelligence elle-même. Ceux qui contrôlent son flux façonneront la frontière cognitive de l'humanité.

Le calcul décentralisé ne consiste pas à offrir des GPU moins chers ou des options de déploiement plus flexibles (bien qu'il doive offrir les deux pour réussir). Il s'agit de garantir que l'accès à l'intelligence artificielle, la technologie la plus transformative de l'humanité, reste inattaquable et souverain. C'est notre bouclier contre un avenir inévitable où quelques entreprises dicteront non seulement qui peut utiliser l'IA, mais aussi comment ils peuvent penser avec elle.

Nous construisons ces systèmes aujourd'hui non pas parce qu'ils sont immédiatement nécessaires, mais parce qu'ils seront essentiels demain. Lorsque l'IA deviendra aussi fondamentale pour la société que l'argent, le calcul sans permission ne sera pas seulement une alternative, il sera aussi crucial pour résister à l'hégémonie numérique que le Bitcoin et les stablecoins le sont pour résister au contrôle financier.

La course vers la superintelligence artificielle pourrait être hors de portée des systèmes décentralisés. Mais veiller à ce que les fruits de cette intelligence restent accessibles à tous ? C'est une course qui vaut la peine d'être courue.

Avertissement :

  1. Cet article est repris de [Decentralised.co]. Transférer le titre original: Calcul décentralisé. Tous les droits d'auteur appartiennent à l'auteur original [Shlok Khemani]. If there are objections to this reprint, please contact the Porte Apprendreéquipe, et ils s'en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas des conseils en investissement.
  3. Les traductions de l'article dans d'autres langues sont effectuées par l'équipe Gate Learn. Sauf mention contraire, la copie, la distribution ou le plagiat des articles traduits est interdit.

Pourquoi le calcul décentralisé est-il un moteur clé du développement de l'IA ?

Avancé1/7/2025, 10:59:25 AM
L'article d'aujourd'hui couvre le secteur émergent mais souvent mal compris du calcul décentralisé en crypto. Nous plongeons dans le paysage de l'infrastructure de l'IA pour comprendre où les alternatives décentralisées peuvent réellement rivaliser.

Transférer le titre original: Decentralised Compute

L'article d'aujourd'hui porte sur le secteur émergent mais souvent mal compris de l'informatique décentralisée dans la crypto. Nous plongeons dans le paysage de l'infrastructure de l'IA pour comprendre où les alternatives décentralisées peuvent réellement concurrencer.

Nous explorons des questions telles que : ASI peut-il être formé sur des réseaux distribués ? Quels avantages uniques les réseaux cryptographiques offrent-ils ? Et pourquoi l'infrastructure de calcul sans autorisation pourrait devenir aussi essentielle pour l'IA que le Bitcoin l'est pour la finance.

Un modèle courant que vous remarquerez dans l'article est la croissance exponentielle de tout ce qui concerne l'IA - l'investissement, le calcul et les capacités. Cela coïncide avec une résurgence des marchés et de l'intérêt pour la crypto. Nous sommes très enthousiastes à propos de l'intersection de ces deux grandes vagues technologiques.

Bonjour!

Par une journée ensoleillée à Memphis, Tennessee, un avion espion à hélice a tourné en rond à plusieurs reprises au-dessus d'un bâtiment industriel, ses passagers photographiant frénétiquement les installations en dessous. Ce n'était pas une scène d'espionnage de la guerre froide mais de 2024. La cible n'était pas une installation militaire ou un site d'enrichissement d'uranium, mais une ancienne usine d'appareils électroménagers abritant maintenant l'un des superordinateurs les plus puissants au monde. Les passagers n'étaient pas des agents étrangers mais des employés d'une entreprise concurrente de centres de données.

Tous les quelques décennies, une technologie transformative émerge avec le potentiel de modifier indéniablement la trajectoire de la civilisation. Ce qui suit est une course entre les entités les plus puissantes du monde pour réaliser cette technologie en premier. Les récompenses sont si immenses et les conséquences de l'échec si dévastatrices que ces entités mobilisent rapidement tout leur arsenal de ressources - talent humain et capital - pour maîtriser cette technologie.

Au XXe siècle, deux technologies exceptionnelles correspondaient à cette définition : les armes nucléaires et l'exploration spatiale. La course pour maîtriser ces technologies impliquait les États-nations les plus puissants. Les victoires des États-Unis dans ces deux domaines ont confirmé leur statut de superpuissance mondiale dominante, ouvrant ainsi une ère de prospérité sans précédent. Pour les vaincus - l'Allemagne nazie et l'Union soviétique - les conséquences ont été dévastatrices, voire terminales.

La gigantesque usine K-25 de 44 acres à Oak Ridge, Tennessee, États-Unis, où l'uranium pour la première arme atomique a été produit (source)

La victoire de l'Amérique a eu un coût énorme. Le projet Manhattan a coûté près de 2 milliards de dollars (environ 30 milliards de dollars ajustés pour l'inflation) et a employé plus de 120 000 personnes, soit une personne sur mille Américains. La course à l'espace a demandé encore plus de ressources. Le programme Apollo a coûté 28 milliards de dollars dans les années 1960 (environ 300 milliards de dollars d'aujourd'hui) et a impliqué plus de 400 000 personnes, soit une personne sur 490 Américains. À son apogée en 1966, la NASA a commandé 4,4 % de l'ensemble du budget fédéral des États-Unis.

Le Apollo 11, juste avant le décollage pour la mission sur la lune ( source)

Le lancement de ChatGPT en 2022 a marqué l'aube d'une nouvelle course aux proportions altérant la civilisation — la poursuite de l'intelligence artificielle superintelligente (ASI). Alors que l'IA est déjà tissée dans la vie quotidienne — gérant les flux de médias sociaux, les recommandations Netflix et les filtres anti-spam par e-mail — l'émergence de grands modèles linguistiques (LLM) promet de transformer tout : la productivité humaine, la création de médias, la recherche scientifique et l'innovation elle-même.

Cette fois, les concurrents ne sont pas des états-nations (du moins, pas encore), mais les plus grandes entreprises du monde (Microsoft, Google, Meta, Amazon), les startups les plus en vogue (OpenAI, Anthropic) et l'individu le plus riche (Elon Musk). Alors que les Big Tech investissent un capital sans précédent dans la construction de l'infrastructure pour former des modèles de plus en plus puissants, les startups se sécurisent record-breakingfinancement par capital-risque. Elon est, eh bien, faire des choses à la Elon (le centre de données sous surveillance appartenait à sa société, xAI).

Et puis il y a tous les autres - entreprises, petites entreprises et start-ups - qui peuvent ne pas aspirer à construire ASI mais qui sont désireux de tirer parti des capacités de pointe débloquées par l'IA pour optimiser leur entreprise, perturber une industrie ou en créer de nouvelles entièrement. Les récompenses potentielles sont si vastes que tout le monde se précipite pour revendiquer sa part de cette nouvelle économie pilotée par l'intelligence artificielle.

Au cœur de la révolution de l'IA se trouve son composant le plus essentiel: l'unité de traitement graphique (GPU). À l'origine conçue pour alimenter les jeux vidéo, cette puce informatique spécialisée est devenue la marchandise la plus recherchée au monde. La demande de GPU est si écrasante que les entreprises endurent souventlistes d'attente de plusieurs moisjuste pour en acquérir quelques-uns. Cette demande a propulsé NVIDIA, leur principal fabricant, à la position de la société la plus précieuse au monde.

Pour les entreprises incapables ou réticentes à acheter directement des GPU, la location de puissance de calcul est devenue la meilleure option. Cela a alimenté la montée des fournisseurs de cloud AI - des entreprises exploitant des centres de données sophistiqués conçus pour répondre aux besoins de calcul de l'essor de l'IA. Cependant, la demande croissante et sa nature imprévisible signifient que ni le prix ni la disponibilité ne sont garantis.

Je argumentéque la crypto fonctionne comme une technologie "Coasian", conçue pour "lubrifier les roues, paver les routes et renforcer les ponts" afin de permettre l'épanouissement d'autres innovations perturbatrices. Alors que l'IA émerge en tant que force transformatrice de notre époque, la rareté et le coût exorbitant de l'accès aux GPU constituent un obstacle à l'innovation. Plusieurs entreprises crypto interviennent pour briser ces barrières grâce à des incitations basées sur la blockchain.

Dans l'article d'aujourd'hui, nous commençons par nous éloigner de la crypto pour examiner les fondements de l'infrastructure moderne de l'IA - comment les réseaux neuronaux apprennent, pourquoi les GPU sont devenus essentiels et comment les centres de données d'aujourd'hui évoluent pour répondre à des demandes de calcul sans précédent. Ensuite, nous plongeons dans les solutions de calcul décentralisées, explorant où elles peuvent réellement concurrencer les fournisseurs traditionnels, les avantages uniques offerts par les réseaux cryptographiques et pourquoi - bien qu'ils ne nous donnent pas l'IA générale - ils seront toujours essentiels pour garantir que les avantages de l'IA restent accessibles à tous.

Commençons par comprendre pourquoi les GPU sont si importants en premier lieu.

GPUs

Il s'agit de David, une sculpture en marbre de 17 pieds de haut et de 6 tonnes créée par le génie de la Renaissance italienne, le maître Michel-Ange. Il représente le héros biblique de l'histoire de David et Goliath et est considéré comme un chef-d'œuvre pour sa représentation impeccable de l'anatomie humaine et son attention magistrale à la perspective et au détail.

Comme toutes les sculptures en marbre, David a commencé sous la forme d'une énorme et rugueuse dalle de marbre de Carrare. Pour parvenir à sa forme finale et majestueuse, Michel-Ange a dû enlever méthodiquement des morceaux de pierre. Partant de larges et audacieux coups pour établir la forme humaine de base, il a progressé vers des détails de plus en plus fins - la courbe d'un muscle, la tension dans une veine, l'expression subtile de la détermination dans les yeux. Il a fallu trois ans à Michel-Ange pour libérer David de la pierre.

Mais pourquoi discuter d'une figure en marbre vieille de 500 ans dans un article sur l'IA?

Comme David, chaque réseau neuronal commence comme un potentiel pur - une collection de nœuds initialisée avec des nombres aléatoires (poids), aussi informe que ce bloc massif de marbre de Carrare.

Ce modèle brut est alimenté à plusieurs reprises avec des données d'entraînement - d'innombrables exemples d'entrées associées à leurs sorties correctes. Chaque point de données traversant le réseau déclenche des milliers de calculs. À chaque nœud (neurone), les connexions entrantes multiplient la valeur d'entrée par le poids de la connexion, additionnent ces produits et transforment le résultat par une « fonction d'activation » qui détermine la force de déclenchement du neurone.

Tout comme Michel-Ange reculait, évaluait son travail et corrigeait le tir, les réseaux neuronaux subissent un processus de raffinement. Après chaque passage en avant, le réseau compare sa sortie à la réponse correcte et calcule sa marge d'erreur. Grâce à un processus appelé rétropropagation, il mesure la contribution de chaque connexion à l'erreur et, comme les coups de ciseau de Michel-Ange, ajuste ses valeurs. Si une connexion conduit à une prédiction incorrecte, son influence diminue. Si elle contribue à atteindre la bonne réponse, son influence se renforce.

Lorsque toutes les données passent par le réseau (complétant une étape de propagation avant et arrière par point de données), cela marque la fin d'une « époque ». Ce processus se répète plusieurs fois, chaque passage affinant la compréhension du réseau. Au cours des premières époques, les changements de poids sont spectaculaires car le réseau effectue des ajustements importants, comme les premières frappes audacieuses du ciseau. Dans les époques ultérieures, les changements deviennent plus subtils, affinant les connexions pour des performances optimales, tout comme les touches finales délicates mettent en valeur les détails de David.

Enfin, après des milliers ou des millions d'itérations, le modèle entraîné émerge. Comme David se tenant fier dans sa forme finie, le réseau neuronal se transforme du bruit aléatoire en un système capable de reconnaître des motifs, de faire des prédictions, de générer des images de chats en train de faire du scooter, ou de permettre aux ordinateurs de comprendre et de répondre dans le langage humain.

Pourquoi les GPUs?

Michel-Ange, travaillant seul sur David, ne pouvait faire qu'une seule frappe de ciseau à la fois, nécessitant chacune des calculs précis d'angle, de force et de position. Cette précision minutieuse est la raison pour laquelle il lui a fallu trois années inlassables pour achever son chef-d'œuvre. Mais imaginez des milliers de sculpteurs tout aussi qualifiés travaillant sur David en parfaite coordination - une équipe sur les boucles de cheveux, une autre sur les muscles du torse, et des centaines d'autres sur les détails complexes du visage, des mains et des pieds. Un tel effort parallèle compresserait ces trois années en quelques jours à peine.

De même, bien que les processeurs soient puissants et précis, ils ne peuvent effectuer qu'un seul calcul à la fois. L'entraînement d'un réseau neuronal ne nécessite pas un seul calcul complexe mais des centaines de millions de calculs simples, principalement des multiplications et des additions à chaque nœud. Par exemple, le réseau neuronal mentionné précédemment, avec seulement 18 nœuds et environ 100 connexions (paramètres), peut être entraîné sur un processeur dans un délai raisonnable.

Cependant, les modèles les plus puissants d'aujourd'hui, comme le GPT-4 d'OpenAI, ont 1,8 billion de paramètres! Même les modèles modernes plus petits contiennent au moins un milliard de paramètres. Former ces modèles un calcul à la fois prendrait des siècles. C'est là que les GPU excellent: ils peuvent effectuer un grand nombre de calculs mathématiques simples simultanément, ce qui les rend idéaux pour le traitement de plusieurs nœuds de réseau neuronal en parallèle.

Les GPU modernes sont incroyablement puissants. Le dernier GPU B200 de NVIDIA, par exemple, est composé de plus de 200 milliards de transistors et prend en charge 2 250 billions de calculs parallèles par seconde (2 250 TFLOPS). Un seul GPU B200 peut gérer des modèles jusqu'à 740 milliards de paramètres. Ces machines représentent des exploits de l'ingénierie moderne, ce qui explique pourquoi NVIDIA, vendant chaque unité à 40 000 $, a vu son cours de bourse augmenter de plus de 2 500 % en cinq ans.

Jensen Huang présentant le NVIDIA B200

Pourtant, même ces machines redoutables ne peuvent entraîner seules des modèles d'IA. Rappelez-vous que pendant l'entraînement, chaque instance de données doit passer à travers le modèle dans un cycle avant et arrière individuellement. Les modèles de langage modernes de grande taille (LLM) sont formés sur des ensembles de données englobant la totalité d'Internet. GPT-4, par exemple, a traité environ 12 billions de jetons (environ 9 billions de mots), et la prochaine génération de modèles devrait gérer jusqu'à 100 billions de jetons. Utiliser un seul GPU pour un volume aussi immense de données prendrait encore des siècles.

La solution réside dans l'ajout d'une autre couche de parallélisme - la création de clusters de GPU où les tâches d'entraînement sont réparties entre de nombreux GPU travaillant comme un système unifié. Les charges de travail de formation du modèle peuvent être parallélisées de trois manières :

Parallélisme des données : plusieurs GPU conservent chacun une copie complète du modèle de réseau neuronal tout en traitant différentes parties des données d'entraînement. Chaque GPU traite indépendamment son lot de données attribué avant de se synchroniser périodiquement avec tous les autres GPU. Pendant cette période de synchronisation, les GPU communiquent entre eux pour trouver une moyenne collective de leurs poids, puis mettent à jour leurs poids individuels de manière à ce qu'ils soient tous identiques. En conséquence, ils continuent à s'entraîner sur leur lot de données individuellement avant qu'il ne soit temps de se synchroniser à nouveau.

À mesure que les modèles deviennent plus grands, une seule copie peut devenir trop volumineuse pour tenir sur un seul GPU. Par exemple, le dernier GPU B200 ne peut contenir que 740 milliards de paramètres tandis que GPT-4 est un modèle de 1,8 billion de paramètres. La parallélisme des données entre les GPU individuels ne fonctionne pas dans ce cas.

Parallélisme de tenseur : Cette approche résout la contrainte de mémoire en répartissant le travail et les poids de chaque couche de modèle sur plusieurs GPU. Les GPU échangent des calculs intermédiaires avec l'ensemble du cluster à chaque étape de propagation avant et arrière. Ces GPU sont généralement regroupés dans des serveurs de huit unités, connectés via NVLink - l'interconnexion directe haute vitesse GPU-à-GPU de NVIDIA. Cette configuration nécessite des connexions à large bande passante (jusqu'à 400 Gb/s) et à faible latence entre les GPU. Un cluster de tenseurs fonctionne efficacement comme un seul GPU massif.

Parallélisme de pipeline : Cette méthode divise le modèle entre plusieurs GPU, chaque GPU gérant des couches spécifiques. Les données circulent à travers ces GPU de manière séquentielle, comme dans une course de relais où chaque coureur (GPU) gère sa partie avant de passer le témoin. Le parallélisme de pipeline est particulièrement efficace pour connecter différents serveurs à 8 GPU au sein d'un centre de données, en utilisant des réseaux InfiniBand haute vitesse pour la communication inter-serveur. Bien que ses exigences en matière de communication dépassent le parallélisme des données, elles restent inférieures aux échanges intensifs entre GPU du parallélisme tensoriel.

L'échelle des grappes modernes est remarquable. GPT-4, avec 1,8 billion de paramètres et 120 couches, a nécessité 25 000 GPU A100 pour l'entraînement. Le processus a duré trois mois et coûté plus de 60 millions de dollars. L'A100 est deux générations plus vieux; l'utilisation des GPU B200 d'aujourd'hui ne nécessiterait que environ 8 000 unités et 20 jours d'entraînement. Juste une autre démonstration de la rapidité avec laquelle l'IA évolue.

Mais la classe de modèles GPT-4 est maintenant obsolète. La formation pour la prochaine génération de modèles avancés est en cours dans les centres de données abritant des clusters de 100 000 GPU B100 ou H100 (ces derniers étant une génération plus ancienne). Ces clusters, représentant plus de 4 milliards de dollars de dépenses en capital de GPU, sont les supercalculateurs les plus puissants de l'humanité, offrant au moins quatre fois la puissance de calcul brute de ceux appartenant au gouvernement.

Mis à part la sécurisation du calcul brut, les aspirants à l'ASI se heurtent à un autre problème lorsqu'ils essaient de configurer ces clusters : l'électricité. Chacun de ces GPU consomme 700W de puissance. Lorsque vous combinez 100 000 d'entre eux, l'ensemble du cluster (y compris le matériel de support) consomme plus de 150 MW de puissance. Pour mettre cela en perspective, cette consommation équivaut à celle d'une ville de 300 000 habitants, comparable à La Nouvelle-Orléans ou Zurich.

La folie ne s'arrête pas là. La plupart des aspirants à l'ASI croient que le Lois d'échelle LLM—ce qui suggère que les performances du modèle s'améliorent de manière prévisible avec l'augmentation de la taille du modèle, de la taille de l'ensemble de données et du calcul d'entraînement—continuera à être vrai. Des plans sont déjà en cours pour des exécutions de formation de modèles encore plus puissants. D'ici 2025, le coût de chaque grappe d'entraînement devrait dépasser 10 milliards de dollars. D'ici 2027, plus de 100 milliards de dollars. À mesure que ces chiffres se rapprochent de l'investissement du gouvernement américain dans les programmes Apollo, il devient clair pourquoi l'ASI est devenue la course déterminante de notre époque.

Les métriques pour les modèles commençant par GPT-5 sont des estimations

Avec l'augmentation de la consommation d'électricité proportionnellement à la taille des clusters, les prochains cycles de formation nécessiteront plus de 1 GW de puissance l'année prochaine. L'année suivante, 10 GW ou plus. Sans indication de ralentissement de cette expansion, on prévoit que les centres de données consommeront environ 4,5 % du total mondial généré d'ici 2030. Les réseaux électriques existants, déjà en difficulté avec les exigences du modèle actuel, ne peut pas générer suffisamment d'énergie pour les futurs clusters. Cela soulève une question cruciale : d'où viendra cette énergie? Les grandes entreprises technologiques adoptent une approche à deux volets.

À long terme, la seule solution viable est que les aspirants à l'ASI génèrent leur propre électricité. Compte tenu de leurs engagements climatiques, cette énergie doit provenir de sources renouvelables. L'énergie nucléaire se distingue comme la solution principale. Amazonrécemment acheté un campus de centres de données alimenté par une centrale nucléaire pour 650 millions de dollars. Microsoft a engagéun responsable des technologies nucléaires et estrelance de la centrale historique de Three Mile Island. Google a acquis plusieurs petits réacteurs nucléairesde Kairos Power en Californie. Sam Altman d'OpenAI a soutenu des startups énergétiques comme Helion, Exowatt, et Oklo.

Microsoft rouvre la centrale nucléaire de Three Mile Island (source d'image)

Alors que les graines de l’énergie nucléaire sont en train d’être semées, les fruits (ou l’énergie) mettront plusieurs années à porter. Qu’en est-il des besoins énergétiques pour la génération immédiate des modèles ? La solution provisoire implique une formation distribuée dans plusieurs centres de données. Plutôt que de concentrer les demandes d’énergie massives en un seul endroit, des entreprises comme Microsoft et Google répartissent leurs clusters de formation sur plusieurs sites.

Le défi, bien sûr, est de faire fonctionner efficacement ces systèmes distribués ensemble. Même à la vitesse de la lumière, les données prennent environ 43 ms pour un aller-retour du côté est au côté ouest des États-Unis - une éternité en termes informatiques. De plus, si même une puce est en retard de, disons 10%, cela ralentit l'ensemble de l'exécution de l'entraînement de la même marge.

La solution réside dans la connexion des centres de données sur plusieurs sites via des réseaux à fibre optique à haut débit et l'application d'une combinaison des techniques de parallélisme discutées précédemment pour synchroniser leurs opérations. Le parallélisme des tenseurs est appliqué aux GPU de chaque serveur, leur permettant de fonctionner comme une unité unique. Le parallélisme en pipeline, avec ses exigences réseau plus faibles, est utilisé pour relier les serveurs au sein du même centre de données. Enfin, les centres de données situés dans des emplacements différents (appelés «îles») synchronisent périodiquement leurs informations en utilisant le parallélisme des données.

Auparavant, nous avons noté que le parallélisme des données est inefficace pour les GPU individuels car ils ne peuvent pas prendre en charge de grands modèles de manière indépendante. Cependant, cette dynamique change lorsque nous parallélisons des îles - chacune contenant des milliers de GPU - plutôt que des unités individuelles. Les données d'entraînement sont réparties sur chaque île et ces îles se synchronisent périodiquement via des connexions à fibre optique relativement plus lentes (par rapport à NVLink et Infiniband).

Centres de données

Déplaçons notre attention de la formation et des GPU vers les centres de données eux-mêmes.

Il y a vingt ans, Amazon a lancé Amazon Web Services (AWS) - l'une des entreprises les plus transformatrices de l'histoire - et a créé une toute nouvelle industrie connue sous le nom d'informatique en nuage. Les leaders actuels du cloud (Amazon, Microsoft, Google et Oracle) bénéficient d'une domination confortable, réalisant un chiffre d'affaires annuel combiné de près de 300 milliards de dollars avec des marges de 30 à 40%. Aujourd'hui, l'émergence de l'IA a créé de nouvelles opportunités sur un marché qui est resté largement oligopolistique pendant des années.

Les exigences physiques, la complexité technique et l'économie des centres de données d'IA intensifs en GPU diffèrent considérablement de celles de leurs homologues traditionnels.

Nous avons discuté plus tôt de la consommation d'énergie élevée des GPU. Cela conduit à ce que les centres de données d'IA soient beaucoup plus denses en énergie et, par conséquent, produisent plus de chaleur. Alors que les centres de données traditionnels utilisent des ventilateurs géants (refroidissement par air) pour dissiper la chaleur, cette approche n'est ni suffisante ni économiquement viable pour les installations d'IA. Au lieu de cela, les centres de données d'IA adoptent des systèmes de refroidissement liquide où les blocs d'eau se fixent directement aux GPU et autres composants chauds pour dissiper la chaleur de manière plus efficace et silencieuse. (Les GPU B200 sont dotés de cette architecture intégrée). Le support des systèmes de refroidissement liquide nécessite l'ajout de grandes tours de refroidissement, d'une installation de système d'eau centralisé et de tuyaux pour transporter l'eau vers et depuis tous les GPU - une modification fondamentale de l'infrastructure du centre de données.

Au-delà d’une consommation d’énergie absolue plus élevée, les centres de données d’IA ont des exigences de charge distinctes. Alors que les centres de données traditionnels maintiennent une consommation d’énergie prévisible, les modèles d’utilisation de l’énergie des charges de travail de l’IA sont beaucoup plus volatils. Cette volatilité se produit parce que les GPU alternent périodiquement entre fonctionner à 100 % de leur capacité et ralentir jusqu’à s’arrêter presque lorsque l’entraînement atteint des points de contrôle, où les poids sont soit stockés en mémoire, soit, comme nous l’avons vu précédemment, synchronisés avec d’autres îles. Les centres de données basés sur l’IA ont besoin d’une infrastructure d’alimentation spécialisée pour gérer ces fluctuations de charge.

La construction de clusters GPU est beaucoup plus difficile que la construction de clouds informatiques classiques. Les GPU doivent pouvoir communiquer entre eux très rapidement. Pour cela, ils doivent être très proches les uns des autres. Un centre d'IA typique nécessite plus de 200 000 câbles spéciaux appelés connexions InfiniBand. Ces câbles permettent aux GPU de communiquer. Si un seul câble cesse de fonctionner, tout le système s'arrête. Le processus de formation ne peut pas continuer tant que ce câble n'est pas réparé.

Ces exigences en matière d'infrastructure rendent presque impossible la modernisation des centres de données traditionnels avec des GPU haute performance pour les rendre compatibles avec l'IA. Une telle mise à niveau nécessiterait une refonte structurelle presque complète. Au lieu de cela, les entreprises construisent de nouveaux centres de données spécialement conçus pour l'IA, à partir de zéro, différentes organisations poursuivant cette démarche à des échelles variables.

À l’avant-garde, les grandes entreprises technologiques s’efforcent de construire leurs propres centres de données basés sur l’IA. Meta investit massivement dans des installations uniquement pour son propre développement d’IA, le traitant comme un investissement direct en capital puisqu’il n’offre pas de services cloud. Microsoft est en train de construire des centres tout aussi massifs pour alimenter à la fois ses propres projets d’IA et servir des clients clés comme OpenAI. Oracle s’est également lancé de manière agressive dans cet espace, faisant d’OpenAI un client notable. Amazon continue d’étendre son infrastructure, en particulier pour soutenir les entreprises émergentes d’IA comme Anthropic. La xAI d’Elon Musk, ne voulant pas dépendre d’une autre entreprise, a choisi de construire son propre cluster de 100 000 GPU.

À l’intérieur du centre de données de 100 000 GPU H100 de xAI (source)

Aux côtés des incumbents, des «neoclouds» émergent - des fournisseurs de cloud spécialisés se concentrant exclusivement sur le calcul GPU pour les charges de travail en IA. Ces neoclouds se divisent en deux catégories distinctes basées sur l'échelle.

Les grands fournisseurs de néocloud, notamment gate.io,CoreWeave, Crusoe, et LLama Labs, exploiter des grappes de plus de 2 000 GPU. Ils se différencient des services cloud traditionnels de deux manières : en proposant des solutions d'infrastructure personnalisées au lieu de forfaits standardisés, et en exigeant des engagements à long terme de la part des clients au lieu d'arrangements de paiement à l'utilisation.

Leur modèle économique exploite ces accords à long terme et la solvabilité des clients pour sécuriser le financement de l'infrastructure. Les revenus proviennent des tarifs premium facturés pour les services spécialisés et des bénéfices générés par l'écart entre les coûts de financement bas et les paiements des clients.

Voici comment fonctionne généralement un tel arrangement : un fournisseur de néocloud conclut un contrat de trois ans avec une startup en IA bien financée pour 10 000 GPU H100 à 40 millions de dollars par mois. Grâce à ce flux de revenus garanti de 1,44 milliard de dollars, le fournisseur obtient un financement bancaire avantageux (à 6% d'intérêt) pour acheter et installer une infrastructure d'une valeur de 700 millions de dollars. Les revenus mensuels de 40 millions de dollars couvrent 10 millions de dollars de frais d'exploitation et 20 millions de dollars de remboursement de prêt, générant 10 millions de dollars de bénéfices mensuels tandis que la startup reçoit une puissance de calcul sur mesure et dédiée.

Ce modèle nécessite une sélection de clients exceptionnellement soigneuse. Les fournisseurs cherchent généralement des entreprises disposant de grandes réserves de liquidités ou bénéficiant d'un solide soutien financier - souvent des évaluations de 500 millions de dollars ou plus.

Les petites néo-nuages offrent des clusters GPU de 2 000 unités ou moins et s'adressent à un segment séparé du marché de l'IA - les petites et moyennes start-ups. Ces entreprises entraînent soit des modèles plus petits (jusqu'à 70 milliards de paramètres), soit adaptent des modèles open source (l'adaptation de modèles de base à des cas d'utilisation spécifiques est appelée fine-tuning). Ces deux types de charges de travail nécessitent des ressources informatiques modérées mais dédiées sur des périodes plus courtes.

Ces fournisseurs proposent des services informatiques à la demande avec des tarifs horaires pour un accès continu et de durée fixe. Bien que cela coûte plus cher que les contrats à long terme, cela donne aux startups la flexibilité d'expérimenter sans s'engager dans des accords de plusieurs millions de dollars.

Finalement, en dehors des géants du cloud et des fournisseurs de néo-cloud, nous avons les intermédiaires de l'espace de l'infrastructure d'IA : les plateformes et les agrégateurs. Ces intermédiaires ne possèdent pas d'infrastructure GPU, mais connectent les propriétaires de ressources de calcul à ceux qui en ont besoin.

Les fournisseurs de plateforme comme gate.io HydraHostetFluidstackservir de Shopify du calcul GPU. Tout comme Shopify permet aux marchands de lancer des magasins en ligne sans construire d'infrastructure de commerce électronique, ces plateformes permettent aux opérateurs de data centers et aux propriétaires de GPU d'offrir des services de calcul sans développer leurs propres interfaces client. Ils fournissent un package technique complet pour gérer une activité de calcul GPU, y compris des outils de gestion de l'infrastructure, des systèmes de provisionnement client et des solutions de facturation.

Les agrégateurs de places de marché comme Vast.aifonctionner comme l'Amazon du monde des GPU. Ils créent une place de marché regroupant différentes offres de calcul provenant de différents fournisseurs, allant des cartes RTX grand public aux GPU H100 professionnels. Les propriétaires de GPU répertorient leurs ressources avec des métriques de performance détaillées et des évaluations de fiabilité, tandis que les clients achètent du temps de calcul via une plate-forme en libre-service.

Inférence

Jusqu'à présent, notre discussion s'est concentrée sur la formation (ou le réglage fin) des modèles. Cependant, une fois formé, un modèle doit être déployé pour servir les utilisateurs finaux - un processus appelé inférence. Chaque fois que vous discutez avec ChatGPT, vous utilisez des GPU exécutant des charges de travail d'inférence qui prennent votre entrée et génèrent la réponse du modèle. Revenons à parler des statues de marbre pendant une minute.

Ceci est également David, mais pas l'original de Michel-Ange, mais une copie en plâtre commandée par la reine Victoria en 1857 pour le Victoria and Albert Museum de Londres. Alors que Michel-Ange a passé trois années épuisantes à sculpter soigneusement le marbre pour créer l'original à Florence, cette copie en plâtre a été réalisée à partir d'un moule direct de la statue, reproduisant parfaitement chaque courbe, angle et détail que Michel-Ange avait créés. Le travail créatif intensif a eu lieu une fois. Ensuite, il s'agissait de reproduire fidèlement ces caractéristiques. Aujourd'hui, des répliques de David apparaissent partout, des halls de musée aux cours des casinos de Las Vegas.

C'est exactement ainsi que fonctionne l'inférence en IA. Entraîner un grand modèle de langue est comme le processus sculptural original de Michel-Ange - intensif en calcul, chronophage et exigeant en ressources alors que le modèle apprend progressivement la bonne "forme" du langage grâce à des millions de petits ajustements. Mais utiliser le modèle entraîné - l'inférence - revient davantage à créer une réplique. Lorsque vous discutez avec ChatGPT, vous ne lui apprenez pas le langage à partir de zéro, mais utilisez une copie d'un modèle dont les paramètres (comme les courbes et angles précis de David) ont déjà été perfectionnés.

Les charges de travail d'inférence diffèrent fondamentalement de la formation. Alors que la formation nécessite de grands clusters denses des dernières GPU comme les H100 pour gérer des calculs intensifs, l'inférence peut fonctionner sur des serveurs à GPU unique utilisant du matériel plus ancien comme les A100 ou même des cartes grand public, ce qui le rend considérablement plus rentable. Cela étant dit, les charges de travail d'inférence ont leurs propres exigences uniques :

  • Large couverture géographique : Les modèles doivent être déployés dans plusieurs centres de données à travers le monde pour garantir que les utilisateurs à Singapour obtiennent des réponses aussi rapidement que les utilisateurs à San Francisco
  • Disponibilité élevée : Contrairement à la formation, qui peut être mise en pause et reprise, l'inférence doit être disponible 24/7 car les utilisateurs s'attendent à des réponses instantanées à tout moment
  • Redondance: plusieurs serveurs doivent être prêts à traiter les demandes en cas de défaillance ou de surcharge de certains d'entre eux.

Ces caractéristiques rendent les charges de travail d'inférence idéales pour les modèles de tarification spot. Avec la tarification spot, les ressources GPU sont disponibles à des remises importantes, souvent de 30 à 50 % en dessous des tarifs à la demande, avec la compréhension que le service peut être interrompu lorsque des clients à plus haute priorité ont besoin de ressources. Ce modèle convient à l'inférence car le déploiement redondant permet aux charges de travail de basculer rapidement vers les GPU disponibles en cas d'interruption.

Dans ce contexte de GPUs et de calcul en nuage d'IA, nous sommes maintenant en mesure d'explorer où la crypto s'inscrit dans tout cela. Allons-y (enfin).

Où se situe la cryptographie

Les projets et les rapports citent fréquemment l’observation de Peter Thiel selon laquelle « l’IA centralise, la crypto se décentralise » lorsqu’ils discutent du rôle de la crypto dans la formation de l’IA. Bien que la déclaration de Thiel soit incontestablement vraie, nous venons de voir de nombreuses preuves de l’avantage évident de Big Tech dans la formation d’une IA puissante – il est souvent détourné de suggérer que la crypto et les ordinateurs décentralisés offrent la principale solution pour contrebalancer l’influence de Big Tech.

De telles affirmations font écho à des exagérations antérieures sur le potentiel de la crypto-monnaie à révolutionner les médias sociaux, les jeux et d'innombrables autres industries. Elles sont non seulement contre-productives, mais aussi, comme je le soutiendrai bientôt, irréalistes - du moins à court terme.

Au lieu de cela, je vais adopter une approche plus pragmatique. Je vais supposer qu'une startup en IA à la recherche de puissance de calcul ne se soucie pas des principes de décentralisation ou de l'opposition idéologique croissante aux géants de la technologie. Ils ont plutôt un problème : ils veulent accéder à une puissance de calcul GPU fiable au coût le plus bas possible. Si un projet de crypto peut fournir une meilleure solution à ce problème que les alternatives non-crypto, ils l'utiliseront.

Pour ce faire, commençons par comprendre avec qui les projets de crypto concurrencent. Plus tôt, nous avons discuté des différentes catégories de fournisseurs de cloud AI : les Big Tech et les hyperscalers, les grands néo-clouds, les petits néo-clouds, les fournisseurs de plateformes et les places de marché.

La thèse fondamentale derrière le calcul décentralisé (comme tous les projets DePIN) est que le marché actuel du calcul fonctionne de manière inefficace. La demande en GPU reste exceptionnellement élevée, tandis que l'offre est fragmentée et sous-utilisée dans les centres de données mondiaux et les foyers individuels. La plupart des projets de ce secteur rivalisent directement avec les places de marché en agrégeant cette offre dispersée pour réduire les inefficacités.

Avec cela établi, examinons comment ces projets (et les places de marché de calcul en général) peuvent aider avec différents travaux de l'IA - l'entraînement, le réglage fin et l'inférence.

Formation

Avant tout, non, ASI ne sera pas formé sur un réseau mondial de GPU décentralisés. Du moins, pas selon la trajectoire actuelle de l'IA. Voici pourquoi.

Plus tôt, nous avons discuté de la taille croissante des clusters de modèles de base. Vous avez besoin de 100 000 des GPU les plus puissants au monde pour même commencer à rivaliser. Ce nombre ne cesse d'augmenter chaque année. D'ici 2026, le coût d'une exécution d'entraînement devrait dépasser les 100 milliards de dollars, nécessitant peut-être un million de GPU ou plus.

Seules les grandes entreprises technologiques, soutenues par de grands néoclouds et des partenariats directs avec Nvidia, peuvent assembler des grappes de cette envergure. Rappelez-vous, nous sommes dans une course pour l'ASI, et tous les participants sont à la fois très motivés et capitalisés. S'il y a un approvisionnement supplémentaire de ces nombreux GPU (ce n'est pas le cas), alors ils seront les premiers à les récupérer.

Même si un projet de crypto parvient d'une manière ou d'une autre à rassembler la puissance de calcul requise, deux obstacles fondamentaux empêchent le développement d'IA décentralisée :

Tout d'abord, les GPU doivent encore être connectés en grands clusters pour fonctionner efficacement. Même si ces clusters sont répartis entre des îles dans les villes, ils devront être connectés par des lignes de fibre optique dédiées. Rien de tout cela n'est possible dans un environnement décentralisé. Outre l'achat de GPU, l'établissement de centres de données prêts pour l'IA demande une planification minutieuse, généralement un processus d'un à deux ans. (xAI l'a fait en seulement 122 jours, mais il est peu probable qu'Elon lance un jeton prochainement.)

Deuxièmement, la création d'un centre de données AI ne suffit pas à engendrer une IA superintelligente. Comme l'a souligné Dario Amodei, le fondateur d'Anthropic,récemment expliqué, l'échelle dans l'IA est analogue à une réaction chimique. Tout comme une réaction chimique nécessite plusieurs réactifs en proportions précises pour avancer, l'échelle réussie de l'IA dépend de trois ingrédients essentiels qui croissent de concert: des réseaux plus grands, des temps d'entraînement plus longs et des ensembles de données plus grands. Si vous augmentez la taille d'un composant sans les autres, le processus s'arrête.

Même si nous parvenons à accumuler à la fois le calcul et à faire fonctionner les clusters ensemble, nous avons encore besoin de téraoctets de données de haute qualité pour que le modèle entraîné soit bon. Sans les sources de données propriétaires de Big Tech, le capital pour conclure des accords de plusieurs millions de dollars avec des forums en ligne et des médias, ou des modèles existants pour générer des données synthétiques, l'acquisition de données d'entraînement adéquates est impossible.

Il y a eu récemment des spéculations selon lesquelles les lois d'échelle pourraient atteindre un plateau, les LLMs risquant potentiellement de toucher des plafonds de performance. Certains interprètent cela comme une opportunité pour le développement de l'IA décentralisée. Cependant, cela néglige un facteur crucial - la concentration des talents. Les grandes entreprises technologiques d'aujourd'hui et les laboratoires d'IA abritent les chercheurs de premier plan mondial. Toute percée alternative vers l'AGI émergera probablement de ces centres. Compte tenu du paysage concurrentiel, de telles découvertes resteraient étroitement gardées.

En tenant compte de tous ces arguments, je suis certain à 99,99% que la formation de l'ASI - ou même des modèles les plus puissants du monde - ne sera pas formée sur un projet de calcul décentralisé. Dans ce cas, quels modèles la crypto pourrait-elle réellement aider à former?

Afin que les modèles puissent être formés sur des clusters de GPU séparés placés dans des emplacements géographiques différents, nous devons mettre en œuvre le parallélisme des données entre eux. (Rappelez-vous que le parallélisme des données est la façon dont différentes îles de GPU, chacune travaillant sur des morceaux séparés des données d'entraînement, se synchronisent les unes avec les autres). Plus le modèle formé est grand, plus la quantité de données à échanger entre ces îles est grande. Comme nous l'avons discuté, pour les modèles de pointe avec plus d'un billion de paramètres, la largeur de bande nécessaire est suffisamment grande pour nécessiter des connexions fibre optique dédiées.

Cependant, pour les modèles plus petits, les besoins en bande passante diminuent proportionnellement. Des percées récentes dans les algorithmes d'entraînement à faible communication, en particulier dans la synchronisation retardée, ont créé des opportunités prometteuses pour former des modèles de petite à moyenne taille de manière décentralisée. Deux équipes mènent ces efforts expérimentaux.

Nous Rechercheest une entreprise d'accélération de l'IA et un acteur majeur dans le développement de l'IA open source. Ils sont surtout connus pour leur série Hermes de modèles de langage et des projets innovants comme World Sim. Plus tôt cette année, ils ont exploité un sous-réseau BitTensor de classe LLM pendant quelques mois. Ils ont trempé leurs orteils dans le calcul décentralisé en publiant le DisTrOprojet DTI (Distributed Training Over the Internet), où ils ont réussi à former avec succès un modèle Llama-2 à 1,2 milliard de paramètres tout en réduisant de 857 fois les exigences de bande passante inter-GPU.

Le rapport DisTrO de Nous Research

Prime Intellect, une start-up qui développe une infrastructure pour l’IA décentralisée à grande échelle, vise à agréger les ressources de calcul mondiales et à permettre l’entraînement collaboratif de modèles de pointe par le biais de systèmes distribués. Leur Cadre OpenDiLoCo (mise en œuvre de l’application de DeepMind Méthode de distribution à faible communication) a réussi à former un modèle d'un milliard de paramètres à travers deux continents et trois pays tout en maintenant une utilisation de calcul de 90 à 95 %.

Mais comment fonctionnent ces courses d'entraînement décentralisées ?

Le parallélisme des données traditionnelles exige que les GPU partagent et moyennent leurs poids après chaque étape d'entraînement, ce qui est impossible via les connexions internet. Au lieu de cela, ces projets permettent à chaque Île de GPU de s'entraînement de manière indépendante pendant des centaines d'étapes avant de se synchroniser. Pensez-y comme des équipes de recherche indépendantes travaillant sur le même projet : plutôt que de vérifier constamment les uns avec les autres, ils font des progrès significatifs de manière indépendante avant de partager leurs découvertes.

DisTrO et OpenDiLoCo ne se synchronisent que toutes les 500 étapes, en utilisant une approche à double optimiseur :

  • Un optimiseur “intra” qui gère les mises à jour locales sur chaque GPU, comme une équipe faisant des découvertes locales
  • Un optimiseur "externe" qui gère les synchronisations périodiques entre les GPU, agissant comme un coordinateur qui rassemble toutes les découvertes ensemble

Lorsqu’ils se synchronisent, plutôt que de partager tous les poids, ils partagent un « pseudo-gradient », c’est-à-dire essentiellement la différence entre leurs poids actuels et les poids de la dernière synchronisation. C’est remarquablement efficace, comme partager uniquement ce qui a été modifié dans un document plutôt que d’envoyer le document entier à chaque fois.

INTELLECT-1, une implémentation pratique d'OpenDiLoCo par Prime Intellect, pousse cette approche encore plus loin en entraînant un modèle de 10 milliards de paramètres - le plus grand effort de formation décentralisée à ce jour. Ils ont ajouté des optimisations clés comme :

  • Compresser les données dont ils ont besoin de partager, rendant la communication beaucoup plus efficace
  • Mise en place de systèmes de sauvegarde afin que la formation puisse se poursuivre même si certains ordinateurs tombent en panne
  • Rendre le processus de synchronisation extrêmement rapide, en moins d'une minute

INTELLECT-1, formé par plus de 20 clusters GPU répartis à travers le monde, a récemment terminé préformation et sera bientôt publié en tant que modèle entièrement open source.

Tableau de bord d’entraînement INTELLECT-1

Des équipes comme Le Macrocosmeutilisent des algorithmes similaires pourmodèles de traindans l'écosystème Bittensor.

Si ces algorithmes d'entraînement décentralisés continuent de s'améliorer, ils pourraient être capables de prendre en charge des modèles allant jusqu'à 100 milliards de paramètres avec la prochaine génération de GPU. Même des modèles de cette taille peuvent être très utiles pour une grande variété de cas d'utilisation:

  1. Recherche et expérimentation avec des architectures novatrices qui ne nécessitent pas de calcul à l'échelle de la frontière
  2. Des modèles généraux de taille plus petite qui sont optimisés pour les performances et la vitesse plutôt que pour l'intelligence brute
  3. Modèles spécifiques au domaine

Affiner

Le peaufinage est le processus de prendre un modèle de base pré-entraîné (généralement un modèle open-source de Meta, Mistral ou Alibaba) et de le former davantage sur un ensemble de données spécifique pour l'adapter à des tâches ou des domaines particuliers. Cela nécessite beaucoup moins de calcul que la formation à partir de zéro, car le modèle a déjà appris des schémas de langage généraux et n'a besoin que d'ajuster ses poids pour le nouveau domaine.

Calculer les exigences de calcul pour l'ajustement fin de l'échelle en fonction de la taille du modèle. En supposant une formation sur un H100 :

  • Petits modèles (1-7B de paramètres) : une seule GPU, terminé en moins de 12 heures
  • Modèles moyens (7-13B) : 2-4 grappes de GPU, achèvement en 36 heures
  • Grands modèles (>30B): jusqu'à 8 clusters de GPU, achèvement en 4 jours

Compte tenu de ces spécifications, l'ajustement fin ne nécessite pas les algorithmes d'entraînement distribué complexes précédemment discutés. Le modèle à la demande, où les développeurs louent des clusters GPU pour de courtes périodes concentrées, fournit un support adéquat. Les places de marché de calcul décentralisées disposant d'une disponibilité robuste des GPU sont idéalement positionnées pour gérer ces charges de travail.

Inférence

L'inférence est l'endroit où les places de marché de calcul décentralisées ont le plus clairement le potentiel de s'adapter au marché. Ironiquement, c'est le flux de travail le moins discuté dans le contexte de la formation décentralisée. Cela découle de deux facteurs : l'inférence ne présente pas l'attrait des 100 000 exécutions d'entraînement de modèles GPU « god model », et en partie en raison de la phase actuelle de la révolution de l'IA.

À ce jour, la majorité du calcul est en effet destinée à l’entraînement. La course à l’ASI entraîne des investissements initiaux massifs dans les infrastructures de formation. Cependant, cet équilibre change inévitablement à mesure que les applications d’IA passent de la recherche à la production. Pour qu’un modèle économique autour de l’IA soit durable, les revenus générés par l’inférence doivent dépasser les coûts de formation et d’inférence combinés. Bien que la formation de GPT-4 ait été extrêmement coûteuse, il s’agissait d’un coût unique. Les dépenses de calcul en cours, et le chemin d’OpenAI vers la rentabilité, sont motivés par le traitement de milliards de demandes d’inférence aux clients payants.

Les places de marché de calcul, décentralisées ou non, par nature de regrouper une variété de modèles de GPU (anciens et nouveaux) du monde entier, se trouvent dans une position unique pour servir les charges de travail d'inférence.

Les places de marché de calcul, qu'elles soient décentralisées ou traditionnelles, excellent naturellement dans les charges de travail d'inférence en agrégeant divers modèles de GPU (actuels et anciens) à l'échelle mondiale. Leurs avantages inhérents correspondent parfaitement aux exigences d'inférence : distribution géographique étendue, disponibilité constante, redondance du système et compatibilité entre les générations de GPU.

Mais pourquoi la cryptomonnaie?

Nous avons discuté des différents flux de travail que le calcul décentralisé peut et ne peut pas aider. Maintenant, nous devons répondre à une autre question importante: pourquoi un développeur choisirait-il de sécuriser le calcul auprès d'un fournisseur décentralisé plutôt que centralisé ? Quels avantages convaincants les solutions décentralisées offrent-elles ?

Tarification et Gamme

Les stablecoins ont atteint leur ajustement produit-marché en offrant une alternative supérieure aux paiements transfrontaliers traditionnels. Un gros facteur est que les stablecoins sont tout simplement beaucoup moins chers ! De même, le facteur le plus important qui influence le choix d'un développeur d'IA pour un fournisseur de cloud est le coût. Pour que les fournisseurs de calcul décentralisés puissent concurrencer efficacement, ils doivent d'abord offrir des tarifs supérieurs.

Un marché informatique, comme tous les marchés, est une entreprise à effets de réseau. Plus l'offre de GPU sur une plateforme est grande, plus la liquidité et la disponibilité pour les clients augmentent, ce qui attire davantage de demande. À mesure que la demande augmente, cela incite davantage de propriétaires de GPU à rejoindre le réseau, créant ainsi un cercle vertueux. Une offre accrue permet également une tarification plus compétitive grâce à une meilleure correspondance et une réduction des temps d'inactivité. Lorsque les clients peuvent trouver de manière cohérente les calculs dont ils ont besoin à des tarifs attractifs, ils sont plus susceptibles de développer des dépendances techniques durables sur la plateforme, renforçant ainsi davantage les effets de réseau.

Cette dynamique est particulièrement puissante dans l'inférence, où la répartition géographique de l'offre peut réellement améliorer l'offre de produits en réduisant la latence pour les utilisateurs finaux. Le premier marché à réaliser cette roue de liquidité à grande échelle bénéficiera d'un avantage concurrentiel important, car les fournisseurs et les clients font face à des coûts de changement une fois qu'ils se sont intégrés aux outils et flux de travail d'une plateforme.

L'effet de réseau du marché des GPU est un volant d'inertie

Dans de tels marchés où tout est une question de gagnant emporte tout,amorcer le réseauet atteindre la vitesse de fuite est la phase la plus critique. Ici, la crypto-monnaie offre aux projets de calcul décentralisés un outil très puissant que leurs concurrents centralisés ne possèdent tout simplement pas : des incitations en jetons.

Les mécanismes peuvent être simples mais puissants. Le protocole lancerait d'abord un jeton comprenant un calendrier de récompenses inflationnistes, distribuant éventuellement des allocations initiales aux premiers contributeurs via des largages aériens. Ces émissions de jetons serviraient d'outil principal pour démarrer les deux côtés du marché.

Pour les fournisseurs de GPU, la structure de récompense doit être soigneusement conçue pour façonner le comportement du côté de l’offre. Les fournisseurs gagneraient des jetons proportionnels à leurs taux de calcul et d’utilisation, mais le système devrait aller au-delà des simples récompenses linéaires. Le protocole pourrait mettre en œuvre des multiplicateurs de récompense dynamiques pour remédier aux déséquilibres géographiques ou matériels, de la même manière qu’Uber utilise les prix de pointe pour inciter les chauffeurs dans les zones à forte demande.

Un fournisseur peut gagner 1,5 fois plus de récompenses en proposant des calculs dans des régions mal desservies ou 2 fois plus de récompenses en fournissant temporairement des types de GPU rares. Une autre stratification du système de récompense basée sur des taux d'utilisation constants encouragerait les fournisseurs à maintenir une disponibilité stable plutôt que de passer opportunément d'une plateforme à l'autre.

Du côté de la demande, les clients recevraient des récompenses en jetons qui subventionnent efficacement leur utilisation. Le protocole pourrait offrir des récompenses accrues pour des engagements de calcul plus longs, incitant les utilisateurs à développer des dépendances techniques plus profondes sur la plateforme. Ces récompenses pourraient être structurées de manière à correspondre aux priorités stratégiques de la plateforme, telles que la capture de la demande dans une géographie particulière.

Les taux de base pour les calculs pourraient être maintenus à des niveaux équivalents ou légèrement inférieurs aux taux du marché, les protocoles utilisant oracles zkTLS pour surveiller en permanence et s’aligner sur les prix des concurrents. Les récompenses symboliques serviraient alors de couche d’incitation supplémentaire en plus de ces taux de base compétitifs. Ce modèle de double tarification permettrait à la plateforme de maintenir la compétitivité des prix tout en utilisant des incitations symboliques pour susciter des comportements spécifiques qui renforcent le réseau.

En distribuant des incitations en jetons, les fournisseurs et les clients commenceraient à accumuler une participation dans le réseau. Alors que certains, peut-être la plupart, vendraient ces participations, d'autres les conserveraient, devenant ainsi des parties prenantes et des défenseurs de la plateforme. Ces participants engagés auraient un intérêt financier dans le succès du réseau, contribuant à sa croissance et à son adoption au-delà de leur utilisation directe ou de leur fourniture de ressources informatiques.

Au fil du temps, à mesure que le réseau atteint la vitesse d'échappement et établit de forts effets de réseau, ces incitations en jetons peuvent être progressivement réduites. Les avantages naturels d'être le plus grand marché - meilleure correspondance, meilleure utilisation, couverture géographique plus large - deviendraient des moteurs auto-entretenus de la croissance.

Comment les incitations de jetons peuvent stimuler la roue libre du marché des GPU

Résistance à la censure

Alors que le prix et la gamme sont des différenciateurs essentiels, les réseaux de calcul décentralisés abordent une préoccupation croissante : les restrictions opérationnelles des fournisseurs centralisés. Les fournisseurs de cloud traditionnels ont déjà démontré leur volonté de suspendre ou de résilier des services en fonction de politiques de contenu et pressions externes. Ces précédents soulèvent des questions légitimes sur la manière dont des politiques similaires pourraient s'étendre au développement et au déploiement de modèles d'IA.

À mesure que les modèles d'IA deviennent plus sophistiqués et s'attaquent à des cas d'utilisation de plus en plus divers, il existe une réelle possibilité que les fournisseurs de cloud mettent en place des restrictions sur la formation et le service des modèles, similaires à leurs approches actuelles de modération de contenu. Cela pourrait affecter non seulement le contenu NSFW et les sujets controversés, mais également les cas d'utilisation légitimes dans des domaines tels que l'imagerie médicale, la recherche scientifique ou les arts créatifs, qui pourraient déclencher des filtres automatisés excessivement prudents.

Un réseau décentralisé offre une alternative en permettant aux participants du marché de prendre leurs propres décisions en matière d'infrastructure, créant potentiellement un environnement plus libre et plus ouvert à l'innovation.

L'inconvénient de l'architecture sans autorisation est que la confidentialité devient plus difficile. Lorsque le calcul est réparti sur un réseau de fournisseurs plutôt que contenu dans les centres de données d'une seule entité de confiance, les développeurs doivent réfléchir à la sécurité des données. Bien que le chiffrement et les environnements d'exécution de confiance puissent aider, il y a un compromis inhérent entre la résistance à la censure et la confidentialité que les développeurs doivent gérer en fonction de leurs besoins spécifiques.

Confiance et exécution de contrat

Compte tenu de la demande astronomique en calculs IA, les fournisseurs de GPU peuvent exploiter leur position pour extraire un profit maximum des clients réussis. Dans un post de l'année dernière, le célèbre développeur solo Pieter Levels a partagé comment lui et d'autres développeurs ont connu une augmentation soudaine des prix de leurs fournisseurs de plus de 600% après avoir rendu publics les chiffres de revenus de leur application d'IA.

Les systèmes décentralisés peuvent offrir une solution à ce problème - l'application de contrats sans confiance. Lorsque les accords sont encodés sur la chaîne plutôt que cachés dans les conditions de service, ils deviennent transparents et immuables. Un fournisseur ne peut pas arbitrairement augmenter les prix ou modifier les conditions en cours de contrat sans que les modifications soient explicitement acceptées par le protocole.

Au-delà de la tarification, les réseaux décentralisés peuvent tirer partienvironnements d'exécution sécurisés (TEEs)pour fournir un calcul vérifiable. Cela garantit que les développeurs obtiennent réellement les ressources GPU pour lesquelles ils paient, tant en termes de spécifications matérielles que d'accès dédié. Par exemple, lorsqu'un développeur paie pour un accès dédié à huit GPU H100 pour l'entraînement du modèle, des preuves cryptographiques peuvent vérifier que leurs charges de travail sont effectivement exécutées sur des H100 avec les 80 Go de mémoire par GPU, plutôt que d'être silencieusement rétrogradées vers des cartes de gamme inférieure ou de partager des ressources avec d'autres utilisateurs.

Permissionless

Les réseaux informatiques décentralisés peuvent fournir aux développeurs des alternatives vraiment sans permission. Contrairement aux fournisseurs traditionnels qui nécessitent des processus KYC et des vérifications de crédit approfondis, n'importe qui peut rejoindre ces réseaux et commencer à consommer ou à fournir des ressources informatiques. Cela abaisse considérablement la barrière à l'entrée, en particulier pour les développeurs des marchés émergents ou ceux travaillant sur des projets expérimentaux.

L'importance de cette nature sans permission devient encore plus puissante lorsque nous considérons l'avenir des agents d'IA. Les agents d'IA viennent de commencer à trouver leur équilibre, avec agents intégrés verticalementprévoit de dépasser la taille de l'industrie SaaS. Avec des acteurs tels queTerminal de véritéetZerebro, nous voyons les premiers signes des agents acquérant de l'autonomie et apprenant à utiliser des outils externes tels que les médias sociaux et les générateurs d'images.

À mesure que ces systèmes autonomes deviennent plus sophistiqués, ils peuvent avoir besoin de provisionner dynamiquement leurs propres ressources de calcul. Un réseau décentralisé où les contrats peuvent être exécutés de manière fiable par du code plutôt que par des intermédiaires humains est l'infrastructure naturelle pour cet avenir. Les agents pourraient négocier des contrats de manière autonome, surveiller les performances et ajuster leur utilisation de calcul en fonction de la demande, le tout sans nécessiter d'intervention ou d'approbation humaine.

Le paysage

Le concept de réseaux de calcul décentralisés n'est pas nouveau - des projets ont cherché à démocratiser l'accès aux ressources informatiques rares bien avant le boom actuel de l'IA.Réseau Renderopère depuis 2017, en agrégeant des ressources GPU pour le rendu d'images de synthèse.Akash lancé en 2020 pour créer un marché ouvert pour le calcul général. Les deux projets ont rencontré un succès modéré dans leurs créneaux, mais se concentrent désormais sur les charges de travail liées à l'IA.

De même, les réseaux de stockage décentralisé comme FilecoinetArweave se développent dans le domaine du calcul. Ils reconnaissent que, à mesure que l'IA devient le principal consommateur de stockage et de calcul, il est logique de proposer des solutions intégrées.

Tout comme les centres de données traditionnels peinent à rivaliser avec les installations d'IA spécialement conçues, ces réseaux établis se heurtent à une lutte difficile contre les solutions nativement IA. Ils n'ont pas le ADN nécessaire pour exécuter l'orchestration complexe requise pour les charges de travail d'IA. Au lieu de cela, ils trouvent leur place en devenant des fournisseurs de calcul pour d'autres réseaux spécifiques à l'IA. Par exemple, Render et Akash rendent désormais leurs GPU disponibles sur la place de marché io.net.

Qui sont ces nouvelles places de marché natives d'IA ?io.netest l'un des premiers leaders dans l'agrégation de l'approvisionnement en GPU de qualité entreprise, avec plus de 300 000 GPU vérifiés sur son réseau. Ils affirment offrir 90% d'économies de coûts par rapport aux incumbents centralisés et ont atteint des gains quotidiens de plus de 25 000 $ (9 millions de dollars par an). De même, Aethiragrège plus de 40 000 GPU (dont plus de 4 000 H100) pour servir à la fois les cas d'utilisation de l'IA et de l'informatique en nuage.

Plus tôt, nous avons discuté de la façon dont Prime Intellect crée les cadres pour la formation décentralisée à grande échelle. Outre ces efforts, ils fournissent également un marché des GPUoù les utilisateurs peuvent louer des H100 à la demande.Gensyn est un autre projet qui mise gros sur la formation décentralisée avec une approche similaire en matière de formation et un marché des GPU.

Alors que ce sont tous des marchés agnostiques en termes de charge de travail (ils prennent en charge à la fois la formation et l'inférence), quelques projets se concentrent uniquement sur l'inférence - la charge de travail de calcul décentralisé qui nous passionne le plus. Parmi ceux-ci, Exo Labs, qui permet aux utilisateurs d'exécuter des LLM de niveau frontière sur des appareils quotidiens. Ils ont développé une plateforme open source qui permet la distribution des tâches d'inférence en IA sur plusieurs appareils tels que des iPhones, des Androids et des Macs. Ils a récemment démontréexécution d'un modèle 70-B (évolutif jusqu'à 400-B) réparti sur quatre Mac Mini M4 Pro.

Infrastructure essentielle

Lorsque Satoshi a lancé Bitcoin en 2008, ses avantages - de l'or numérique avec une offre limitée et de l'argent résistant à la censure - étaient purement théoriques. Le système financier traditionnel, malgré ses défauts, fonctionnait. Les banques centrales n'avaient pas encore entrepris une impression monétaire sans précédent. Les sanctions internationales n'étaient pas utilisées comme des armes contre des économies entières. Le besoin d'une alternative semblait être d'ordre académique plutôt qu'urgent.

Il a fallu une décennie d'assouplissement quantitatif, culminant dans l'expansion monétaire de l'ère COVID, pour que les avantages théoriques du Bitcoin se cristallisent en une valeur tangible. Aujourd'hui, alors que l'inflation érode les économies et que les tensions géopolitiques menacent la domination du dollar, le rôle du Bitcoin en tant que « or numérique » a évolué d'un rêve de cypherpunk à un actif adopté par les institutions et les États-nations.

Ce schéma s'est répété avec les stablecoins. Dès qu'une blockchain polyvalente sur Ethereum était disponible, les stablecoins sont immédiatement devenus l'un des cas d'utilisation les plus prometteurs. Pourtant, il a fallu des années d'améliorations progressives de la technologie et des économies de pays comme l'Argentine et la Turquie, ravagés par l'inflation, pour que les stablecoins évoluent d'une innovation crypto de niche en une infrastructure financière critique déplaçant des billions de dollars de volume annuel.

La crypto est par nature une technologie défensive - des innovations qui semblent inutiles en période de prospérité mais deviennent essentielles en période de crise. Le besoin de ces solutions ne devient apparent que lorsque les systèmes en place échouent ou révèlent leur vraie nature.

Aujourd'hui, nous vivons l'âge d'or de l'IA. Les flux de capital-risque sont abondants, les entreprises rivalisent pour proposer les prix les plus bas et les restrictions, le cas échéant, sont rares. Dans cet environnement, les alternatives décentralisées peuvent sembler inutiles. Pourquoi se compliquer avec les économies de jetons et les systèmes de preuve lorsque les prestataires traditionnels fonctionnent très bien ?

Mais en se basant sur les grandes vagues technologiques du passé, cette bienveillance est temporaire. Nous ne sommes guère que deux ans dans la révolution de l'IA. À mesure que la technologie mûrit et que les gagnants de la course à l'IA émergent, leur véritable pouvoir va se manifester. Les mêmes entreprises qui offrent aujourd'hui un accès généreux finiront par imposer leur contrôle - par le biais des prix, des politiques, des autorisations.

Ce n'est pas simplement un autre cycle technologique en jeu. L'IA devient le nouveau substrat de la civilisation - la lentille à travers laquelle nous traiterons l'information, créerons de l'art, prendrons des décisions et évoluerons finalement en tant qu'espèce. Le calcul est plus qu'une simple ressource ; c'est la monnaie de l'intelligence elle-même. Ceux qui contrôlent son flux façonneront la frontière cognitive de l'humanité.

Le calcul décentralisé ne consiste pas à offrir des GPU moins chers ou des options de déploiement plus flexibles (bien qu'il doive offrir les deux pour réussir). Il s'agit de garantir que l'accès à l'intelligence artificielle, la technologie la plus transformative de l'humanité, reste inattaquable et souverain. C'est notre bouclier contre un avenir inévitable où quelques entreprises dicteront non seulement qui peut utiliser l'IA, mais aussi comment ils peuvent penser avec elle.

Nous construisons ces systèmes aujourd'hui non pas parce qu'ils sont immédiatement nécessaires, mais parce qu'ils seront essentiels demain. Lorsque l'IA deviendra aussi fondamentale pour la société que l'argent, le calcul sans permission ne sera pas seulement une alternative, il sera aussi crucial pour résister à l'hégémonie numérique que le Bitcoin et les stablecoins le sont pour résister au contrôle financier.

La course vers la superintelligence artificielle pourrait être hors de portée des systèmes décentralisés. Mais veiller à ce que les fruits de cette intelligence restent accessibles à tous ? C'est une course qui vaut la peine d'être courue.

Avertissement :

  1. Cet article est repris de [Decentralised.co]. Transférer le titre original: Calcul décentralisé. Tous les droits d'auteur appartiennent à l'auteur original [Shlok Khemani]. If there are objections to this reprint, please contact the Porte Apprendreéquipe, et ils s'en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas des conseils en investissement.
  3. Les traductions de l'article dans d'autres langues sont effectuées par l'équipe Gate Learn. Sauf mention contraire, la copie, la distribution ou le plagiat des articles traduits est interdit.
Mulai Sekarang
Daftar dan dapatkan Voucher
$100
!