583 lectures

Les espaces IA bondés ont encore de la place pour un génie supplémentaire

par Glaze11m2024/07/15

Trop long; Pour lire

Cette recherche vise à découvrir les domaines critiques de l’IA qui sont pertinents pour les développeurs du domaine. Il explore les opportunités potentielles de convergence des technologies Web3 et IA. La recherche a été menée par Zhenyang chez Upshot, Ashehot, Fran chez Neuronets, Matt à Valence et Dylan chez Pond.

featured image - Les espaces IA bondés ont encore de la place pour un génie supplémentaire

Merci pour les précieuses contributions et commentaires de Zhenyang chez Upshot, Fran de Giza, Ashely de Neuronets, Matt de Valence et Dylan de Pond.

Cette recherche vise à découvrir les domaines critiques de l’IA qui sont pertinents pour les développeurs du domaine et à explorer les opportunités potentielles naissantes dans la convergence des technologies Web3 et de l’IA.

TL;DR

Les avancées actuelles dans les applications décentralisées (DApps) centrées sur l’IA mettent en lumière plusieurs outils et concepts instrumentaux :

Accès OpenAI décentralisé, réseau GPU : la croissance expansive et rapide de l'IA, associée à son vaste potentiel d'application, en fait un secteur nettement plus en vogue que ne l'était autrefois l'exploitation minière de Bitcoin. Cette croissance est soutenue par le besoin de modèles de GPU diversifiés et leur répartition géographique stratégique.
Inférence et réseaux d'agents : bien que ces réseaux partagent une infrastructure similaire, leurs points centraux divergent. Les réseaux d'inférence s'adressent principalement aux développeurs expérimentés pour le déploiement de modèles, sans nécessairement nécessiter des GPU haut de gamme pour les modèles non LLM. À l’inverse, les réseaux d’agents, plus centrés sur le LLM, obligent les développeurs à se concentrer sur l’ingénierie rapide et l’intégration de divers agents, ce qui nécessite invariablement l’utilisation de GPU avancés.
Projets d'infrastructure d'IA : ces projets continuent d'évoluer, offrant de nouvelles fonctionnalités et des fonctionnalités améliorées prometteuses pour les applications futures.
Projets crypto-natifs : beaucoup d'entre eux sont encore en phase de testnet, confrontés à des problèmes de stabilité, des configurations complexes et des fonctionnalités limitées, tout en prenant le temps d'établir leurs informations d'identification en matière de sécurité et de confidentialité.
Domaines non découverts : en supposant que les DApps d'IA auront un impact significatif sur le marché, plusieurs domaines restent sous-explorés, notamment la surveillance, l'infrastructure liée à RAG, les modèles natifs Web3, les agents décentralisés avec des API et des données crypto-natives et les réseaux d'évaluation.
Tendances d'intégration verticale : les projets d'infrastructure visent de plus en plus à fournir des solutions complètes et uniques pour les développeurs AI DApp.
Prédictions futures hybrides : l'avenir comportera probablement un mélange d'inférence frontale et de calculs en chaîne, équilibrant les considérations de coûts et la vérifiabilité.

Introduction à Web3 x IA

La fusion du Web3 et de l’IA suscite un immense intérêt dans le domaine de la cryptographie, alors que les développeurs explorent rigoureusement l’infrastructure d’IA adaptée au domaine de la cryptographie. L’objectif est d’imprégner les contrats intelligents de fonctionnalités d’intelligence sophistiquées, nécessitant une attention méticuleuse à la gestion des données, à la précision du modèle, aux besoins informatiques, aux subtilités du déploiement et à l’intégration de la blockchain.

Les premières solutions élaborées par les pionniers du Web3 comprennent :

Réseaux GPU améliorés
Données cryptographiques dédiées et étiquetage des données communautaires
Modélisation formée par la communauté
Processus d’inférence et de formation d’IA vérifiables
Magasins d'agents complets

Malgré l’infrastructure en plein essor, les applications réelles de l’IA dans les DApps restent limitées. Les didacticiels courants ne font qu'effleurer la surface, illustrant souvent les interactions de base de l'API OpenAI dans des environnements frontaux, sans exploiter pleinement les offres uniques de décentralisation et de vérifiabilité de la blockchain.

À mesure que le paysage évolue, nous prévoyons des développements importants avec de nombreuses infrastructures d’IA crypto-natives passant des réseaux de test à un statut pleinement opérationnel au cours des prochains mois.

Dans ce contexte dynamique, notre exploration plongera dans l’arsenal d’outils disponibles dans l’infrastructure d’IA crypto-native, préparant les développeurs à des avancées imminentes semblables aux moments révolutionnaires de GPT-3.5 dans le domaine de la cryptographie.

RedPill : renforcer l'IA décentralisée

L'exploitation des modèles robustes d'OpenAI tels que GPT-4-vision, GPT-4-turbo et GPT-4o offre des avantages convaincants à ceux qui souhaitent développer des DApp d'IA de pointe. Ces outils puissants fournissent les capacités fondamentales nécessaires pour lancer des applications et des solutions avancées dans le paysage en plein essor de l'IA x Web3.

L'intégration d'OpenAI dans des applications décentralisées (dApps) est un sujet brûlant parmi les développeurs qui peuvent appeler l'API OpenAI depuis des oracles ou des frontends. RedPill est à la pointe de cette intégration, car il démocratise l'accès aux meilleurs modèles d'IA en proposant un service API agrégé. Ce service regroupe diverses contributions de l'API OpenAI et les présente sous un même toit, apportant des avantages tels qu'un prix plus abordable, une meilleure vitesse et un accès mondial complet sans les contraintes généralement posées par OpenAI.

Les problèmes inhérents auxquels les développeurs de cryptomonnaies sont souvent confrontés, comme le nombre limité de jetons par minute (TPM) ou l'accès restreint aux modèles en raison de frontières géographiques, peuvent entraîner d'importants obstacles. RedPill répond de front à ces préoccupations en acheminant les demandes des développeurs vers des contributeurs individuels au sein de leur réseau, contournant ainsi toute restriction directe d'OpenAI. Le tableau ci-dessous présente les différences marquées en termes de capacités et de coûts entre RedPill et OpenAI :

	Pilule Rouge	OpenAI
TPM	Illimité	30 000 à 450 000 pour la plupart des utilisateurs
Prix	5 $ pour 10 millions de demandes plus des incitations symboliques	5 $ pour 10 millions de demandes
RPM (requêtes par minute)	Illimité	500 - 5k pour la plupart des utilisateurs

Réseau GPU

En plus d'utiliser l'API OpenAI, les développeurs peuvent héberger et exécuter leurs modèles sur des réseaux GPU décentralisés. Les plateformes populaires telles que io.net , Aethir et Akash permettent aux développeurs de créer et de gérer leurs clusters GPU, leur permettant ainsi de déployer les modèles les plus percutants, qu'ils soient propriétaires ou open source.

Ces réseaux GPU décentralisés exploitent la puissance de calcul de contributeurs individuels ou de petits centres de données, ce qui garantit une variété de spécifications de machines, davantage d'emplacements de serveurs et des coûts réduits. Cette structure unique aide les développeurs à mener des expériences d'IA ambitieuses dans le cadre d'un budget gérable. Cependant, la nature décentralisée peut entraîner des fonctionnalités, une fiabilité de disponibilité et une confidentialité des données limitées, comme le montre la comparaison suivante :

	Réseau GPU	Fournisseur de GPU centralisé
SLA (disponibilité)	Variable	99,99 %+
SDK d'intégration et d'automatisation	Limité	Disponible
Services de stockage	Limité	Complet (stratégies de sauvegarde, de fichiers, d'objets, de stockage en bloc et de récupération)
Services de base de données	Limité	Largement disponible
Gestion des identités et des accès	Limité	Disponible
Pare-feu	Limité	Disponible
Services de surveillance/gestion/alerte	Limité	Disponible
Conformité au RGPD, CCPA (Data Privacy)	Limité	Conformité partielle

Le récent regain d’intérêt autour des réseaux GPU éclipse même l’engouement pour le minage de Bitcoin. Quelques facteurs clés contribuent à ce phénomène :

Public diversifié : Contrairement au minage de Bitcoin, qui attirait principalement les spéculateurs, les réseaux GPU s'adressent à une base plus large et plus fidèle de développeurs d'IA.
Exigences matérielles flexibles : les applications d'IA nécessitent des spécifications GPU variées en fonction de la complexité des tâches, ce qui rend les réseaux décentralisés avantageux en raison de leur proximité avec les utilisateurs finaux et de leurs faibles problèmes de latence.
Technologie avancée : ces réseaux bénéficient d'innovations en matière de technologie blockchain, de virtualisation et de clusters de calcul, améliorant ainsi leur efficacité et leur évolutivité.
Potentiel de rendement plus élevé : le retour sur investissement des calculs d'IA basés sur GPU peut être considérablement plus élevé par rapport à la nature compétitive et limitée du minage de Bitcoin.
Adoption par l'industrie : les grandes sociétés minières diversifient leurs opérations pour inclure des modèles de GPU spécifiques à l'IA afin de rester pertinentes et d'exploiter le marché en croissance.

Alors que le paysage de l'IA et de l'informatique décentralisée continue d'évoluer, des outils tels que RedPill et les réseaux GPU décentralisés révolutionnent la façon dont les développeurs surmontent les barrières traditionnelles et ouvrent de nouvelles possibilités dans le développement de l'IA.

Recommandation : io.net offre une expérience utilisateur simple particulièrement adaptée aux développeurs Web2. Si vous êtes flexible avec vos accords de niveau de service (SLA), io.net pourrait être une option économique à considérer.

Réseau d'inférence

Un réseau d’inférence constitue l’épine dorsale de l’infrastructure d’IA crypto-native, conçue pour prendre en charge les modèles d’IA dans le traitement des données et la prise de prédictions ou de décisions intelligentes. À l’avenir, il est prêt à gérer des milliards d’opérations d’inférence d’IA. De nombreuses couches de blockchain (couche 1 ou couche 2) offrent déjà aux développeurs la possibilité d'invoquer des opérations d'inférence d'IA directement sur la chaîne. Les leaders de ce marché incluent des plateformes telles que Ritual, Vanna et Fetch.ai .

Ces réseaux varient en fonction de plusieurs facteurs, notamment les performances (latence, temps de calcul), les modèles pris en charge, la vérifiabilité et le prix (coûts de consommation et d'inférence), ainsi que l'expérience globale du développeur.

But

Dans un scénario idéal, les développeurs devraient être en mesure d’intégrer de manière transparente des capacités d’inférence d’IA personnalisées dans n’importe quelle application, avec une prise en charge complète de diverses preuves et un effort d’intégration minimal.

Le réseau d'inférence fournit tous les éléments d'infrastructure nécessaires dont les développeurs ont besoin, tels que la génération et la validation de preuves à la demande, le calcul d'inférence, le relais d'inférence, les points de terminaison Web2 et Web3, le déploiement de modèles en un clic, la surveillance, l'interopérabilité entre chaînes, la synchronisation d'intégration et exécution programmée.

Grâce à ces capacités, les développeurs peuvent facilement intégrer l’inférence dans leurs projets blockchain. Par exemple, lors du développement de robots de trading de finance décentralisée (DeFi), des modèles d'apprentissage automatique peuvent être utilisés pour identifier les opportunités d'achat et de vente de paires de trading et exécuter des stratégies sur un DEX de base.

Idéalement, toutes les infrastructures seraient hébergées dans le cloud, permettant aux développeurs de télécharger et de stocker leurs stratégies de modèles dans des formats populaires tels que Torch. Le réseau d'inférence gérerait à la fois le stockage et la diffusion de modèles pour les requêtes Web2 et Web3.

Une fois le déploiement du modèle terminé, les développeurs peuvent déclencher l'inférence de modèle via des requêtes API Web3 ou directement via des contrats intelligents. Le réseau d'inférence exécute en permanence des stratégies de trading et renvoie les résultats aux contrats intelligents fondamentaux. Si vous gérez des fonds communautaires importants, il peut être nécessaire de prouver l’exactitude de l’inférence. Dès réception des résultats d'inférence, les contrats intelligents exécutent automatiquement des transactions en fonction de ces résultats.

Asynchronisation vs synchronisation

Bien que l'exécution asynchrone puisse théoriquement offrir de meilleures performances, elle peut compliquer l'expérience du développeur.

Dans le modèle asynchrone, les développeurs soumettent initialement leur travail au réseau d'inférence via des contrats intelligents. Une fois le travail terminé, le contrat intelligent du réseau renvoie le résultat. Cela divise la programmation en deux phases : invoquer l'inférence et traiter ses résultats.

Cette séparation peut entraîner des complexités, en particulier avec les appels d'inférence imbriqués ou la gestion logique approfondie.

De plus, les modèles asynchrones peuvent être difficiles à intégrer aux contrats intelligents existants, nécessitant un codage supplémentaire, une gestion approfondie des erreurs et des dépendances supplémentaires.

La synchronisation est généralement plus simple à mettre en œuvre pour les développeurs, mais elle présente des défis liés à la latence et à la conception de la blockchain. Par exemple, lorsqu'il s'agit de données d'entrée qui changent rapidement, telles que la durée d'un bloc ou les prix du marché, les données peuvent devenir obsolètes une fois le traitement terminé. Ce scénario peut entraîner l'annulation des exécutions de contrats intelligents, en particulier lors de l'exécution d'opérations telles que des échanges basés sur des prix obsolètes.

Valence relève ces défis en se concentrant sur une infrastructure d'IA fonctionnant de manière asynchrone.

Réalité

Dans le paysage actuel, la plupart des nouveaux réseaux d'inférence comme Ritual Network sont encore en phase de test et offrent des fonctionnalités limitées selon leur documentation publique. Au lieu de fournir une infrastructure cloud pour les calculs d’IA en chaîne, ils prennent en charge un cadre permettant d’auto-héberger les calculs d’IA et de relayer ensuite les résultats vers la blockchain.

Voici une architecture typique utilisée pour exécuter un AIGC NFT : le modèle de diffusion génère le NFT et le télécharge sur Arweave. Le réseau d'inférence reçoit ensuite l'adresse Arweave et procède à la création du NFT en chaîne.

Ce modèle oblige les développeurs à déployer et à héberger la plupart de l'infrastructure de manière indépendante, ce qui inclut la gestion des nœuds rituels avec une logique de service personnalisée, des nœuds de diffusion stables et des contrats intelligents NFT.

Recommandation : Les réseaux d'inférence actuels sont complexes à intégrer et à déployer des modèles personnalisés. Comme beaucoup n’offrent pas de vérifiabilité à ce stade, le déploiement de l’IA sur le frontend pourrait être une option plus simple pour les développeurs. Pour ceux qui ont besoin de vérifiabilité, le fournisseur Zero Knowledge Machine Learning, Giza, propose une alternative prometteuse.

Réseau d'agents

Les réseaux d'agents simplifient la personnalisation des agents pour les utilisateurs. Ces réseaux sont constitués d’entités autonomes ou de contrats intelligents capables d’exécuter des tâches et d’interagir automatiquement entre elles et avec la blockchain. Ils se concentrent actuellement davantage sur les grands modèles de langage (LLM), tels que les chatbots GPT conçus spécifiquement pour comprendre Ethereum. Cependant, ces chatbots sont actuellement limités dans leurs capacités, ce qui empêche les développeurs de créer des applications complexes par-dessus eux.

À l’avenir, les réseaux d’agents sont prêts à améliorer leurs capacités en fournissant aux agents des outils avancés, notamment des fonctionnalités d’accès et d’exécution d’API externes. Les développeurs pourront orchestrer les flux de travail en connectant plusieurs agents spécialisés, tels que ceux axés sur la conception de protocoles, le développement de Solidity, les révisions de sécurité du code et le déploiement de contrats, à l'aide d'invites et de contextes pour faciliter la coopération.

Des exemples de réseaux d'agents incluent Flock.ai , Myshell et Theoriq.

Recommandation : Les technologies d'agent actuelles étant encore en évolution et possédant des fonctionnalités limitées, les développeurs peuvent trouver des outils d'orchestration plus matures tels que Langchain ou Llamaindex dans l'espace Web2 plus efficaces pour leurs besoins.

Différence entre le réseau d'agents et le réseau d'inférence

Bien que les réseaux d’agents et les réseaux d’inférence servent à améliorer les capacités et les interactions sur la blockchain, leurs fonctions principales et leur orientation opérationnelle diffèrent considérablement. Les réseaux d'agents visent à automatiser les interactions et à étendre l'utilité des contrats intelligents grâce à des agents autonomes. En revanche, les réseaux d’inférence visent principalement à intégrer et à gérer des analyses de données basées sur l’IA sur la blockchain. Chacun sert un objectif unique, adapté à différents aspects de l’intégration de la blockchain et de l’IA.

Les réseaux d'agents se concentrent principalement sur les grands modèles de langage (LLM) et fournissent des outils d'orchestration, tels que Langchain, pour faciliter l'intégration de ces agents. Pour les développeurs, cela signifie qu’il n’est pas nécessaire de développer leurs propres modèles d’apprentissage automatique à partir de zéro. Au lieu de cela, la complexité du développement et du déploiement du modèle est supprimée par le réseau d'inférence, ce qui leur permet de simplement connecter les agents à l'aide d'outils et de contextes appropriés. Dans la plupart des cas, les utilisateurs finaux interagissent directement avec ces agents, simplifiant ainsi l'expérience utilisateur.

À l’inverse, le réseau d’inférence constitue l’épine dorsale opérationnelle du réseau d’agents, accordant aux développeurs un accès de niveau inférieur. Contrairement aux réseaux d’agents, les réseaux d’inférence ne sont pas directement utilisés par les utilisateurs finaux. Les développeurs doivent déployer leurs modèles, qui ne se limitent pas aux LLM, et ils peuvent accéder à ces modèles via des points hors chaîne ou en chaîne.

Il est intéressant de noter que les réseaux d’agents et les réseaux d’inférence commencent à converger dans certains cas, avec l’émergence de produits verticalement intégrés offrant à la fois des fonctionnalités d’agent et d’inférence. Cette intégration est logique puisque les deux fonctions partagent une infrastructure de base similaire.

Comparaison des réseaux d'inférence et d'agents :

	Réseau d'inférence	Réseau d'agents
Clients cibles	Développeurs	Utilisateurs finaux/développeurs
Modèles pris en charge	LLM, réseaux de neurones, modèles ML traditionnels	Principalement des LLM
Infrastructure	Prend en charge divers modèles	Prend principalement en charge les LLM populaires
Personnalisation	Large adaptabilité du modèle	Configurable via des invites et des outils
Projets populaires	Rituel, Valence	Troupeau, Myshell, Theoriq, Olas

Espace pour les innovations Next Genius

À mesure que nous approfondissons le pipeline de développement de modèles, de nombreuses opportunités émergent dans les domaines du web3 :

Ensembles de données : transformer les données blockchain en ensembles de données prêts pour le ML est crucial. Des projets comme Gizeh progressent en fournissant des ensembles de données DeFi de haute qualité. Cependant, la création d’ensembles de données basés sur des graphiques, qui représentent plus précisément les interactions de la blockchain, reste un domaine à développer.
Stockage de modèles : pour les modèles volumineux, un stockage, une distribution et une gestion des versions efficaces sont essentiels. Les innovateurs dans ce domaine incluent Filecoin, AR et 0g.
Formation sur modèles : La formation sur modèles décentralisée et vérifiable reste un défi. Des entités comme Gensyn, Bittensor et Flock réalisent des progrès significatifs.
Surveillance : une infrastructure efficace est nécessaire pour surveiller l'utilisation des modèles hors chaîne et en chaîne, aidant ainsi les développeurs à identifier et à corriger les problèmes ou les biais dans leurs modèles.
Infrastructure RAG : avec la génération augmentée par Retriever, la demande de stockage et de calcul privés et efficaces augmente. Firstbatch et Bagel sont des exemples de projets répondant à ces besoins.
Modèles Web3 dédiés : des modèles sur mesure sont essentiels pour des cas d'utilisation spécifiques du Web3, tels que la détection de fraude ou les prévisions de prix. Par exemple, Pond développe des réseaux de neurones graphiques (GNN) orientés blockchain.
Réseaux d'évaluation : La prolifération des agents nécessite des mécanismes d'évaluation robustes. Les plateformes comme Neuronets jouent un rôle essentiel dans la fourniture de tels services.
Consensus : Le Proof of Stake (PoS) traditionnel peut ne pas convenir aux tâches orientées IA en raison de leur complexité. Bittensor, par exemple, a développé un modèle consensuel qui récompense les nœuds pour leur contribution à de précieuses informations sur l'IA.

Perspectives d'avenir

La tendance à l'intégration verticale est évidente, où les réseaux cherchent à fournir des solutions de ML complètes et multifonctionnelles à partir d'une seule couche informatique. Cette approche promet une solution rationalisée tout-en-un pour les développeurs Web3 ML, faisant progresser l'intégration des technologies d'IA et de blockchain.

L'inférence en chaîne, bien qu'offrant une vérifiabilité exceptionnelle et une intégration transparente avec des systèmes backend tels que les contrats intelligents, reste coûteuse et lente. J’envisage une approche hybride à l’avenir. Nous assisterons probablement à un mélange dans lequel certaines tâches d'inférence sont effectuées hors chaîne, sur le front-end, pour plus d'efficacité, tandis que les tâches d'inférence critiques et centrées sur la décision continueront d'être traitées en chaîne. Ce paradigme est déjà mis en pratique avec les appareils mobiles. Tirant parti des capacités mobiles, des modèles plus petits s'exécutent localement pour des réponses rapides, tandis que les calculs plus complexes sont déchargés vers le cloud, exploitant des modèles de langage (LLM) plus grands.