Merci pour les précieuses contributions et commentaires de Zhenyang chez Upshot, Fran de Giza, Ashely de Neuronets, Matt de Valence et Dylan de Pond.
Cette recherche vise à découvrir les domaines critiques de l’IA qui sont pertinents pour les développeurs du domaine et à explorer les opportunités potentielles naissantes dans la convergence des technologies Web3 et de l’IA.
Les avancées actuelles dans les applications décentralisées (DApps) centrées sur l’IA mettent en lumière plusieurs outils et concepts instrumentaux :
La fusion du Web3 et de l’IA suscite un immense intérêt dans le domaine de la cryptographie, alors que les développeurs explorent rigoureusement l’infrastructure d’IA adaptée au domaine de la cryptographie. L’objectif est d’imprégner les contrats intelligents de fonctionnalités d’intelligence sophistiquées, nécessitant une attention méticuleuse à la gestion des données, à la précision du modèle, aux besoins informatiques, aux subtilités du déploiement et à l’intégration de la blockchain.
Les premières solutions élaborées par les pionniers du Web3 comprennent :
Malgré l’infrastructure en plein essor, les applications réelles de l’IA dans les DApps restent limitées. Les didacticiels courants ne font qu'effleurer la surface, illustrant souvent les interactions de base de l'API OpenAI dans des environnements frontaux, sans exploiter pleinement les offres uniques de décentralisation et de vérifiabilité de la blockchain.
À mesure que le paysage évolue, nous prévoyons des développements importants avec de nombreuses infrastructures d’IA crypto-natives passant des réseaux de test à un statut pleinement opérationnel au cours des prochains mois.
Dans ce contexte dynamique, notre exploration plongera dans l’arsenal d’outils disponibles dans l’infrastructure d’IA crypto-native, préparant les développeurs à des avancées imminentes semblables aux moments révolutionnaires de GPT-3.5 dans le domaine de la cryptographie.
L'exploitation des modèles robustes d'OpenAI tels que GPT-4-vision, GPT-4-turbo et GPT-4o offre des avantages convaincants à ceux qui souhaitent développer des DApp d'IA de pointe. Ces outils puissants fournissent les capacités fondamentales nécessaires pour lancer des applications et des solutions avancées dans le paysage en plein essor de l'IA x Web3.
L'intégration d'OpenAI dans des applications décentralisées (dApps) est un sujet brûlant parmi les développeurs qui peuvent appeler l'API OpenAI depuis des oracles ou des frontends. RedPill est à la pointe de cette intégration, car il démocratise l'accès aux meilleurs modèles d'IA en proposant un service API agrégé. Ce service regroupe diverses contributions de l'API OpenAI et les présente sous un même toit, apportant des avantages tels qu'un prix plus abordable, une meilleure vitesse et un accès mondial complet sans les contraintes généralement posées par OpenAI.
Les problèmes inhérents auxquels les développeurs de cryptomonnaies sont souvent confrontés, comme le nombre limité de jetons par minute (TPM) ou l'accès restreint aux modèles en raison de frontières géographiques, peuvent entraîner d'importants obstacles. RedPill répond de front à ces préoccupations en acheminant les demandes des développeurs vers des contributeurs individuels au sein de leur réseau, contournant ainsi toute restriction directe d'OpenAI. Le tableau ci-dessous présente les différences marquées en termes de capacités et de coûts entre RedPill et OpenAI :
| Pilule Rouge | OpenAI |
---|---|---|
TPM | Illimité | 30 000 à 450 000 pour la plupart des utilisateurs |
Prix | 5 $ pour 10 millions de demandes plus des incitations symboliques | 5 $ pour 10 millions de demandes |
RPM (requêtes par minute) | Illimité | 500 - 5k pour la plupart des utilisateurs |
En plus d'utiliser l'API OpenAI, les développeurs peuvent héberger et exécuter leurs modèles sur des réseaux GPU décentralisés. Les plateformes populaires telles que io.net , Aethir et Akash permettent aux développeurs de créer et de gérer leurs clusters GPU, leur permettant ainsi de déployer les modèles les plus percutants, qu'ils soient propriétaires ou open source.
Ces réseaux GPU décentralisés exploitent la puissance de calcul de contributeurs individuels ou de petits centres de données, ce qui garantit une variété de spécifications de machines, davantage d'emplacements de serveurs et des coûts réduits. Cette structure unique aide les développeurs à mener des expériences d'IA ambitieuses dans le cadre d'un budget gérable. Cependant, la nature décentralisée peut entraîner des fonctionnalités, une fiabilité de disponibilité et une confidentialité des données limitées, comme le montre la comparaison suivante :
| Réseau GPU | Fournisseur de GPU centralisé |
---|---|---|
SLA (disponibilité) | Variable | 99,99 %+ |
SDK d'intégration et d'automatisation | Limité | Disponible |
Services de stockage | Limité | Complet (stratégies de sauvegarde, de fichiers, d'objets, de stockage en bloc et de récupération) |
Services de base de données | Limité | Largement disponible |
Gestion des identités et des accès | Limité | Disponible |
Pare-feu | Limité | Disponible |
Services de surveillance/gestion/alerte | Limité | Disponible |
Conformité au RGPD, CCPA (Data Privacy) | Limité | Conformité partielle |
Le récent regain d’intérêt autour des réseaux GPU éclipse même l’engouement pour le minage de Bitcoin. Quelques facteurs clés contribuent à ce phénomène :
Alors que le paysage de l'IA et de l'informatique décentralisée continue d'évoluer, des outils tels que RedPill et les réseaux GPU décentralisés révolutionnent la façon dont les développeurs surmontent les barrières traditionnelles et ouvrent de nouvelles possibilités dans le développement de l'IA.
Recommandation : io.net offre une expérience utilisateur simple particulièrement adaptée aux développeurs Web2. Si vous êtes flexible avec vos accords de niveau de service (SLA), io.net pourrait être une option économique à considérer.
Un réseau d’inférence constitue l’épine dorsale de l’infrastructure d’IA crypto-native, conçue pour prendre en charge les modèles d’IA dans le traitement des données et la prise de prédictions ou de décisions intelligentes. À l’avenir, il est prêt à gérer des milliards d’opérations d’inférence d’IA. De nombreuses couches de blockchain (couche 1 ou couche 2) offrent déjà aux développeurs la possibilité d'invoquer des opérations d'inférence d'IA directement sur la chaîne. Les leaders de ce marché incluent des plateformes telles que Ritual, Vanna et Fetch.ai .
Ces réseaux varient en fonction de plusieurs facteurs, notamment les performances (latence, temps de calcul), les modèles pris en charge, la vérifiabilité et le prix (coûts de consommation et d'inférence), ainsi que l'expérience globale du développeur.
Dans un scénario idéal, les développeurs devraient être en mesure d’intégrer de manière transparente des capacités d’inférence d’IA personnalisées dans n’importe quelle application, avec une prise en charge complète de diverses preuves et un effort d’intégration minimal.
Le réseau d'inférence fournit tous les éléments d'infrastructure nécessaires dont les développeurs ont besoin, tels que la génération et la validation de preuves à la demande, le calcul d'inférence, le relais d'inférence, les points de terminaison Web2 et Web3, le déploiement de modèles en un clic, la surveillance, l'interopérabilité entre chaînes, la synchronisation d'intégration et exécution programmée.
Grâce à ces capacités, les développeurs peuvent facilement intégrer l’inférence dans leurs projets blockchain. Par exemple, lors du développement de robots de trading de finance décentralisée (DeFi), des modèles d'apprentissage automatique peuvent être utilisés pour identifier les opportunités d'achat et de vente de paires de trading et exécuter des stratégies sur un DEX de base.
Idéalement, toutes les infrastructures seraient hébergées dans le cloud, permettant aux développeurs de télécharger et de stocker leurs stratégies de modèles dans des formats populaires tels que Torch. Le réseau d'inférence gérerait à la fois le stockage et la diffusion de modèles pour les requêtes Web2 et Web3.
Une fois le déploiement du modèle terminé, les développeurs peuvent déclencher l'inférence de modèle via des requêtes API Web3 ou directement via des contrats intelligents. Le réseau d'inférence exécute en permanence des stratégies de trading et renvoie les résultats aux contrats intelligents fondamentaux. Si vous gérez des fonds communautaires importants, il peut être nécessaire de prouver l’exactitude de l’inférence. Dès réception des résultats d'inférence, les contrats intelligents exécutent automatiquement des transactions en fonction de ces résultats.
Bien que l'exécution asynchrone puisse théoriquement offrir de meilleures performances, elle peut compliquer l'expérience du développeur.
Dans le modèle asynchrone, les développeurs soumettent initialement leur travail au réseau d'inférence via des contrats intelligents. Une fois le travail terminé, le contrat intelligent du réseau renvoie le résultat. Cela divise la programmation en deux phases : invoquer l'inférence et traiter ses résultats.
Cette séparation peut entraîner des complexités, en particulier avec les appels d'inférence imbriqués ou la gestion logique approfondie.
De plus, les modèles asynchrones peuvent être difficiles à intégrer aux contrats intelligents existants, nécessitant un codage supplémentaire, une gestion approfondie des erreurs et des dépendances supplémentaires.
La synchronisation est généralement plus simple à mettre en œuvre pour les développeurs, mais elle présente des défis liés à la latence et à la conception de la blockchain. Par exemple, lorsqu'il s'agit de données d'entrée qui changent rapidement, telles que la durée d'un bloc ou les prix du marché, les données peuvent devenir obsolètes une fois le traitement terminé. Ce scénario peut entraîner l'annulation des exécutions de contrats intelligents, en particulier lors de l'exécution d'opérations telles que des échanges basés sur des prix obsolètes.
Valence relève ces défis en se concentrant sur une infrastructure d'IA fonctionnant de manière asynchrone.
Dans le paysage actuel, la plupart des nouveaux réseaux d'inférence comme Ritual Network sont encore en phase de test et offrent des fonctionnalités limitées selon leur documentation publique. Au lieu de fournir une infrastructure cloud pour les calculs d’IA en chaîne, ils prennent en charge un cadre permettant d’auto-héberger les calculs d’IA et de relayer ensuite les résultats vers la blockchain.
Voici une architecture typique utilisée pour exécuter un AIGC NFT : le modèle de diffusion génère le NFT et le télécharge sur Arweave. Le réseau d'inférence reçoit ensuite l'adresse Arweave et procède à la création du NFT en chaîne.
Ce modèle oblige les développeurs à déployer et à héberger la plupart de l'infrastructure de manière indépendante, ce qui inclut la gestion des nœuds rituels avec une logique de service personnalisée, des nœuds de diffusion stables et des contrats intelligents NFT.
Recommandation : Les réseaux d'inférence actuels sont complexes à intégrer et à déployer des modèles personnalisés. Comme beaucoup n’offrent pas de vérifiabilité à ce stade, le déploiement de l’IA sur le frontend pourrait être une option plus simple pour les développeurs. Pour ceux qui ont besoin de vérifiabilité, le fournisseur Zero Knowledge Machine Learning, Giza, propose une alternative prometteuse.
Les réseaux d'agents simplifient la personnalisation des agents pour les utilisateurs. Ces réseaux sont constitués d’entités autonomes ou de contrats intelligents capables d’exécuter des tâches et d’interagir automatiquement entre elles et avec la blockchain. Ils se concentrent actuellement davantage sur les grands modèles de langage (LLM), tels que les chatbots GPT conçus spécifiquement pour comprendre Ethereum. Cependant, ces chatbots sont actuellement limités dans leurs capacités, ce qui empêche les développeurs de créer des applications complexes par-dessus eux.
À l’avenir, les réseaux d’agents sont prêts à améliorer leurs capacités en fournissant aux agents des outils avancés, notamment des fonctionnalités d’accès et d’exécution d’API externes. Les développeurs pourront orchestrer les flux de travail en connectant plusieurs agents spécialisés, tels que ceux axés sur la conception de protocoles, le développement de Solidity, les révisions de sécurité du code et le déploiement de contrats, à l'aide d'invites et de contextes pour faciliter la coopération.
Des exemples de réseaux d'agents incluent Flock.ai , Myshell et Theoriq.
Recommandation : Les technologies d'agent actuelles étant encore en évolution et possédant des fonctionnalités limitées, les développeurs peuvent trouver des outils d'orchestration plus matures tels que Langchain ou Llamaindex dans l'espace Web2 plus efficaces pour leurs besoins.
Bien que les réseaux d’agents et les réseaux d’inférence servent à améliorer les capacités et les interactions sur la blockchain, leurs fonctions principales et leur orientation opérationnelle diffèrent considérablement. Les réseaux d'agents visent à automatiser les interactions et à étendre l'utilité des contrats intelligents grâce à des agents autonomes. En revanche, les réseaux d’inférence visent principalement à intégrer et à gérer des analyses de données basées sur l’IA sur la blockchain. Chacun sert un objectif unique, adapté à différents aspects de l’intégration de la blockchain et de l’IA.
Les réseaux d'agents se concentrent principalement sur les grands modèles de langage (LLM) et fournissent des outils d'orchestration, tels que Langchain, pour faciliter l'intégration de ces agents. Pour les développeurs, cela signifie qu’il n’est pas nécessaire de développer leurs propres modèles d’apprentissage automatique à partir de zéro. Au lieu de cela, la complexité du développement et du déploiement du modèle est supprimée par le réseau d'inférence, ce qui leur permet de simplement connecter les agents à l'aide d'outils et de contextes appropriés. Dans la plupart des cas, les utilisateurs finaux interagissent directement avec ces agents, simplifiant ainsi l'expérience utilisateur.
À l’inverse, le réseau d’inférence constitue l’épine dorsale opérationnelle du réseau d’agents, accordant aux développeurs un accès de niveau inférieur. Contrairement aux réseaux d’agents, les réseaux d’inférence ne sont pas directement utilisés par les utilisateurs finaux. Les développeurs doivent déployer leurs modèles, qui ne se limitent pas aux LLM, et ils peuvent accéder à ces modèles via des points hors chaîne ou en chaîne.
Il est intéressant de noter que les réseaux d’agents et les réseaux d’inférence commencent à converger dans certains cas, avec l’émergence de produits verticalement intégrés offrant à la fois des fonctionnalités d’agent et d’inférence. Cette intégration est logique puisque les deux fonctions partagent une infrastructure de base similaire.
Comparaison des réseaux d'inférence et d'agents :
| Réseau d'inférence | Réseau d'agents |
---|---|---|
Clients cibles | Développeurs | Utilisateurs finaux/développeurs |
Modèles pris en charge | LLM, réseaux de neurones, modèles ML traditionnels | Principalement des LLM |
Infrastructure | Prend en charge divers modèles | Prend principalement en charge les LLM populaires |
Personnalisation | Large adaptabilité du modèle | Configurable via des invites et des outils |
Projets populaires | Rituel, Valence | Troupeau, Myshell, Theoriq, Olas |
À mesure que nous approfondissons le pipeline de développement de modèles, de nombreuses opportunités émergent dans les domaines du web3 :
La tendance à l'intégration verticale est évidente, où les réseaux cherchent à fournir des solutions de ML complètes et multifonctionnelles à partir d'une seule couche informatique. Cette approche promet une solution rationalisée tout-en-un pour les développeurs Web3 ML, faisant progresser l'intégration des technologies d'IA et de blockchain.
L'inférence en chaîne, bien qu'offrant une vérifiabilité exceptionnelle et une intégration transparente avec des systèmes backend tels que les contrats intelligents, reste coûteuse et lente. J’envisage une approche hybride à l’avenir. Nous assisterons probablement à un mélange dans lequel certaines tâches d'inférence sont effectuées hors chaîne, sur le front-end, pour plus d'efficacité, tandis que les tâches d'inférence critiques et centrées sur la décision continueront d'être traitées en chaîne. Ce paradigme est déjà mis en pratique avec les appareils mobiles. Tirant parti des capacités mobiles, des modèles plus petits s'exécutent localement pour des réponses rapides, tandis que les calculs plus complexes sont déchargés vers le cloud, exploitant des modèles de langage (LLM) plus grands.