Il y a quelques mois, il y avait une déclaration selon laquelle modèles d'intelligence artificielle générative open source dominera le terrain. Les experts citent un fuite d'un mémo Google qui indique que le géant de la recherche a perdu son avantage concurrentiel dans le domaine de l'IA générative à cause des modèles open source.
L'argument va quelque chose comme ceci:
- Les algorithmes d'apprentissage automatique open source ont dépassé les capacités des algorithmes propriétaires.
- Lors de l'utilisation d'algorithmes open source pour former des modèles sur des jeux de données open source, les performances des modèles « fondamentaux » sont assez bonnes par rapport aux benchmarks.
- L'utilisation de techniques telles que le "réglage fin" (le processus de combinaison de vos données avec les données open source) pour créer un modèle évite d'avoir à utiliser les ensembles de données propriétaires de Big Tech.
- Par conséquent, les modèles propriétaires sont morts.
Alors Google I/O 2023 arrivé. Barde Google , un moteur de recherche d'IA génératif construit sur son propre ensemble de données propriétaire, a obtenu des critiques élogieuses . La fonctionnalité la plus citée est sa capacité à intégrer des données en temps réel dans son modèle.
Voyons pourquoi les modèles propriétaires joueront un rôle précieux à l'avenir avec une analyse de l'argument ci-dessus :
- Les algorithmes d'apprentissage automatique open source ont-ils dépassé les capacités des algorithmes propriétaires ? Oui. La note interne de Google explique comment les performances et l'innovation des algorithmes par la communauté open source ont éclipsé son propre rythme de développement.
- Lors de l'utilisation d'algorithmes open source pour former des modèles sur des ensembles de données open source, les performances des modèles "fondamentaux" sont-elles bonnes par rapport aux références ? Méfiez-vous des repères. Si l'objectif du modèle est uniquement de comprendre l'anglais, l'utilisation d'un corpus de données open source convient parfaitement. Mais que se passe-t-il si votre modèle peut bénéficier de données « en temps réel », tout comme la façon dont les utilisateurs bénéficient de la recherche de données en temps réel de Bard ? Ensuite, la référence devra être la capacité de comprendre l'anglais et de comprendre les événements récents dans le monde.
- Des techniques telles que le « réglage fin » pour créer un modèle évitent-elles d'avoir à utiliser les ensembles de données propriétaires de Big Tech ? Encore une fois, qu'est-ce qui intéresse vos utilisateurs ? Votre jeu de données propriétaire peut-il apporter TOUT le contexte en temps réel dont vous avez besoin ?
- Alors, les modèles fondateurs propriétaires sont-ils vraiment morts ? Pas si vite …
Le coût du succès de l'IA générative
Il s'avère que l'accès aux données en temps réel pour construire des modèles coûte cher. Google dépense des milliards de dollars pour construire une infrastructure permettant d'indexer le Web en temps réel afin de créer ses modèles génératifs, et vous pouvez parier que ce sera propriétaire.
Prenons l'exemple de deux chatbots de voyage en avion construits sur deux modèles fondamentaux différents ; un chatbot est open source et un est propriétaire avec des données en temps réel. Le chatbot de voyage est «affiné» avec un ensemble de données d'informations de vol exclusif pour recommander les vols à prendre. Dans de nombreux cas, les deux chatbots fourniront la même réponse. Cependant, si une grosse tempête frappe un aéroport, le chatbot construit avec des données exclusives en temps réel fournira des informations de vol qui évitent les vols affectés par la tempête. Ceci est inestimable pour les utilisateurs et sera donc également précieux pour les développeurs.
L'avenir des modèles d'IA fondamentaux
Cela signifie-t-il donc que chaque cas d'utilisation de l'IA générative nécessite un modèle de base construit à partir de données propriétaires en temps réel ? Non, mais il existe d'autres raisons pour lesquelles un modèle de base propriétaire sera nécessaire :
- Ensembles de données propriétaires propriétaires Prenons cet exemple : Google Bard exploite l'intégralité de YouTube pour créer son modèle de base. Si votre cas d'utilisation de l'IA générative peut bénéficier de la grande quantité d'informations et de connaissances téléchargées sur YouTube, vous souhaiterez peut-être utiliser un modèle fondamental de Google.
- Ensembles de données de personnalisation Lorsqu'un modèle fondamental est formé avec des données personnalisées, le modèle (c'est-à-dire le réseau de neurones) contiendra des aspects d'informations personnelles. L'utilisation de ces modèles pour effectuer des inférences peut être effectuée de manière à ne pas divulguer d'informations personnelles, mais si le modèle entier est exporté, il est possible d'extraire des informations personnelles sur des utilisateurs particuliers en examinant les paramètres du modèle. Malgré les progrès de l'apprentissage fédéré, il n'existe pas de moyen infaillible de permettre l'exportation du modèle sans compromettre la confidentialité.
Alors, à quoi ressemblent les futurs modèles fondamentaux ? Probablement quelque chose comme ça :
- Les algorithmes seront open source
- Les ensembles de données seront propriétaires dans certains cas, en raison du coût de maintenance d'un ensemble de données en temps réel et de la personnalisation, et open source dans d'autres.
En supposant que c'est l'architecture dominante, quels sont les effets secondaires ?
- Les entreprises qui cherchent à créer une IA générative devront probablement s'appuyer sur des modèles fondamentaux de grandes entreprises qui ont le carnet de chèques pour maintenir leur propre infrastructure de données en temps réel, et des modèles de base open source pour d'autres cas d'utilisation.
- L'ensemble de données propriétaires sur lequel les entreprises s'appuient sera également de plus en plus en temps réel. Attendez-vous à ce que les données résident dans des bases de données en temps réel NoSQL comme Apache Cassandra, diffusées dans les magasins de fonctionnalités à l'aide de technologies comme Apache Pulsar.
- À des fins pratiques, l'inférence de modèle se produira probablement dans les centres de données appartenant aux fournisseurs de modèles fondamentaux tels qu'AWS, Microsoft et Google. Cela signifie que les hyperscalers gagneront probablement en importance à l'ère de l'IA. L'inférence de modèle basée sur des modèles open source fondamentaux peut être effectuée dans les centres de données des clients.
Les effets secondaires pour DataStax (mon employeur) sont également importants. En tant que fournisseur de gestion de données, notre investissement dans la fourniture de services dans le cloud via DataStax Astra DB , qui réside sur les principaux clouds d'AWS, Microsoft et Google, est susceptible de croître à mesure que l'IA générative devient plus répandue dans l'entreprise.
Alors que nous encourageons et soutenons l'utilisation de modèles fondamentaux open source d'entreprises telles que ÉtreindreVisage , nous formons également de solides partenariats d'IA avec les trois grands fournisseurs de cloud. Plus important encore, nous utilisons le processus de contribution de la communauté aux fonctionnalités en amont de Cassandra, telles que la recherche de vecteurs , pour garantir que les entreprises peuvent créer leurs propres ensembles de données réelles pour l'IA en temps réel.
Par Alan Ho, DataStax