Les données propriétaires sont de retour… avec un peu d'aide de leurs amis. Comment Vectors, RAG et LLAMA 3 entraînent un changement radical
Au cours des cinq dernières années, le discours dominant autour de l’infrastructure de données a souligné l’importance pour les entreprises de posséder et d’exploiter leurs données à mesure qu’elles acquièrent autant d’informations que possible sur leurs utilisateurs et clients. En raison des réglementations croissantes en matière de confidentialité, ils doivent collecter les données eux-mêmes au lieu de s'appuyer sur des opérateurs de données tiers, tels que des réseaux publicitaires ou des plateformes comme Google, Meta et Amazon . Les entreprises se sont alignées sur ce discours et ont pris le virage.
Mais dans la bataille pour les meilleures données, le first party est-il vraiment meilleur ? Pas en soi, mais cela pourrait être avec un peu d'aide de vecteurs, de frameworks comme RAG et de modèles de fondation open source comme Llama 3 .
L’argument en faveur des données first party est généralement le suivant : les entreprises doivent devenir de meilleures gestionnaires de l’acquisition et de la gestion des données, face aux appels croissants en faveur de la confidentialité des données . Les consommateurs veulent de plus en plus savoir qui détient leurs informations personnelles, comment ils les ont obtenues, pourquoi ils les détiennent et ce qu'on en fait – et ils n'aiment généralement pas les réponses à ces questions.
Mais le passage au first party n’est pas uniquement une question de confidentialité. Il existe également l’idée que les données de tiers perdront de la valeur à mesure que nous nous dirigeons vers un avenir sans cookies. Les entreprises ne peuvent plus obtenir les mêmes détails granulaires qu'auparavant, alors pourquoi devraient-elles consacrer un budget à un service qui offre moins qu'avant ?
Et puis il y a la crainte perpétuelle que les grandes plateformes et les réseaux publicitaires apportent des changements inattendus. Par exemple, ils pourraient modifier leurs algorithmes, restreindre l'accès à certains types de données ou modifier les politiques publicitaires d'une manière qui pourrait nuire aux performances d'une entreprise avec peu ou pas de préavis. Être dépendant des pratiques d'une autre entreprise nous rend vulnérable. Les entreprises se sentent coincées parce qu’elles ont déjà investi beaucoup de temps, d’argent et de ressources dans leur stratégie de données. Dans cette optique, la reprise du contrôle des données semble essentielle. Mais est-ce pratique ?
Les premiers résultats des entreprises qui parient sur les données first party n’ont pas répondu aux attentes. Nous voyons cas après cas des entreprises de consommation qui ont pris ce virage en souffrance.
Néanmoins, le recours actuel aux données de première partie – et aux pratiques permettant d’extraire ces données – est un point commun dans plusieurs entreprises qui traversent aujourd’hui des temps plus difficiles. C'est suffisamment visible pour que les analystes, les sociétés de capital-risque et les spécialistes du marketing eux-mêmes se demandent s'ils ont eu tort de donner la priorité aux données de première partie.
Les inconvénients des données de première partie, telles qu'elles sont actuellement acquises et exploitées, sont souvent considérés comme la sous-estimation de la disparition des identifiants d'appareil, la modification des adresses IP, l'adoption par les consommateurs de faux e-mails et les bloqueurs de publicités. Bien que cela soit vrai, des problèmes bien plus importants sont en jeu.
Premièrement, il existe une énorme pénurie de talents. Les Big Tech et les sociétés de plateformes obtiennent les meilleurs. Ce sont elles qui ont le plus à offrir, ce qui rend difficile pour les entreprises grand public émergentes de rivaliser pour recruter les data scientists et les talents en ML nécessaires pour donner un sens aux informations collectées et analysées. Sans personnes véritablement exceptionnelles, les entreprises ont connu des difficultés.
Il y a aussi un vrai problème d’outillage. Les offres disponibles pour les entreprises sont loin d’être équivalentes aux outils dont disposent les grandes entreprises technologiques en interne (ce qui peut être un facteur de pénurie de talents). L'outillage fait la différence, et la plupart des entreprises ne peuvent tout simplement pas rivaliser pour le moment.
Enfin, il y a un défi de volume. Les Big Tech et les réseaux publicitaires disposent de montagnes de données, car ces entreprises mettent en commun et anonymisent des centaines de milliards de points de données pour que leurs modèles fonctionnent efficacement. En revanche, si une entreprise ne dispose que de ses données, il n’y en a tout simplement pas assez pour que le ML fonctionne comme promis.
Même si ces problèmes semblent sérieux, est-il temps d’abandonner le potentiel – et le besoin – des données first party ? Certainement pas!
Le plus gros problème qui entrave les données de première partie est la manière dont les entreprises tentent d'y accéder. Jusqu’à présent, les entreprises ont adopté une approche du Vieux Continent. Les modèles doivent être créés à partir de zéro pour extraire la valeur des données dont les entreprises ont besoin. Cela demande du temps, de l’argent et surtout du talent ; cela dépend de la qualité de vos ingénieurs ML et de vos data scientists. Cependant, comme indiqué ci-dessus, il n’y a pas suffisamment de talents disponibles pour que cette approche fonctionne mieux que l’exploitation de données tierces. Le manque de talent crée le goulot d'étranglement.
Toutefois, cela ne signifie pas que nous devons renoncer aux données first party. Nous devons simplement changer notre façon de l’aborder. Dans le Nouveau Monde qui est possible aujourd’hui, les vecteurs et les intégrations vectorielles sont la clé. Les vecteurs sont des objets mathématiques génériques qui peuvent représenter les caractéristiques ou les attributs des points de données, tandis que les modèles intégrés analysent les modèles dans les données pour générer ces représentations significatives et riches en informations tirées des données ; ils capturent les relations sémantiques. Les intégrations vectorielles sont le format qui peut encoder tout ce que vous savez sur un utilisateur ou un client et rendre ces informations accessibles à un système d'analyse, ou exploitables pour personnaliser l'expérience utilisateur, ou même pour détecter la fraude. Il y a tellement de possibilités. Les vecteurs sont sur le point de provoquer un changement radical car ils peuvent alimenter l’analyse d’une manière fondamentalement différente.
La génération augmentée par récupération (RAG) génère actuellement beaucoup de buzz pour tout ce qu'elle peut permettre, mais ce sont les intégrations vectorielles qui rendent RAG utile. Ils constituent un élément central du cadre qui aide au contexte, aux réponses, à l'intégration de la récupération et à l'ajustement des modèles. Générer des vecteurs de haute qualité et les interroger correctement est une tâche essentielle qui permet à tout système RAG de fonctionner réellement. Il existe d'autres frameworks, mais RAG est particulièrement bien adapté à une révolution des données first party.
Super. Voyons tous comment utiliser les vecteurs et les intégrations vectorielles. Ce n’est pas la réponse totale. Les problèmes tels que les ensembles de données et les outils limités demeurent. Tout n’est pas encore enveloppé dans un joli nœud, mais je pense que ce sera bientôt le cas. Parce que des modèles de base open source et pré-entraînés comme Meta's Llama 2, qui céderont la place au plus robuste Llama 3 en juillet, peuvent uniformiser les règles du jeu. Le problème du manque de volume de données par rapport aux BigTech est atténué. En utilisant un modèle open source pré-entraîné sur des ensembles de données vastes et diversifiés, ce modèle intègre un certain niveau de connaissances et de compréhension. Les entreprises doivent simplement affiner Llama 2 (ou Llama 3) sur leur domaine ou tâche spécifique avec leur données. Cela atténue le goulot d'étranglement car dans de nombreux cas, vous n'avez plus besoin de former un modèle à partir de zéro.
Cela peut sembler une simplification excessive, étant donné que Llama aide les entreprises à gérer le texte, mais la plupart des données sur lesquelles les entreprises fonctionnent ne sont pas du texte. Les données structurées sur lesquelles les entreprises fonctionnent doivent être intégrées dans ce processus. Par exemple, les événements comportementaux des utilisateurs, qui constituent généralement un pourcentage important des données de première partie, ne peuvent être traités par aucun LLM. La situation étant en train de changer, les entreprises doivent se préparer à l’émergence de nouvelles solutions multimodales. De même, l'outillage fait encore défaut, mais il y a beaucoup d'attention portée à l'espace, donc de grands progrès sont réalisés. Ça arrive !
Les plus gros problèmes étant fondamentalement résolus, le battage médiatique sur les données propriétaires est de retour, bébé ! Les entreprises n'ont pas à s'inquiéter des tiers qui violent la vie privée, ni à dépendre des Big Tech pour les aider à connaître leurs clients. Attendez-vous à voir les données first party exploser cette année alors que les entreprises en tireront enfin pleinement parti, en particulier avec Llama 3 prêt. Malgré toutes ses promesses, le plus grand potentiel de Llama 3 sera peut-être de résoudre une fois pour toutes le problème des données propriétaires.