paint-brush
Wie Vectors, Rag und Llama 3 First-Party-Daten verändernvon@danielsvonava
Neue Geschichte

Wie Vectors, Rag und Llama 3 First-Party-Daten verändern

von Daniel Svonava6m2024/06/27
Read on Terminal Reader

Zu lang; Lesen

Der Vorstoß für First-Party-Daten geht im Allgemeinen dahin, dass Unternehmen bessere Verwalter der Datenerfassung und -verwaltung werden müssen. Verbraucher möchten zunehmend wissen, wer ihre persönlichen Daten speichert, wie sie diese erhalten haben, warum sie sie haben und was damit geschieht. Der Vorstoß, die Kontrolle über die Daten zurückzuerlangen, scheint unerlässlich, aber ist er auch praktisch?
featured image - Wie Vectors, Rag und Llama 3 First-Party-Daten verändern
Daniel Svonava HackerNoon profile picture
0-item

First-Party-Daten sind zurück … mit ein wenig Hilfe von ihren Freunden. Wie Vectors, RAG und LLAMA 3 einen grundlegenden Wandel herbeiführen


In den letzten fünf Jahren hat das vorherrschende Narrativ rund um die Dateninfrastruktur betont, wie wichtig es ist, dass Unternehmen ihre Daten besitzen und nutzen, da sie so viele Informationen wie möglich über ihre Nutzer und Kunden erhalten. Aufgrund zunehmender Datenschutzbestimmungen müssen sie die Daten selbst erfassen, statt sich auf externe Datenbetreiber wie Werbenetzwerke oder Plattformen wie Google, Meta und Amazon zu verlassen. Die Unternehmen haben sich diesem Narrativ angeschlossen und den Wandel vollzogen.


Aber sind First-Party-Daten im Kampf um die besten Daten wirklich besser? Nicht von alleine, aber mit ein wenig Hilfe von Vektoren, Frameworks wie RAG und Open-Source-Grundmodellen wie Llama 3 könnten sie es sein.

Der Vorstoß für First-Party-Daten

Das Argument für First-Party-Daten lautet im Allgemeinen wie folgt: Angesichts der wachsenden Forderungen nach Datenschutz müssen Unternehmen ihre Datenerfassung und -verwaltung besser verwalten. Verbraucher möchten zunehmend wissen, wer ihre persönlichen Daten speichert, wie sie diese erhalten haben, warum sie sie haben und was damit geschieht – und die Antworten auf diese Fragen gefallen ihnen im Allgemeinen nicht. Zugang Und Löschen Die Anfragen nehmen rapide zu und die Datenschutzlandschaft ändert sich schnell. Unternehmen finden es schwierig genug, ihre eigenen Datenschutzmanagementprozesse zu entwickeln; sie wollen sich nicht auch noch um die eines Drittanbieters kümmern müssen.


Benutzer machen sich zunehmend Gedanken darüber, was mit den Daten geschieht, die sie Unternehmen übermitteln, und die Datenschutzgesetze werden strenger.


Doch bei der Umstellung auf First-Party-Dienste geht es nicht nur um Datenschutz. Es besteht auch die Vorstellung, dass Drittanbieterdaten an Wert verlieren, wenn wir uns auf eine sprichwörtliche Zukunft ohne Cookies zubewegen. Unternehmen können nicht mehr dieselben detaillierten Informationen abrufen wie früher. Warum sollten sie also ihr Budget für einen Dienst ausgeben, der weniger leistet als früher?


Und dann ist da noch die ständige Sorge, dass die großen Plattformen und Werbenetzwerke unerwartete Änderungen vornehmen. Sie könnten beispielsweise ihre Algorithmen ändern, den Zugriff auf bestimmte Datentypen einschränken oder Werberichtlinien so ändern, dass die Leistung eines Unternehmens ohne Vorankündigung oder ohne Vorankündigung beeinträchtigt wird. Von den Praktiken eines anderen Unternehmens abhängig zu sein, macht einen verwundbar. Unternehmen fühlen sich hilflos, weil sie bereits so viel Zeit, Geld und Ressourcen in ihre Datenstrategie investiert haben. Vor diesem Hintergrund scheint der Vorstoß, die Kontrolle über die Daten zurückzuerlangen, unerlässlich. Aber ist er auch praktikabel?


Die First-Data-Probleme, über die niemand spricht

Die ersten Ergebnisse von Unternehmen, die auf First-Party-Daten setzen, haben die Erwartungen nicht erfüllt. Wir sehen einen Fall nach dem anderen, in dem Konsumgüterunternehmen, die den Wechsel vollzogen haben, darunter leiden. Farfetch , Alle Vögel , Und SmileDirectClub sind nur einige Beispiele. Könnte eine bessere, strategischere Nutzung von First-Party-Daten die steigenden Kundenakquisitionskosten senken?


Dennoch ist die derzeitige Abhängigkeit von First-Party-Daten – und den Verfahren zur Extraktion dieser Daten – eine Gemeinsamkeit mehrerer Unternehmen, die heute schwierigere Zeiten durchmachen. Es ist so auffällig, dass Analysten, VCs und Vermarkter sich fragen, ob es falsch war, First-Party-Daten Priorität einzuräumen.


Die Nachteile von First-Party-Daten, wie sie derzeit erfasst und genutzt werden, liegen oft darin, dass das Verschwinden von Geräte-IDs, sich ändernde IP-Adressen, die Verwendung gefälschter E-Mails und Werbeblocker durch Verbraucher unterschätzt werden. Das stimmt zwar, aber es spielen noch viel schwerwiegendere Probleme eine Rolle.


Erstens gibt es eine enorme Talentlücke. Die großen Technologie- und Plattformunternehmen schnappen sich die besten. Sie haben am meisten zu bieten, was es aufstrebenden Konsumgüterunternehmen schwer macht, um die Datenwissenschaftler und ML-Talente zu konkurrieren, die benötigt werden, um die gesammelten und analysierten Informationen zu verstehen. Ohne wirklich außergewöhnliche Mitarbeiter haben die Unternehmen zu kämpfen.


Es gibt auch ein echtes Werkzeugproblem. Die den Unternehmen zur Verfügung stehenden Angebote sind bei weitem nicht mit den Tools vergleichbar, die die großen Technologieunternehmen intern vorweisen können (was ein Faktor für den Fachkräftemangel sein kann). Die Werkzeuge machen einen Unterschied, und die meisten Unternehmen können derzeit einfach nicht mithalten.


Und schließlich gibt es noch ein Problem mit der Menge. Die großen Technologieunternehmen und die Werbenetzwerke verfügen über Berge von Daten, da diese Unternehmen Hunderte von Milliarden Datenpunkten zusammenfassen und anonymisieren, damit ihre Modelle effektiv laufen. Wenn ein Unternehmen dagegen nur mit seinen eigenen Daten arbeiten kann, reichen diese einfach nicht aus, damit ML wie versprochen funktioniert.


Diese Probleme scheinen zwar ernst zu sein, aber ist es nicht an der Zeit, das Potenzial und den Bedarf an First-Party-Daten aufzugeben? Auf keinen Fall!


Die Macht der Vektoren

Das größte Hindernis für First-Party-Daten ist die Art und Weise, wie Unternehmen versuchen, auf diese Daten zuzugreifen. Bislang haben Unternehmen einen altmodischen Ansatz verfolgt. Um den Wert aus den Daten zu extrahieren, den Unternehmen benötigen, müssen Modelle von Grund auf neu erstellt werden. Dies kostet Zeit, Geld und vor allem Talent; es hängt davon ab, wie gut Ihre ML-Ingenieure und Datenwissenschaftler sind. Wie oben erläutert, gibt es jedoch nicht genügend verfügbares Talent, um diesen Ansatz besser umzusetzen als die Nutzung von Third-Party-Daten. Der Mangel an Talent schafft den Engpass.


Die Darstellung von Informationen als Vektoren ermöglicht ein tieferes Verständnis und eine Analyse semantischer Beziehungen.


Das heißt jedoch nicht, dass wir auf First-Party-Daten verzichten müssen. Wir müssen nur unsere Herangehensweise ändern. In der neuen Welt, die heute möglich ist, sind Vektoren und Vektoreinbettungen der Schlüssel. Vektoren sind generische mathematische Objekte, die Merkmale oder Attribute von Datenpunkten darstellen können, während Einbettungsmodelle Muster in Daten analysieren, um diese informationsreichen, aussagekräftigen Darstellungen zu generieren, die aus Daten gelernt wurden; sie erfassen die semantischen Beziehungen. Vektoreinbettungen sind das Format, das alles, was Sie über einen Benutzer oder Kunden wissen, kodieren und diese Informationen einem Analysesystem zugänglich machen oder nutzen kann, um das Benutzererlebnis zu personalisieren oder sogar Betrug aufzudecken. Es gibt so viele Möglichkeiten. Vektoren werden einen grundlegenden Wandel herbeiführen, da sie die Analyse auf eine grundlegend andere Weise vorantreiben können.


Retrieval-Augmented Generation (RAG) sorgt derzeit für viel Aufregung, weil es so viel ermöglicht, aber was RAG so nützlich macht, sind Vektoreinbettungen. Sie sind eine zentrale Komponente des Frameworks, das bei Kontext, Antworten, Integration des Abrufs und Feinabstimmung von Modellen hilft. Das Generieren hochwertiger Vektoren und deren korrekte Abfrage ist eine kritische Aufgabe, die es jedem RAG-System ermöglicht, tatsächlich zu funktionieren. Es gibt noch andere Frameworks, aber RAG eignet sich besonders gut für eine First-Party-Datenrevolution.


Klingt super. Lassen Sie uns alle herausfinden, wie man Vektoren und Vektoreinbettungen verwendet. Das ist nicht die vollständige Antwort. Die Probleme wie begrenzte Datensätze und Werkzeuge bleiben bestehen. Noch ist nicht alles in einem schönen Paket verpackt, aber ich glaube, dass es bald so weit sein wird. Denn Open-Source-, vorab trainierte Basismodelle wie Metas Llama 2, das im Juli dem robusteren Llama 3 Platz machen wird, können für Chancengleichheit sorgen. Das Problem des im Vergleich zu BigTech nicht ausreichenden Datenvolumens wird gemildert. Durch die Verwendung eines Open-Source-Modells, das auf großen und vielfältigen Datensätzen vorab trainiert wurde, ist in dieses Modell ein gewisses Maß an Wissen und Verständnis eingebaut. Unternehmen müssen Llama 2 (oder Llama 3) lediglich auf ihre spezifische Domäne oder Aufgabe mit ihren Daten feinabstimmen. Dies entschärft den Engpass, da Sie in vielen Fällen ein Modell nicht mehr von Grund auf neu trainieren müssen.


Das mag nach einer Vereinfachung klingen, da Llama Unternehmen zwar beim Umgang mit Texten hilft, die meisten Daten, mit denen Unternehmen arbeiten, jedoch keine Texte sind. Die strukturierten Daten, mit denen Unternehmen arbeiten, müssen in diesen Prozess integriert werden. Beispielsweise sind die verhaltensbezogenen Ereignisse des Benutzers, die einen großen Prozentsatz der First-Party-Daten ausmachen, normalerweise nicht für die Verarbeitung durch LLM geeignet. Dies ändert sich, daher sollten Unternehmen bereit sein, wenn neue multimodale Lösungen auftauchen. Ebenso fehlt es noch an Werkzeugen, aber dem Bereich wird viel Aufmerksamkeit gewidmet, sodass große Fortschritte erzielt werden. Es geht voran!


Nachdem die größten Probleme grundlegend gelöst wurden, ist der Hype um First-Party-Daten zurück, Baby! Unternehmen müssen sich keine Sorgen mehr über Datenschutzverletzungen durch Dritte machen und sind auch nicht mehr auf die großen Technologieunternehmen angewiesen, um ihre Kunden kennenzulernen. Es ist damit zu rechnen, dass First-Party-Daten in diesem Jahr explodieren werden, da Unternehmen endlich alle Vorteile nutzen – insbesondere mit Llama 3 in den Startlöchern. Trotz all seiner Versprechen besteht das größte Potenzial von Llama 3 vielleicht darin, das First-Party-Datenproblem ein für alle Mal zu lösen.