paint-brush
Wenn die Trainingsdaten scheiße sind, ist es auch die KI selbstvon@mytiki
751 Lesungen
751 Lesungen

Wenn die Trainingsdaten scheiße sind, ist es auch die KI selbst

von mytiki.com5m2023/05/31
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

Viele Trainingsdaten sind scheiße. Ich habe den Zusammenhang zwischen dem Ausnutzen von Trainingsdaten und dem Verkauf von Gillette-Rasierern noch nicht herausgefunden, kann mir aber vorstellen, dass da etwas dran ist. Darüber hinaus ist es ätzend und teuer.

People Mentioned

Mention Thumbnail
featured image - Wenn die Trainingsdaten scheiße sind, ist es auch die KI selbst
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

Ein Mann leidet unter Schlaflosigkeit und rollt um 4:30 Uhr morgens aus dem Bett. Die Sonne ist noch Stunden von ihrem täglichen Debüt entfernt, aber für diesen Mann spielt das keine Rolle. Es ist nicht nötig, sich zu rasieren. Er hat es seit vier Tagen nicht mehr getan. Er zündet sich sofort eine Zigarette an – eine handgedrehte Zigarette unbekannter Herkunft (für Sie). Er schaltet das Radio ein. Schaltet es sofort aus. Dieser Moment verdient Stille. Starrt in den Spiegel. Nackt. Buck nackt. Schaut in sich hinein. Tief in sich selbst. Er drückt die Zigarette auf seinem Handrücken aus und wirft sie in die Toilette. Schließlich gleiten die Worte, die in seinem Gehirn herumrasseln, in verärgertem Murmeln über seine Lippen: „Unsere Trainingsdaten sind verdammt beschissen.“


Und es ist auch teuer!


Schauen Sie, jeder und seine Großmutter wissen, dass KI riesig ist. Vielleicht spricht deine Großmutter wahrscheinlich mehr mit der Snapchat-KI als mit dir. So oder so, auch wenn KI sicherlich einen Unterhaltungsfaktor bietet, kann sie vor allem ausgesprochen nützlich sein. Und Unternehmen führen KI-Initiativen in beispiellosem Tempo ein. Ich weiß, dass die Welt keinen weiteren Blog über das Wachstum der KI braucht, aber ich werde es gleich aufmischen.


Bedenken Sie zunächst Folgendes: Im Jahr 1923 betrachteten nur 0 % der Unternehmen künstliche Intelligenz als eine hohe Priorität für ihr Unternehmen. Wow. Im Jahr 2020 legten 54 % der befragten IT-Experten großen Wert auf KI. Bis Ende 2022 war diese Zahl auf 69 % (gut) gestiegen , ein Anstieg von 15 % in nur zwei Jahren.


Aber fast die Hälfte (47 %) der KI/ML-Nutzer haben ihre Initiativen in den letzten zwei Jahren begonnen und 78 % der Befragten waren über die Ideenfindungsphase hinaus in die Umsetzung gelangt. Was bedeutet das? Statistisch gesehen gibt es viele Unternehmen, die KI-Programme und -Initiativen durchführen, völlige Neulinge auf diesem Gebiet sind und wahrscheinlich keine Ahnung haben, was sie tun. Wie viel Prozent der 47 % sind das alte Chemiker-Meme? Nun, das kann ich Ihnen nicht beantworten. Was ich Ihnen sagen kann, ist, dass die größte gemeldete Herausforderung bei der KI/ML-Reise von Unternehmen der Mangel an qualifizierten Talenten ist (67 %), gefolgt vom Versagen von Algorithmen und Modellen (61 %). Wenn es um die Einführung von KI geht, sind die Implementierungskosten das am häufigsten genannte Hindernis. Und was nimmt den größten Teil des KI-Budgets ein? Beschaffung und Implementierung von Schulungsdaten, Einchecken von 13 % des Budgets.


Viele Daten sind schlichtweg schlecht . Es ist unzuverlässig, schwer zu verwalten und es ist durchaus möglich, dass die KI auf gewaschenen Daten trainiert wird, was bedeutet, dass die zum Trainieren des Modells verwendeten Daten von einem anderen KI-Modell stammen, das bereits auf lückenhaften Daten trainiert wurde. Vielen Dank an Olga Mack für die Einführung in diese Terminologie.


Die Daten sind also schlecht, sie sind teuer, sie könnten einem T-Shirt mit Tippfehlern entsprechen, das in einem Secondhand-Laden gekauft wurde (ein Gruß an das Nomar „Garciapara“ Red Sox-Shirt meines Freundes), und eine riesige Schar von Unternehmen, die KI implementieren, sind neu und es fehlen die Ressourcen und das Talent, um die Dinge zum Laufen zu bringen, geschweige denn, sie nachhaltig zu halten.


Zu diesem Zweck sind satte 87 % der Führungskräfte bereit, mehr für hochwertigere Trainingsdaten zu zahlen , während 66 % voraussagen, dass ihr Bedarf an Trainingsdaten nur steigen wird, wohingegen 0 % von ihnen einen Rückgang prognostizieren. Dies ist eine Steigerung von 0 % gegenüber meiner Scheinumfrage von 1923.


Mehr Zahlen sagen Sie? Weitere Nummern erhalten Sie. Im Jahr 2022 beliefen sich die weltweiten Ausgaben für künstliche Intelligenz auf rund 118 Milliarden US-Dollar . Bis 2026 soll die Zahl 300 Milliarden US-Dollar erreichen. 13 % von 300 Milliarden US-Dollar sind… 39 Milliarden US-Dollar. Jetzt weiß ich, dass Statistiken nicht genau so funktionieren, also ärgern Sie mich nicht. Kurz gesagt: Die weltweiten Ausgaben für Trainingsdaten für KI sind eine Multimilliarden-Dollar-Industrie. Bedenken Sie, dass 66 % dieser Führungskräfte mit einem steigenden Bedarf an Trainingsdaten rechnen und 87 % bereit sind, mehr für qualitativ hochwertigere Daten auszugeben … nun, Sie verstehen, worum es geht.

Weitere Faktoren

Darüber hinaus ist die Beschaffung verlässlicher Daten im Jahr 2023 deutlich schwieriger als in der Vergangenheit. Datenschutzinitiativen wie DSGVO und CCPA zielen darauf ab, Verbraucherdaten zu schützen. Große Tech-Player wie Google und Apple erschweren die Datenerfassung durch Dritte zunehmend. In den laufenden Rechtsstreitigkeiten stehen KI-Trainingsdaten im Vordergrund, wobei die weitverbreitete Meinung besteht, dass das Scrapen von Webdaten zum Trainieren von KI und die Behauptung, sie seien „faire Verwendung“, bald der Vergangenheit angehören könnten. Ein treffender Vergleich könnte der Napster-Fallout der frühen 2000er Jahre sein. Während es damals klar war, dass Napster durch die illegale Weitergabe von urheberrechtlich geschütztem Material und geistigem Eigentum angetrieben wurde, müssen Unternehmen, die KI einsetzen, einen ähnlichen Weg in Betracht ziehen. Der Sand könnte durch die Sanduhr dringen, und „To Whom the Bell Tolls“ von Metallica wird wahrscheinlich für diejenigen interessant sein, die sich nicht die Mühe gemacht haben, ihre KI-Initiativen zukunftssicher zu machen.

Ein neues Spotify

Was ist also die Lösung? Nun, es ist kompliziert. Doch aus der Asche von Napster, Kazaa und Limewire entstand Spotify, das mit der Prämisse operierte, etwas „Besseres als Piraterie“ aufzubauen. Dazu gehörte die Aushandlung von Verträgen mit Plattenfirmen und Agenturen zur ordnungsgemäßen Lizenzierung der auf Spotify-Plattformen gestreamten Inhalte. Ist das Gleiche auch für KI möglich? Wir denken schon. 85 % der Verbraucher tauschen Daten gegen Gutscheine oder Rabatte ein. Dies ebnet den Weg für ein Datenerfassungsmodell, das Benutzer zur Teilnahme anregt und wertvolle Zero-Party-Daten generiert, die für eine Vielzahl von Dingen verwendet werden können, einschließlich der Schulung von KI. Wir haben etwas entwickelt, um Zero-Party-Daten zu lizenzieren, und in Zusammenarbeit mit Snowflake sogar eine Funktion entwickelt, die es Unternehmen ermöglicht, lizenzierte Zero-Party-Daten erneut aufzulisten. Basierend auf dem Wunsch nach qualitativ hochwertigeren Trainingsdaten könnte sich dies als gigantische Chance für eine zusätzliche Einnahmequelle erweisen, die auch die Kundenbindung stärken kann. Aber genug Markenkram. Mehr erfahren Sie hier .

In Summe…

Viele Trainingsdaten sind scheiße. Ich habe den Zusammenhang zwischen dem Ausnutzen von Trainingsdaten und dem Verkauf von Gillette-Rasierern noch nicht herausgefunden, kann mir aber vorstellen, dass da etwas dran ist. Darüber hinaus ist es ätzend und teuer. Immer mehr Unternehmen investieren Zeit und Ressourcen in die Implementierung von KI, aber viele von ihnen sind neu im Spiel und verfügen nicht über das richtige Team, die Infrastruktur und die richtigen Daten, um ihre Initiativen zu optimieren. Rechtsstreitigkeiten haben den „alten Methoden“ der Datenbeschaffung und -erfassung für KI-Trainingsdaten einen Strich durch die Rechnung gemacht, und Datenschutzinitiativen haben es für Unternehmen immer schwieriger gemacht, die Daten zu sammeln, die sie zur Förderung ihres Geschäfts benötigen. Wenn man sich von Unternehmen wie Spotify inspirieren lässt, ist es bekanntermaßen möglich, den rechtlichen Aspekt zu überwinden. Angesichts der Verbraucherstimmung zum Datenaustausch und dem Wunsch nach mehr Personalisierung und Individualisierung ihrer Markenerlebnisse haben wir (neben vielen anderen Anwendungsfällen) einen riesigen Markt für die Lizenzierung von Zero-Party-Daten für den Weiterverkauf erkannt. Hey, was sind nochmal 13 % von 300 Milliarden US-Dollar?


Geschrieben von Shane Faria, Mitbegründer von @TIKI