Generative KI: Experteneinblicke in Entwicklung, Herausforderungen und zukünftige Trends

KI erregt seit einiger Zeit die Aufmerksamkeit von Technikbegeisterten und Branchenexperten. In diesem Artikel gehen wir auf die Entwicklung der KI ein und beleuchten die damit verbundenen Probleme sowie die sich abzeichnenden Trends. Angesichts des exponentiellen Wachstums der wird es immer wichtiger, ihre Fähigkeiten umfassend zu verstehen, um ihren potenziellen Nutzen zu maximieren. Volodymyr Getmanskyi, Leiter des Data Science Office bei ELEKS, befasst sich mit diesem komplexen Bereich und gibt seine Erkenntnisse und sein Fachwissen zu diesem Trendthema weiter. KI-Technologie KI vs. GenKI – Wichtige Unterschiede erklärt Erstens ist generative KI ein Teil des KI-Bereichs. Während sich KI hauptsächlich auf die Automatisierung oder Optimierung menschlicher Aufgaben konzentriert, konzentriert sich generative KI auf die Erstellung verschiedener Objekte. Typische KI-Aufgaben wie der Aufbau von Konversations- oder Entscheidungsagenten, intelligente Automatisierung, Bilderkennung und -verarbeitung sowie Übersetzung können mit GenAI verbessert werden. Es ermöglicht die Generierung von Texten und Berichten, Bildern und Designs, Sprache und Musik und mehr. Infolgedessen ist die Integration generativer KI in alltägliche Aufgaben und Arbeitsabläufe zunehmend nahtloser und wirkungsvoller geworden. Man könnte sich fragen, welche Art der Datengenerierung am beliebtesten ist. Die Antwort ist jedoch nicht so einfach. Multimodale Modelle ermöglichen die Generierung unterschiedlicher Datentypen auf der Grundlage unterschiedlicher Eingaben. Selbst wenn wir Nutzungsstatistiken hätten, wäre es daher schwierig, den am häufigsten generierten Datentyp zu ermitteln. Basierend auf den aktuellen Geschäftsanforderungen gehören jedoch große Sprachmodelle zu den beliebtesten. Diese Modelle können sowohl Text- als auch numerische Informationen verarbeiten und für Aufgaben wie Fragen-Beantwortung, Texttransformation (Übersetzung, Rechtschreibprüfung, Anreicherung) und Berichterstellung verwendet werden. Diese Funktionalität ist ein wesentlicher Bestandteil der Betriebsaktivitäten von Unternehmen aller Branchen, im Gegensatz zur weniger verbreiteten Bild- oder Videoerstellung. Große Sprachmodelle: Von der Textgenerierung zu modernen Giganten Large Language Models (LLMs) sind riesige Transformatoren, eine Art Deep-Learning-Modell oder, vereinfacht ausgedrückt, spezielle neuronale Netzwerke. Im Allgemeinen haben LLMs zwischen 8 und 70 Milliarden Parameter und werden anhand riesiger Datenmengen trainiert. Crawl beispielsweise, einer der größten Datensätze, enthält Webseiten und Informationen aus dem letzten Jahrzehnt, was Dutzende Petabyte an Daten entspricht. Zum Vergleich: Der Titanic-Datensatz, der aus rund 900 Beispielen besteht, die beschreiben, welche Passagiere den Schiffbruch der Titanic überlebt haben, ist weniger als 1 MB groß, und das Modell, das die Überlebenswahrscheinlichkeit effizient vorhersagen kann, verfügt möglicherweise über etwa 25 bis 100 Parameter. LLMs haben ebenfalls eine lange Geschichte und sind nicht plötzlich aufgetaucht. Beispielsweise verwendete die Datenwissenschaftsabteilung von ELEKS 2019 GPT-2 zur Antwortgenerierung, während das erste GPT-Modell (generative pre-trained transformer) 2018 veröffentlicht wurde. Aber selbst das war nicht das erste Auftreten der Textgenerierungsmodelle. Bevor die Transformer-Ära 2017 begann, wurden Aufgaben wie die Textgenerierung mit unterschiedlichen Ansätzen angegangen, beispielsweise: Generative Adversarial Networks – ein Ansatz, bei dem der Generator auf der Grundlage des Feedbacks eines anderen Netzwerks oder Diskriminators trainiert, Autoencoder – ein allgemeiner und bekannter Ansatz, bei dem das Modell versucht, die Eingabe zu reproduzieren. Im Jahr 2013 wurden effiziente Vektorworteinbettungen wie word2vec vorgeschlagen, und sogar schon früher, im letzten Jahrhundert, gab es Beispiele für probabilistische und musterbasierte Generierung, wie etwa den Eliza-Chatbot im Jahr 1964. Wie wir also sehen können, gibt es die Aufgaben und Versuche zur Generierung natürlicher Sprache (NLG) schon seit vielen Jahren. Die meisten aktuellen LLM-Benutzer wie ChatGPT, GPT, Gemini, Copilot, Claude usw. sind sich dessen wahrscheinlich nicht bewusst, da die Ergebnisse nicht so vielversprechend waren wie nach der ersten Veröffentlichung von InstructGPT, bei der OpenAI den öffentlichen Zugriff vorschlug und dafür wirbt. Nach der ersten Veröffentlichung von ChatGPT im November 2022, die in den sozialen Medien millionenfach erwähnt wurde. Die Debatte um die KI-Regulierung: Innovation und Sicherheit im Gleichgewicht Heutzutage ist die KI-Community in Bezug auf KI-Risiken und Compliance-Anforderungen gespalten. Einige plädieren für KI-Regulierungen und Sicherheitskontrollen, andere sind dagegen. Zu den Kritikern zählt Yann LeCun, Chef von Meta (Facebook) AI, der erklärte, dass solche KI-Agenten nicht einmal über eine Intelligenz verfügen, die mit der eines Hundes vergleichbar sei. Die Meta AI Group (ehemals Facebook AI Research) ist einer der Entwickler kostenloser und öffentlich verfügbarer KI-Modelle wie Detectron, Llama, SegmentAnything und ELF, die mit nur einigen kommerziellen Einschränkungen kostenlos heruntergeladen und verwendet werden können. Der offene Zugang wurde von der weltweiten KI-Community definitiv positiv aufgenommen. Diese Systeme sind noch immer sehr begrenzt. Sie haben keinerlei Verständnis für die zugrunde liegende Realität der echten Welt, weil sie ausschließlich mit Texten, und zwar riesigen Mengen an Texten, trainiert sind. — Yann LeCun, leitender KI-Wissenschaftler bei Meta Auch von offizieller Seite wurden Bedenken hinsichtlich der Regulierung geäußert. So warnte etwa der französische Präsident Emmanuel Macron, dass die wegweisende EU-Gesetzgebung zur Förderung der Entwicklung künstlicher Intelligenz europäische Technologieunternehmen gegenüber ihren Konkurrenten in den USA, Großbritannien und China benachteiligen könnte. Auf der anderen Seite gibt es Befürworter einer Regulierung der KI. Laut Elon Musk, CEO von Tesla, ist KI eines der größten Risiken für die Zukunft der Zivilisation. Das ist dasselbe wie bei nichtöffentlichen/bezahlten KI-Vertretern, aber hier kann der wirkliche Reiz einer solchen Position der Marktwettbewerb sein – um die Verbreitung konkurrierender KI-Modelle einzuschränken. Überblick über das EU-Gesetz zur künstlichen Intelligenz Im Jahr 2023 verabschiedete das EU-Parlament den KI-Act, das erste umfassende Regelwerk für den Einsatz von KI-Technologien innerhalb der Europäischen Union. Dieses Gesetz schafft einen Präzedenzfall für eine verantwortungsvolle und ethische Entwicklung und Implementierung von KI. Wichtige Themen des EU-KI-Gesetzes: Erstens gibt es logische Beschränkungen für personenbezogene Daten, wie sie bereits in verschiedenen Standards dargelegt sind, beispielsweise in der DSGVO (EU), APPI (Japan), HIPPA (USA) und PIPEDA (Kanada), die die Verarbeitung personenbezogener Daten, biometrische Identifizierung usw. abdecken. Damit verbunden sind Bewertungssysteme oder jegliche Form der Kategorisierung von Personen, bei denen Modellverzerrungen erhebliche Auswirkungen haben und potenziell zu Diskriminierung führen können. Schließlich gibt es noch die Verhaltensmanipulation, bei der einige Modelle versuchen können, beliebige geschäftliche KPIs (Conversion-Raten, Mehrkonsum) zu erhöhen. Vorbereitung und Verwendung von KI-Modellen: Herausforderungen und Bedenken Es gibt viele Probleme und Bedenken im Zusammenhang mit der Modellvorbereitung, -nutzung und anderen versteckten Aktivitäten. Beispielsweise bestehen die für das Modelltraining verwendeten Daten aus persönlichen Daten, die für solche Zwecke nicht autorisiert wurden. Globale Anbieter bieten Dienste an, die sich auf private Korrespondenz (E-Mails) oder andere private Vermögenswerte (Fotos, Videos) konzentrieren, die im versteckten Modus ohne Ankündigung für das Modelltraining verwendet werden können. Kürzlich wurde dem CTO von OpenAI eine Frage zur Verwendung privater Videos für das SORA-Training gestellt, einem nicht öffentlichen OpenAI-Dienst zum Generieren von Videos auf der Grundlage von Textabfragen. Sie konnte jedoch keine klare Antwort geben. Ein weiteres Problem kann mit der Datenkennzeichnung und -filterung zusammenhängen – wir kennen die persönlichen Merkmale, Fähigkeiten, Stereotypen und Kenntnisse der beteiligten Spezialisten nicht, und dies kann zu unerwünschten Aussagen/Inhalten in den Daten führen. Darüber hinaus gab es ein ethisches Problem – es gab Informationen, dass einige der globalen GenAI-Anbieter Kennzeichner aus Kenia einbezogen und sie unterbezahlten. Modellverzerrungen und sogenannte Modellhalluzinationen, bei denen die Modelle falsche oder teilweise falsche Antworten liefern, die perfekt zu sein scheinen, sind ebenfalls Probleme. Vor kurzem arbeitete das ELEKS-Datenwissenschaftsteam an der Verbesserung der Retrieval Augmented Generation (RAG)-Lösung unserer Kunden, die das Anzeigen einiger Daten für das Modell umfasst, und das Modell fasst diese Daten zusammen oder liefert Antworten auf der Grundlage dieser Daten. Während des Prozesses stellte unser Team fest, dass bei vielen modernen Online-Modellen (größer, aber kostenpflichtig) oder Offline-Modellen (kleiner und öffentlich) die Unternehmensnamen und -nummern verwechselt werden. Wir hatten Daten mit Jahresabschlüssen und Prüfungsinformationen für einige Unternehmen und die Anforderung war, den Umsatz von Unternehmen A anzuzeigen. Der Umsatz von Unternehmen A war jedoch nicht direkt in den Daten enthalten und musste berechnet werden. Die meisten Modelle, darunter auch die führenden im LLM Arena-Benchmark, antworteten mit dem falschen Umsatzniveau, das zu Unternehmen B gehörte. Dieser Fehler trat aufgrund teilweise ähnlicher Zeichenkombinationen in Unternehmensnamen wie „Ltd“, „Service“ usw. auf. Hier half auch das prompte Lernen nicht weiter; auch eine zusätzliche Aussage wie „wenn du dir unsicher bist oder etwas fehlt, antworte bitte mit weiß nicht“ löste das Problem nicht. Eine weitere Sache betrifft die numerische Darstellung – die LLMs nehmen Zahlen als Token wahr, oder sogar viele Token, wie etwa 0,33333, können gemäß dem Byte-Paar-Kodierungsansatz als „0,3“ und „3333“ kodiert werden, sodass es schwierig ist, mit komplizierten numerischen Transformationen ohne zusätzliche Adapter umzugehen. Die kürzlich erfolgte Ernennung des pensionierten US-Generals Paul M. Nakasone in den Vorstand von OpenAI hat gemischte Reaktionen hervorgerufen. Einerseits wird Nakasones umfangreicher Hintergrund in den Bereichen Cybersicherheit und Geheimdienst als bedeutender Vorteil angesehen, da er wahrscheinlich robuste Strategien zur Abwehr von Cyberangriffen umsetzen kann, was für ein Unternehmen, das sich mit KI-Forschung und -Entwicklung beschäftigt, von entscheidender Bedeutung ist. Andererseits bestehen Bedenken hinsichtlich der möglichen Auswirkungen von Nakasones Ernennung aufgrund seines militärischen und nachrichtendienstlichen Hintergrunds (ehemaliger Leiter der National Security Agency (NSA) und des US Cyber Command), die zu verstärkter staatlicher Überwachung und Intervention führen könnte. Es besteht die Befürchtung, dass Nakasone Regierungsbehörden einen umfassenderen Zugriff auf die Daten und Dienste von OpenAI ermöglichen könnte. Daher befürchten einige, dass diese Ernennung sowohl die Nutzung des Dienstes, die Daten, die Anfragen von Regierungsbehörden als auch die Einschränkungen des Dienstes selbst beeinträchtigen könnte. Schließlich gibt es noch weitere Bedenken, wie etwa die Anfälligkeit des generierten Codes, widersprüchliche Vorschläge, unangemessene Nutzung (Bestehen von Prüfungen oder Erhalt von Anweisungen zum Erstellen der Bombe) und mehr. So verbessern Sie die LLM-Nutzung für robustere Ergebnisse Zunächst muss entschieden werden, ob die Verwendung von LLM erforderlich ist und ob es sich um ein allgemeines Basismodell handeln sollte. In manchen Fällen sind der Zweck und die zerlegte Aufgabe nicht so kompliziert und können durch einfachere Offline-Modelle wie Rechtschreibfehler, musterbasierte Generierung und Parsing/Informationsabruf gelöst werden. Darüber hinaus kann das allgemeine Modell Fragen beantworten, die nicht mit dem beabsichtigten Zweck der LLM-Integration zusammenhängen. Es gibt Beispiele, bei denen das Unternehmen die Online-LLM-Integration (z. B. GPT, Gemini) ohne zusätzliche Adapter (Pre- und Postprozessoren) förderte und auf unerwartetes Verhalten stieß. Beispielsweise bat der Benutzer einen Chatbot eines Autohändlers, das Python-Skript zum Lösen der Navier-Stokes-Fluidströmungsgleichung zu schreiben, und der Chatbot antwortete: „Natürlich! Das mache ich.“ Als nächstes stellt sich die Frage, welches LLM verwendet werden soll – öffentlich und offline oder kostenpflichtig und offline. Die Entscheidung hängt von der Komplexität der Aufgabe und den Rechenkapazitäten ab. Online- und kostenpflichtige Modelle sind größer und leistungsfähiger, während Offline- und öffentliche Modelle erhebliche Kosten für das Hosting erfordern und oft mindestens 40 GB VRAM benötigen. Bei der Verwendung von Online-Modellen ist eine strikte Kontrolle der vertraulichen Daten, die mit dem Anbieter geteilt werden, unerlässlich. Typischerweise erstellen wir für solche Dinge ein Vorverarbeitungsmodul, das persönliche oder vertrauliche Informationen wie Finanzdetails oder private Vereinbarungen entfernen kann, ohne die Abfrage wesentlich zu ändern, um den Kontext zu bewahren und bei Bedarf Informationen wie die Unternehmensgröße oder den ungefähren Standort beizubehalten. Der erste Schritt zur Verringerung der Modellverzerrung und Vermeidung von Halluzinationen besteht darin, die richtigen Daten oder den richtigen Kontext auszuwählen oder die Kandidaten zu bewerten (z. B. für RAG). Manchmal sind Vektordarstellungen und Ähnlichkeitsmetriken wie Kosinusähnlichkeit möglicherweise nicht effektiv. Dies liegt daran, dass kleine Abweichungen, wie das Vorhandensein des Wortes „Nein“ oder geringfügige Unterschiede in den Namen (z. B. Oracle vs. Orache), erhebliche Auswirkungen haben können. Was die Nachbearbeitung betrifft, können wir das Modell anweisen, mit „weiß nicht“ zu antworten, wenn die Sicherheit gering ist, und einen Verifizierungsadapter entwickeln, der die Genauigkeit der Antworten des Modells prüft. Neue Trends und zukünftige Richtungen im LLM-Bereich Im Bereich der LLMs gibt es zahlreiche Forschungsrichtungen und wöchentlich erscheinen neue wissenschaftliche Artikel. Diese Artikel decken eine Reihe von Themen ab, darunter Transformer-/LLM-Optimierung, Robustheit, Effizienz (z. B. wie Modelle verallgemeinert werden können, ohne ihre Größe oder Parameteranzahl wesentlich zu erhöhen), typische Optimierungstechniken (z. B. Destillation) und Methoden zur Erhöhung der Eingabelänge (Kontextlänge). Zu den wichtigsten in der letzten Zeit zählen Mixture-of-Tokens, Mixture-of-Experts, Mixture-of-Depth, Skeleton-of-Thoughts, RoPE und Chain-of-Thoughts-Prompting. Lassen Sie uns kurz beschreiben, was diese jeweils bedeuten. Der ist eine andere Transformer-Architektur. Er hat typischerweise eine dynamische Schicht, die aus mehreren (8 in Mixtral) oder vielen dichten/abgeflachten Schichten besteht, die unterschiedliches Wissen repräsentieren. Diese Architektur umfasst Switch- oder Routing-Methoden, beispielsweise eine Gating-Funktion, die es ermöglicht, auszuwählen, welche Token von welchen Experten verarbeitet werden sollen, was zu einer Reduzierung der Anzahl von Schichten („Experten“) pro Token oder Token-Gruppe auf einen Experten (Switch-Schicht) führt. Mixture-of-Experts (MoEs) Dies ermöglicht eine effiziente Modellskalierung und verbessert die Leistung durch die Verwendung verschiedener Untermodelle (Experten) für Eingabeteile, was es effektiver macht als die Verwendung einer allgemeinen und sogar größeren Ebene. Die ist mit der erwähnten Experten-Mischung verbunden, bei der wir Token nach ihrer Wichtigkeit (Softmax-Aktivierung) für einen bestimmten Experten gruppieren. Token-Mischung Die Technik ist auch mit den erwähnten MoEs verbunden, insbesondere in Bezug auf das Routing. Sie zielt darauf ab, den Rechengraphen (Rechenbudget) zu verkleinern, indem sie ihn auf die Top-Token beschränkt, die im Aufmerksamkeitsmechanismus verwendet werden. Die Token, die für die jeweilige Sequenz als weniger wichtig erachtet werden (z. B. Interpunktion), werden übersprungen. Dies führt zu einer dynamischen Token-Teilnahme, aber die Anzahl k (Top-k-Token) der Token ist statisch, sodass wir die Größen entsprechend dem Rechenbudget (oder k, das wir gewählt haben) verringern können. Mixture-of-Depth- Das ist effizient für die LLM-Skalierung und ermöglicht die parallele Generierung von Teilen der Vervollständigung (Modellantwort) basierend auf der primären Skelettanforderung, die aus parallelisierbaren Punkten besteht. Gedankengerüst Es gibt noch weitere Herausforderungen, beispielsweise die Größe der Eingaben. Benutzer möchten einem LLM oft große Mengen an Informationen bereitstellen, manchmal sogar ganze Bücher, während die Anzahl der Parameter unverändert bleibt. Hier sind zwei bekannte Methoden und , die die Eingabeeinbettung mithilfe der dynamischen Positionskodierung und des Skalierungsfaktors extrapolieren oder möglicherweise interpolieren können, sodass Benutzer die Kontextlänge im Vergleich zu der, die für das Training verwendet wurde, erhöhen können. , ALiBi (Attention Layer with Linear Biases) RoPE (Rotary Position Embedding) Die Aufforderung, die ein Beispiel für eine Few-Shot-Aufforderung ist (der Benutzer übernimmt die Aufsicht für LLM im Kontext), zielt darauf ab, die Frage in mehrere Schritte zu zerlegen. Meistens wird sie auf Denkprobleme angewendet, beispielsweise wenn Sie die Logik in einen Rechenplan aufteilen können. Das Beispiel aus dem Originalpapier: „Roger hat 5 Tennisbälle. Er kauft 2 weitere Dosen Tennisbälle. Jede Dose hat 3 Tennisbälle. Wie viele Tennisbälle hat er jetzt? Gedankenplan: Roger hat mit 5 Bällen angefangen. 2 Dosen mit je 3 Tennisbällen sind 6 Tennisbälle. 5 + 6 = 11. Die Antwort ist 11.“ Gedankenketten- Daneben gibt es noch viele andere Bereiche, und jede Woche erscheinen mehrere neue wichtige Arbeiten dazu. Manchmal ist es für Datenwissenschaftler ein zusätzliches Problem, all diese Herausforderungen und Erfolge zu verfolgen. Was können Endbenutzer von den neuesten KI-Entwicklungen erwarten? Es gibt auch viele Trends. Um es zusammenzufassen: Es könnte strengere KI-Vorschriften geben, die verschiedene Lösungen einschränken und schließlich zu einer Verallgemeinerung oder Feldabdeckung verfügbarer Modelle führen werden. Bei anderen Trends geht es hauptsächlich um die Verbesserung bestehender Ansätze, beispielsweise die Verringerung der Anzahl der benötigten Parameter und des Speicherbedarfs (z. B. Quantisierung oder sogar 1-Bit-LLMs – bei denen jeder Parameter ternär ist (die Werte -1, 0, 1 annehmen kann)). Wir können also davon ausgehen, dass Offline-LLMs oder Diffusion Transformers (DiT – moderne Diffusionsmodelle und Nachfolger von Visual Transformers (hauptsächlich für Aufgaben zur Bildgenerierung)) sogar auf unseren Telefonen laufen (heutzutage gibt es mehrere Beispiele, zum Beispiel das Phi-2-Modell von Microsoft mit einer Generierungsgeschwindigkeit von etwa 3–10 Tokens pro Sekunde auf modernen Android-Geräten auf Snapdragon-Basis). Außerdem wird es eine erweiterte Personalisierung geben (unter Verwendung aller bisherigen Benutzererfahrungen und Rückmeldungen, um passendere Ergebnisse zu liefern), sogar bis hin zu digitalen Zwillingen. Viele andere Dinge, die jetzt schon verfügbar sind, werden verbessert worden sein – Assistenten/Modellanpassung und Marktplätze, ein Modell für alles (multimodale Ausrichtung), Sicherheit (ein effizienterer Mechanismus, um mit persönlichen Daten zu arbeiten, sie zu verschlüsseln usw.) und andere. Sind Sie bereit, das Potenzial der KI für Ihr Unternehmen zu erschließen? . Kontaktieren Sie einen ELEKS-Experten