Große Sprachmodelle (LLMs) wie GPT-3 haben sich schnell zu einem der bedeutendsten technologischen Fortschritte im Bereich der Verarbeitung natürlicher Sprache (NLP) entwickelt.
LLMs haben gezeigt, dass sie ein erhebliches Potenzial zur Unterstützung bei einer Vielzahl von Aufgaben haben, darunter Sprachübersetzung, Textzusammenfassung, Beantwortung von Fragen, Informationsabruf, Empfehlungsmaschine, sprachbasierte Robotik und viele andere.
Während Large Language Models (LLMs) wie ChatGPT bei verschiedenen Aufgaben der Verarbeitung natürlicher Sprache eine außergewöhnliche Leistung gezeigt haben, wirft ihr potenzieller Missbrauch ethische Bedenken auf, die angegangen werden müssen . Mit der Fähigkeit, kohärente und kontextrelevante Texte zu generieren, könnten LLMs dazu genutzt werden, Fake News zu produzieren oder Fehlinformationen zu verbreiten, was schwerwiegende Folgen für die Gesellschaft haben könnte.
Ein solcher Missbrauch könnte zu einem Vertrauensverlust in die Nachrichtenmedien und einer verzerrten Wahrnehmung der Realität führen. Darüber hinaus könnten LLMs für Plagiate, den Diebstahl geistigen Eigentums oder gefälschte Produktbewertungen genutzt werden, was Verbraucher irreführen und sich negativ auf Unternehmen auswirken könnte. Darüber hinaus könnte die Fähigkeit von LLMs, Webinhalte für böswillige Zwecke zu manipulieren, etwa durch die Erstellung gefälschter Social-Media-Konten oder die Beeinflussung von Online-Diskussionen, katastrophale Auswirkungen auf die öffentliche Meinung und den politischen Diskurs haben.
Angesichts der wachsenden Besorgnis ist es wahrscheinlich an der Zeit, die Frage zu stellen:
Einerseits vergleicht DetectGPT von Stanford die Wahrscheinlichkeit, die ein Modell dem geschriebenen Text zuordnet, mit der einer Änderung des Textes, um ihn zu erkennen.
Andererseits werden von Tom Goldsteins Gruppe entwickelte wasserzeichenbasierte Ansätze vorgeschlagen, um die Erkennbarkeit effektiv zu erhöhen.
Allerdings hat Sadasivan gezeigt, dass Wasserzeichen (die nicht umfassend trainiert sind) anfällig für Paraphrasierungs- und Spoofing-Angriffe sind et al. und Krishna et al.
In der Community gab es in letzter Zeit eine hitzige Debatte darüber, ob KI-generierte Texte von menschengenerierten Texten unterschieden werden können, zusammen mit Diskussionen darüber, ob es uns nicht gelingen wird, „die KI zu behalten“ und es zu einer AGI-Apokalypse kommen wird, da wir die KI nicht erkennen können. generierte Inhalte. Technologieführer forderten sogar eine sechsmonatige Aussetzung der LLM-Schulung (Large Language Model).
Akademiker wie Yann Lecun und Andrew Ng sind gegen dieses KI-Verbot.
Yann LeCun , Vizepräsident und Chef-KI-Wissenschaftler bei Meta, zitiert:
„Warum den Fortschritt des Wissens verlangsamen?“
In dieser kritischen Zeit untersuchen wir die Erkennbarkeit von KI-generierten Texten aus der Perspektive der Informationstheorie. Wir liefern Beweise für Optimismus: Es sollte fast immer möglich sein, zu erkennen, ob die Textverteilungen von Mensch und Maschine über den gesamten Träger genau gleich sind.
Die Erkennbarkeit beruht auf einem präzisen Kompromiss mit Chernoff-Informationen und weiteren Beobachtungen. Wir beweisen eine erreichbare Obergrenze von AUROC (die zwischen 0 und 1 liegt, höher bedeutet besser nachweisbar) über einen auf Wahrscheinlichkeitsverhältnissen basierenden Detektor unter Verwendung mehrerer Stichproben. Mit zunehmender Probenanzahl erhöht sich AUROC exponentiell auf 1.
Diese informationstheoretischen Ergebnisse basieren auf einer Schlüsselgröße namens Chernoff-Information, die als Leitfaden für die Gestaltung von Wasserzeichen von LLMs dienen kann. Experimentell haben wir bestätigt, dass die Nichterkennbarkeit der Erkennung auf Wortebene erkennbar wird, wenn auf die Erkennung auf Absatzebene umgestellt wird.
Diese informationstheoretischen Ergebnisse basieren auf einer Schlüsselgröße namens Chernoff-Information, die das Design von Wasserzeichen von LLMs leiten kann. Wir haben Beispielkomplexitätsgrenzen abgeleitet, um die Möglichkeit der KI-generierten Texterkennung zu bestimmen.
Die Nichterkennbarkeit auf Wortebene wird erkennbar, wenn bei mehreren Datensätzen auf die Erkennung auf Absatzebene umgeschaltet wird. Wenn wir die Länge der Erkennung erhöhen, erhöht sich die Genauigkeit der ZeroShot-Erkennung erheblich.
Letztendlich glauben wir, dass der richtige Weg, mit dem Missbrauch von #LLMs umzugehen, darin besteht, ihn zu beheben, anstatt ihn zu verbieten.
Doch selbst als Jugendlicher konnte ich mich nicht dazu durchringen zu glauben, dass Unwissenheit die Lösung sei, wenn Wissen eine Gefahr darstellte. Für mich schien es immer, dass die Lösung Weisheit sein musste. Du hast dich nicht geweigert, auf die Gefahr zu blicken, sondern hast gelernt, sicher damit umzugehen.
Isaac asimov
Hinweis: Dies ist der erste Schritt und unsere Studie erfordert weitere Forschung zur Entwicklung von Rahmenwerken und Richtlinien, die Innovationen anregen und eine ethische Nutzung dieser leistungsstarken Tools gewährleisten.
Gastautoren:
Souradip Chakraborty , Ph.D. Der Doktorand an der University of Maryland , Amrit Singh Bedi , Forschungswissenschaftler an der University of Maryland, Sicheng Zhu, Bang An, Dinesh Manocha und Furong Huang erforschen die Erkennbarkeit von KI-generierten Texten durch eine informationstheoretische Linse. Alle in diesem Artikel geäußerten Meinungen sind ausschließlich die der Autoren.
Dieser Artikel wurde ursprünglich von Souradip Chakraborty, Ph.D. veröffentlicht. Doktorand an der University of Maryland, Amrit Singh Bedi, Forschungswissenschaftler, University of Maryland, Sicheng Zhu, Bang An, Dinesh Manocha und Furong Huang bei The Tech Panda.