Co kilka miesięcy ktoś ogłasza, że „AI zastąpi nas wszystkich”. Ponieważ pracuję z nim ściśle, cały czas dostaję to pytanie. Ale przyjrzyj się bliżej: AI nie zastępuje Jest on zastępowany I jest ogromna różnica. people tasks LLMs są papugi z silnikami napędowymi Duże modele językowe, takie jak ChatGPT, Claude i DeepSeek, są zbudowane, aby przewidzieć następny token tak przekonująco, że czuje się, jakby ktoś go napisał, i są genialne w tym. Być dobrym w Nie jest to takie samo jak . sounding right being right Modele te uczą się z mieszanki książek, artykułów, repos kodu, Wikipedii, postów na forach i skrapanych stron internetowych. Niektóre z nich są przeglądane przez rówieśników. Większość z nich nie jest. Żadna armia redaktorów nie sprawdza prawdy o każdej linii. Dane są zagadkowane sprzecznościami, uprzedzeniami, przestarzałymi faktami i prostymi fabułami. Pomyśl o tym jak nauka medycyny z każdej podręcznika medycznego napisanego kiedykolwiek... i każdego forum zdrowia, każdego bloga z horoskopu i kilku stron receptur na dobrą miarę. Wzorce, które odzwierciedlają rzeczywistość, po prostu bardzo dobrze imitują język konsensusu. know Widziałem z pierwszej ręki, dlaczego to ma znaczenie. Quality Over Quantity Jakość ponad ilość W 2016 roku pracowałem nad projektem uczenia maszynowego w celu wykrycia zamkniętego złośliwego oprogramowania. Microsoft miał publiczny zestaw danych Kaggle (Microsoft Malware Classification Challenge) dla tego problemu. Przez kilka miesięcy codziennie pobierałem złośliwe oprogramowanie, pobierałem próbki w pustej skrzynce, odwracalnie inżynierowałem binary i sam je etykietowałem. Wyniki mówią głośno: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Microsoft Kaggle zbiór danych 53 proc. Mój własny ręcznie zbudowany zestaw danych 80 proc. Mój zestaw danych + dane syntetyczne 64 proc. Ten sam algorytm, ta sama rura, tylko dane się zmieniły. Podsumowując: najlepsza wydajność pochodziła z ręcznych, ekspertyzowanych danych.Dane publiczne zawierały anomalie; dane syntetyczne wprowadziły własne zniekształcenia.Jedynym sposobem na uzyskanie wysokiej jakości sygnałów było zainwestowanie czasu, wiedzy i pieniędzy w kurację. To jest przeciwieństwo tego, w jaki sposób są szkoleni LLM: skrapią wszystko i próbują się z tego uczyć, anomalie i wszystko. Jedna halucynacja z ChatGPT, opublikowana w mediach społecznościowych, zostaje udostępniona, retwitowana, ponownie zapakowana i kończy się karmieniem do następnego zestawu treningowego. . digital inbreeding Internet był już pełen treści niskiej jakości przed pojawieniem się LLM: fałszywe wiadomości, fikcyjne „how-tos”, złamany kod, tekst spamowy. W chwili obecnej, w większości zautomatyzowane filtry, niektóre ludzkie red-teaming, i wewnętrzne systemy oceny. nie ma równoważnego przeglądu w skali, bez licencjonowania, bez odpowiedzialności za złe dane. Skąd się biorą „nowe” dane? Co oczywiście prowadzi do oczywistego pytania: Kiedy publiczna sieć jest już przejęta, zanieczyszczona i coraz bardziej syntetyczna? where do we find fresh, high-quality training data Pierwsza rzecz, którą prawie każdy z nas ma "Będziemy trenować na własnych danych użytkowników" W 2023 roku spróbowałem dokładnie tego z moim startupem gamedev Myśleliśmy, że dzienniki testów beta będą doskonałym materiałem szkoleniowym: odpowiedni format, prawdziwe interakcje, bezpośrednio związane z naszą domeną. Fortune Folly Na łapówkę ? Jeden tester wyprodukował więcej danych niż piętnaście normalnych użytkowników razem wziętych, ale nie dlatego, że budowali bogatsze światy.Nieustannie starali się skierować system na treści seksualne, prośby o robienie bomb i odpowiedzi rasistowskie. pozostawione bez nadzoru, dane te będą miały Uczyłby się naśladować napastnika, a nie społeczność, której staraliśmy się służyć. zatrute To właśnie jest ten Bez aktywnego ludzkiego przeglądu i kuracji „prawdziwe dane użytkowników” mogą kodować najgorsze, a nie najlepsze, ludzkie wkłady, a twój model wiernie je odtworzy. data-poisoning problem Tag: Takeaway ChatGPT jest tylko pierwszym krokiem na drodze do „zastąpienia”.Wygląda jak ekspert we wszystkim, ale w rzeczywistości jest specjalistą od języka naturalnego. Jego przyszłość jest jak Nawet te modele, jednak nadal będą potrzebować ciągłej aktualizacji, walidacji i ludzkiej wiedzy za kulisami. ale nie zastąpią doświadczonych profesjonalistów; zmienią tylko sposób, w jaki przekazują swoją wiedzę. interface Prawdziwe „zagrożenie zastępcze” nadejdzie tylko wtedy, gdy uda nam się zbudować całą : skrapy, które zbierają dane w czasie rzeczywistym, modele recenzentów, które je weryfikują i sprawdzają fakty, i eksperckie modele, które połykają tę wyczyszczoną wiedzę. fabric of machine learning systems Ale nie sądzę, że jesteśmy blisko tego.W tej chwili już spalamy ogromne ilości energii tylko po to, aby generować ludzkie zdania.Rozszerzenie do poziomu niezbędnego dla wiedzy eksperckiej w czasie rzeczywistym, w pełni sprawdzonej, wymagałoby kolejności wielkości większej mocy obliczeniowej i energii, niż możemy realistycznie zapewnić. Widziałem obiecujące próby w medycynie, ale każda z nich opierała się na zespołach specjalistów pracujących niezliczone godziny na budowie, czyszczeniu i walidacji swoich danych. Innymi słowy: AI may replace tasks, but it’s nowhere close to replacing people.