Ogni pochi mesi, qualcuno dichiara che “l’intelligenza artificiale ci sostituirà tutti”. Poiché lavoro a stretto contatto con esso, ricevo questa domanda tutto il tempo. Ma guarda da vicino: AI non sostituisce Si sta sostituendo E c’è una grande differenza. people tasks LLM sono pappagalli con motori a jet I grandi modelli linguistici come ChatGPT, Claude e DeepSeek sono costruiti per prevedere il prossimo token in modo così convincente che sembra che una persona lo abbia scritto, e sono brillanti in esso. Essere buoni in Non è lo stesso che . sounding right being right Questi modelli imparano da una miscela di libri, articoli, codice, Wikipedia, post sul forum e pagine web raschiate. Alcune di esse sono peer-reviewed. La maggior parte non lo è. Nessun esercito di redattori controlla la verità di ogni riga. I dati sono ingombranti di contraddizioni, pregiudizi, fatti obsoleti e fabbricazioni. Pensa a questo come l'apprendimento della medicina da ogni libro di testo medico mai scritto... e ogni forum di salute, ogni blog di oroscopo, e alcuni siti di ricette per una buona misura. Il modello vede modelli, ma non lo fa “. "Quali modelli riflettono la realtà. si ottiene molto bene a imitare il linguaggio del consenso. know Ho visto di prima mano perché questo conta. Quality Over Quantity Qualità sopra quantità Nel 2016 ho lavorato su un progetto di apprendimento automatico per rilevare malware oscurato. Microsoft aveva un dataset pubblico Kaggle (Microsoft Malware Classification Challenge) per esattamente questo problema. Il mio supervisore mi ha consigliato di usarlo o di generare dati sintetici. Per diversi mesi, ho scaricato malware ogni giorno, ho eseguito campioni in una sandbox, binari reverse-engineered, e li etichettato me stesso. alla fine, avevo un dataset di circa 120.000 malware e campioni benigni, che è molto più piccolo di Microsoft ma è stato costruito a mano. I risultati parlano ad alta voce: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Il database di Microsoft Kaggle Il 53% Il mio dataset costruito a mano Il 80% Il mio dataset + dati sintetici Il 64% Lo stesso algoritmo, lo stesso tubo, solo i dati sono cambiati. Il punto: le migliori prestazioni provenivano dai dati manuali curati da esperti.I dati pubblici contenevano anomalie; i dati sintetici introdussero distorsioni proprie.L'unico modo per ottenere segnali di alta qualità era investire tempo, competenza e denaro nella curazione. Questo è il contrario del modo in cui i LLM sono addestrati: essi strappano tutto e cercano di imparare da esso, anomalie e tutto. E la parte peggiore è che sta gettando radici.Una singola allucinazione da ChatGPT, pubblicata sui social media, viene condivisa, retweetata, ripackata e finisce per essere alimentata di nuovo nel prossimo set di allenamento. . digital inbreeding Internet era già pieno di contenuti di bassa qualità prima che arrivassero i LLM: notizie false, “how-tos” fictionali, codice rotto, testo spammy. Attualmente, per lo più filtri automatizzati, alcuni red-teaming umani, e sistemi di punteggio interni. Non c'è equivalente di peer review su scala, nessun board di licenza, nessuna responsabilità per i dati cattivi. Dove troviamo i “nuovi” dati? Ciò naturalmente porta alla domanda ovvia: Quando il web pubblico è già sopraffatto, inquinato e sempre più sintetico? where do we find fresh, high-quality training data La prima idea che quasi tutti hanno è “Stiamo solo allenando i nostri dati utente”. Nel 2023 ho provato esattamente questo con la mia startup gamedev - uno strumento AI per aiutare gli sviluppatori a costruire mondi di RPG. Abbiamo pensato che i log di beta-test sarebbero il materiale di formazione perfetto: il formato giusto, interazioni reali, direttamente rilevanti per il nostro dominio. Fortune Folly Il catch ? Un singolo tester ha prodotto più dati di quindici utenti normali combinati, ma non perché stavano costruendo mondi più ricchi. Essi stavano cercando incessantemente di guidare il sistema in contenuti sessuali, richieste di bomba e risposte razziste. lasciato senza supervisione, che i dati avrebbero Avremmo imparato a imitare l’attaccante, non la comunità che stavamo cercando di servire. avvelenato Questo è esattamente il Senza la revisione e la curazione umana attiva, i "dati degli utenti reali" possono codificare il peggio, non il migliore, dell'ingresso umano, e il tuo modello lo riprodurrà fedelmente. data-poisoning problem Il Takeaway ChatGPT è solo il primo passo sulla strada verso la “sostituzione”.Sembra un esperto in tutto, ma in realtà, è uno specialista nel linguaggio naturale. Il suo futuro è come un per la conversazione tra voi e modelli più profondi, specifici per il dominio, addestrati su set di dati attentamente curati. Anche quei modelli, tuttavia, avranno ancora bisogno di aggiornamenti costanti, convalida e esperienza umana dietro le quinte. interface La vera “minaccia di sostituzione” arriverebbe solo se riusciremo a costruire un’intera : scraper che raccolgono dati in tempo reale, modelli di revisore che lo verificano e lo controllano, e modelli esperti che inghiottono questa conoscenza pulita. fabric of machine learning systems Ma non credo che ci stiamo avvicinando a questo. In questo momento, bruciamo già enormi quantità di energia solo per generare frasi simili a quelle umane. Scalare fino al livello necessario per la conoscenza esperta in tempo reale, completamente rivista, richiederebbe ordini di magnitudo di più potenza e energia di calcolo di quanto possiamo realisticamente fornire. Ho visto promettenti tentativi in medicina, ma ognuno di loro si affidava a squadre di specialisti che lavoravano per innumerevoli ore per costruire, pulire e convalidare i loro dati. In altre parole: AI may replace tasks, but it’s nowhere close to replacing people.