Cada poucos meses, alguén declara que “a IA vai substituír a todos nós”. Xa que estou a traballar con el de preto, recibo esa pregunta todo o tempo. Pero mira máis de cerca: AI non está a substituír que está substituíndo E hai unha gran diferenza. people tasks Os LLMs son papagaios con motores a reacción Grandes modelos de linguaxe como ChatGPT, Claude e DeepSeek están construídos para predicir o próximo token de forma tan convincente que se sinte como unha persoa que o escribiu, e son brillantes nel. Poden traducir mellor que Google Translate, redactar correos electrónicos, codificar e mesmo simular a calor dun terapeuta. pero ser bo en Non é o mesmo que . sounding right being right Estes modelos aprenden a partir dunha mestura de libros, artigos, repos de código, Wikipedia, publicacións de foros e páxinas web rasgadas. Algunhas delas son revisadas por pares. A maioría non son. Ningún exército de editores verifica a verdade de cada liña. Os datos están cheos de contradicións, prexuízos, feitos desactualizados e fabricacións. Pense en iso como aprender medicina de todos os libros de texto médicos xamais escritos... e todos os foros de saúde, todos os blogs de horóscopos e algúns sitios de receitas para unha boa medida. O modelo ve patróns, pero non “ que os patróns reflicten a realidade. só se fai moi bo en imitar a linguaxe do consenso. know Vexo de primeira man por que iso importa. Quality Over Quantity Calidade sobre cantidade En 2016, traballei nun proxecto de aprendizaxe automática para detectar malware obstruído. Microsoft tiña un conxunto de datos público Kaggle (Microsoft Malware Classification Challenge) para este problema. O meu supervisor aconsellou que o usase ou para xerar datos sintéticos. Durante varios meses, descarguei malware todos os días, executei mostras nunha caixa de area, reverse-engineered binarios, e etiquetou-los eu mesmo. Os resultados falan en voz alta: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Microsoft Kaggle conxunto de datos O 53% A miña propia base de datos construída a man O 80% O meu conxunto de datos + datos sintéticos 64 por cento Algoritmos semellantes, só os datos cambiaron. Os datos públicos contiñan anomalías; os datos sintéticos introduciron as súas propias distorsións.A única forma de obter sinais de alta calidade era investir tempo, experiencia e diñeiro na curación. É o oposto de como os LLM son adestrados: rasgan todo e intentan aprender dela, anomalías e todo. Unha única alucinación de ChatGPT, publicada en redes sociais, é compartida, retweetada, reembalada e acaba sendo alimentada de novo no seguinte conxunto de adestramento. . digital inbreeding A internet xa estaba chea de contido de baixa calidade antes da chegada dos LLM: noticias falsas, ficticios "como-tos", código roto, texto de spam. Actualmente, principalmente filtros automatizados, algúns humanos red-teaming, e sistemas internos de puntuación. non hai equivalente de revisión por pares en escala, sen consello de licenzas, sen responsabilidade por datos malos. De onde saen os “novos” datos? O que, por suposto, leva á pregunta obvia: Cando a web pública xa está tomada, contaminada e cada vez máis sintética? where do we find fresh, high-quality training data A primeira idea que case todos teñen é "Só imos adestrar nos nosos propios datos de usuario". En 2023, probei exactamente iso coa miña startup gamedev Pensamos que os rexistros de proba beta serían o material de adestramento perfecto: o formato correcto, interaccións reais, directamente relevantes para o noso dominio. Fortune Folly A súa captura? Un único tester produciu máis datos que quince usuarios normais xuntos, pero non porque estaban construíndo mundos máis ricos.Tentábanse incansablemente dirixir o sistema a contidos sexuais, prompts de fabricación de bombas e respostas racistas.Foron moito máis persistentes e inventivos en romper límites que calquera usuario lexítimo. descoñecido, que os datos poderían ser Tería aprendido a imitar ao atacante, non á comunidade que estabamos intentando servir. envelenado Esta é precisamente a Sen revisións e curas humanas activas, "datos reais de usuarios" poden codificar o peor, non o mellor, da entrada humana, e o seu modelo reproducirá fielmente. data-poisoning problem O Takeaway ChatGPT é só o primeiro paso no camiño cara a "substitución".Parece un experto en todo, pero na realidade, é un especialista en linguaxe natural. O seu futuro é como un para a conversación entre vostede e modelos máis profundos, específicos do dominio, adestrados en conxuntos de datos coidadosamente curados. Mesmo aqueles modelos, con todo, aínda precisarán de actualización constante, validación e experiencia humana detrás das escenas. interface A verdadeira “ameaza de substitución” só viría se conseguimos construír unha : rascadores que recollen datos en tempo real, modelos de revisores que o verifican e comproban os feitos, e modelos de expertos que inxeren este coñecemento limpo. fabric of machine learning systems Pero non creo que esteamos preto diso.Agora, xa queimamos enormes cantidades de enerxía só para xerar sentenzas humanas.A escala ata o nivel necesario para o coñecemento experto en tempo real, totalmente revisado, requiriría ordes de magnitude máis poder de computación e enerxía do que podemos proporcionar de forma realista. Teño visto tentativas prometedoras na medicina, pero cada un deles dependía de equipos de especialistas que traballaban innumerables horas construíndo, limpando e validando os seus datos. Noutras palabras: AI may replace tasks, but it’s nowhere close to replacing people.