Cada pocos meses, alguien declara que “la IA nos reemplazará a todos”. Desde que estoy trabajando estrechamente con él, recibo esa pregunta todo el tiempo. Pero mira más de cerca: AI no está reemplazando Se trata de sustituir Y hay una gran diferencia. people tasks Los LLMs son pájaros con motores a reacción Los grandes modelos de idiomas como ChatGPT, Claude y DeepSeek están construidos para predecir el próximo token de manera tan convincente que se siente como si lo hubiera escrito una persona, y son brillantes en ello. Pero ser bueno en No es lo mismo que . sounding right being right Estos modelos aprenden de una mezcla de libros, artículos, reposo de código, Wikipedia, publicaciones en foros y páginas web rasgadas. Algunas de ellas son revisadas por pares. La mayoría no lo son. Ningún ejército de editores verifica la verdad de cada línea. Los datos están envueltos en enigmas con contradicciones, prejuicios, hechos desactualizados y fabricaciones directas. Piensa en ello como aprender medicina de cada libro de texto médico jamás escrito... y cada foro de salud, cada blog de horóscopo, y algunos sitios de recetas para una buena medida. El modelo ve patrones, pero no lo es “. ¿Qué patrones reflejan la realidad?Es muy bueno imitar el lenguaje del consenso. know He visto de primera mano por qué eso importa. Quality Over Quantity Calidad sobre cantidad En 2016, trabajé en un proyecto de aprendizaje automático para detectar malware oculto. Microsoft tenía un conjunto de datos público Kaggle (Microsoft Malware Classification Challenge) para este problema. Mi supervisor me aconsejó usarlo o generar datos sintéticos. Durante varios meses, descargaba malware todos los días, ejecutaba muestras en una caja de arena, revertaba binarios y los etiquetaba yo mismo.Al final, tenía un conjunto de datos de unos 120.000 malware y muestras benignas, que son mucho más pequeñas que las de Microsoft pero que fueron construidas a mano. Los resultados hablan en voz alta: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Datos de Microsoft Kaggle El 53% Mi propio conjunto de datos construido a mano El 80% Mi conjunto de datos + datos sintéticos El 64% Los algoritmos son los mismos, solo los datos cambian. El punto: el mejor rendimiento proviene de datos manuales, curados por expertos.Los datos públicos contenían anomalías; los datos sintéticos introdujeron sus propias distorsiones.La única manera de obtener señales de alta calidad era invertir tiempo, experiencia y dinero en la curación. Eso es lo opuesto a cómo se entrenan los LLM: se rascan todo y tratan de aprender de ello, anomalías y todo. Una sola alucinación de ChatGPT, publicada en las redes sociales, es compartida, retweetada, reembalada y termina siendo alimentada de nuevo en el siguiente conjunto de entrenamiento. . digital inbreeding Internet ya estaba llena de contenido de baja calidad antes de que llegaran los LLM: noticias falsas, “cómo-tos” ficticios, código roto, texto de spam. En la actualidad, la mayoría de los filtros automatizados, algunos de red-teaming humano, y los sistemas de puntuación internos. no hay equivalente de la revisión por pares en escala, ningún panel de licencias, ninguna responsabilidad por los datos malos. ¿De dónde se obtienen los “nuevos” datos? Lo que, por supuesto, nos lleva a la pregunta obvia: ¿Cuándo la web pública ya está tomada, contaminada y cada vez más sintética? where do we find fresh, high-quality training data La primera idea que casi todos tienen es “Sólo vamos a entrenar en nuestros propios datos de usuario”. En 2023, intenté exactamente eso con mi startup de gamedev - una herramienta de IA para ayudar a los desarrolladores a construir mundos de RPG. Pensamos que los registros de pruebas beta serían el material de formación perfecto: el formato correcto, interacciones reales, directamente relevantes para nuestro dominio. Fortune Folly ¿La captura? Un solo tester produjo más datos que quince usuarios normales combinados, pero no porque estaban construyendo mundos más ricos.Ellos estaban tratando incansablemente de orientar el sistema en contenido sexual, prompts de fabricación de bombas y respuestas racistas.Ellos eran mucho más persistentes e inventivos en romper fronteras que cualquier usuario legítimo. Sin tener en cuenta que los datos tendrían Habría aprendido a imitar al atacante, no a la comunidad a la que tratábamos de servir. Envenenado Este es exactamente el Sin una revisión y curación humanas activas, “datos de usuarios reales” pueden codificar el peor, no el mejor, de la entrada humana, y su modelo lo reproducirá fielmente. data-poisoning problem El Takeaway ChatGPT es sólo el primer paso en el camino hacia la “reemplazo”.Parece un experto en todo, pero en realidad, es un especialista en el lenguaje natural. Su futuro es como un para la conversación entre usted y modelos más profundos, específicos del dominio, capacitados sobre conjuntos de datos cuidadosamente curados. Incluso esos modelos, sin embargo, todavía necesitarán actualización constante, validación y experiencia humana detrás de los escenarios. interface La verdadera “amenaza de reemplazo” sólo llegaría si logramos construir una : rascadores que recopilan datos en tiempo real, modelos de revisores que lo verifican y verifican, y modelos de expertos que ingieren este conocimiento limpiado. fabric of machine learning systems Pero no creo que estemos cerca de eso. En este momento, ya estamos quemando enormes cantidades de energía sólo para generar frases similares a las humanas. Escalar hasta el nivel necesario para el conocimiento experto en tiempo real, completamente revisado, requeriría órdenes de magnitud más poder de computación y energía de lo que podemos proporcionar de forma realista. He visto intentos prometedores en la medicina, pero cada uno de ellos dependía de equipos de especialistas que trabajaban innumerables horas construyendo, limpiando y validando sus datos. En otras palabras: AI may replace tasks, but it’s nowhere close to replacing people.