Su inversión de 14.300 millones de dólares en Scale AI ha intensificado una discusión en curso sobre la calidad y la confianza de los datos de IA, a veces de maneras que reflejan mal a Meta y Scale, pero indudablemente de maneras que importan. La inversión, anunciada en junio de 2025, otorgó a Meta una participación no votante del 49% en la startup de etiquetado de datos de IA mientras que Lo que siguió fue nada menos que una catástrofe en la cadena de suministro que expuso vulnerabilidades fundamentales en todo el ecosistema de la IA. Alquilando a su CEO, Alexandr Wang Alquilando a su CEO, Alexandr Wang En pocos días, los principales clientes, incluidos Google, OpenAI y xAI, comenzaron a romper lazos con Scale AI, desencadenando lo que un competidor describió como “la inteligencia artificial”. » » El equivalente a un oleoducto explotando entre Rusia y Europa El equivalente a un oleoducto explotando entre Rusia y Europa El resultado ha traído un nuevo enfoque a dos áreas críticas que forman el futuro del desarrollo de la IA: la infraestructura de confianza que apoya las asociaciones y la creciente necesidad de datos de formación de alta calidad. Un imperativo para la confianza en el desarrollo de la IA Scale había construido su valoración sobre una propuesta simple pero poderosa: servir como un árbitro neutral en el mercado de etiquetado de datos, brindando servicios a prácticamente todos los grandes laboratorios de IA sin jugar favoritos. La inversión de Meta rompió esa confianza durante la noche. Como Garrett Lord, CEO de la competidora de Scale Handshake, “Los laboratorios no quieren que los otros laboratorios descubran qué datos están utilizando para hacer sus modelos mejores.Si usted es General Motors o Toyota, no quiere que sus competidores vengan a su planta de fabricación y vean cómo ejecuta sus procesos”. explained explicado Google, el mayor cliente de Scale con planes de gastar aproximadamente 200 millones de dólares en los servicios de Scale en 2025, OpenAI confirmó que estaba terminando relaciones que habían estado meses haciendo. xAI puso a los proyectos en retraso. immediately began planning to sever ties Inmediatamente comenzó a planear romper lazos Pero la crisis de confianza fue más profunda que las preocupaciones competitivas.La investigación posterior de Business Insider reveló que Scale AI Los materiales expuestos incluyeron detalles sensibles sobre cómo Google usó ChatGPT para mejorar su chatbot Bard, documentos de capacitación para el Proyecto Xylophone de xAI, y los propios materiales de capacitación de AI confidenciales de Meta. Usar Google Docs público Usar Google Docs público Las brechas de seguridad se extendieron a la fuerza laboral de Scale, con documentos públicos que contienen direcciones de correo electrónico privadas de miles de contratistas, información sobre salarios y evaluaciones de rendimiento, incluidas listas de trabajadores sospechosos de “fraude”. expertos en ciberseguridad describieron las prácticas de Scale como “extremadamente poco fiables”, advirtiendo de que tales vulnerabilidades podrían exponer tanto a la empresa como a sus clientes a varias formas de ciberataques. La escala respondió prometiendo llevar a cabo una investigación exhaustiva y deshabilitar el intercambio público de documentos, . Pero el daño se había hecho El reto de la calidad de los datos Mientras que la confianza dominaba los titulares, el acuerdo Meta-Scale destacó un desafío aún más fundamental: la creciente escasez de datos de formación de alta calidad que amenaza con restringir el desarrollo de IA. La crisis de calidad de los datos es tanto cuantitativa como cualitativa.La investigación de Epoch AI indica que la Se estima que los tokens, estimados en alrededor de 300 billones de tokens, podrían estar agotados entre 2026 y 2032.Pero el problema corre más profundo que la simple escasez. , creando una “crisis de autenticidad” que socava la calidad de los datos de formación. Todo el stock de datos de texto público generados por el hombre El 57% del contenido en línea ahora es generado por la IA Todo el stock de datos de texto público generados por el hombre El 57% del contenido en línea ahora es generado por la IA La proliferación de contenido sintético crea un ciclo vicioso.Los modelos de IA entrenados en datos generados por IA sufren de lo que los investigadores llaman , un fenómeno donde generaciones sucesivas de modelos pierden su capacidad para capturar la completa complejidad y variabilidad de los datos del mundo real. el colapso del modelo temprano afecta a los datos minoritarios y los casos de borde, mientras que el colapso del modelo tardío puede hacer que los modelos sean particularmente inútiles ya que pierden la mayor parte de su variabilidad y comienzan a confundir conceptos básicos. El modelo de colapso El modelo de colapso La solución es confiar en expertos en materia que apliquen sus conocimientos para capacitar y verificar la calidad de las aplicaciones de IA. Por ejemplo, los modelos de IA en el cuidado de la salud necesitan las profundas perspectivas que residen dentro de las mentes de los profesionales de la industria. . It’s no wonder that 81% of businesses say that they have significant data quality issues No es de extrañar que el 81% de las empresas dicen que tienen problemas significativos de calidad de datos El modelo de negocio de Scale AI se construyó sobre la solución de estos desafíos a través de una red global de más de 240.000 contratistas que anotaban manualmente imágenes, textos y vídeos.Pero los documentos internos de la compañía revelaron problemas de control de calidad que se extienden más allá de las violaciones de seguridad. » » Trabajo transparente que logró escapar de la detección Trabajo transparente que logró escapar de la detección La presión para servir a los principales clientes durante el boom de la IA post-ChatGPT llevó a compromisos en el control de calidad. Los programas destinados a ser empleados exclusivamente por expertos se convirtieron en “inundados con spam”, según documentos internos. Incluso cuando los proyectos estaban destinados a ser anonimizados, los contratistas podían identificar fácilmente a los clientes por la naturaleza de las tareas o la expresión de instrucciones, a veces simplemente al instar directamente a los modelos. Efectos de Ripple en todo el ecosistema AI La controversia de Meta-Scale ha acelerado la fragmentación del mercado a medida que las empresas se esfuerzan por reducir la dependencia de proveedores únicos. Esto, por cierto, no es una cosa mala. La competencia es buena. Esta fragmentación también refleja un reconocimiento más amplio de que las empresas necesitan vetar cuidadosamente a sus proveedores de datos, especialmente porque un lapso puede comprometer la infraestructura de IA. El desarrollo de IA depende de una compleja red de relaciones. La integridad de datos, la neutralidad del proveedor y la inteligencia competitiva se intersectan de maneras que pueden desestabilizar rápidamente toda la cadena de suministro. Las decisiones de infraestructura de IA llevan riesgos que van mucho más allá de las métricas de rendimiento técnico. Por otro lado, las empresas y las fundiciones de datos que colaboran en la formación de IA con experiencia en materia tienen una enorme ventaja ahora. Los competidores de escala reportan un aumento dramático en la demanda Los competidores de escala reportan un aumento dramático en la demanda