El campo de la Inteligencia Artificial está experimentando un auge sin precedentes de la innovación, sin embargo, el discurso público a menudo permanece fijado en Grandes Modelos de Idiomas (LLM). y El científico jefe de IA de Meta, despejó las capas de los avances actuales de la IA, revelando una visión que se extiende mucho más allá de la predicción de token. las perspectivas de LeCun desafían la sabiduría convencional, enfatizando un cambio hacia los sistemas que realmente entienden, razonan e interactúan con nuestro complejo mundo físico. por Bill Dally Yann LeCun Más allá de las fronteras lingüísticas Yann LeCun admite abiertamente que es Ya no estoy tan interesado en LLMs. . not so interested in LLMs anymore Mientras que continúan mejorando a la margen a través de más datos, computación y generación de datos sintéticos, LeCun los ve como una "modalidad simple de ver el razonamiento". Comprender el mundo físico: ¿Cómo pueden las máquinas comprender los matices de la física y la interacción del mundo real? Memoria persistente: Desarrollo de sistemas de IA con la capacidad de memoria a largo plazo y accesible. Razonamiento: Moverse más allá de las formas actuales, a menudo rudimentarias, de razonamiento en los LLM a métodos más sofisticados e intuitivos. Planificación: Permitir que la IA planifique secuencias de acciones para alcanzar objetivos específicos, similares a los procesos cognitivos humanos. LeCun sugiere que la comunidad tecnológica, aunque actualmente se centra en los LLM, probablemente se animará por estos "documentos académicos obscuros" en cinco años. El desafío del mundo real: por qué los tokens caen cortos La limitación fundamental de los LLM actuales, según LeCun, reside en su enfoque basado en tokens. Tokens, típicamente representando un conjunto finito de posibilidades (alrededor de 100,000 para LLMs), son bien adecuados para datos discretos como el lenguaje. sin embargo, el mundo físico es "alto-dimensional y continuo". Los humanos adquieren “modelos del mundo” en los primeros meses de vida, lo que nos permite comprender la causa y el efecto – por ejemplo, cómo empujar una botella desde arriba podría girarla, mientras que empujarla desde abajo podría hacer que deslizara. Los intentos de entrenar sistemas para comprender el mundo prediciendo datos continuos de alta dimensión como el vídeo a nivel de píxeles han fracasado en gran medida. Estos sistemas agotan sus recursos tratando de inventar detalles impredecibles, lo que conduce a un "desperdicio completo de recursos". Incluso las técnicas de aprendizaje autocontroladas que trabajan reconstruyendo imágenes de versiones corruptas no han funcionado, así como las arquitecturas alternativas. Esto se debe a que muchos aspectos de la realidad son inherentemente impredecibles a un nivel granular, como la apariencia exacta de cada persona en una continuación de vídeo. Joint Embedding Predictive Architectures (JAPA): El futuro de los modelos del mundo La respuesta a este desafío, argumenta LeCun, se encuentra en Joint Embedding Predictive Architectures (JAPA). A diferencia de los modelos generativos que intentan reconstruir a nivel de píxeles, JAPA se centra en aprender "representaciones abstractas" de datos. How JAPA Works: Un pedazo de entrada (por ejemplo, un pedazo de vídeo o una imagen) se ejecuta a través de un codificador para producir una representación abstracta. Una versión continuada o transformada de la entrada también se ejecuta a través de un codificador. El sistema entonces intenta hacer predicciones dentro de este "espacio de representación" (espacio latente), en lugar de en el espacio de entrada en bruto. Este enfoque evita el problema del colapso donde los sistemas podrían ignorar la entrada y producir representaciones constantes, no informativas, un obstáculo que tardó años en superar. Para los sistemas de agentes que pueden razonar y planificar, JAPA ofrece un poderoso mecanismo. Imagínese un predictor que, al observar el estado actual del mundo, pueda anticipar el "nuevo estado del mundo dado que podría tomar una acción que estoy imaginando tomar". JAPA for Reasoning and Planning: LeCun contrasta fuertemente con los actuales "sistemas de razonamiento agente" que generan un gran número de secuencias de token y luego utilizan una segunda red neural para seleccionar la mejor. Él compara esto con "escribir un programa sin saber cómo escribir un programa" - un método "completamente desesperado" para cualquier cosa más allá de las secuencias cortas, ya que escala exponencialmente con la longitud. Un ejemplo práctico del potencial de JAPA es el proyecto VJA (Video Joint Embedding Predictive Architecture), actualmente en desarrollo en Meta. El sistema VJA, entrenado en segmentos de vídeo cortos para predecir representaciones de vídeos completos de versiones enmascaradas, está demostrando la capacidad de detectar si un vídeo es "físicamente posible o no". Mediendo el error de predicción, puede marcar eventos "inusuales", como objetos que aparecen o desaparecen espontáneamente, o desafiando la física. Esto refleja cómo los bebés humanos aprenden física intuitiva: un bebé de 9 meses se sorprende si un objeto parece flotar, indicando una violación de su modelo interno del mundo. El camino hacia la Inteligencia Máquina Avanzada (AMI) LeCun prefiere el término Inteligencia Máquina Avanzada (AMI) sobre Inteligencia General Artificial (AGI), citando la naturaleza altamente especializada de la inteligencia humana. con AI a nivel humano potencialmente llegando dentro de una década o más. con AI a nivel humano potencialmente llegando dentro de una década o más. Sin embargo, advierte contra el patrón histórico de exceso de optimismo en la IA, donde cada nuevo paradigma es proclamado como el camino a la inteligencia a nivel humano dentro de una década. Los LLM son entrenados en grandes cantidades de texto (por ejemplo, 30 billones de tokens, equivalente a 400.000 años de lectura). En contraste, un niño de 4 años procesa una cantidad equivalente de datos a través de la visión en sólo 16.000 horas, demostrando la inmensa eficiencia del aprendizaje visual. La clave para desbloquear AMI, según LeCun, es descubrir la "buena receta" para entrenar arquitecturas JAPA a escala.Así como se tomó el tiempo para descubrir la combinación correcta de trucos de ingeniería, no linealidades e innovaciones como ResNet (el artículo más citado en la ciencia en la última década) para entrenar eficazmente redes neuronales profundas y transformadores, un avance similar es necesario para JAPA. Impacto de la IA: de la salvación de vidas a las herramientas de productividad A pesar del enfoque en los futuros paradigmas, LeCun destaca el inmenso impacto positivo que la IA ya tiene: Ciencia y Medicina: la IA está transformando el diseño de fármacos, el plegamiento de proteínas y la comprensión de los mecanismos de la vida.En la imaginación médica, los sistemas de aprendizaje profundo pre-escrilan mamografías para tumores, y la IA reduce los tiempos de escaneo de la RMN en un factor de cuatro al recuperar imágenes de alta resolución de menos datos. Automoción: La asistencia al conductor y los sistemas automáticos de frenado de emergencia, ahora obligatorios en Europa, reducen las colisiones en un 40%, salvando vidas. Productividad y Creatividad: La IA no está reemplazando a las personas, sino sirviendo como "herramienta de poder" que hace a los individuos más productivos y creativos, ya sea como asistentes de codificación, en la medicina o en los esfuerzos artísticos. Sin embargo, el camino hacia una implementación generalizada no siempre es suave.La necesidad de "precisión y fiabilidad" en aplicaciones como la conducción autónoma (donde los errores pueden ser mortales) hace que el campo y la implementación de sistemas de IA sean "más difíciles de lo que la mayoría de la gente pensaba".Este es el lugar donde la IA a menudo falla -no en la técnica básica o las demostraciones, sino en la integración fiable en los sistemas existentes. En cuanto al "lado oscuro" de la IA, como los deepfakes y las noticias falsas, LeCun expresa un optimismo sorprendente. La experiencia de Meta sugiere que, a pesar de la disponibilidad de los LLM, no han visto un "gran aumento en el contenido generativo que se publica en las redes sociales, o al menos no de una manera nefasta". Él narra el episodio de "Galactica", donde el LLM de código abierto de Meta para la literatura científica se encontró con "vitriol" y se derrumbó debido al miedo, solo para que ChatGPT se celebre semanas más tarde. LeCun cree que la "contra-medida contra el mal uso es simplemente mejor IA" - con sistemas de sentido común, capacidad de razonamiento, y la capacidad de evaluar su propia fiabilidad. El papel indispensable del código abierto y la colaboración global Un principio central de la filosofía de LeCun es la necesidad absoluta de plataformas de IA de código abierto. subraya que "las buenas ideas provienen de la interacción de muchas personas y el intercambio de ideas". El compromiso de Meta con el código abierto, ejemplificado por PyTorch y LLaMA, está impulsado por la creencia de que fomenta un ecosistema próspero de startups y permite que el mayor número de personas inteligentes contribuyan a la construcción de funcionalidades esenciales. Why Open Source AI is Crucial for the Future: Diversidad de asistentes de IA: En un futuro en el que la IA media casi todas las interacciones digitales (por ejemplo, gafas inteligentes), un puñado de empresas no pueden proporcionar la diversidad de asistentes necesarios.Necesitamos asistentes que entiendan "todos los idiomas del mundo, todas las culturas del mundo, todos los sistemas de valores" y puedan encarnar diversos prejuicios y opiniones, al igual que una prensa diversa es vital para la democracia. Formación distribuida: ninguna entidad única recopilará todos los datos del mundo en todos los idiomas.El modelo futuro involucra modelos de fundación de código abierto capacitados de forma distribuida, con centros de datos que acceden globalmente a subconjuntos de datos para formar un "modelo de consenso". Fine-Tuning sobre datos propietarios: los modelos de código abierto como LLaMA permiten a las empresas descargar y ajustarlos en sus propios datos propietarios sin tener que cargarlos, soportando aplicaciones verticales especializadas y modelos de negocio de arranque. LeCun destaca que las empresas cuyos ingresos no están vinculados exclusivamente a los servicios de IA (como el modelo de publicidad de Meta) tienen menos que perder y más que ganar de abrir sus modelos, en contraste con empresas como Google que podrían verlo como una amenaza para su negocio de búsqueda central. Hardware: alimentando la próxima revolución de la IA Mientras que las GPUs han visto increíbles avances (de 5.000 a 10.000 veces el aumento de la capacidad de Kepler a Blackwell), el coste computacional de razonar en el espacio abstracto significa que "necesitaremos toda la competencia que podemos obtener" en hardware. LeCun es en gran parte escéptico sobre el hardware neuromórfico, la computación óptica y la computación cuántica para tareas generales de IA en un futuro cercano. señala que la industria de semiconductores digitales está en un "mínimo local profundo" que las tecnologías alternativas enfrentan un desafío monumental para capturar. Sin embargo, ve una promesa en el procesador en memoria (PIM) o en las tecnologías de procesador y memoria analógico/digital para escenarios específicos de "computado de punta", como el procesamiento visual de baja potencia en gafas inteligentes. para comprimirlo antes de enviarlo al córtex visual, demostrando que el almacenamiento de datos, no la computación en sí, a menudo consume la mayor parte de la energía. En el sensor El futuro: un equipo de personas virtuales superinteligentes En última instancia, LeCun contempla un futuro en el que los sistemas de IA sean “herramientas de poder” que aumenten las capacidades humanas, no las sustituyan.Nuestra relación con el futuro de IA será una de comando; seremos su “jefe”, con un “equipo de personas virtuales superinteligentes que trabajan para nosotros”.Este futuro colaborativo, impulsado por la investigación abierta y las plataformas de código abierto, aprovechará las contribuciones de todos en todo el mundo, llevando a una variada gama de asistentes de IA que mejoran nuestra vida diaria. En esencia, el futuro de la IA no es una entidad monolítica, de caja negra que aparece repentinamente.En su lugar, es un proceso colaborativo, iterativo, como construir una gran y compleja ciudad donde cada constructor, arquitecto e ingeniero contribuye su experiencia única a un plan compartido, lo que conduce a una metrópolis vibrante y diversa de inteligencia avanzada de la máquina.