Los grandes modelos de idiomas (LLM) son generales increíblemente poderosos, pero transformarlos en expertos especializados es un gran desafío.El proceso de entrenar un modelo sobre nuevos conocimientos específicos como documentos internos de la empresa o una tarea de razonamiento complejo es notoriamente costoso, demorado y lleno de trampas.Queremos modelos más pequeños y más eficientes que puedan dominar un dominio sin el presupuesto de computación de un gigante de la tecnología. La idea central detrás de hacer que los modelos más pequeños sean más inteligentes es un concepto llamado "destilación". En este proceso, un modelo "estudiante" más pequeño aprende de un modelo "maestro" más grande y más capaz. El estudiante no solo aprende de un manual estático de ejemplos; aprende a imitar el proceso de pensamiento del profesor. Hasta ahora, sin embargo, los ingenieros se han enfrentado a un frustrante compromiso.Un enfoque, el aprendizaje de refuerzo en política (RL), obliga al estudiante a aprender de sus propios errores, que es relevante pero dolorosamente lento.La destilación alternativa, fuera de la política, es mucho más rápida pero peligrosamente defectuosa; el estudiante aprende de los ejemplos ideales del maestro, que a menudo ocurren en contextos en los que el estudiante nunca se encontrará por sí mismo, causando errores a la composición. Una poderosa técnica llamada "destilación en la política" combina lo mejor de ambos mundos. Al tener un modelo de maestro que proporcione un feedback denso, token-by-token sobre los propios intentos del modelo del estudiante, podemos lograr avances en la eficiencia y la capacidad de capacitación. Aquí están las cuatro tomas más sorprendentes e impactantes de este enfoque. Un loop de feedback más inteligente hace que el entrenamiento de IA sea hasta 100 veces más barato La diferencia fundamental entre Reinforcement Learning (RL) y Destilación reside en la densidad del feedback. El RL en la política es como aprender a jugar al ajedrez solo diciendo si has ganado o perdido al final de un partido.El feedback está directamente relacionado con tus acciones, pero es escaso.Sabes que has perdido, pero no sabes si fue debido a tu apertura, un error en el medio del juego, o un final débil. La destilación fuera de la política es como ver un gran juego de maestros. observa movimientos brillantes, pero se hacen en posiciones de mesa complejas en las que usted, como principiante, rara vez se encontrará. Es como tener un entrenador experto que califica cada uno de tus movimientos en tus propios juegos, diciendo si un movimiento fue un "error", "inexactitud" o "brillante". Este ciclo de retroalimentación inteligente tiene un impacto masivo en la eficiencia.En una comparación directa de retroalimentación donde un modelo de estudiante aprendió de un maestro entrenado a través de RL, la destilación en línea permitió al estudiante alcanzar el nivel de rendimiento del maestro 7-10 veces más rápido en términos de pasos de gradiente. La razón de esta aceleración dramática es que la destilación en línea proporciona más información útil (más "bits por episodio") para que el modelo aprenda de. Debido a que este feedback denso y a nivel de token reduce el ruido de los gradientes, permite la capacitación con contextos más cortos y tamaños de lotes más pequeños y eficientes, reduciendo aún más el coste total de la computación. Puedes curar la “AI Amnesia” al enseñar nuevos conocimientos Cuando tomas un modelo pre-entrenado y lo ajustes a nueva información especializada (como la base de conocimiento interna de tu empresa), a menudo degrada o olvida completamente sus habilidades originales de propósito general, como la capacidad de seguir instrucciones. Los investigadores comenzaron con el modelo Qwen3-8B, que tenía una fuerte puntuación de seguimiento de instrucciones del 85%. Su conocimiento de los documentos mejoró significativamente (del 18% al 36% en una evaluación de QA). Sin embargo, su habilidad de seguir instrucciones degradó gravemente, cayendo del 85% al 79%. La solución fue una breve fase de destilación on-policy después del ajuste inicial. Al usar la versión original del modelo como maestro, los investigadores pudieron restaurar el comportamiento perdido. El rendimiento siguiendo las instrucciones se recuperó casi por completo, saltando hasta el 83%. Crucialmente, esto ocurrió sin perder el conocimiento recién adquirido.De hecho, la puntuación del conocimiento incluso mejoró ligeramente hasta el 41%. Este hallazgo es un cambio de juego para "aprendizaje continuo", o sea, la capacidad de actualizar modelos con nueva información con el tiempo sin tener que realizar costosos, retraining a gran escala desde cero. Una IA puede dominar una habilidad de razonamiento a partir de un solo ejemplo En la mayoría de los métodos de entrenamiento de IA, la formación repetida de un modelo sobre el mismo prompt es una receta para el fracaso; el modelo simplemente memoriza la respuesta en lugar de aprender la habilidad subyacente. Los investigadores entrenaron a un modelo de estudiante en una tarea de razonamiento matemático utilizando solo un único prompt, elegido aleatoriamente. El resultado notable gira la sabiduría convencional en su cabeza: el modelo de estudiante fue capaz de coincidir aproximadamente con el rendimiento del modelo de maestro experto en el índice de referencia de matemáticas AIME'24, a pesar de sólo haber visto ese problema. Esto funciona porque la destilación on-policy enseña al modelo a aproximar todo el proceso de pensamiento del profesor; su distribución de probabilidad completa para lo que el siguiente mejor token debería ser en cada paso, en lugar de simplemente memorizar una respuesta final. Por qué la "práctica" en sus propias muestras puede hacer que una IA sea estúpida Parece lógico que si un modelo produce una salida de alta calidad, usted podría alimentar esa salida de nuevo en sus datos de entrenamiento para reforzar el buen comportamiento. Cuando entrenaron a un modelo utilizando un conjunto de datos compuesto de sus propias muestras, su rendimiento en una evaluación siguiendo instrucciones realmente se degradó. La razón técnica de este fracaso es sutil pero crítica. Mientras que el conjunto de datos de las salidas propias del modelo puede ser perfectamente on-policy en promedio, cada lote finito de datos exhibe una distribución ligeramente diferente. El entrenamiento en estos lote hace que la política interna del modelo se aleje de su estado original. Este proceso convierte el entrenamiento en sus propias muestras en una forma de entrenamiento fuera de la política a lo largo del tiempo, lo que conduce al mismo error de composición y divergencia visto en otros métodos defectuosos. En contraste, la destilación on-policy es completamente estable en este escenario de autodestilación. Debido a que el modelo del profesor sigue siendo un objetivo fijo y consistente, el estudiante puede converger robusto en el comportamiento deseado sin degradarlo. El futuro de la IA es más pequeño, más rápido y más personal La destilación on-policy es más que otra técnica de entrenamiento; es un cambio fundamental en la forma en que creamos AI especializada y experta. Al combinar la relevancia directa del aprendizaje de las propias acciones con la increíble eficiencia del feedback denso, token-by-token, resuelve algunos de los mayores desafíos en la IA aplicada. Los beneficios son claros: enormes ahorros de computación, una cura para el olvido catastrófico y una eficiencia de datos increíble.Esta es una tecnología clave que permite bajar la barrera a la entrada, desbloqueando la capacidad para que más equipos construyan y mantengan modelos personalizados que posean un profundo conocimiento del dominio sin sacrificar capacidades centrales.Esta democratización de la IA experta alimentará nuevos modelos de negocio y creará ventajas competitivas reservadas anteriormente a los laboratorios fronterizos. El podcast: El podcast: Apple: aquí Spotify: aquí Aquí Aquí