721 lecturas

¿Qué viene después en el mundo de la IA?: interpretación de la visión del director ejecutivo de Anthropic

por Vitalii Chukhlantcev6m2024/11/21

NSO

Demasiado Largo; Para Leer

El podcast de Lex Fridman con líderes de IA antrópica destacó ideas clave sobre el desarrollo de la IA: Efectos de escalamiento: todavía no se ha estancado, pero el enfoque está cambiando para comprender qué aspectos escalar. La generación de datos sintéticos y los datos protegidos son prometedores. Seguridad de la IA: se está desarrollando junto con el progreso del modelo. Los riesgos se categorizan en niveles de ASL, y se espera que el próximo año se alcance el ASL-3 (que permite a los malhechores). Cronograma de la IA general: potencialmente para 2027, con un progreso dependiente del dominio y tasas de adopción específicas de la industria. Interpretabilidad mecanicista: creciente importancia para comprender y controlar el comportamiento del modelo. Las predicciones incluyen: 2025: autoentrenamiento avanzado de la IA, que supere a los humanos en tareas específicas; mayor uso indebido de la IA a pesar de las salvaguardas; más aplicaciones de IA autónomas, especialmente en codificación. 2030: automejora generalizada de la IA; IA incorporada más inteligente que los humanos en dominios específicos; integración generalizada de la IA en todas las industrias; posibles avances científicos con la ayuda de la IA. El artículo enfatiza el rápido ritmo del desarrollo de la IA y la incertidumbre que rodea sus impactos futuros.

featured image - ¿Qué viene después en el mundo de la IA?: interpretación de la visión del director ejecutivo de Anthropic

Recientemente, Lex Fridman lanzó un podcast de cinco horas con Dario Amodei, Amanda Askell y Chris Olah de Anthropic AI.

Después de publicar su artículo bastante extenso sobre la visión del desarrollo de IA “Máquinas de gracia amorosa” , Dario ha estado ampliándolo ya que, de igual manera, fue el foco principal de su conversación con Lex con otros miembros de Anthropic que ampliaron esos temas.

Para aquellos menos nerds que yo, pensé que sería bueno resumir las ideas clave que este equipo líder de IA tenía para compartir. Desde el lanzamiento de Claude 3.5 Sonnet (New) este otoño, está claro que el progreso de Anthropic en LLM está a la par con lo que ha logrado openAI con su modelo de vista previa o1. Se encuentran entre los líderes en esta carrera de IA, lo que les da una buena autoridad en el tema.

Además de reiterar lo que ha dicho el equipo de Anthropic, me gustaría fantasear sobre lo que cada punto implica para el futuro de la aplicación práctica de la IA dentro de un año y dentro de cinco años, como dos cronogramas importantes. Espero equivocarme con mis predicciones (simplemente hay demasiados factores en juego), pero creo que es divertido hacer gimnasia mental y mirar este texto cuando aparezcamos en ese "futuro real".

No sabemos cuándo se estabilizará el efecto de ampliación, pero TODAVÍA NO.
Una de las conclusiones clave para mí fue su perspectiva sobre los efectos futuros de continuar por el camino de la hipótesis de escalamiento (la idea de que arrojar más y mejores datos con una computación más capaz hará que los modelos sean, en consecuencia, más inteligentes). Darío parece insinuar que simplemente usar todas las técnicas antiguas y agregar más datos puede no ser muy efectivo ya para obtener un impulso significativo de la IA. El enfoque principal de los laboratorios de IA en este momento es comprender qué parte escalar.

Algunas de las vías prometedoras en su opinión son la generación de datos sintéticos (aplicando el enfoque AlphaGo al entrenamiento de prueba y error para tareas complejas) o agregar más datos protegidos , es decir, dar a los modelos ejemplos de buenas y malas respuestas para dominios específicos para que entiendan las reglas generales y las apliquen un poco mejor.
- 2025 : el enfoque de autoentrenamiento de la IA AlphaGo se volverá más común y los modelos superarán la capacidad humana en ejercicios complejos adicionales que tienen un ciclo de retroalimentación casi inmediato (tal vez el comercio)
- 2030 - El enfoque de autoentrenamiento AlphaGo podría generalizarse en modelos que mejoren por sí solos en tareas prácticas difíciles cuando se les dé tiempo suficiente para practicar la tarea.
  
  2. El enfoque de la seguridad de la IA se desarrollará junto con el desarrollo del modelo.

La autonomía y el mal uso plantean los mayores riesgos.

Darío afirma que su equipo prueba ambos riesgos cada vez que entrenan un nuevo modelo para poder crear prevenciones antes de lanzarlo.

ASL-1 (como un robot de ajedrez): no presenta riesgos

ASL-2 (modelos de IA actuales): no proporciona mucha información riesgosa más allá de la que se puede buscar simplemente en Google.

ASL-3 (puede aumentar las capacidades de los malhechores): la habilitación de armas cibernéticas, nucleares y biológicas a través de esos sistemas tendrá que ser debilitada seriamente antes de que se puedan lanzar los modelos.

ASL-4+ (más inteligente que ASL-3 + autónomo): aún no está claro cómo se controlarán, solo se eliminará su riesgo cuando haya señales de dicho modelo después del entrenamiento.

2025 - Dario espera que ASL-3 se lance el año que viene. Creo que se producirá un uso indebido de esos sistemas por parte de los humanos a pesar de las medidas de seguridad, ya que no será posible detectar todos los errores antes del lanzamiento (nuevas estafas o virus de software).
2030 : múltiples y capaces aplicaciones robóticas de la IA, por ejemplo, los robots Tesla Optimus . La IA será corporal y mucho más inteligente que un humano promedio en dominios específicos. Puede resultar difícil prevenir por completo el uso indebido de sistemas tan complejos, especialmente en casos en los que realizan tareas mundanas para actores criminales.

3. La IA general (o, en palabras de Darío, “ IA poderosa ”) podría llegar en 2027

Repite varias veces que la inteligencia de la IA dependerá del dominio y que los obstáculos para su desarrollo parecen estar desapareciendo continuamente. Lógicamente, al utilizar correctamente el contenido generado por humanos, la capacidad de los humanos para pensar debería ser replicada por la IA en algún momento. Por analogía con las computadoras que juegan al ajedrez y AlphaGo, está claro que en tareas específicas la IA puede superar las capacidades humanas y cuanto mejor documentado y rígido sea este dominio, mayor debería ser el rendimiento. Por lo tanto, el peor escenario posible para una IA general es una IA con razonamiento a nivel humano que tenga capacidades excelentes en campos específicos donde pudimos avanzar más en su entrenamiento.

De la misma manera, la aplicación real de la IA dependerá de la distancia que exista entre la industria específica y los desarrolladores de IA. Es evidente que les resulta más fácil probar y adaptar nuevos modelos para ayudar a escribir códigos que hacer un buen uso de esos modelos en un entorno agrícola. Según esta lógica, la informática y la codificación, la ciencia, las empresas de las grandes ciudades y, solo después, las demás partes de la economía deberían sentir el impacto de la IA, en ese orden.
- 2025 : Comenzaremos a ver aplicaciones más impresionantes y autónomas de IA, especialmente en codificación, donde los gerentes de productos no técnicos pueden realizar proyectos basados en código sin pedir ayuda a un codificador.
- 2030 : Todas las empresas integrarán IA en su flujo de trabajo de una forma u otra; los modelos de frontera habrían ayudado a numerosos descubrimientos científicos en campos como la biología, la física y las matemáticas.
1. La interpretabilidad mecanicista se vuelve más importante para el desarrollo coherente de modelos
Los modelos se están desarrollando muy rápidamente, pero siguen siendo una caja negra; no está claro por qué funcionan bien y por qué funcionan mal.
A menudo, esto significa que realizar cambios o escalar dichos modelos genera alucinaciones, acciones impredecibles o comportamientos emergentes que, idealmente, los desarrolladores querrían comprender de antemano para realizar mejoras controladas en los modelos.

Anthropic dedica esfuerzos a describir lo que realmente sucede dentro de la “mente” de su modelo Claude. Este enfoque, en teoría, debería explicar por qué Claude da ciertas respuestas y cómo los diferentes métodos de entrenamiento ayudan a los cambios en los patrones que se generan dentro de esta red neuronal. Además, es simplemente divertido de explorar.
- 2025 - Una interpretación descriptiva más completa del modelo Claude, con nuevas visualizaciones y detalles (publicada o no dependiendo de cuán sensible pueda ser esta información para la ventaja competitiva de Anthropic).
- 2030 - Si el enfoque de Anthropic tiene éxito, todos los laboratorios de IA importantes habrán generado un mapa interno de sus sistemas de IA (interpretado). Sin embargo, si este enfoque resulta demasiado descriptivo y no tiene un impacto real en el desarrollo de modelos, nadie recordará la interpretabilidad mecanicista en 2030...

Conclusión

Independientemente de las predicciones, será divertido observar la siguiente fase de la IA. Y, si no se produce ninguna revolución en cinco años, al menos será refrescante volver a leer este artículo, ya que finalmente decido cancelar mi suscripción a OpenAI, que entonces costaba 300 dólares al mes.