1,507 lecturas

A la vanguardia de la investigación en IA: multimodalidad, agentes, LLM de código abierto y más

por Vik Bogdanov9m2024/07/04

Demasiado Largo; Para Leer

Explorando la próxima frontera de la investigación de IA con Hamudi Naanaa, CTO y cofundador de Portal.ai, y ex científico investigador de IA en Amazon. Discutimos el estado actual de la IA, la importancia de la multimodalidad y los agentes de IA, la importancia del desarrollo de código abierto y los desafíos éticos en la IA. Naanaa comparte su viaje hacia la IA, el impacto potencial de la IA en diversas industrias y el papel de la IA en la transformación de las prácticas de gestión empresarial. Destaca la necesidad de un desarrollo responsable de la IA y destaca las apasionantes posibilidades futuras de la IA, incluidos los robots personales y los medicamentos desarrollados conjuntamente con la IA.

featured image - A la vanguardia de la investigación en IA: multimodalidad, agentes, LLM de código abierto y más

Recientemente encontré un artículo en el que el autor sostiene que, si bien 2023 fue un año frenético para la IA, siendo un tema candente en las salas de juntas corporativas y en los medios de comunicación e incluso impulsando el desempeño del mercado de valores público, 2024 será un año de exploración y descubrimiento. Compara el estado actual de la IA con una fase de "sopa primordial", rebosante de potencial pero aún amorfa, y afirma que hemos pasado rápidamente de la fase de exploración de la IA a la explotación activa demasiado rápido, persiguiendo resultados rápidos y fáciles. Ahora es el “momento de presionar el botón de reinicio” y explorar más a fondo la IA hacia una creación de valor significativa.

Este artículo me impactó y despertó la curiosidad por comprender las mentes que dan forma al presente y al futuro de la investigación de la IA. Para obtener una visión más profunda, entrevisté a Mohammad (Hamudi) Naanaa , CTO y cofundador de Portal.ai, y ex científico investigador de IA en Amazon y gerente de laboratorio de I+D en Apple. Nuestra conversación profundiza en el estado actual de la exploración de la IA y su próxima frontera, los desafíos y oportunidades del desarrollo responsable y ético de la IA, el impacto potencial de la IA en la sombra, lo que se necesita para desarrollar una experiencia sólida en IA y mucho más.

¡Disfruta la lectura!

Hamudi, ¿qué te atrajo al campo de la investigación de la IA y qué áreas específicas estás explorando actualmente?

Mi viaje hacia la IA comenzó durante mis años universitarios con el innovador artículo AlexNet . La idea de entrenar un modelo para clasificar imágenes era impresionante, algo que parecía inalcanzable con el software convencional. Inspirado por esta complejidad, profundicé en la investigación de la IA para comprender mejor las redes neuronales. Tenía una fuerte intuición de que si podíamos resolver la clasificación de imágenes, era solo cuestión de tiempo antes de que pudiéramos abordar datos y problemas aún más complejos y, en última instancia, desarrollar inteligencia. Quería ser parte de ese viaje.

Inicialmente, me sumergí en la visión por computadora, fascinado por las posibilidades creativas de la IA generativa, específicamente las GAN y los modelos de difusión. Posteriormente me llamó la atención la explosión de modelos de lenguaje con el papel Transformer , acercando el sueño de la verdadera inteligencia artificial. Hoy me encuentro en la apasionante intersección de la IA generativa tanto en texto como en imágenes.

¿Cuál cree que será la próxima frontera para la exploración de la IA?

Incluso ahora, años después, apenas estamos arañando la superficie del potencial de la IA. Es un tema muy candente; Ves muchas tendencias yendo y viniendo, y la frontera se va moldeando todos los días.

Una dirección destacada en esta frontera es la multimodalidad . El mundo es más que solo texto y veo un futuro brillante en la IA multimodal nativa, integrando texto, imágenes, audio y más. Muchas empresas importantes de IA ya están adoptando esto y vemos modelos fundamentales que respaldan diversos aportes.

Otro ámbito sobre el que veo mucha anticipación y entusiasmo es el de los agentes . Estos sistemas tienen un circuito de retroalimentación completo con observaciones, razonamiento, estado, acciones y reflexión. Van más allá del paradigma de "entrada-salida" que hemos visto hoy en la mayoría de las IA basadas en LLM.

Existe un debate en curso sobre si las arquitecturas basadas en transformadores, como las máquinas de fichas de entrada y salida, son suficientes para una "verdadera" inteligencia.

Explorar arquitecturas fundamentalmente nuevas es una dirección prometedora pero desafiante. Podríamos ver un renacimiento de las arquitecturas nativas de memoria con estado, como las máquinas neuronales de Turing (NTM) o las computadoras neuronales diferenciales (DNC), que podrían solucionar algunos de los defectos de los transformadores.

Todos estos avances revolucionarán la robótica, incorporando asistentes inteligentes a nuestra vida diaria antes de lo esperado. Creo que veremos los primeros robots caminando entre nosotros dentro de unos años, tal vez incluso menos.

Sin embargo, desarrollar tecnología es una cosa y construir productos útiles sobre ella es otra.

El valor de una IA nativa de audio multimodal es que los usuarios pueden generar canciones ultrapersonalizadas en las que ponen emociones. La misma tecnología central, pero el producto en el empaque adecuado es lo que empodera a las personas. Y aquí es donde veo que pronto se realizarán muchas exploraciones y que los modelos se volverán más confiables, controlables y robustos .

¿Cómo cree que los sistemas de IA multimodal cambiarán la interacción entre los humanos y la tecnología? ¿Existen industrias o aplicaciones específicas en las que la IA multimodal tendrá el impacto más significativo?

La IA multimodal ya está revolucionando la forma en que interactuamos con la tecnología. Tomemos como ejemplo los chatbots: alguna vez herramientas simples basadas en texto que la gente ignoraría en los sitios web, ahora están evolucionando hacia interfaces sofisticadas y multimodales en el centro de nuevos diseños.

La multimodalidad está permitiendo nuevos patrones de interacción; por ejemplo, aplicaciones educativas como Duolingo o Khan Academy . Poder practicar sus habilidades lingüísticas escribiendo textos a su socio de IA, mejorar su pronunciación en una conversación de voz o mostrar sus ecuaciones matemáticas en fotografías es una forma completamente nueva de interactuar con la tecnología de manera más natural, aumentando la productividad y el compromiso.

Imagino un futuro con súper aplicaciones o incluso nuevos sistemas operativos donde los usuarios puedan dar instrucciones y recibir un resultado sin tener que navegar por diferentes aplicaciones.

Por ejemplo, en lugar de hacer clic en íconos y texto para pedir comida, puedes hablar, hacer gestos o incluso mirar ciertos elementos para interactuar de manera más humana. Los primeros en adoptarlos, como Humane AI Pin y Rabbit R1, son prometedores, pero también destacan la imprevisibilidad y el margen de mejora. Como desarrolladores e investigadores de IA, debemos abordar estos problemas y soy optimista en que lo haremos.

Los sistemas de IA multimodal están destinados a revolucionar la forma en que interactuamos con la tecnología al romper las barreras entre las diferentes formas de comunicación. Todavía estamos en el comienzo de explorar esa nueva forma de construir interfaces, pero ya se nota un patrón común:

Se van a reinventar los sistemas existentes con patrones de interacción predefinidos.

A medida que la investigación de la IA avanza rápidamente, ¿cuáles son algunos de los mayores desafíos que enfrentamos para garantizar el desarrollo responsable de la IA y mitigar su posible impacto negativo?

Navegar por el panorama ético de la IA es complejo pero crucial, ya que la tecnología evoluciona rápidamente y sus implicaciones aún se están comprendiendo. Debemos anticipar y mitigar los sesgos y las consecuencias no deseadas.

Algunos desafíos surgen de implicaciones éticas relacionadas con defectos humanos. Por ejemplo, los proyectos destinados a crear compañeros de IA pueden ayudar a combatir la soledad. Aún así, también podrían exacerbarlo al alentar a las personas a encontrar consuelo en la IA en lugar de las interacciones de la vida real. Esto plantea preguntas a los creadores sobre las implicaciones de sus aplicaciones y cómo deberían abordarlas. Este es sólo un ejemplo de las preguntas fundamentales que surgen de aplicaciones aparentemente simples, y hay muchas más que aún tenemos que imaginar, y mucho menos los efectos secundarios de su existencia.

Los incidentes recientes en las grandes empresas tecnológicas, como las representaciones históricas sesgadas de personas en las imágenes generadas , resaltan los importantes desafíos, incluidas preocupaciones éticas y consecuencias no deseadas, que conlleva el rápido avance de la tecnología de inteligencia artificial.

No hay una respuesta simple, pero creo que es fundamental garantizar la transparencia a través del desarrollo de un LLM de código abierto (exponiendo ambos modelos y los datos en los que fueron entrenados) y fomentando un enfoque multidisciplinario que involucre a personas con diversos orígenes, no solo ingenieros y científicos. pasos para abordar estos desafíos.

Hacer estas preguntas es el único enfoque correcto. Somos responsables de dar forma al futuro de las tecnologías más poderosas que se construirán. Como creadores de IA, debemos considerar los sesgos inherentes y potenciales y cómo mitigarlos.

Desde su etapa en Amazon, ¿en qué proyectos o iniciativas de investigación ha estado involucrado? ¿En qué trabaja ahora?

La magia de la IA radica en comprender los casos de uso centrados en el láser en los que puede resultar más útil. Después de dejar Amazon, tuve conversaciones con mi amigo Vlad Panchenko , imaginando el futuro y las diversas formas en que la IA podría beneficiar a la humanidad. Después de haber construido sistemas de agentes durante algún tiempo y combinar ese conocimiento con la experiencia de Vlad como un emprendedor en serie exitoso, comenzamos a pensar en cómo se podrían aplicar los agentes de IA a las empresas. La mayoría de las empresas carecen de acceso a CMO, COO y otros expertos de primer nivel necesarios para tener éxito. La IA puede democratizar el acceso a la inteligencia a una escala sin precedentes. Juntos, exploramos la descomposición de procesos comerciales complejos en tareas pequeñas e identificables, viendo a los agentes como ladrillos individuales que pueden unirse y comunicarse entre sí. Me entusiasmó el potencial, y esto llevó al nacimiento de Portal AI , impulsado por la creencia de brindar inteligencia de IA de clase mundial para respaldar a las empresas en sus operaciones diarias, desde el marketing hasta la logística, permitiéndoles centrarse en lo que realmente importa.

¿Cómo imagina que la IA transformará las prácticas de gestión empresarial?

La IA está preparada para revolucionar la gestión empresarial al automatizar tareas repetitivas y mejorar la toma de decisiones.

Imagine tener un socio de IA que se encargue de su marketing, logística y recursos humanos, permitiéndole concentrarse en el trabajo creativo y estratégico. Esta transformación democratizará el acceso al conocimiento experto, permitiendo que todas las empresas operen a un nivel superior.

La capacidad de la IA para optimizar las operaciones no sólo aumentará la eficiencia sino que también fomentará la innovación y el crecimiento.

A medida que la IA se vuelve más sofisticada, ¿qué piensa sobre el impacto potencial de la 'IA en la sombra' en áreas como la integridad en el lugar de trabajo y la ciberseguridad? ¿Cómo podemos mitigar estos riesgos potenciales?

La ' IA en la sombra ' (el uso involuntario y a menudo oculto de la IA) plantea riesgos importantes. Por ejemplo, las personas que utilizan la IA para jugar con los algoritmos de las redes sociales destacan cómo se puede hacer un mal uso de la IA. A medida que el contenido de IA inunda Internet, mantener la integridad y la seguridad se vuelve un desafío. La investigación ética de la IA debe seguir el ritmo de estos avances, promoviendo la transparencia y salvaguardias sólidas. Abordar estos riesgos requiere vigilancia continua y estrategias de adaptación para proteger contra el uso indebido.

Nos encontramos en esta nueva era donde hay muchas cosas que realmente debemos tener en mente y seguir debatiendo.

Dada la rápida evolución del campo, ¿cómo puede mantenerse actualizado sobre los últimos avances y mantener su experiencia en IA? ¿Qué consejo le daría a alguien que aspira a adquirir experiencia en este ámbito tan dinámico?

Todo se mueve y cambia tan rápido que es genial. Pero eso también significa que, dentro de tres meses, es muy probable que algo quede obsoleto, obsoleto o simplemente pasado de moda. No hay forma de simplemente leer un libro y estar actualizado en estos rápidos ciclos de iteración.

Hay líderes importantes y fuentes acreditadas en el campo, por lo que seguirlos ayuda a mantenerse actualizado. Para profundizar en la investigación, me suscribo a boletines y comunidades relevantes en plataformas como Reddit y Twitter/X y, por supuesto, uso IA para resumir mis hilos en Reddit.

Para alguien que aspira a adquirir experiencia en IA, existen múltiples caminos. Si desea convertirse en investigador, construya una base sólida: la IA está profundamente arraigada en las matemáticas y, aunque las tendencias cambian, las matemáticas subyacentes siguen siendo las mismas.

En general, soy un gran defensor de los hackatones. He estado en muchos, he organizado varios. Y tengo que ver muchos proyectos. Son excelentes para que las personas aprendan algo nuevo a usar. Si tuviera que recomendar algo a alguien, ya sea un ingeniero, un gerente de producto o un director ejecutivo, sería: sal, conoce gente que quiera construir algo, ensúciate las manos y ponlo en marcha. Esta es la mejor manera de entender realmente las cosas, porque puedes desarrollar tu intuición y divertirte. ¡Sólo mantén la curiosidad!

Mirando dentro de 20 años, ¿cómo imagina el papel de la IA en nuestra vida diaria? ¿Qué es lo que más le entusiasma y qué aspectos de este futuro le resultan más difíciles de predecir?

¡Tengo muchas ganas de leer esta entrevista dentro de 20 años! La IA está cambiando tan rápidamente que es difícil predecir lo que sucederá en 20 meses, y mucho menos en 20 años. Estamos en un momento único, en las primeras etapas de poder consolidar toda la inteligencia humana en un solo sistema, permitiendo el acceso universal al conocimiento. Actualmente, recursos como la educación no están distribuidos de manera equitativa y creo que la IA tendrá un gran impacto en este sentido al ser un ecualizador universal en muchos sentidos.

Y volviendo a hablar de robots, creo que esto se convertirá en algo real. Tendremos robots personales que vivirán con nosotros como asistentes y se encargarán de todas las tareas domésticas.

Tendremos productos hiperpersonalizados: nuestros propios tutores, entrenadores y amigos. Ni siquiera tenemos todavía un nombre para estas entidades, pero ya está sucediendo.

Otra cosa que me entusiasma es la aceleración de la investigación. Me emociona la perspectiva de la primera medicina o cura desarrollada conjuntamente con IA: qué mundo tan hermoso sería. Creo firmemente en un futuro mejor y estoy emocionado de hacer todo lo que pueda para darle forma a ese futuro.

Según su perfil de LinkedIn, usted nació en el Líbano, se crió en Ucrania y se educó en Alemania: ¿podría compartir su viaje con nosotros y cómo estos variados orígenes culturales le han formado?

¡Así es! Nací en el Líbano, me mudé a Ucrania cuando era niña y crecí allí. Ucrania me marcó profundamente. A los 17 años me mudé a Alemania para estudiar en la universidad, donde más tarde se unió a mí mi familia y comenzó mi carrera. Al vivir en sociedades diversas e igualmente hermosas, aprendí sobre sus desafíos y oportunidades únicos.

Actualmente, la investigación sobre IA tiene un sesgo centrado en los angloparlantes, y la mayoría de los datos y sistemas están creados por y para angloparlantes. Al creer que la IA debe ser un ecualizador universal, debemos adaptar y respaldar todos los lenguajes para construir una IA verdaderamente universal. Como hablo cinco idiomas, me identifico con todos ellos: soy libanés, ucraniano y alemán. Soy humano. Estas experiencias me han brindado conocimientos invaluables sobre lo que nos conecta y al mismo tiempo nos hacen únicos, y llevo este conocimiento conmigo en todos mis esfuerzos.