paint-brush
À la pointe de la recherche en IA : multimodalité, agents, LLM Open Source et au-delàpar@viceasytiger
1,434 lectures
1,434 lectures

À la pointe de la recherche en IA : multimodalité, agents, LLM Open Source et au-delà

par Vik Bogdanov9m2024/07/04
Read on Terminal Reader

Trop long; Pour lire

Explorer la prochaine frontière de la recherche sur l'IA avec Hamudi Naanaa, CTO et co-fondateur de Portal.ai, et ancien chercheur scientifique en IA chez Amazon. Nous discutons de l'état actuel de l'IA, de l'importance de la multimodalité et des agents d'IA, de l'importance du développement open source et des défis éthiques de l'IA. Naanaa partage son parcours dans l'IA, l'impact potentiel de l'IA sur diverses industries et le rôle de l'IA dans la transformation des pratiques de gestion d'entreprise. Il souligne la nécessité d’un développement responsable de l’IA et souligne les possibilités futures passionnantes de l’IA, notamment les robots personnels et les médicaments co-développés par l’IA.
featured image - À la pointe de la recherche en IA : multimodalité, agents, LLM Open Source et au-delà
Vik Bogdanov HackerNoon profile picture
0-item

Je suis récemment tombé sur un article dans lequel l'auteur affirme que si 2023 a été une année frénétique dans le domaine de l'IA, étant un sujet brûlant dans les conseils d'administration des entreprises et dans les médias et déterminant même la performance des marchés boursiers publics, 2024 sera une année d'exploration et de découverte. Il compare l’état actuel de l’IA à une phase de « soupe primordiale », débordante de potentiel mais encore amorphe, et affirme que nous sommes passés trop rapidement de la phase d’exploration de l’IA à l’exploitation active, à la recherche de résultats rapides et faciles. Il est désormais « temps d’appuyer sur le bouton de réinitialisation » et d’explorer davantage l’IA vers une création de valeur significative.


Cet article m’a touché, suscitant la curiosité de comprendre les esprits qui façonnent le présent et l’avenir de la recherche sur l’IA. Pour obtenir des informations plus approfondies, j'ai interviewé Mohammad (Hamudi) Naanaa , CTO et co-fondateur de Portal.ai, et ancien chercheur scientifique en IA chez Amazon et responsable du laboratoire R&D chez Apple. Notre conversation approfondit l’état actuel de l’exploration de l’IA et sa prochaine frontière, les défis et opportunités du développement responsable et éthique de l’IA, l’impact potentiel de l’IA fantôme, ce qu’il faut pour développer une solide expertise en IA et bien plus encore.


Bonne lecture !


Hamudi, qu’est-ce qui vous a attiré vers le domaine de la recherche en IA et quel(s) domaine(s) spécifique(s) explorez-vous actuellement ?


Mon parcours vers l'IA a commencé pendant mes années universitaires avec l' article révolutionnaire AlexNet . L’idée de former un modèle pour classer les images était impressionnante, ce qui semblait inaccessible avec un logiciel conventionnel. Inspiré par cette complexité, je me suis plongé dans la recherche sur l'IA pour mieux comprendre les réseaux de neurones. J'avais la forte intuition que si nous parvenions à résoudre la classification des images, ce n'était qu'une question de temps avant que nous puissions nous attaquer à des données et à des problèmes encore plus complexes, pour finalement construire de l'intelligence. Je voulais faire partie de ce voyage.


Au départ, je me suis plongé dans la vision par ordinateur, fasciné par les possibilités créatives de l’IA générative, en particulier les GAN et les modèles de diffusion. Plus tard, l’explosion des modèles de langage avec l’article Transformer a attiré mon attention, rapprochant le rêve d’une véritable intelligence artificielle. Aujourd'hui, je me trouve à l'intersection passionnante de l'IA générative dans le texte et les images.


Selon vous, quelle sera la prochaine frontière de l’exploration de l’IA ?


Même aujourd’hui, des années plus tard, nous ne faisons qu’effleurer le potentiel de l’IA. C'est un sujet très brûlant ; vous voyez beaucoup de tendances aller et venir, et la frontière se façonne chaque jour.


Une direction importante à cette frontière est la multimodalité . Le monde est bien plus que du texte, et je vois un avenir radieux dans l’IA multimodale native – intégrant du texte, des images, de l’audio et au-delà. De nombreuses grandes entreprises d’IA l’ont déjà adopté, et nous voyons des modèles fondamentaux prendre en charge diverses contributions.


Un autre domaine pour lequel je constate beaucoup d'anticipation et d'enthousiasme est celui des agents . Ces systèmes disposent d’une boucle de rétroaction complète avec observations, raisonnement, état, actions et réflexion. Ils vont au-delà du paradigme « entrée-sortie » que nous avons vu aujourd’hui avec la plupart des IA basées sur le LLM.


Un débat est en cours pour savoir si les architectures basées sur des transformateurs, telles que les machines à jetons d'entrée-sortie, sont suffisantes pour une « véritable » intelligence.


Explorer des architectures fondamentalement nouvelles est une direction prometteuse mais stimulante. Nous pourrions assister à une renaissance des architectures à mémoire native avec état, telles que les machines de Turing neuronales (NTM) ou les ordinateurs neuronaux différentiels (DNC), qui pourraient remédier à certains défauts des transformateurs.


Toutes ces avancées vont révolutionner la robotique, en faisant entrer les assistants intelligents dans notre vie quotidienne plus tôt que prévu. Je crois que nous verrons les premiers robots marcher parmi nous d’ici quelques années, peut-être même moins.


Cependant, développer une technologie est une chose, et créer des produits utiles à partir de celle-ci en est une autre.


L’intérêt d’une IA audio multimodale native est que les utilisateurs peuvent générer des chansons ultra-personnalisées dans lesquelles ils mettent des émotions. La même technologie de base, mais le produit dans le bon emballage est ce qui donne du pouvoir aux gens. Et c’est là que je vois bientôt de nombreuses explorations se produire, avec des modèles devenant plus fiables, contrôlables et robustes .


Comment voyez-vous les systèmes d’IA multimodaux changer l’interaction entre les humains et la technologie ? Existe-t-il des secteurs ou des applications spécifiques dans lesquels l’IA multimodale aura l’impact le plus significatif ?


L’IA multimodale bouleverse déjà la façon dont nous interagissons avec la technologie. Prenez les chatbots : autrefois de simples outils textuels que les gens ignoraient sur les sites Web, ils évoluent désormais vers des interfaces multimodales sophistiquées au centre de nouvelles conceptions.


La multimodalité permet de nouveaux modèles d'interaction : prenez par exemple les applications éducatives comme Duolingo ou Khan Academy . Pouvoir mettre en pratique vos compétences linguistiques en écrivant des textes avec votre partenaire IA, améliorer votre prononciation dans une conversation vocale ou montrer vos équations mathématiques sur des photos est une toute nouvelle façon d'interagir plus naturellement avec la technologie, augmentant ainsi la productivité et l'engagement.


J'imagine un avenir avec des super applications ou même de nouveaux systèmes d'exploitation où les utilisateurs peuvent donner des instructions et recevoir un résultat sans naviguer dans différentes applications.


Par exemple, au lieu de cliquer sur des icônes et du texte pour commander de la nourriture, vous pouvez parler, faire des gestes ou même regarder certains éléments pour interagir de manière plus humaine. Les premiers utilisateurs comme Humane AI Pin et Rabbit R1 sont prometteurs, mais soulignent également l’imprévisibilité et la marge d’amélioration. En tant que développeurs et chercheurs en IA, nous devons résoudre ces problèmes, et j'ai bon espoir que nous y parviendrons.


Les systèmes d’IA multimodaux sont sur le point de révolutionner la façon dont nous interagissons avec la technologie en éliminant les barrières entre les différentes formes de communication. Nous n’en sommes qu’au début de l’exploration de cette nouvelle façon de créer des interfaces, mais un modèle commun est déjà perceptible :


les systèmes existants avec des modèles d’interaction prédéfinis vont être réinventés.


Alors que la recherche sur l’IA progresse rapidement, quels sont les plus grands défis auxquels nous sommes confrontés pour garantir un développement responsable de l’IA et atténuer son impact négatif potentiel ?


Naviguer dans le paysage éthique de l’IA est complexe mais crucial, car la technologie évolue rapidement et ses implications sont encore à comprendre. Nous devons anticiper et atténuer les préjugés et les conséquences imprévues.


Certains défis découlent d’implications éthiques liées aux défauts humains. Par exemple, les projets visant à créer des compagnons IA peuvent aider à lutter contre la solitude. Néanmoins, ils pourraient également l’exacerber en encourageant les gens à trouver du réconfort dans l’IA plutôt que dans les interactions réelles. Cela soulève des questions pour les créateurs sur les implications de leurs applications et sur la manière dont ils doivent y répondre. Ce n’est qu’un exemple des questions fondamentales qui se posent à propos d’applications apparemment simples, et il y en a bien d’autres que nous devons encore imaginer, sans parler des effets secondaires de leur existence.


Des incidents récents dans les grandes technologies, tels que des représentations historiques biaisées de personnes dans des images générées , mettent en évidence les défis importants, notamment les préoccupations éthiques et les conséquences involontaires, qui accompagnent les progrès rapides de la technologie de l'IA.


Il n'y a pas de réponse simple, mais je pense qu'il est essentiel d'assurer la transparence grâce au développement LLM open source (exposant à la fois les modèles et les données sur lesquelles ils ont été formés) et de favoriser une approche multidisciplinaire impliquant des personnes d'horizons divers, et pas seulement des ingénieurs et des scientifiques. mesures pour relever ces défis.


Poser ces questions est la seule bonne approche. Nous sommes responsables de façonner l’avenir des technologies les plus puissantes à construire. En tant que créateurs d’IA, nous devons tenir compte des préjugés inhérents et potentiels et des moyens de les atténuer.


Depuis votre passage chez Amazon, à quels projets ou efforts de recherche avez-vous participé ? Sur quoi travaillez-vous maintenant?


La magie de l’IA réside dans la compréhension des cas d’utilisation axés sur le laser dans lesquels elle peut être la plus utile. Après avoir quitté Amazon, j'ai eu des discussions avec mon ami Vlad Panchenko , envisageant l'avenir et les différentes manières dont l'IA pourrait profiter à l'humanité. Après avoir construit des systèmes agentiques pendant un certain temps et combinant ces connaissances avec l'expérience de Vlad en tant qu'entrepreneur en série à succès, nous avons commencé à réfléchir à la manière dont les agents IA pourraient être appliqués aux entreprises. La plupart des entreprises n’ont pas accès aux meilleurs directeurs marketing, directeurs opérationnels et autres experts nécessaires pour réussir. L’IA peut démocratiser l’accès au renseignement à une échelle sans précédent. Ensemble, nous avons exploré la décomposition de processus métier complexes en petites tâches identifiables, en considérant les agents comme des briques individuelles pouvant être reliées et communiquer entre elles. J'ai été enthousiasmé par le potentiel, et cela a conduit à la naissance de Portal AI , motivé par la conviction qu'il faut apporter une intelligence IA de classe mondiale pour soutenir les entreprises dans leurs opérations quotidiennes, du marketing à la logistique, leur permettant de se concentrer sur ce qui compte vraiment.


Comment envisagez-vous l’IA transformer les pratiques de gestion d’entreprise ?


L’IA est sur le point de révolutionner la gestion d’entreprise en automatisant les tâches répétitives et en améliorant la prise de décision.


Imaginez avoir un partenaire IA qui gère votre marketing, votre logistique et vos ressources humaines, vous permettant de vous concentrer sur un travail créatif et stratégique. Cette transformation démocratisera l’accès aux connaissances d’experts, permettant à chaque entreprise d’opérer à un niveau supérieur.


La capacité de l’IA à rationaliser les opérations améliorera non seulement l’efficacité, mais favorisera également l’innovation et la croissance.


À mesure que l’IA devient plus sophistiquée, que pensez-vous de l’impact potentiel de « l’IA fantôme » sur des domaines tels que l’intégrité du lieu de travail et la cybersécurité ? Comment pouvons-nous atténuer ces risques potentiels ?


« Shadow AI » – l’utilisation involontaire et souvent cachée de l’IA – présente des risques importants. Par exemple, les personnes qui utilisent l’IA pour jouer avec les algorithmes des réseaux sociaux soulignent comment l’IA peut être utilisée à mauvais escient. À mesure que le contenu de l’IA inonde Internet, le maintien de l’intégrité et de la sécurité devient un défi. La recherche éthique sur l’IA doit suivre le rythme de ces évolutions, en promouvant la transparence et des garanties solides. La lutte contre ces risques nécessite une vigilance continue et des stratégies adaptatives pour se protéger contre les abus.


Nous nous trouvons dans cette nouvelle ère où il y a beaucoup de choses que nous devons vraiment garder à l’esprit et continuer à débattre.


Compte tenu de l’évolution rapide du domaine, comment rester informé des dernières avancées et maintenir votre expertise en IA ? Quels conseils donneriez-vous à une personne souhaitant acquérir une expertise dans ce domaine en évolution rapide ?


Tout bouge et change si vite, c'est génial. Mais cela signifie aussi que dans trois mois déjà, il y a de fortes chances que quelque chose soit obsolète, obsolète ou tout simplement démodé. Il n'y a aucun moyen de simplement lire un livre et d'être à jour dans ces cycles d'itérations rapides.


Il existe des leaders majeurs et des sources réputées dans le domaine, donc les suivre permet de rester à jour. Pour approfondir la recherche, je m'abonne à des newsletters et à des communautés pertinentes sur des plateformes comme Reddit et Twitter/X et, bien sûr, j'utilise l'IA pour résumer mes discussions sur Reddit.


Pour quelqu’un qui aspire à acquérir une expertise en IA, il existe plusieurs voies. Si vous souhaitez devenir chercheur, bâtissez une base solide : l’IA est profondément ancrée dans les mathématiques, et même si les tendances changent, les mathématiques sous-jacentes restent les mêmes.


Dans l’ensemble, je suis un ardent défenseur des hackathons. Je suis allé à beaucoup de choses, j'en ai organisé plusieurs. Et je dois voir beaucoup de projets. Ils sont parfaits pour que les gens apprennent quelque chose de nouveau à utiliser. Si je devais recommander une chose à quiconque, qu'il soit ingénieur, chef de produit ou PDG, ce serait : allez-y, rencontrez des gens qui veulent construire quelque chose, mettez la main à la pâte et lancez-le. C’est la meilleure façon de réellement comprendre les choses, car vous développez votre intuition et vous amusez. Restez simplement curieux !


Dans 20 ans, comment envisagez-vous le rôle de l’IA dans notre vie quotidienne ? Qu’est-ce qui vous passionne le plus et quels aspects de cet avenir trouvez-vous les plus difficiles à prédire ?


J'ai vraiment envie de lire cette interview dans 20 ans ! L’IA évolue si rapidement qu’il est difficile de prédire ce qui se passera dans 20 mois, sans parler de 20 ans. Nous vivons un moment unique, aux premiers stades de la capacité de consolider toute l’intelligence humaine en un seul système, permettant un accès universel à la connaissance. Actuellement, les ressources telles que l’éducation ne sont pas réparties de manière égale, et je pense que l’IA aura un impact important en tant qu’égaliseur universel à bien des égards.


Et en revenant sur les robots, je pense que cela deviendra une réalité. Nous aurons des robots personnels qui vivront avec nous comme assistants et nous prendront en charge toutes les tâches domestiques.


Nous aurons des produits hyper personnalisés : nos propres tuteurs, coachs et amis. Nous n'avons même pas encore de nom pour ces entités, mais cela se produit déjà.


Une autre chose qui me passionne, c’est l’accélération de la recherche. Je suis enthousiasmé par la perspective du premier médicament ou remède co-développé par l’IA – quel monde magnifique ce serait. Je crois fermement en un avenir meilleur et je suis ravi de faire tout ce que je peux pour façonner cet avenir.


D'après votre profil LinkedIn, vous êtes né au Liban, avez grandi en Ukraine et avez fait vos études en Allemagne : pourriez-vous partager votre parcours avec nous et comment ces origines culturelles variées vous ont façonné ?


C'est exact! Je suis né au Liban, j'ai déménagé en Ukraine quand j'étais enfant et j'y ai grandi. L’Ukraine m’a profondément marqué. À 17 ans, j'ai déménagé en Allemagne pour mes études universitaires, où ma famille m'a ensuite rejoint et ma carrière a commencé. Vivant dans des sociétés diverses et tout aussi belles, j'ai découvert leurs défis et opportunités uniques.


La recherche sur l’IA est actuellement axée sur les anglophones, la plupart des données et des systèmes étant construits par et pour les anglophones. Convaincus que l’IA doit être un égaliseur universel, nous devons prendre en compte et prendre en charge chaque langage pour construire une IA véritablement universelle. Étant capable de parler cinq langues, je m'identifie à chacune d'elles : je suis libanaise, ukrainienne et allemande. Je suis humain. Ces expériences m'ont donné un aperçu inestimable de ce qui nous relie tout en nous rendant uniques, et je porte ces connaissances avec moi dans toutes mes activités.