Lundi dernier, une infirmière nous a suggéré d'essayer un moniteur sans fil pour suivre mes signes vitaux et ceux de mon bébé à naître.
« Nous appelons cet appareil « Monica, le moniteur ! » C'est soit un rêve avec lequel travailler, soit un véritable cauchemar », m'a dit l'infirmière.
Ce jour-là, « Monica » (en fait le système de patch sans fil Novii) a réalisé des performances exceptionnelles. J'ai pu me déplacer librement, sans l'encombrement de fils, tout en donnant naissance à ma fille. Cette technologie exploite l’acquisition passive de signaux pour différencier les signaux cardiaques fœtaux et maternels et pour détecter les contractions utérines. Les données sont transmises sans fil à une unité de surveillance pour une observation en temps réel. Ce système améliore la précision et réduit les fausses alarmes, offrant ainsi la mobilité indispensable pendant le travail.
Je me suis dit : écrire et théoriser sur les technologies est une chose, mais expérimenter directement leurs capacités remarquables en est une autre, surtout lorsqu'un appareil fonctionne parfaitement. Une question s’est posée : que peuvent ajouter les modèles de base aux wearables ? Juste après mon expérience avec « Monica », un article récent de Google Research et de chercheurs du MIT a attiré mon attention. Intitulé « Health-LLM : Large Language Models for Health Prediction via Wearable Sensor Data » et rédigé par Kim et al., cet article se penche sur l'application des LLM dans le secteur de la santé, en se concentrant sur l'interprétation des données provenant de capteurs portables pour la prévision de la santé. Curieusement, ces modèles sont alimentés en données non pas à partir de dossiers médicaux ou de notes du médecin, mais à partir d'appareils portables comme les Fitbits, qui suivent les pas quotidiens, la fréquence cardiaque, les habitudes de sommeil, etc. – un peu comme « Monica ».
La recherche a évalué huit LLM de pointe : Med-Alpaca, PMC-Llama, Asclepius, ClinicalCamel, Flan-T5, Palmyra-Med, GPT-3.5 et GPT-4, sur six ensembles de données de santé publique. Ils ont mené des expériences sur treize tâches de prédiction de la santé liées à la santé mentale, à l’activité, au métabolisme, au sommeil et aux évaluations cardiaques.
L'équipe a expérimenté diverses méthodes, notamment les invites à tir zéro et à quelques tirs (enseigner le modèle avec un minimum ou aucun exemple), un réglage précis de l'instruction (adapter le modèle à des tâches spécifiques) et même un réglage précis des paramètres pour efficacité informatique.
L’efficacité de l’amélioration du contexte dans les invites est particulièrement fascinante, ce qui implique l’ajout du contexte de l’utilisateur, des connaissances sur la santé et des informations temporelles. Cette approche a donné lieu à une amélioration des performances allant jusqu'à 23,8 %.
La santé est un domaine extrêmement sensible, mais les avantages potentiels de l’IA générative pour les humains sont immenses, notamment grâce à la puissance des modèles de base. Health-LLM explore l'avenir où les appareils portables ne seront pas seulement des trackers passifs mais aussi des gardiens de santé proactifs.
Un autre article récent et révolutionnaire dans le domaine des soins de santé provient de chercheurs de Stanford et de Stability AI, intitulé CheXagent : Towards a Foundation Model for Chest X-Ray Interpretation . L'aspect le plus fascinant de cet article est le développement de CheXagent, un modèle de base avancé spécialement conçu pour l'interprétation des radiographies pulmonaires. Ce modèle combine de manière unique un LLM clinique, un encodeur de vision spécialisé et un réseau de pontage vision-langage, démontrant des performances exceptionnelles dans l'interprétation d'images médicales complexes. Sa capacité à surpasser les modèles existants en termes d’évaluations de précision et d’équité marque une avancée significative dans la technologie de l’IA en imagerie médicale. Cela peut faire gagner beaucoup de temps ! Et peut-être vit.
(La petite fille nouveau-née – Reason Leeloo Joy – vous envoie ses salutations. Nous avons pris une semaine de congé la semaine dernière, mais nous sommes maintenant de retour sur la bonne voie, explorant le monde de l'IA pour comprendre comment elle et ses quatre frères y vivront et y navigueront.)
Nouvelles de The Usual Suspects ©
Sam Altman et OpenAI
- OpenAI a publié deux nouveaux modèles d'intégration (text-embedding-3-small et text-embedding-3-large) et des versions mises à jour de GPT-4 Turbo, GPT-3.5 Turbo et un modèle de modération de texte. Les nouveaux modèles d'intégration représentent le contenu sous forme de séquences numériques, améliorant ainsi les tâches d'apprentissage automatique telles que le clustering ou la récupération. Ils sont également plus efficaces et plus rentables.
- Pendant ce temps, Sam Altman est en pourparlers avec des bailleurs de fonds du Moyen-Orient, notamment de riches investisseurs et des fabricants de puces comme TSMC, pour lancer une nouvelle entreprise de puces. Cette décision vise à répondre aux besoins croissants d'OpenAI en semi-conducteurs et à réduire la dépendance à l'égard de Nvidia. La structure de l'entreprise n'est pas claire et il pourrait s'agir d'une entité distincte ou d'une filiale d'OpenAI.
Blackstone intervient
- Un autre acteur majeur investit massivement dans la révolution de l’IA. Blackstone construit un réseau de centres de données à forte consommation énergétique d'une valeur de 25 milliards de dollars à travers l'Amérique. Suite à l'acquisition pour 10 milliards de dollars de QTS, un important opérateur de centres de données, Blackstone développe des installations massives pour répondre aux demandes croissantes des géants de la technologie en matière de numérique et d'IA. Ces projets, qui consomment l’équivalent de millions de foyers en électricité, remodèlent les communautés et suscitent des débats sur l’utilisation des ressources et les avantages locaux. Malgré les défis, notamment les tensions d’alimentation électrique et les réactions négatives du public, Blackstone considère cette entreprise comme l’un de ses meilleurs investissements potentiels, illustrant l’importance et la complexité croissantes de l’infrastructure de données à l’ère de l’IA.
Elon Musk, xAI et Tesla
- Elon Musk a récemment fait la une des journaux en recherchant un investissement de 6 milliards de dollars pour xAI auprès d'investisseurs mondiaux du Moyen-Orient, de Hong Kong, du Japon et de Corée. En cas de succès, la valorisation de xAI pourrait atteindre 20 milliards de dollars, dépassant les 18,4 milliards de dollars d'Anthropic mais inférieure aux 100 milliards de dollars d'OpenAI. Cependant, la récente menace de Musk de supprimer les projets d'IA de Tesla à moins qu'il n'obtienne un contrôle de 25 % a suscité le mécontentement des investisseurs actuels et pourrait affecter les négociations avec de nouveaux bailleurs de fonds potentiels. Pendant ce temps, Tesla prévoit un investissement de 500 millions de dollars dans un supercalculateur « Dojo » dans ses installations de Buffalo, New York, soulignant l'engagement de l'entreprise à faire progresser la technologie de l'IA.
Google et faire des câlins
- Le partenariat récemment annoncé entre Hugging Face et Google Cloud vise à rendre l'IA plus accessible. Il se concentre sur des initiatives partagées en matière de science ouverte et de source, en tirant parti à la fois des modèles ouverts de Hugging Face et de la technologie de Google Cloud. L’objectif est de faciliter le développement de technologies d’IA pour un plus large éventail d’utilisateurs et d’applications.
- Pendant ce temps, Google Bard s'est hissé à la deuxième position du classement Chatbot Arena de HuggingFace, dépassant GPT-4 et désormais seulement derrière GPT-4 Turbo dans le classement LLM piloté par la communauté.
Les documents de recherche les plus récents, classés pour votre commodité
Compression et efficacité du modèle
- SLICEGPT : Une technique pour compresser efficacement de grands modèles de langage en supprimant des paramètres tout en conservant les performances →lire l'article
- DeepSeek-Coder : se concentre sur le développement de modèles de génération de code multilingues hautes performances avec une large gamme de paramètres →lire l'article
- SPACTOR-T5 : présente une méthode de pré-entraînement efficace pour les modèles T5, réduisant les exigences de calcul →lire l'article
- MEDUSA : Un framework pour accélérer l'inférence de grands modèles de langage à l'aide de plusieurs têtes de décodage →lire l'article
Capacités et évaluation du LLM
- De GPT-4 à Gemini et au-delà : évalue la généralisabilité, la fiabilité et la causalité des MLLM à travers de multiples modalités →lire l'article
- MaLA-500 : Développe un LLM multilingue prenant en charge plus de 500 langues, améliorant l'accessibilité du modèle linguistique →lire l'article
- Repérer les LLM avec des jumelles : présente une méthode de détection sans tir du texte généré par de grands modèles de langage →lire l'article
Modèles multimodaux et spécialisés
- Repenser la dépendance aux correctifs pour les auto-encodeurs masqués : examine le mécanisme de décodage dans les auto-encodeurs masqués pour un traitement d'image amélioré →lire l'article
- MM-LLM : Une enquête complète sur les avancées et les capacités des grands modèles de langage multimodaux →lire l'article
- CMMMU : Établit un benchmark pour l'évaluation des grands modèles multimodaux dans le contexte chinois →lire l'article
- SpatialVLM : améliore les modèles de langage de vision avec des capacités avancées de raisonnement spatial →lire l'article
Techniques de formation en IA et de génération de données
- Learning Universal Predictors : explore la formation des réseaux de neurones pour les stratégies de prédiction universelles, en se rapprochant de l'induction de Solomonoff →lire l'article
- Unitxt : Une bibliothèque Python pour une préparation de données flexible et reproductible en PNL générative →lire l'article
- GENIE : Une méthode pour générer des données synthétiques de haute qualité basées sur le contenu à l'aide de grands modèles de langage →lire l'article
- MambaByte : étudie un modèle de langage sans jeton qui apprend directement à partir des octets bruts →lire l'article
- Meta-Prompting : améliore les modèles de langage avec une technique d'échafaudage indépendante des tâches pour de meilleures performances →lire l'article
- WARM : Une approche pour aligner les grands modèles de langage sur les préférences humaines dans l'apprentissage par renforcement →lire l'article
Modèles de langage et jeux de rôle
- Un petit modèle de langage rencontre un vocabulaire de vision renforcé : présente un modèle compact intégrant un vocabulaire de vision amélioré pour un codage efficace des informations visuelles →lire l'article
- Les grands modèles de langage sont des superpositions de tous les caractères : Développe une méthode pour jouer des dialogues à l'aide de grands modèles de langage →lire l'article
- Orion-14B : présente une collection de grands modèles de langage multilingues pour les applications conversationnelles →lire l'article
Dans d'autres newsletters
- Grande plongée dans la « Mise à jour sur les applications distribuées dans l'Union européenne » d'Apple par Hardcore Software
- Lecture amusante d' Interconnects sur la fusion de modèles "Quand ce qui semble être de la pure magie noire LLM est soutenu par la littérature"
- Est-ce l’année où Apple se réveille dans l’IA ? L'avis des investisseurs de Madrona.
- Andrew Ng décrit son expérience à Davos et au Forum économique mondial. Il s'agit d'IA mais dans le style humaniste caractéristique de Ng.