Les progrès des techniques de séquençage de l'ADN ont permis aux chercheurs de séquencer le génome humain en une journée seulement, une tâche qui a pris environ une décennie avec les approches traditionnelles. Ce n'est qu'une des nombreuses contributions puissantes de l'apprentissage automatique en bioinformatique.
Alors que de nombreuses entreprises de biotechnologie embauchent des consultants ML pour faciliter le processus de traitement des données biomédicales, le marché de l'IA dans la bioinformatique continue de croître. Il devrait atteindre 37 027,96 $ d'ici 2029 , avec un TCAC de 42,7 % à partir de 2022. Voulez-vous faire partie de cette révolution numérique ?
Cet article donne une brève introduction au ML, explique comment il soutient la recherche biomédicale et énumère les défis auxquels vous pourriez être confronté lors du déploiement de cette technologie.
L'apprentissage automatique est un sous-ensemble du domaine plus large de l'intelligence artificielle (IA) . Il permet aux systèmes d'apprendre indépendamment des données et d'exécuter des tâches pour lesquelles ils ne sont pas explicitement programmés. Son objectif est de donner aux machines la capacité d'effectuer des tâches qui nécessitent l'intelligence humaine, telles que le diagnostic, la planification et la prédiction.
Il existe deux principaux types d'apprentissage automatique :
Il est également possible de combiner des données étiquetées et non étiquetées pendant la formation, ce qui se traduira par un apprentissage semi-supervisé. Ce type de ML peut être utile lorsque vous ne disposez pas de suffisamment de données étiquetées de haute qualité pour une approche d'apprentissage supervisé, mais que vous souhaitez tout de même l'utiliser pour diriger le processus d'apprentissage.
Certains de ces algorithmes relèvent strictement des catégories d'apprentissage supervisé/non supervisé, et certains peuvent être utilisés avec les deux méthodes.
Le traitement du langage naturel (TLN) est un ensemble de techniques permettant de comprendre le langage humain non structuré.
La PNL peut rechercher dans des volumes de recherche en biologie, regrouper des informations sur un sujet donné à partir de diverses sources et traduire les résultats de la recherche d'une langue à une autre. En plus des documents de recherche minière, les solutions NLP peuvent analyser les bases de données biomédicales pertinentes.
La PNL peut bénéficier au domaine de la bioinformatique des manières suivantes :
Il s'agit d'une structure multicouche composée de nœuds/neurones comme blocs de construction. Les neurones des couches adjacentes sont connectés les uns aux autres via des liens, mais les neurones de la même couche ne sont pas interconnectés. Les neurones de la couche d'entrée reçoivent des informations, les traitent et les transmettent en entrée à la couche suivante. Et ce processus se poursuit jusqu'à ce que les informations traitées atteignent la couche de sortie.
Le réseau de neurones le plus élémentaire est appelé perceptron. Il se compose d'un neurone qui agit comme un classificateur. Ce neurone reçoit une entrée et la place dans l'une des deux classes à l'aide d'une fonction de discrimination linéaire. Dans les grands réseaux de neurones, il n'y a pas de limite au nombre de couches ou au nombre de nœuds dans une couche.
Le regroupement non supervisé est le processus d'organisation des éléments en divers groupes en fonction de la définition de similarité fournie. À la suite d'une telle classification, les éléments positionnés dans un groupe sont étroitement liés les uns aux autres et diffèrent des éléments des autres groupes.
Contrairement à la classification supervisée, dans le clustering, nous ne savons pas à l'avance combien de clusters seront formés. Un exemple célèbre de cette approche d'apprentissage automatique en bioinformatique est le profilage d'expression de gènes basé sur des puces à ADN, où des gènes avec des niveaux d'expression similaires sont positionnés dans un cluster.
Dans les problèmes de classification d'apprentissage automatique, les classifications sont effectuées en fonction de facteurs/caractéristiques. Parfois, trop de facteurs affectent le résultat final, ce qui rend l'ensemble de données difficile à visualiser et à manipuler. Les algorithmes de réduction de dimensionnalité peuvent minimiser le nombre d'entités, ce qui rend l'ensemble de données plus gérable. Par exemple, un problème de classification climatique peut avoir l'humidité et les précipitations parmi ses caractéristiques. Ces deux facteurs peuvent être regroupés en un seul facteur pour des raisons de simplicité, car ils sont tous deux étroitement liés.
La réduction de la dimensionnalité a deux composants principaux :
Ce type d'algorithmes est utilisé pour compresser de grands ensembles de données dans le but de réduire le temps de calcul et les besoins de stockage. Il peut également éliminer les fonctionnalités redondantes présentes dans les données.
C'est l'un des classificateurs classiques d'apprentissage supervisé les plus populaires. Ces algorithmes appliquent une approche récursive pour construire un modèle d'arbre de type organigramme, où chaque nœud représente un test sur une fonctionnalité. Tout d'abord, l'algorithme détermine le nœud supérieur - la racine - puis construit l'arbre de manière récursive en considérant un paramètre à la fois. Le dernier nœud de chaque séquence est appelé « le nœud feuille ». Il représente le classement final et détient le label de classe.
Les modèles d'arbre de décision exigent une puissance de calcul élevée pendant la formation, mais ils peuvent ensuite effectuer des classifications sans calcul intensif. Le principal avantage que ces classificateurs apportent au domaine de la bioinformatique est qu'ils génèrent des règles compréhensibles et des résultats explicables.
Il s'agit d'un modèle de ML supervisé qui peut résoudre des problèmes de classification à deux groupes. Pour classer les points de données, ces algorithmes recherchent un hyperplan optimal qui divise les données le séparant en deux classes avec la distance maximale entre les points de données.
Les points situés de part et d'autre de l'hyperplan appartiennent à des classes différentes. La dimension de l'hyperplan dépend du nombre d'entités. Dans le cas de deux éléments, la frontière de décision est une ligne, avec trois éléments, c'est une plaque 2D. Cette caractéristique rend difficile l'utilisation de SVM pour les classifications avec plus de trois caractéristiques.
Cette approche est utile dans l'identification informatique des gènes d'ARN fonctionnels. Il peut sélectionner l'ensemble optimal de gènes pour la détection du cancer en fonction de leurs données d'expression.
Après avoir donné une brève introduction à l'apprentissage automatique et mis en évidence les algorithmes ML les plus couramment utilisés, voyons comment ils peuvent être déployés dans le domaine de la bioinformatique.
Si l'un de ces cas d'utilisation attire votre attention, adressez-vous à des professionnels du conseil en logiciels d'IA pour mettre en œuvre une solution personnalisée pour votre entreprise.
L'édition de gènes fait référence aux manipulations sur la composition génétique d'un organisme en supprimant, en insérant et en remplaçant une partie de sa séquence d'ADN. Ce processus repose généralement sur la technique CRISPR, qui est plutôt efficace. Mais il reste encore beaucoup à faire dans le domaine de la sélection de la bonne séquence d'ADN pour la manipulation, et c'est là que le ML peut aider. En utilisant l'apprentissage automatique pour la bioinformatique, les chercheurs peuvent améliorer la conception des expériences d'édition de gènes et prédire leurs résultats.
Une équipe de recherche a utilisé des algorithmes ML pour découvrir les variantes combinatoires les plus optimales de résidus d'acides aminés qui permettent à la protéine d'édition du génome Cas9 de se lier à l'ADN cible. En raison du grand nombre de ces variantes, une telle expérience aurait été trop importante, mais l'utilisation d'une approche d'ingénierie axée sur le ML a réduit la charge de dépistage d'environ 95 %.
La protéomique est une étude des protéines, de leurs interactions, de leur composition et de leur rôle dans le corps humain. Ce domaine implique de lourds ensembles de données biologiques et est coûteux en calculs. Par conséquent, des technologies comme l'apprentissage automatique en bioinformatique sont ici essentielles.
L'une des applications les plus réussies dans ce domaine consiste à utiliser des réseaux de neurones convolutifs pour positionner les acides aminés des protéines en trois classes - feuille, hélice et bobine. Les réseaux de neurones peuvent atteindre une précision de 84 % , la limite théorique étant de 88 % à 90 %.
Une autre utilisation de ML en protéomique est la notation des modèles de protéines, une tâche essentielle pour prédire la structure des protéines. Dans leur approche d'apprentissage automatique de la bioinformatique, des chercheurs de l'Université d'État de Fayetteville ont déployé ML pour améliorer la notation des modèles protéiques. Ils ont divisé les modèles de protéines en question en groupes et ont utilisé un interpréteur ML pour décider du vecteur de caractéristiques pour évaluer les modèles appartenant à chaque groupe. Ces vecteurs de caractéristiques ont été utilisés plus tard pour améliorer encore les algorithmes ML tout en les entraînant sur chaque groupe séparément.
Les chercheurs utilisent de plus en plus l'apprentissage automatique en bioinformatique pour identifier les gènes susceptibles d'être impliqués dans des maladies particulières. Ceci est réalisé en analysant les microréseaux d'expression génique et le séquençage de l'ARN.
En particulier, l'identification des gènes gagne du terrain dans les études liées au cancer pour identifier les gènes susceptibles de contribuer au cancer, ainsi que pour classer les tumeurs en les analysant au niveau moléculaire.
Par exemple, un groupe de scientifiques de l'Université de Washington a utilisé plusieurs algorithmes d'apprentissage automatique dans la bioinformatique, notamment un arbre de décision, une machine à vecteurs de support et des réseaux de neurones pour tester leur capacité à prédire et à classer les types de cancer . Les chercheurs ont déployé les données de séquençage de l'ARN du projet The Cancer Genome Atlas et ont découvert que la machine à vecteur de support linéaire était la plus précise, atteignant la précision de 95,8 % dans la classification du cancer.
Dans un autre exemple, les chercheurs ont utilisé ML pour classer les types de cancer du sein en fonction des données d'expression génique. Cette équipe s'est également appuyée sur les données du projet Cancer Genome Atlas. Les chercheurs ont classé les échantillons en cancer du sein triple négatif – l'un des cancers du sein les plus meurtriers – et non triple négatif. Et encore une fois, le classificateur de machine à vecteurs de support a donné les meilleurs résultats.
En parlant de maladies non cancéreuses, des chercheurs de l'Université de Pennsylvanie se sont appuyés sur l'apprentissage automatique pour identifier les gènes qui constitueraient une cible appropriée pour les médicaments contre les maladies coronariennes (CAD). L'équipe a utilisé l'outil d'optimisation de pipeline basé sur l'arbre (TPOT) alimenté par ML pour identifier une combinaison de polymorphismes nucléotidiques simples (SNP) liés à la CAD. Ils ont analysé les données génomiques de la UK Biobank et découvert 28 SNP pertinents. La relation entre les SNP en haut de cette liste et CAD a déjà été mentionnée dans la littérature, et cette recherche a donné une validation pratique.
La technologie de séquençage avancée double les bases de données génomiques tous les 2,5 ans, et les chercheurs cherchent un moyen d'extraire des informations utiles de ces connaissances accumulées. L'apprentissage automatique en bioinformatique peut parcourir des publications et des rapports biomédicaux pour identifier différents gènes et protéines et rechercher leur fonctionnalité. Il peut également aider à annoter les bases de données de protéines et à les compléter avec les informations extraites de la littérature.
Un exemple vient d'un groupe de chercheurs qui ont déployé la bioinformatique et l'apprentissage automatique dans l'exploration de la littérature pour faciliter la notation des modèles protéiques. La modélisation structurelle des amarrages protéine-protéine se traduit généralement par plusieurs modèles qui sont ensuite notés en fonction des contraintes structurelles. L'équipe a utilisé des algorithmes ML pour parcourir les articles PubMed sur les interactions protéine-protéine, à la recherche de résidus qui pourraient aider à générer ces contraintes pour la notation du modèle. Et pour s'assurer que les contraintes sont pertinentes, les scientifiques ont exploré la capacité de différents algorithmes d'apprentissage automatique à vérifier la pertinence de tous les résidus découverts.
Cette recherche a révélé que les réseaux de neurones coûteux en calcul et la machine à vecteurs de support moins exigeante en ressources ont obtenu des résultats très similaires.
La réorientation des médicaments, ou reprofilage, est une technique utilisée par les scientifiques pour découvrir de nouvelles applications de médicaments existants auxquelles ils n'étaient pas destinés. Les chercheurs adoptent l'IA en bioinformatique pour effectuer des analyses de médicaments sur des bases de données pertinentes, telles que BindingDB et DrugBank. Il existe trois directions principales pour la réutilisation des médicaments :
Des chercheurs de l'Université du pétrole de Chine et de l'Université du Shandong ont développé un algorithme de réseau neuronal profond et l'ont utilisé sur la base de données DrugBank. Ils voulaient étudier les interactions médicament-cible entre les molécules médicamenteuses et la protéine de fusion mitochondriale 2 (MFN2), qui est l'une des principales protéines susceptibles de causer la maladie d'Alzheimer. L'étude identifie 15 molécules médicamenteuses ayant un potentiel de liaison. Après une enquête plus approfondie, il est apparu que 11 d'entre eux peuvent s'arrimer avec succès à MFN2. Et cinq d'entre eux ont une force de liaison moyenne à forte.
L'apprentissage automatique en bioinformatique diffère du ML dans d'autres secteurs en raison des quatre facteurs ci-dessous, qui constituent également les principaux défis de l'application du ML à ce domaine.
L'IA bioinformatique coûte cher . Pour que l'algorithme fonctionne correctement, vous devez acquérir un grand ensemble de données d'entraînement. Cependant, il est plutôt coûteux d'obtenir 10 000 scanners thoraciques, ou tout autre type de données médicales d'ailleurs.
Difficultés associées aux jeux de données d'entraînement . Dans d'autres domaines, si vous ne disposez pas de suffisamment de données d'entraînement, vous pouvez générer des données synthétiques pour étendre votre ensemble de données. Cependant, cette astuce pourrait ne pas être appropriée lorsqu'il s'agit d'organes humains. Le problème est que votre logiciel de génération de scan peut produire un scan d'un vrai humain. Et si vous commencez à l'utiliser sans la permission de la personne, vous serez en violation flagrante de sa vie privée.
Un autre défi associé aux données de formation est que si vous souhaitez créer un algorithme qui fonctionne avec des maladies rares, il n'y aura pas beaucoup de données avec lesquelles travailler en premier lieu.
Le niveau de confiance doit être très élevé . Lorsque la vie humaine dépend des performances de l'algorithme, il y a tout simplement trop en jeu, ce qui ne laisse pas de place à l'erreur.
Problème d'explicabilité . Les médecins ne seront pas ouverts à l'utilisation du modèle ML s'ils ne comprennent pas comment il a produit ses recommandations. Vous pouvez utiliser une IA explicable à la place, mais ces algorithmes ne sont pas aussi puissants que certains modèles d'apprentissage non supervisés en boîte noire.
Pour les défis généraux associés à l'IA et des conseils de mise en œuvre, consultez notre article et un eBook gratuit .
Les technologies d'IA et de ML ont de nombreuses applications dans les domaines de la médecine et de la biologie. Sur notre blog, vous trouverez plus d'informations sur l'intelligence artificielle dans les essais cliniques , l'IA dans le diagnostic et le traitement du cancer et les avantages de l'IA dans les soins de santé .
La bioinformatique est un autre domaine lié à la médecine où les solutions médicales basées sur le ML et l'IA sont utiles. La bioinformatique nécessite de gérer de grandes quantités de données diverses, telles que des séquences de génomes, des structures de protéines et des publications scientifiques. ML est bien connu pour ses capacités de traitement de données, cependant, de nombreux modèles bioinformatiques d'IA sont coûteux à exécuter. Cela peut prendre des centaines de milliers de dollars pour former un algorithme d'apprentissage en profondeur. Par exemple, la formation du modèle AlphaFold2 pour la prédiction de la structure des protéines consomme l'équivalent de 100 à 200 GPU fonctionnant pendant plusieurs semaines.
Vous pouvez trouver plus d'informations sur ce à quoi s'attendre en termes de prix dans notre article sur le coût de la mise en œuvre de l'IA .
Si vous souhaitez déployer l'apprentissage automatique en bioinformatique, écrivez-nous. Nous travaillerons avec vous pour trouver les modèles ML les mieux adaptés pour un budget raisonnable.
Vous envisagez de déployer l'apprentissage automatique en bioinformatique, mais vous ne savez pas quel modèle vous convient le mieux ? Contactez-nous ! Nous vous aiderons à sélectionner le type de ML le mieux adapté à la tâche. Nous vous aiderons également à créer/personnaliser, former et déployer l'algorithme.