paint-brush
La bioinformática ve una innovación significativa gracias a la IA y el aprendizaje automáticopor@itrex
1,961 lecturas
1,961 lecturas

La bioinformática ve una innovación significativa gracias a la IA y el aprendizaje automático

por ITRex11m2023/02/10
Read on Terminal Reader

Demasiado Largo; Para Leer

El aprendizaje automático es un subconjunto del campo más amplio de la inteligencia artificial (IA). Permite que los sistemas aprendan de forma independiente a partir de los datos y ejecuten tareas para las que no están explícitamente programados. Se prevé que la IA en el mercado de la bioinformática alcance los $37.027,96 para 2029.
featured image - La bioinformática ve una innovación significativa gracias a la IA y el aprendizaje automático
ITRex HackerNoon profile picture

Los avances en las técnicas de secuenciación del ADN permitieron a los investigadores secuenciar el genoma humano en solo un día, una tarea que consumió alrededor de una década con los enfoques tradicionales. Esta es solo una de las muchas contribuciones poderosas del aprendizaje automático en bioinformática.


A medida que muchas empresas de biotecnología contratan consultores de ML para facilitar el proceso de manejo de datos biomédicos, el mercado de la IA en la bioinformática sigue creciendo. Se prevé que alcance los $37.027,96 para 2029 , creciendo a una CAGR del 42,7 % a partir de 2022. ¿Quieres ser parte de esta revolución digital?

Este artículo brinda una breve introducción a ML, explica cómo respalda la investigación biomédica y enumera los desafíos que podría enfrentar al implementar esta tecnología.

Introducción al aprendizaje automático para la bioinformática

El aprendizaje automático es un subconjunto del campo más amplio de la inteligencia artificial (IA) . Permite que los sistemas aprendan de forma independiente de los datos y ejecuten tareas para las que no están explícitamente programados. Su objetivo es dar a las máquinas la capacidad de realizar tareas que requieren inteligencia humana, como el diagnóstico, la planificación y la predicción.


Hay dos tipos principales de aprendizaje automático:

  1. El aprendizaje supervisado se basa en conjuntos de datos etiquetados para enseñar a los algoritmos un sistema de clasificación existente y cómo hacer predicciones basadas en él. Este tipo de ML se usa para entrenar árboles de decisión y redes neuronales.
  2. El aprendizaje no supervisado no utiliza etiquetas. En cambio, los algoritmos intentan descubrir patrones de datos por sí mismos. En otras palabras, aprenden cosas que no podemos enseñarles directamente. Esto es comparable a cómo funciona el cerebro humano.


También es posible combinar datos etiquetados y no etiquetados durante el entrenamiento, lo que dará como resultado un aprendizaje semisupervisado. Este tipo de ML puede ser útil cuando no tiene suficientes datos etiquetados de alta calidad para un enfoque de aprendizaje supervisado, pero aún desea usarlo para dirigir el proceso de aprendizaje.

¿Cuáles son las técnicas de aprendizaje automático más populares utilizadas en bioinformática?

Algunos de estos algoritmos caen estrictamente dentro de las categorías de aprendizaje supervisado/no supervisado, y algunos pueden usarse con ambos métodos.

Procesamiento natural del lenguaje

El procesamiento del lenguaje natural (NLP) es un conjunto de técnicas que pueden comprender el lenguaje humano no estructurado.


NLP puede buscar a través de volúmenes de investigación biológica, agregar información sobre un tema determinado de varias fuentes y traducir los resultados de la investigación de un idioma a otro. Además de los trabajos de investigación de minería, las soluciones de NLP pueden analizar bases de datos biomédicas relevantes.


La PNL puede beneficiar al campo de la bioinformática de las siguientes maneras:

  • Interpretación de variantes genéticas
  • Análisis de matrices de expresión de ADN
  • Anotación de funciones de proteínas
  • En busca de nuevas dianas farmacológicas

Redes neuronales

Esta es una estructura de múltiples capas que consta de nodos/neuronas como sus bloques de construcción. Las neuronas en capas adyacentes están conectadas entre sí a través de enlaces, pero las neuronas de la misma capa no están interconectadas. Las neuronas de la capa de entrada reciben información, la procesan y la pasan como entrada a la siguiente capa. Y este proceso continúa hasta que la información procesada llega a la capa de salida.


La red neuronal más básica se llama perceptrón. Consiste en una neurona que actúa como clasificador. Esta neurona recibe una entrada y la ubica en una de dos clases usando una función de discriminación lineal. En redes neuronales más grandes, no hay límite en la cantidad de capas o la cantidad de nodos en una capa.

Redes neuronales


  • Clasificación de los perfiles de expresión génica
  • Predicción de la estructura de la proteína
  • Secuenciación de ADN

Agrupación

El agrupamiento no supervisado es el proceso de organizar elementos en varios grupos según la definición de similitud proporcionada. Como resultado de dicha clasificación, los elementos ubicados en un grupo se relacionan estrechamente entre sí y difieren de los elementos de otros grupos.


A diferencia de la clasificación supervisada, en la agrupación no sabemos de antemano cuántos grupos se formarán. Un ejemplo famoso de este enfoque de aprendizaje automático en bioinformática es el perfilado de expresión de genes basado en micromatrices, donde los genes con niveles de expresión similares se colocan en un grupo.

Fuente

Reducción de dimensionalidad

En los problemas de clasificación de aprendizaje automático, las clasificaciones se realizan en función de factores/características. A veces, hay demasiados factores que afectan el resultado final, lo que hace que el conjunto de datos sea difícil de visualizar y manipular. Los algoritmos de reducción de dimensionalidad pueden minimizar la cantidad de características, lo que hace que el conjunto de datos sea más manejable. Por ejemplo, un problema de clasificación climática puede tener humedad y lluvia entre sus características. Estos dos pueden colapsarse en un solo factor en aras de la simplicidad, ya que ambos están estrechamente relacionados.

La reducción de la dimensionalidad tiene dos componentes principales:


  • Selección de características . Elige un subconjunto de variables para representar todo el modelo incrustando, filtrando o ajustando características.
  • Extracción de características . Reduce el número de dimensiones en un conjunto de datos. Por ejemplo, un espacio 3D se puede dividir en dos espacios 2D.


Este tipo de algoritmos se utiliza para comprimir grandes conjuntos de datos con el fin de reducir el tiempo computacional y los requisitos de almacenamiento. También puede eliminar características redundantes presentes en los datos.

Clasificadores de árboles de decisión

Este es uno de los clasificadores clásicos de aprendizaje supervisado más populares. Estos algoritmos aplican un enfoque recursivo para construir un modelo de árbol similar a un diagrama de flujo, donde cada nodo representa una prueba en una función. Primero, el algoritmo determina el nodo superior, la raíz, y luego construye el árbol recursivamente considerando un parámetro a la vez. El nodo final de cada secuencia se denomina "nodo hoja". Representa la clasificación final y ostenta la etiqueta de clase.


Los modelos de árboles de decisión exigen una gran potencia computacional durante el entrenamiento, pero luego pueden realizar clasificaciones sin una computación extensa. La principal ventaja que aportan estos clasificadores al campo de la bioinformática es que generan reglas comprensibles y resultados explicables.

Fuente


Máquinas de vectores soporte

Este es un modelo de aprendizaje automático supervisado que puede resolver problemas de clasificación de dos grupos. Para clasificar los puntos de datos, estos algoritmos buscan un hiperplano óptimo que divide los datos separándolos en dos clases con la distancia máxima entre los puntos de datos.

Fuente


Los puntos ubicados a ambos lados del hiperplano pertenecen a diferentes clases. La dimensión del hiperplano depende del número de características. En el caso de dos características, el límite de decisión es una línea, con tres características, es una placa 2D. Esta característica dificulta el uso de SVM para clasificaciones con más de tres características.

Este enfoque es útil en la identificación computacional de genes de ARN funcionales. Puede seleccionar el conjunto óptimo de genes para la detección del cáncer en función de sus datos de expresión.

Las 5 mejores aplicaciones del aprendizaje automático en bioinformática

Después de dar una breve introducción al aprendizaje automático y destacar los algoritmos de ML más utilizados, veamos cómo se pueden implementar en el campo de la bioinformática.

Si alguno de estos casos de uso le llama la atención, recurra a los profesionales de consultoría de software de IA para implementar una solución personalizada para su negocio.

1. Facilitar los experimentos de edición de genes

La edición de genes se refiere a las manipulaciones en la composición genética de un organismo mediante la eliminación, inserción y reemplazo de una parte de su secuencia de ADN. Este proceso generalmente se basa en la técnica CRISPR, que es bastante efectiva. Pero todavía hay muchas mejoras que desear en el área de selección de la secuencia de ADN correcta para la manipulación, y aquí es donde ML puede ayudar. Utilizando el aprendizaje automático para la bioinformática, los investigadores pueden mejorar el diseño de experimentos de edición de genes y predecir sus resultados.


Un equipo de investigación empleó algoritmos de ML para descubrir las variantes combinatorias más óptimas de residuos de aminoácidos que permiten que la proteína de edición del genoma Cas9 se una al ADN objetivo. Debido a la gran cantidad de estas variantes, un experimento de este tipo habría sido demasiado grande, pero el uso de un enfoque de ingeniería impulsado por ML redujo la carga de detección en aproximadamente un 95 %.

Identificación de la estructura de la proteína

La proteómica es un estudio de las proteínas, sus interacciones, composición y su papel en el cuerpo humano. Este campo involucra grandes conjuntos de datos biológicos y es computacionalmente costoso. Por lo tanto, tecnologías como el aprendizaje automático en bioinformática son esenciales aquí.


Una de las aplicaciones más exitosas en este campo es el uso de redes neuronales convolucionales para ubicar los aminoácidos de las proteínas en tres clases: hoja, hélice y espiral. Las redes neuronales pueden lograr una precisión del 84% con un límite teórico del 88% al 90%.


Otro uso de ML en proteómica es la puntuación de modelos de proteínas, una tarea esencial para predecir la estructura de las proteínas. En su enfoque de aprendizaje automático para la bioinformática, los investigadores de la Universidad Estatal de Fayetteville implementaron ML para mejorar la puntuación del modelo de proteínas. Dividieron los modelos de proteínas en cuestión en grupos y utilizaron un intérprete de ML para decidir el vector de características para evaluar los modelos pertenecientes a cada grupo. Estos vectores de características se usaron más tarde para mejorar aún más los algoritmos de ML mientras se entrenaban en cada grupo por separado.

3. Detectar genes asociados con enfermedades

Los investigadores utilizan cada vez más el aprendizaje automático en bioinformática para identificar genes que probablemente estén involucrados en enfermedades particulares. Esto se logra mediante el análisis de micromatrices de expresión génica y secuenciación de ARN.


En particular, la identificación de genes gana terreno en los estudios relacionados con el cáncer para identificar genes que probablemente contribuyan al cáncer, así como para clasificar tumores analizándolos a nivel molecular.

Por ejemplo, un grupo de científicos de la Universidad de Washington utilizó varios algoritmos de aprendizaje automático en bioinformática, incluido el árbol de decisiones, la máquina de vectores de soporte y las redes neuronales para probar su capacidad para predecir y clasificar los tipos de cáncer . Los investigadores desplegaron datos de secuenciación de ARN del proyecto The Cancer Genome Atlas y descubrieron que la máquina de vector de soporte lineal era la más precisa, con una precisión del 95,8 % en la clasificación del cáncer.


En otro ejemplo, los investigadores utilizaron ML para clasificar los tipos de cáncer de mama en función de los datos de expresión génica. Este equipo también se basó en los datos del proyecto Cancer Genome Atlas. Los investigadores clasificaron las muestras en cáncer de mama triple negativo, uno de los cánceres de mama más letales, y no triple negativo. Y una vez más, el clasificador de máquinas de vectores de soporte entregó los mejores resultados.


Hablando de enfermedades no cancerosas, los investigadores de la Universidad de Pensilvania se basaron en el aprendizaje automático para identificar genes que serían un objetivo adecuado para los medicamentos para la enfermedad de las arterias coronarias (CAD). El equipo utilizó la herramienta de optimización de canalización basada en árboles (TPOT) con tecnología de aprendizaje automático para identificar una combinación de polimorfismos de un solo nucleótido (SNP) relacionados con CAD. Analizaron los datos genómicos del Biobanco del Reino Unido y descubrieron 28 SNP relevantes. La relación entre los SNP en la parte superior de esta lista y CAD se mencionó anteriormente en la literatura, y esta investigación proporcionó una validación práctica.

4. Atravesando la base de conocimiento en busca de patrones significativos

La tecnología de secuenciación avanzada duplica las bases de datos genómicos cada dos años y medio, y los investigadores están buscando una manera de extraer información útil de este conocimiento acumulado. El aprendizaje automático en bioinformática puede filtrar publicaciones e informes biomédicos para identificar diferentes genes y proteínas y buscar su funcionalidad. También puede ayudar a anotar bases de datos de proteínas y complementarlas con la información que recupera de la literatura.

Un ejemplo proviene de un grupo de investigadores que implementaron la bioinformática y el aprendizaje automático en la extracción de literatura para facilitar la calificación de modelos de proteínas. El modelado estructural de los acoplamientos proteína-proteína generalmente da como resultado varios modelos que se califican aún más en función de las restricciones estructurales. El equipo usó algoritmos de ML para revisar artículos de PubMed sobre interacciones proteína-proteína, en busca de residuos que pudieran ayudar a generar estas restricciones para la puntuación del modelo. Y para asegurarse de que las restricciones sean relevantes, los científicos exploraron la capacidad de diferentes algoritmos de aprendizaje automático para verificar la relevancia de todos los residuos descubiertos.

Esta investigación reveló que tanto las redes neuronales computacionalmente costosas como las máquinas de vectores de soporte que requieren menos recursos lograron resultados muy similares.

5. Medicamentos de reutilización

La reutilización o reperfilado de fármacos es una técnica que utilizan los científicos para descubrir nuevas aplicaciones de fármacos existentes para los que no estaban destinados. Los investigadores adoptan IA en bioinformática para realizar análisis de fármacos en bases de datos relevantes, como BindingDB y DrugBank. Hay tres direcciones principales para la reutilización de medicamentos:


  • La interacción entre el fármaco y el objetivo analiza la capacidad del fármaco para unirse directamente a la proteína objetivo.
  • La interacción fármaco-fármaco investiga cómo actúan los medicamentos cuando se toman en combinación
  • La interacción proteína-proteína analiza la superficie de las proteínas intracelulares que interactúan e intenta descubrir puntos críticos y sitios alostéricos.


Investigadores de la Universidad del Petróleo de China y la Universidad de Shandong desarrollaron un algoritmo de red neuronal profunda y lo utilizaron en la base de datos de DrugBank. Querían estudiar las interacciones fármaco-objetivo entre las moléculas del fármaco y la proteína de fusión mitocondrial 2 (MFN2), que es una de las principales proteínas que posiblemente pueden causar la enfermedad de Alzheimer. El estudio identifica 15 moléculas de fármacos con potencial de unión. Luego de una mayor investigación, parece que 11 de ellos pueden acoplarse con éxito a MFN2. Y cinco de ellos tienen una fuerza de unión media a fuerte.

Retos que presenta el aprendizaje automático en bioinformática

El aprendizaje automático en bioinformática difiere del ML en otros sectores debido a los cuatro factores siguientes, que también constituyen los principales desafíos de aplicar ML en este campo.

  1. La IA bioinformática es costosa . Para que el algoritmo funcione correctamente, debe adquirir un gran conjunto de datos de entrenamiento. Sin embargo, es bastante costoso obtener 10,000 escáneres de tórax o cualquier otro tipo de datos médicos.

  2. Dificultades asociadas con los conjuntos de datos de entrenamiento . En otros campos, si no tiene suficientes datos de entrenamiento, puede generar datos sintéticos para expandir su conjunto de datos. Sin embargo, este truco podría no ser apropiado cuando se trata de órganos humanos. El problema es que su software de generación de escaneo podría producir un escaneo de un ser humano real. Y si comienza a usar eso sin el permiso de la persona, estará violando gravemente su privacidad.

    Otro desafío asociado con los datos de entrenamiento es que si desea construir un algoritmo que funcione con enfermedades raras, no habrá muchos datos con los que trabajar en primer lugar.

  3. El nivel de confianza debe ser muy alto . Cuando la vida humana depende del rendimiento del algoritmo, hay demasiado en juego, lo que no deja margen para el error.

  4. Cuestión de explicabilidad . Los médicos no estarán abiertos a usar el modelo ML si no entienden cómo produjo sus recomendaciones. En su lugar, puede usar IA explicable , pero estos algoritmos no son tan poderosos como algunos modelos de aprendizaje no supervisados de caja negra.

Para conocer los desafíos generales asociados con la IA y los consejos de implementación, consulte nuestro artículo y un libro electrónico gratuito .

Para resumir

Las tecnologías de IA y ML tienen muchas aplicaciones en los campos de la medicina y la biología. En nuestro blog, puede encontrar más información sobre la inteligencia artificial en ensayos clínicos , la IA en el diagnóstico y tratamiento del cáncer y los beneficios de la IA en el cuidado de la salud .


La bioinformática es otro campo relacionado con la medicina donde las soluciones médicas basadas en ML e IA son útiles. La bioinformática requiere el manejo de grandes cantidades de datos diversos, como secuencias de genomas, estructuras de proteínas y publicaciones científicas. ML es bien conocido por sus capacidades de procesamiento de datos, sin embargo, muchos modelos bioinformáticos de IA son costosos de ejecutar. Puede tomar cientos de miles de dólares entrenar un algoritmo de aprendizaje profundo. Por ejemplo, entrenar el modelo AlphaFold2 para la predicción de la estructura de proteínas consume el equivalente a 100-200 GPU funcionando durante varias semanas.


Puede encontrar más información sobre qué esperar en cuanto a precios en nuestro artículo sobre cuánto cuesta implementar IA .


Si desea implementar el aprendizaje automático en bioinformática, escríbanos. Trabajaremos con usted para encontrar los modelos ML más adecuados para un presupuesto razonable.


¿Está considerando implementar el aprendizaje automático en bioinformática, pero no está seguro de qué modelo es el adecuado para usted? ¡Ponte en contacto ! Lo ayudaremos a seleccionar el tipo de ML más adecuado para la tarea. También lo ayudaremos a crear/personalizar, entrenar e implementar el algoritmo.