Os avanços nas técnicas de sequenciamento de DNA permitiram aos pesquisadores sequenciar o genoma humano em apenas um dia, tarefa que consumiu cerca de uma década com as abordagens tradicionais. Esta é apenas uma das muitas contribuições poderosas do aprendizado de máquina em bioinformática.
Como muitas empresas de biotecnologia contratam consultores de ML para facilitar o processo de manipulação de dados biomédicos, a IA no mercado de bioinformática continua crescendo. Prevê-se que chegue a $ 37.027,96 até 2029 , crescendo a um CAGR de 42,7% a partir de 2022. Você quer fazer parte dessa revolução digital?
Este artigo fornece uma breve introdução ao ML, explica como ele oferece suporte à pesquisa biomédica e enumera os desafios que você pode enfrentar ao implantar essa tecnologia.
O aprendizado de máquina é um subconjunto do campo mais amplo da inteligência artificial (IA) . Ele permite que os sistemas aprendam independentemente com os dados e executem tarefas para as quais não foram explicitamente programados. Seu objetivo é dar às máquinas a capacidade de realizar tarefas que requerem inteligência humana, como diagnóstico, planejamento e previsão.
Existem dois tipos principais de aprendizado de máquina:
Também é possível combinar dados rotulados e não rotulados durante o treinamento, o que resultará em aprendizado semi-supervisionado. Esse tipo de ML pode ser útil quando você não tem dados rotulados de alta qualidade suficientes para uma abordagem de aprendizado supervisionado, mas ainda deseja usá-los para direcionar o processo de aprendizado.
Alguns desses algoritmos se enquadram estritamente nas categorias de aprendizado supervisionado/não supervisionado e alguns podem ser usados com ambos os métodos.
O processamento de linguagem natural (PLN) é um conjunto de técnicas que podem compreender a linguagem humana não estruturada.
A PNL pode pesquisar volumes de pesquisa em biologia, agregar informações sobre um determinado tópico de várias fontes e traduzir descobertas de pesquisa de um idioma para outro. Além de pesquisas de mineração, as soluções de NLP podem analisar bancos de dados biomédicos relevantes.
A PNL pode beneficiar o campo da bioinformática das seguintes maneiras:
Esta é uma estrutura multicamadas que consiste em nós/neurônios como seus blocos de construção. Os neurônios em camadas adjacentes são conectados uns aos outros por meio de links, mas os neurônios da mesma camada não são interligados. Os neurônios da camada de entrada recebem informações, as processam e as transmitem como uma entrada para a próxima camada. E esse processo continua até que as informações processadas cheguem à camada de saída.
A rede neural mais básica é chamada perceptron. Consiste em um neurônio que atua como um classificador. Este neurônio recebe uma entrada e a coloca em uma das duas classes usando uma função de discriminação linear. Em redes neurais maiores, não há limite para o número de camadas ou o número de nós em uma camada.
O agrupamento não supervisionado é o processo de organizar elementos em vários grupos com base na definição de similaridade fornecida. Como resultado dessa classificação, os elementos posicionados em um cluster relacionam-se estreitamente entre si e diferem dos elementos em outros clusters.
Ao contrário da classificação supervisionada, no clustering, não sabemos antecipadamente quantos clusters serão formados. Um exemplo famoso dessa abordagem de aprendizado de máquina em bioinformática é o perfil de expressão de genes baseado em microarray, onde genes com níveis de expressão semelhantes são posicionados em um cluster.
Em problemas de classificação de aprendizado de máquina, as classificações são realizadas com base em fatores/recursos. Às vezes, há muitos fatores que afetam o resultado final, dificultando a visualização e a manipulação do conjunto de dados. Algoritmos de redução de dimensionalidade podem minimizar o número de recursos, tornando o conjunto de dados mais gerenciável. Por exemplo, um problema de classificação climática pode ter umidade e precipitação entre suas características. Esses dois podem ser agrupados em um fator para simplificar, pois ambos estão intimamente relacionados.
A redução de dimensionalidade tem dois componentes principais:
Esse tipo de algoritmo é usado para compactar grandes conjuntos de dados para reduzir o tempo computacional e os requisitos de armazenamento. Também pode eliminar recursos redundantes presentes nos dados.
Este é um dos classificadores clássicos de aprendizado supervisionado mais populares. Esses algoritmos aplicam uma abordagem recursiva para construir um modelo de árvore semelhante a um fluxograma, onde cada nó representa um teste em um recurso. Primeiro, o algoritmo determina o nó superior — a raiz — e então constrói a árvore recursivamente considerando um parâmetro por vez. O nó final em cada sequência é chamado de “nó folha”. Representa a classificação final e contém o rótulo da classe.
Os modelos de árvore de decisão exigem alto poder computacional durante o treinamento, mas depois podem realizar classificações sem computação extensiva. A principal vantagem que esses classificadores trazem para o campo da bioinformática é que eles geram regras compreensíveis e resultados explicáveis.
Este é um modelo de ML supervisionado que pode resolver problemas de classificação de dois grupos. Para classificar os pontos de dados, esses algoritmos buscam um hiperplano ótimo que divide os dados separando-os em duas classes com a distância máxima entre os pontos de dados.
Os pontos localizados em ambos os lados do hiperplano pertencem a diferentes classes. A dimensão do hiperplano depende do número de feições. No caso de duas feições, o limite de decisão é uma linha, com três feições, é uma placa 2D. Essa característica dificulta o uso do SVM para classificações com mais de três recursos.
Esta abordagem é útil na identificação computacional de genes de RNA funcionais. Ele pode selecionar o conjunto ideal de genes para detecção de câncer com base em seus dados de expressão.
Depois de fazer uma breve introdução ao aprendizado de máquina e destacar os algoritmos de ML mais usados, vamos ver como eles podem ser implantados no campo da bioinformática.
Se algum desses casos de uso chamar sua atenção, recorra a profissionais de consultoria de software de IA para implementar uma solução personalizada para o seu negócio.
A edição genética refere-se a manipulações na composição genética de um organismo, excluindo, inserindo e substituindo uma parte de sua sequência de DNA. Esse processo geralmente depende da técnica CRISPR, que é bastante eficaz. Mas ainda há muito a ser desejado na área de seleção da sequência correta de DNA para manipulação, e é aí que o ML pode ajudar. Usando aprendizado de máquina para bioinformática, os pesquisadores podem aprimorar o design de experimentos de edição de genes e prever seus resultados.
Uma equipe de pesquisa empregou algoritmos de ML para descobrir as variantes combinacionais mais ideais de resíduos de aminoácidos que permitem que a proteína de edição de genoma Cas9 se ligue ao DNA alvo. Devido ao grande número dessas variantes, tal experimento teria sido muito grande, mas usar uma abordagem de engenharia orientada por ML reduziu a carga de triagem em cerca de 95%.
A proteômica é um estudo das proteínas, suas interações, composição e seu papel no corpo humano. Este campo envolve conjuntos de dados biológicos pesados e é computacionalmente caro. Portanto, tecnologias como aprendizado de máquina em bioinformática são essenciais aqui.
Uma das aplicações mais bem-sucedidas nesse campo é o uso de redes neurais convolucionais para posicionar os aminoácidos das proteínas em três classes — folha, hélice e bobina. As redes neurais podem atingir uma precisão de 84% , com o limite teórico sendo de 88% a 90%.
Outro uso de ML em proteômica é a pontuação do modelo de proteína, uma tarefa essencial para prever a estrutura da proteína. Em sua abordagem de aprendizado de máquina para bioinformática, pesquisadores da Fayetteville State University implantaram ML para melhorar a pontuação do modelo de proteína. Eles dividiram os modelos de proteínas em questão em grupos e usaram um interpretador de ML para decidir sobre o vetor de características para avaliar os modelos pertencentes a cada grupo. Esses vetores de recursos foram usados posteriormente para melhorar ainda mais os algoritmos de ML enquanto os treinavam em cada grupo separadamente.
Os pesquisadores usam cada vez mais o aprendizado de máquina em bioinformática para identificar genes que provavelmente estão envolvidos em doenças específicas. Isso é obtido analisando microarranjos de expressão gênica e sequenciamento de RNA.
Particularmente, a identificação de genes ganha força em estudos relacionados ao câncer para identificar genes que provavelmente contribuem para o câncer, bem como classificar tumores analisando-os em nível molecular.
Por exemplo, um grupo de cientistas da Universidade de Washington usou vários algoritmos de aprendizado de máquina em bioinformática, incluindo árvore de decisão, máquina de vetor de suporte e redes neurais para testar sua capacidade de prever e classificar tipos de câncer . Os pesquisadores implantaram dados de sequenciamento de RNA do projeto The Cancer Genome Atlas e descobriram que a máquina de vetor de suporte linear era a mais precisa, atingindo 95,8% de precisão na classificação do câncer.
Em outro exemplo, os pesquisadores usaram ML para classificar os tipos de câncer de mama com base em dados de expressão gênica. Esta equipe também contou com os dados do projeto Cancer Genome Atlas. Os pesquisadores classificaram as amostras em câncer de mama triplo negativo – um dos cânceres de mama mais letais – e não triplo negativo. E, mais uma vez, o classificador de máquina de vetores de suporte apresentou os melhores resultados.
Falando em doenças não cancerígenas, os pesquisadores da Universidade da Pensilvânia confiaram no aprendizado de máquina para identificar genes que seriam um alvo adequado para medicamentos para doença arterial coronariana (DAC). A equipe usou a ferramenta de otimização de pipeline baseada em árvore (TPOT) com tecnologia ML para identificar uma combinação de polimorfismos de nucleotídeo único (SNPs) relacionados ao CAD. Eles analisaram os dados genômicos do UK Biobank e descobriram 28 SNPs relevantes. A relação entre os SNPs no topo desta lista e CAD já foi mencionada na literatura, e esta pesquisa deu uma validação prática.
A tecnologia avançada de sequenciamento dobra os bancos de dados genômicos a cada 2,5 anos, e os pesquisadores estão procurando uma maneira de extrair informações úteis desse conhecimento acumulado. O aprendizado de máquina em bioinformática pode filtrar publicações e relatórios biomédicos para identificar diferentes genes e proteínas e procurar sua funcionalidade. Ele também pode auxiliar na anotação de bancos de dados de proteínas e complementá-los com as informações que recupera da literatura.
Um exemplo vem de um grupo de pesquisadores que implantou bioinformática e aprendizado de máquina na mineração de literatura para facilitar a pontuação do modelo de proteína. A modelagem estrutural de encaixes proteína-proteína normalmente resulta em vários modelos que são pontuados com base em restrições estruturais. A equipe usou algoritmos de ML para percorrer os artigos do PubMed sobre interações proteína-proteína, procurando resíduos que pudessem ajudar a gerar essas restrições para a pontuação do modelo. E para garantir que as restrições sejam relevantes, os cientistas exploraram a capacidade de diferentes algoritmos de aprendizado de máquina de verificar a relevância de todos os resíduos descobertos.
Esta pesquisa revelou que tanto redes neurais computacionalmente caras quanto máquinas de vetores de suporte que exigem menos recursos alcançaram resultados muito semelhantes.
O reaproveitamento de medicamentos, ou reprofiling, é uma técnica que os cientistas usam para descobrir novas aplicações de medicamentos existentes para os quais não foram destinados. Pesquisadores adotam IA em bioinformática para realizar análises de medicamentos em bancos de dados relevantes, como BindingDB e DrugBank. Existem três direções principais para o reaproveitamento de medicamentos:
Pesquisadores da China University of Petroleum e da Shandong University desenvolveram um algoritmo de rede neural profunda e o usaram no banco de dados DrugBank. Eles queriam estudar as interações droga-alvo entre moléculas de drogas e a proteína de fusão mitocondrial 2 (MFN2), que é uma das principais proteínas que podem causar a doença de Alzheimer. O estudo identifica 15 moléculas de drogas com potencial de ligação. Após uma investigação mais aprofundada, parece que 11 deles podem se encaixar com sucesso no MFN2. E cinco deles têm força de ligação média a forte.
O aprendizado de máquina em bioinformática difere do ML em outros setores devido aos quatro fatores abaixo, que também constituem os principais desafios da aplicação do ML a esse campo.
A IA de bioinformática é cara . Para que o algoritmo funcione corretamente, você precisa adquirir um grande conjunto de dados de treinamento. No entanto, é bastante caro obter 10.000 exames de tórax ou qualquer outro tipo de dados médicos.
Dificuldades associadas aos conjuntos de dados de treinamento . Em outros campos, se você não tiver dados de treinamento suficientes, poderá gerar dados sintéticos para expandir seu conjunto de dados. No entanto, esse truque pode não ser apropriado quando se trata de órgãos humanos. O problema é que seu software de geração de escaneamento pode produzir um escaneamento de um ser humano real. E se você começar a usar isso sem a permissão da pessoa, estará violando grosseiramente a privacidade dela.
Outro desafio associado aos dados de treinamento é que, se você deseja criar um algoritmo que funcione com doenças raras, não haverá muitos dados com os quais trabalhar.
O nível de confiança deve ser muito alto . Quando a vida humana depende do desempenho do algoritmo, há muito em jogo, o que não deixa espaço para erros.
Questão de explicabilidade . Os médicos não estarão abertos a usar o modelo ML se não entenderem como ele produziu suas recomendações. Em vez disso, você pode usar IA explicável , mas esses algoritmos não são tão poderosos quanto alguns modelos de aprendizado não supervisionados de caixa preta.
Para desafios gerais associados à IA e dicas de implementação, confira nosso artigo e um e-book gratuito .
As tecnologias de IA e ML têm muitas aplicações nos campos da medicina e da biologia. Em nosso blog, você pode encontrar mais informações sobre inteligência artificial em ensaios clínicos , IA no diagnóstico e tratamento do câncer e benefícios da IA na área da saúde .
A bioinformática é outro campo relacionado à medicina em que as soluções médicas baseadas em ML e IA são úteis. A bioinformática requer o manuseio de grandes quantidades de vários dados, como sequências de genomas, estruturas de proteínas e publicações científicas. O ML é bem conhecido por seus recursos de processamento de dados, no entanto, muitos modelos de bioinformática de IA são caros de executar. Pode levar centenas de milhares de dólares para treinar um algoritmo de aprendizado profundo. Por exemplo, o treinamento do modelo AlphaFold2 para previsão da estrutura da proteína consome o equivalente a 100-200 GPUs em execução por várias semanas.
Você pode encontrar mais informações sobre o que esperar em termos de preço em nosso artigo sobre quanto custa implementar IA .
Se você deseja implantar aprendizado de máquina em bioinformática, envie-nos uma mensagem. Trabalharemos junto com você para encontrar os modelos de ML mais adequados para um orçamento razoável.
Pensando em implantar aprendizado de máquina em bioinformática, mas não tem certeza de qual modelo é o certo para você? Entre em contato ! Ajudaremos você a selecionar o tipo de ML mais adequado para a tarefa. Também ajudaremos você a criar/personalizar, treinar e implantar o algoritmo.