Os avanços nas técnicas de sequenciamento de DNA permitiram aos pesquisadores sequenciar o genoma humano em apenas um dia, tarefa que consumiu cerca de uma década com as abordagens tradicionais. Esta é apenas uma das muitas contribuições poderosas do aprendizado de máquina em bioinformática.  Como muitas empresas de biotecnologia contratam   para facilitar o processo de manipulação de dados biomédicos, a IA no mercado de bioinformática continua crescendo. Prevê-se   , crescendo a um CAGR de 42,7% a partir de 2022. Você quer fazer parte dessa revolução digital? consultores de ML que chegue a $ 37.027,96 até 2029  Este artigo fornece uma breve introdução ao ML, explica como ele oferece suporte à pesquisa biomédica e enumera os desafios que você pode enfrentar ao implantar essa tecnologia.  Introdução ao aprendizado de máquina para bioinformática  O aprendizado de máquina é um   . Ele permite que os sistemas aprendam independentemente com os dados e executem tarefas para as quais não foram explicitamente programados. Seu objetivo é dar às máquinas a capacidade de realizar tarefas que requerem inteligência humana, como diagnóstico, planejamento e previsão. subconjunto do campo mais amplo da inteligência artificial (IA)  Existem dois tipos principais de aprendizado de máquina:    depende de conjuntos de dados rotulados para ensinar aos algoritmos um sistema de classificação existente e como fazer previsões com base nele. Esse tipo de ML é usado para treinar árvores de decisão e redes neurais. O aprendizado supervisionado    não usa rótulos. Em vez disso, os algoritmos tentam descobrir padrões de dados por conta própria. Em outras palavras, eles aprendem coisas que não podemos ensiná-los diretamente. Isso é comparável ao funcionamento do cérebro humano. O aprendizado não supervisionado  Também é possível combinar dados rotulados e não rotulados durante o treinamento, o que resultará em aprendizado semi-supervisionado. Esse tipo de ML pode ser útil quando você não tem dados rotulados de alta qualidade suficientes para uma abordagem de aprendizado supervisionado, mas ainda deseja usá-los para direcionar o processo de aprendizado.  Quais são as técnicas de aprendizado de máquina mais populares usadas em bioinformática?  Alguns desses algoritmos se enquadram estritamente nas categorias de aprendizado supervisionado/não supervisionado e alguns podem ser usados com ambos os métodos.  Processamento de linguagem natural  O processamento de linguagem natural (PLN) é um conjunto de técnicas que podem compreender a linguagem humana não estruturada.  A PNL pode pesquisar volumes de pesquisa em biologia, agregar informações sobre um determinado tópico de várias fontes e traduzir descobertas de pesquisa de um idioma para outro. Além de pesquisas de mineração, as soluções de NLP podem analisar bancos de dados biomédicos relevantes.  A PNL pode beneficiar o campo da bioinformática das seguintes maneiras:  Interpretação de variantes genéticas  Analisando matrizes de expressão de DNA  Anotando funções de proteínas  Em busca de novos alvos de drogas  Redes neurais  Esta é uma estrutura multicamadas que consiste em nós/neurônios como seus blocos de construção. Os neurônios em camadas adjacentes são conectados uns aos outros por meio de links, mas os neurônios da mesma camada não são interligados. Os neurônios da camada de entrada recebem informações, as processam e as transmitem como uma entrada para a próxima camada. E esse processo continua até que as informações processadas cheguem à camada de saída.  A rede neural mais básica é chamada perceptron. Consiste em um neurônio que atua como um classificador. Este neurônio recebe uma entrada e a coloca em uma das duas classes usando uma função de discriminação linear. Em redes neurais maiores, não há limite para o número de camadas ou o número de nós em uma camada.   Classificando perfis de expressão gênica  Prevendo a estrutura da proteína  Sequenciamento de DNA  Agrupamento  O agrupamento não supervisionado é o processo de organizar elementos em vários grupos com base na definição de similaridade fornecida. Como resultado dessa classificação, os elementos posicionados em um cluster relacionam-se estreitamente entre si e diferem dos elementos em outros clusters.  Ao contrário da classificação supervisionada, no clustering, não sabemos antecipadamente quantos clusters serão formados. Um exemplo famoso dessa abordagem de aprendizado de máquina em bioinformática é o perfil de expressão de genes baseado em microarray, onde genes com níveis de expressão semelhantes são posicionados em um cluster.   Redução de dimensionalidade  Em problemas de classificação de aprendizado de máquina, as classificações são realizadas com base em fatores/recursos. Às vezes, há muitos fatores que afetam o resultado final, dificultando a visualização e a manipulação do conjunto de dados. Algoritmos de redução de dimensionalidade podem minimizar o número de recursos, tornando o conjunto de dados mais gerenciável. Por exemplo, um problema de classificação climática pode ter umidade e precipitação entre suas características. Esses dois podem ser agrupados em um fator para simplificar, pois ambos estão intimamente relacionados.  A redução de dimensionalidade tem dois componentes principais:    . Escolhe um subconjunto de variáveis para representar todo o modelo incorporando, filtrando ou agrupando recursos. Seleção de recursos    . Reduz o número de dimensões em um conjunto de dados. Por exemplo, um espaço 3D pode ser dividido em dois espaços 2D. Extração de recursos  Esse tipo de algoritmo é usado para compactar grandes conjuntos de dados para reduzir o tempo computacional e os requisitos de armazenamento. Também pode eliminar recursos redundantes presentes nos dados.  Classificadores de árvore de decisão  Este é um dos classificadores clássicos de aprendizado supervisionado mais populares. Esses algoritmos aplicam uma abordagem recursiva para construir um modelo de árvore semelhante a um fluxograma, onde cada nó representa um teste em um recurso. Primeiro, o algoritmo determina o nó superior — a raiz — e então constrói a árvore recursivamente considerando um parâmetro por vez. O nó final em cada sequência é chamado de “nó folha”. Representa a classificação final e contém o rótulo da classe.  Os modelos de árvore de decisão exigem alto poder computacional durante o treinamento, mas depois podem realizar classificações sem computação extensiva. A principal vantagem que esses classificadores trazem para o campo da bioinformática é que eles geram regras compreensíveis e resultados explicáveis.   Máquina de vetores de suporte  Este é um modelo de ML supervisionado que pode resolver problemas de classificação de dois grupos. Para classificar os pontos de dados, esses algoritmos buscam um hiperplano ótimo que divide os dados separando-os em duas classes com a distância máxima entre os pontos de dados.   Os pontos localizados em ambos os lados do hiperplano pertencem a diferentes classes. A dimensão do hiperplano depende do número de feições. No caso de duas feições, o limite de decisão é uma linha, com três feições, é uma placa 2D. Essa característica dificulta o uso do SVM para classificações com mais de três recursos.  Esta abordagem é útil na identificação computacional de genes de RNA funcionais. Ele pode selecionar o conjunto ideal de genes para detecção de câncer com base em seus dados de expressão.  As 5 principais aplicações de aprendizado de máquina em bioinformática  Depois de fazer uma breve introdução ao aprendizado de máquina e destacar os algoritmos de ML mais usados, vamos ver como eles podem ser implantados no campo da bioinformática.  Se algum desses casos de uso chamar sua atenção, recorra a   para implementar uma solução personalizada para o seu negócio. profissionais de consultoria de software de IA  1. Facilitar experimentos de edição de genes  A edição genética refere-se a manipulações na composição genética de um organismo, excluindo, inserindo e substituindo uma parte de sua sequência de DNA. Esse processo geralmente depende da técnica CRISPR, que é bastante eficaz. Mas ainda há muito a ser desejado na área de seleção da sequência correta de DNA para manipulação, e é aí que o ML pode ajudar. Usando aprendizado de máquina para bioinformática, os pesquisadores podem aprimorar o design de experimentos de edição de genes e prever seus resultados.  Uma equipe de pesquisa empregou algoritmos de ML   de resíduos de aminoácidos que permitem que a proteína de edição de genoma Cas9 se ligue ao DNA alvo. Devido ao grande número dessas variantes, tal experimento teria sido muito grande, mas usar uma abordagem de engenharia orientada por ML reduziu a carga de triagem em cerca de 95%. para descobrir as variantes combinacionais mais ideais  Identificando a estrutura da proteína  A proteômica é um estudo das proteínas, suas interações, composição e seu papel no corpo humano. Este campo envolve conjuntos de dados biológicos pesados e é computacionalmente caro. Portanto, tecnologias como aprendizado de máquina em bioinformática são essenciais aqui.  Uma das aplicações mais bem-sucedidas nesse campo é o uso de redes neurais convolucionais para posicionar os aminoácidos das proteínas em três classes — folha, hélice e bobina. As redes neurais podem atingir uma   , com o limite teórico sendo de 88% a 90%. precisão de 84%  Outro uso de ML em proteômica é a pontuação do modelo de proteína, uma tarefa essencial para prever a estrutura da proteína. Em sua abordagem de aprendizado de máquina para bioinformática, pesquisadores da Fayetteville State University   para melhorar a pontuação do modelo de proteína. Eles dividiram os modelos de proteínas em questão em grupos e usaram um interpretador de ML para decidir sobre o vetor de características para avaliar os modelos pertencentes a cada grupo. Esses vetores de recursos foram usados posteriormente para melhorar ainda mais os algoritmos de ML enquanto os treinavam em cada grupo separadamente. implantaram ML  3. Detectar genes associados a doenças  Os pesquisadores usam cada vez mais o aprendizado de máquina em bioinformática para identificar genes que provavelmente estão envolvidos em doenças específicas. Isso é obtido analisando microarranjos de expressão gênica e sequenciamento de RNA.  Particularmente, a identificação de genes ganha força em estudos relacionados ao câncer para identificar genes que provavelmente contribuem para o câncer, bem como classificar tumores analisando-os em nível molecular.  Por exemplo, um grupo de cientistas da Universidade de Washington usou vários algoritmos de aprendizado de máquina em bioinformática, incluindo árvore de decisão, máquina de vetor de suporte e redes neurais   . Os pesquisadores implantaram dados de sequenciamento de RNA do projeto The Cancer Genome Atlas e descobriram que a máquina de vetor de suporte linear era a mais precisa, atingindo 95,8% de precisão na classificação do câncer. para testar sua capacidade de prever e classificar tipos de câncer  Em outro exemplo, os pesquisadores   com base em dados de expressão gênica. Esta equipe também contou com os dados do projeto Cancer Genome Atlas. Os pesquisadores classificaram as amostras em câncer de mama triplo negativo – um dos cânceres de mama mais letais – e não triplo negativo. E, mais uma vez, o classificador de máquina de vetores de suporte apresentou os melhores resultados. usaram ML para classificar os tipos de câncer de mama  Falando em doenças não cancerígenas, os pesquisadores da Universidade da Pensilvânia   que seriam um alvo adequado para medicamentos para doença arterial coronariana (DAC). A equipe usou a ferramenta de otimização de pipeline baseada em árvore (TPOT) com tecnologia ML para identificar uma combinação de polimorfismos de nucleotídeo único (SNPs) relacionados ao CAD. Eles analisaram os dados genômicos do UK Biobank e descobriram 28 SNPs relevantes. A relação entre os SNPs no topo desta lista e CAD já foi mencionada na literatura, e esta pesquisa deu uma validação prática. confiaram no aprendizado de máquina para identificar genes  4. Percorrer a base de conhecimento em busca de padrões significativos  A tecnologia avançada de sequenciamento   a cada 2,5 anos, e os pesquisadores estão procurando uma maneira de extrair informações úteis desse conhecimento acumulado. O aprendizado de máquina em bioinformática pode filtrar publicações e relatórios biomédicos para identificar diferentes genes e proteínas e procurar sua funcionalidade. Ele também pode auxiliar na anotação de bancos de dados de proteínas e complementá-los com as informações que recupera da literatura. dobra os bancos de dados genômicos  Um exemplo vem de um grupo de pesquisadores   bioinformática e aprendizado de máquina na mineração de literatura para facilitar a pontuação do modelo de proteína. A modelagem estrutural de encaixes proteína-proteína normalmente resulta em vários modelos que são pontuados com base em restrições estruturais. A equipe usou algoritmos de ML para percorrer os artigos do PubMed sobre interações proteína-proteína, procurando resíduos que pudessem ajudar a gerar essas restrições para a pontuação do modelo. E para garantir que as restrições sejam relevantes, os cientistas exploraram a capacidade de diferentes algoritmos de aprendizado de máquina de verificar a relevância de todos os resíduos descobertos. que implantou  Esta pesquisa revelou que tanto redes neurais computacionalmente caras quanto máquinas de vetores de suporte que exigem menos recursos alcançaram resultados muito semelhantes.  5. Reaproveitamento de drogas  O reaproveitamento de medicamentos, ou reprofiling, é uma técnica que os cientistas usam para descobrir novas aplicações de medicamentos existentes para os quais não foram destinados. Pesquisadores adotam IA em bioinformática para realizar   em bancos de dados relevantes, como BindingDB e DrugBank. Existem três direções principais para o reaproveitamento de medicamentos: análises de medicamentos  A interação droga-alvo analisa a capacidade da droga de se ligar diretamente à proteína alvo  A interação medicamentosa investiga como os medicamentos agem quando são tomados em combinações  A interação proteína-proteína examina a superfície da interação de proteínas intracelulares e tenta descobrir pontos de acesso e locais alostéricos.  Pesquisadores da China University of Petroleum e da Shandong University   e o usaram no banco de dados DrugBank. Eles queriam estudar as interações droga-alvo entre moléculas de drogas e a proteína de fusão mitocondrial 2 (MFN2), que é uma das principais proteínas que podem causar a doença de Alzheimer. O estudo identifica 15 moléculas de drogas com potencial de ligação. Após uma investigação mais aprofundada, parece que 11 deles podem se encaixar com sucesso no MFN2. E cinco deles têm força de ligação média a forte. desenvolveram um algoritmo de rede neural profunda  Desafios apresentados pelo aprendizado de máquina em bioinformática  O aprendizado de máquina em bioinformática difere do ML em outros setores devido aos quatro fatores abaixo, que também constituem os principais desafios da aplicação do ML a esse campo.    . Para que o algoritmo funcione corretamente, você precisa adquirir um grande conjunto de dados de treinamento. No entanto, é bastante caro obter 10.000 exames de tórax ou qualquer outro tipo de dados médicos. A IA de bioinformática é cara    . Em outros campos, se você não tiver dados de treinamento suficientes, poderá gerar dados sintéticos para expandir seu conjunto de dados. No entanto, esse truque pode não ser apropriado quando se trata de órgãos humanos. O problema é que seu software de geração de escaneamento pode produzir um escaneamento de um ser humano real. E se você começar a usar isso sem a permissão da pessoa, estará violando grosseiramente a privacidade dela. Dificuldades associadas aos conjuntos de dados de treinamento  Outro desafio associado aos dados de treinamento é que, se você deseja criar um algoritmo que funcione com doenças raras, não haverá muitos dados com os quais trabalhar.    . Quando a vida humana depende do desempenho do algoritmo, há muito em jogo, o que não deixa espaço para erros. O nível de confiança deve ser muito alto    . Os médicos não estarão abertos a usar o modelo ML se não entenderem como ele produziu suas recomendações. Em vez disso, você pode usar   , mas esses algoritmos não são tão poderosos quanto alguns modelos de aprendizado não supervisionados de caixa preta. Questão de explicabilidade IA explicável  Para desafios gerais associados à IA e dicas de implementação, confira nosso   . artigo e um e-book gratuito  Resumindo  As tecnologias de IA e ML têm muitas aplicações nos campos da medicina e da biologia. Em nosso blog, você pode encontrar mais informações sobre   ,   e   . inteligência artificial em ensaios clínicos IA no diagnóstico e tratamento do câncer benefícios da IA na área da saúde  A bioinformática é outro campo relacionado à medicina em que   são úteis. A bioinformática requer o manuseio de grandes quantidades de vários dados, como sequências de genomas, estruturas de proteínas e publicações científicas. O ML é bem conhecido por seus recursos de processamento de dados, no entanto, muitos modelos de bioinformática de IA são caros de executar. Pode levar centenas de milhares de dólares para treinar um algoritmo de aprendizado profundo. Por exemplo, o treinamento do modelo AlphaFold2 para previsão da estrutura da proteína consome o equivalente a 100-200 GPUs em execução por várias semanas. as soluções médicas baseadas em ML e IA  Você pode encontrar mais informações sobre o que esperar em termos de preço em nosso artigo sobre   . quanto custa implementar IA  Se você deseja implantar aprendizado de máquina em bioinformática, envie-nos uma mensagem. Trabalharemos junto com você para encontrar os modelos de ML mais adequados para um orçamento razoável.  Pensando em implantar aprendizado de máquina em bioinformática, mas não tem certeza de qual modelo é o certo para você?   ! Ajudaremos você a selecionar o tipo de ML mais adequado para a tarefa. Também ajudaremos você a criar/personalizar, treinar e implantar o algoritmo. Entre em contato

Innovative development company that shares great technology insights and trends with readers

2021 - HackerNoon Contributor of the Year - TECHNOLOGY-TRENDS

Bring us your challenge!

Read My Stories

Portfolio

Now Hiring

2021 - HackerNoon Contributor of the Year - TECH

2021 - HackerNoon Contributor of the Year - CONTINUOUS-INTEGRATION

2021 - HackerNoon Contributor of the Year - HEALTHCARE

Este áudio é produzido no idioma original da história!

Bioinformática vendo inovação significativa graças à IA e aprendizado de máquina

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Navegando pelas águas: desenvolvendo aplicações RAG de nível de produção com data lakes

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Como melhorar seu fluxo de trabalho em 10 vezes: 17 aplicativos essenciais

Navegando pelas águas: desenvolvendo aplicações RAG de nível de produção com data lakes

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Como melhorar seu fluxo de trabalho em 10 vezes: 17 aplicativos essenciais

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps