DNA 测序技术的进步使研究人员能够在一天内对人类基因组进行测序,而传统方法需要大约十年才能完成这项任务。这只是机器学习在生物信息学中的众多强大贡献之一。
随着许多生物技术公司聘请ML 顾问来促进处理生物医学数据的过程,生物信息学市场中的 AI 继续增长。预计到 2029 年将达到 37,027.96 美元,从 2022 年开始以 42.7% 的复合年增长率增长。您想成为这场数字革命的一部分吗?
本文简要介绍了 ML,解释了它如何支持生物医学研究,并列举了您在部署该技术时可能面临的挑战。
机器学习是更广泛的人工智能 (AI) 领域的一个子集。它使系统能够独立地从数据中学习并执行它们没有明确编程处理的任务。它的目标是让机器能够执行需要人类智能的任务,例如诊断、规划和预测。
机器学习有两种主要类型:
也可以在训练期间结合标记和未标记的数据,这将导致半监督学习。当您没有足够的高质量标记数据用于监督学习方法时,此 ML 类型会很有用,但您仍想使用它来指导学习过程。
其中一些算法严格属于有监督/无监督学习类别,有一些可以与这两种方法一起使用。
自然语言处理(NLP)是一组可以理解非结构化人类语言的技术。
NLP 可以搜索大量的生物学研究,从各种来源汇总关于给定主题的信息,并将研究结果从一种语言翻译成另一种语言。除了挖掘研究论文,NLP 解决方案还可以解析相关的生物医学数据库。
NLP 可以通过以下方式使生物信息学领域受益:
这是一个多层结构,由节点/神经元组成,作为其构建块。相邻层的神经元通过链接相互连接,但同一层的神经元不相互链接。输入层神经元接收信息,对其进行处理,并将其作为输入传递到下一层。这个过程一直持续到处理后的信息到达输出层。
最基本的神经网络称为感知器。它由一个充当分类器的神经元组成。该神经元接收输入并使用线性辨别函数将其置于两个类别之一。在较大的神经网络中,层数或一层中的节点数没有限制。
无监督聚类是根据提供的相似性定义将元素组织成不同组的过程。作为这种分类的结果,位于一个集群中的元素彼此密切相关,并且不同于其他集群中的元素。
与监督分类不同,在聚类中,我们事先不知道将形成多少个聚类。生物信息学中这种机器学习方法的一个著名示例是基于微阵列的基因表达谱分析,其中具有相似表达水平的基因位于一个簇中。
在机器学习分类问题中,分类是根据因素/特征进行的。有时影响最终结果的因素太多,使得数据集难以可视化和操作。降维算法可以最大限度地减少特征的数量,使数据集更易于管理。例如,气候分类问题的特征可能包括湿度和降雨量。为简单起见,这两者可以合并为一个因素,因为它们密切相关。
降维有两个主要组成部分:
此类算法用于压缩大型数据集,以减少计算时间和存储需求。它还可以消除数据中存在的冗余特征。
这是最流行的经典监督学习分类器之一。这些算法应用递归方法来构建类似流程图的树模型,其中每个节点代表对一个特征的测试。首先,该算法确定顶部节点——根——然后递归地构建树,一次只考虑一个参数。每个序列中的最后一个节点称为“叶节点”。它代表最终分类并持有类标签。
决策树模型在训练期间需要很高的计算能力,但之后它们可以在不需要大量计算的情况下进行分类。这些分类器给生物信息学领域带来的主要优势是它们生成可理解的规则和可解释的结果。
这是一个有监督的 ML 模型,可以解决两组分类问题。为了对数据点进行分类,这些算法会寻找一个最佳超平面,该超平面将数据分成两类,数据点之间的距离最大。
位于超平面两侧的点属于不同的类。超平面的维度取决于特征的数量。在两个特征的情况下,决策边界是一条线,在三个特征的情况下,它是一个二维板。这个特性使得 SVM 很难用于具有三个以上特征的分类。
这种方法可用于功能性 RNA 基因的计算识别。它可以根据基因的表达数据选择用于癌症检测的最佳基因组。
在简要介绍了机器学习并重点介绍了最常用的 ML 算法之后,让我们看看如何将它们部署到生物信息学领域。
如果这些用例中的任何一个引起了您的注意,请求助于AI 软件咨询专家,为您的企业实施定制的解决方案。
基因编辑是指通过删除、插入和替换其 DNA 序列的一部分来对生物体的遗传组成进行操作。这个过程通常依赖于相当有效的 CRISPR 技术。但在选择正确的 DNA 序列进行操作方面仍有很多改进空间,而这正是 ML 可以提供帮助的地方。将机器学习用于生物信息学,研究人员可以改进基因编辑实验的设计并预测其结果。
一个研究团队使用 ML 算法来发现氨基酸残基的最佳组合变体,使基因组编辑蛋白 Cas9 能够与目标 DNA 结合。由于这些变体数量众多,这样的实验规模太大,但使用 ML 驱动的工程方法可将筛选负担降低约 95%。
蛋白质组学是对蛋白质、它们的相互作用、组成及其在人体中的作用的研究。该领域涉及繁重的生物数据集,计算量大。因此,生物信息学中的机器学习等技术在这里必不可少。
该领域最成功的应用之一是使用卷积神经网络将蛋白质的氨基酸分为三类——片状、螺旋状和螺旋状。神经网络可以达到84% 的准确率,理论极限为 88%–90%。
ML 在蛋白质组学中的另一个用途是蛋白质模型评分,这是预测蛋白质结构必不可少的任务。在他们的生物信息学机器学习方法中,费耶特维尔州立大学的研究人员部署了 ML来改进蛋白质模型评分。他们将有问题的蛋白质模型分成几组,并使用 ML 解释器来决定特征向量来评估属于每组的模型。这些特征向量稍后用于进一步改进 ML 算法,同时分别在每个组上训练它们。
研究人员越来越多地在生物信息学中使用机器学习来识别可能与特定疾病有关的基因。这是通过分析基因表达微阵列和 RNA 测序来实现的。
特别是,基因鉴定在癌症相关研究中获得了关注,以鉴定可能导致癌症的基因,以及通过在分子水平上分析它们来对肿瘤进行分类。
例如,华盛顿大学的一组科学家使用生物信息学算法中的几种机器学习,包括决策树、支持向量机和神经网络来测试他们预测和分类癌症类型的能力。研究人员部署了来自癌症基因组图谱项目的 RNA 测序数据,发现线性支持向量机是最精确的,在癌症分类中达到了 95.8% 的准确率。
在另一个示例中,研究人员使用 ML 根据基因表达数据对乳腺癌类型进行分类。该团队还依赖于癌症基因组图谱项目的数据。研究人员将样本分为三阴性乳腺癌——最致命的乳腺癌之一——和非三阴性乳腺癌。支持向量机分类器再一次提供了最好的结果。
谈到非癌性疾病,宾夕法尼亚大学的研究人员依靠机器学习来识别可能成为冠状动脉疾病 (CAD) 药物合适靶标的基因。该团队使用 ML 支持的基于树的管道优化工具 (TPOT) 来查明与 CAD 相关的单核苷酸多态性 (SNP) 的组合。他们分析了来自英国生物银行的基因组数据,发现了 28 个相关的 SNP。该列表顶部的 SNP 与 CAD 之间的关系之前在文献中提到过,本研究给出了实际验证。
先进的测序技术使基因组数据库每 2.5 年翻一番,研究人员正在寻找一种方法来从这些积累的知识中提取有用的见解。生物信息学中的机器学习可以筛选生物医学出版物和报告,以识别不同的基因和蛋白质并搜索它们的功能。它还可以帮助注释蛋白质数据库,并用从文献中检索到的信息对其进行补充。
一个例子来自一组研究人员,他们在文献挖掘中部署生物信息学和机器学习以促进蛋白质模型评分。蛋白质-蛋白质对接的结构建模通常会产生几个模型,这些模型会根据结构约束进一步评分。该团队使用 ML 算法遍历关于蛋白质-蛋白质相互作用的 PubMed 论文,寻找可以帮助生成这些模型评分约束的残基。为了确保约束是相关的,科学家们探索了不同机器学习算法检查所有发现的残基相关性的能力。
这项研究表明,计算成本高昂的神经网络和资源需求较少的支持向量机都取得了非常相似的结果。
药物再利用或重新分析是科学家用来发现现有药物非预期用途的新应用的技术。研究人员在生物信息学中采用 AI 在相关数据库(如 BindingDB 和 DrugBank)上进行药物分析。药物再利用的三个主要方向:
中国石油大学和山东大学的研究人员开发了一种深度神经网络算法,并将其用于 DrugBank 数据库。他们想研究药物分子与线粒体融合蛋白 2 (MFN2) 之间的药物靶点相互作用,线粒体融合蛋白 2 (MFN2) 是可能导致阿尔茨海默病的主要蛋白质之一。该研究确定了 15 种具有结合潜力的药物分子。经过进一步调查,似乎其中有 11 个可以与 MFN2 成功对接。其中五个具有中到强的结合力。
由于以下四个因素,生物信息学中的机器学习不同于其他领域的机器学习,这也构成了将机器学习应用于该领域的主要挑战。
生物信息学 AI 很昂贵。为了使算法正常运行,您需要获取大型训练数据集。然而,获得 10,000 次胸部扫描或与此相关的任何其他类型的医疗数据的成本相当高。
与训练数据集相关的困难。在其他领域,如果你没有足够的训练数据,你可以生成合成数据来扩展你的数据集。然而,这个技巧可能不适用于人体器官。问题是您的扫描生成软件可能会生成真人的扫描。如果你在未经对方许可的情况下开始使用它,你将严重侵犯他们的隐私。
与训练数据相关的另一个挑战是,如果你想构建一种适用于罕见疾病的算法,首先就没有太多数据可供使用。
置信度一定很高。当人类的生命取决于算法的性能时,风险就太大了,不容许犯错。
可解释性问题。如果医生不了解它是如何产生建议的,他们将不会愿意使用 ML 模型。您可以改用可解释的 AI ,但这些算法不如一些黑盒无监督学习模型强大。
有关与 AI 相关的一般挑战和实施技巧,请查看我们的文章和免费电子书。
人工智能和机器学习技术在医学和生物学领域有很多应用。在我们的博客上,您可以找到有关临床试验中的人工智能、 癌症诊断和治疗中的人工智能以及人工智能在医疗保健中的好处的更多信息。
生物信息学是另一个与医学相关的领域,其中基于 ML 和 AI 的医疗解决方案派上用场。生物信息学需要处理大量的各种数据,例如基因组序列、蛋白质结构和科学出版物。 ML 以其数据处理能力而闻名,然而,许多 AI 生物信息学模型的运行成本很高。训练深度学习算法可能需要数十万美元。例如,训练用于蛋白质结构预测的 AlphaFold2 模型消耗相当于 100-200 个 GPU 运行数周。
您可以在我们关于实施 AI 的成本是多少的文章中找到更多关于价格预期的信息。
如果您想在生物信息学中部署机器学习,请给我们写信。我们将与您合作,以合理的预算找到最合适的 ML 模型。
考虑在生物信息学中部署机器学习,但不确定哪种模型适合您?取得联系!我们将协助您为任务选择最适合的 ML 类型。我们还将帮助您构建/定制、训练和部署算法。