DNA 配列決定技術の進歩により、研究者は、従来のアプローチでは約 10 年を費やしていた、わずか 1 日でヒトゲノムの配列を決定できるようになりました。これは、バイオインフォマティクスにおける機械学習の多くの強力な貢献の 1 つにすぎません。
多くのバイオテクノロジー企業が ML コンサルタントを雇って生物医学データの処理プロセスを促進しているため、バイオインフォマティクス市場における AI は成長を続けています。 2029 年までに $37,027.96 に達すると予測されており、2022 年から 42.7% の CAGR で成長しています。このデジタル革命の一部になりたいですか?
この記事では、ML を簡単に紹介し、ML が生物医学研究をどのようにサポートするかを説明し、このテクノロジを展開する際に直面する可能性のある課題を列挙します。
機械学習は、より広い分野の人工知能 (AI) のサブセットです。これにより、システムはデータから独立して学習し、処理するように明示的にプログラムされていないタスクを実行できます。その目標は、診断、計画、予測など、人間の知性を必要とするタスクをマシンが実行できるようにすることです。
機械学習には、主に次の 2 つのタイプがあります。
トレーニング中にラベル付きデータとラベルなしデータを組み合わせることも可能で、半教師あり学習になります。この ML タイプは、教師あり学習アプローチ用の高品質のラベル付きデータが十分にない場合に役立ちますが、それでも学習プロセスを指示するために使用したい場合があります。
これらのアルゴリズムの一部は、教師あり/教師なし学習のカテゴリに厳密に分類され、一部は両方の方法で使用できます。
自然言語処理 (NLP) は、構造化されていない人間の言語を理解できる一連の技術です。
NLP は、大量の生物学研究を検索し、さまざまなソースから特定のトピックに関する情報を集約し、研究結果をある言語から別の言語に翻訳することができます。研究論文のマイニングに加えて、NLP ソリューションは関連する生物医学データベースを解析できます。
NLP は、バイオインフォマティクス分野に次のようなメリットをもたらします。
これは、ノード/ニューロンを構成要素とする多層構造です。隣接する層のニューロンはリンクを介して相互に接続されていますが、同じ層のニューロンは相互にリンクされていません。入力層のニューロンは、情報を受け取り、それを処理して、入力として次の層に渡します。そして、このプロセスは、処理された情報が出力層に到達するまで続きます。
最も基本的なニューラル ネットワークはパーセプトロンと呼ばれます。これは、分類器として機能する 1 つのニューロンで構成されます。このニューロンは入力を受け取り、線形識別関数を使用して 2 つのクラスのいずれかに配置します。大規模なニューラル ネットワークでは、レイヤーの数や 1 つのレイヤー内のノードの数に制限はありません。
教師なしクラスタリングは、指定された類似性の定義に基づいて要素をさまざまなグループに編成するプロセスです。このような分類の結果、あるクラスターに位置する要素は互いに密接に関連し、他のクラスターの要素とは異なります。
教師あり分類とは異なり、クラスタリングでは、形成されるクラスターの数が事前にわかりません。バイオインフォマティクスにおけるこの機械学習アプローチの有名な例の 1 つは、マイクロアレイに基づく遺伝子の発現プロファイリングです。この場合、同様の発現レベルを持つ遺伝子が 1 つのクラスターに配置されます。
機械学習の分類問題では、因子/特徴に基づいて分類が実行されます。最終結果に影響を与える要因が多すぎて、データセットの視覚化と操作が困難になる場合があります。次元削減アルゴリズムは特徴の数を最小限に抑え、データセットをより管理しやすくします。たとえば、気候分類の問題には、その特徴に湿度と降雨量が含まれる場合があります。これら 2 つは密接に関連しているため、簡単にするために 1 つの要因にまとめることができます。
次元削減には、次の 2 つの主要コンポーネントがあります。
このタイプのアルゴリズムは、計算時間とストレージ要件を削減するために、大規模なデータセットを圧縮するために使用されます。また、データに存在する冗長な特徴を排除することもできます。
これは、最も人気のある古典的な教師あり学習分類器の 1 つです。これらのアルゴリズムは、再帰的なアプローチを適用してフローチャートのようなツリー モデルを構築します。各ノードは機能のテストを表します。最初に、アルゴリズムは最上位ノード (ルート) を決定し、一度に 1 つのパラメーターを考慮してツリーを再帰的に構築します。各シーケンスの最後のノードは「リーフ ノード」と呼ばれます。これは最終的な分類を表し、クラス ラベルを保持します。
ディシジョン ツリー モデルは、トレーニング中に高い計算能力を必要としますが、その後は大規模な計算を行わなくても分類を実行できます。これらの分類器がバイオインフォマティクス分野にもたらす主な利点は、理解可能なルールと説明可能な結果を生成することです。
これは、2 グループ分類の問題を解決できる教師あり ML モデルです。データ ポイントを分類するために、これらのアルゴリズムは、データ ポイント間の距離が最大になる 2 つのクラスにデータを分割する最適な超平面を探します。
超平面の両側にある点は、異なるクラスに属します。超平面の次元は、特徴の数によって異なります。 2 つのフィーチャの場合、決定境界はラインであり、3 つのフィーチャの場合は 2D プレートです。この特性により、3 つ以上の特徴を持つ分類に SVM を使用することが困難になります。
このアプローチは、機能的な RNA 遺伝子のコンピューターによる同定に役立ちます。発現データに基づいて、がん検出に最適な遺伝子セットを選択できます。
機械学習を簡単に紹介し、最も一般的に使用されている ML アルゴリズムを強調した後、バイオインフォマティクスの分野でそれらをどのように展開できるかを見てみましょう。
これらのユース ケースのいずれかが気になる場合は、 AI ソフトウェア コンサルティングの専門家に相談して、ビジネスに合わせてカスタマイズされたソリューションを実装してください。
遺伝子編集とは、生物の DNA 配列の一部を削除、挿入、置換することにより、生物の遺伝子構成を操作することを指します。このプロセスは通常、かなり効果的な CRISPR 技術に依存しています。しかし、操作に適した DNA 配列を選択する領域には、まだ多くの改善が必要であり、ML が役立つのはこの点です。バイオインフォマティクスに機械学習を使用することで、研究者は遺伝子編集実験の設計を強化し、その結果を予測できます。
ある研究チームは、ML アルゴリズムを使用して、ゲノム編集タンパク質 Cas9 が標的 DNA と結合できるようにするアミノ酸残基の最適な組み合わせバリアントを発見しました。これらのバリアントの数が多いため、このような実験は大規模になりすぎましたが、ML 主導のエンジニアリング アプローチを使用することで、スクリーニングの負担が約 95% 削減されました。
プロテオミクスは、タンパク質、その相互作用、組成、および人体における役割の研究です。このフィールドには、大量の生物学的データセットが含まれており、計算コストが高くなります。したがって、バイオインフォマティクスにおける機械学習のような技術は、ここでは不可欠です。
この分野で最も成功したアプリケーションの 1 つは、畳み込みニューラル ネットワークを使用して、タンパク質のアミノ酸を 3 つのクラス (シート、ヘリックス、コイル) に配置することです。ニューラル ネットワークは84% の精度を達成でき、理論上の限界は 88% ~ 90% です。
プロテオミクスにおける ML のもう 1 つの用途は、タンパク質モデルのスコアリングです。これは、タンパク質の構造を予測するために不可欠なタスクです。ファイエットビル州立大学の研究者は、バイオインフォマティクスへの機械学習アプローチにおいて、タンパク質モデルのスコアリングを改善するためにML を導入しました。問題のタンパク質モデルをグループに分け、ML インタープリターを使用して各グループに属するモデルを評価するための特徴ベクトルを決定しました。これらの特徴ベクトルは、後で各グループで個別にトレーニングしながら、ML アルゴリズムをさらに改善するために使用されました。
研究者は、特定の疾患に関与する可能性が高い遺伝子を特定するために、バイオインフォマティクスで機械学習をますます使用しています。これは、遺伝子発現マイクロ アレイと RNA シーケンスを分析することによって達成されます。
特に、遺伝子同定は、がんに寄与する可能性が高い遺伝子を特定し、それらを分子レベルで分析することによって腫瘍を分類するために、がん関連の研究で勢いを増しています。
たとえば、ワシントン大学の科学者グループは、意思決定ツリー、サポート ベクター マシン、ニューラル ネットワークなどのバイオインフォマティクス アルゴリズムでいくつかの機械学習を使用して、がんの種類を予測および分類する能力をテストしました。研究者は、The Cancer Genome Atlas プロジェクトの RNA 配列決定データを展開し、線形サポート ベクター マシンが最も正確であり、がん分類で 95.8% の精度を達成したことを発見しました。
別の例では、研究者はML を使用して、遺伝子発現データに基づいて乳がんの種類を分類しました。このチームは、Cancer Genome Atlas プロジェクトのデータにも依存していました。研究者は、サンプルをトリプルネガティブ乳がん(最も致命的な乳がんの1つ)と非トリプルネガティブ乳がんに分類しました.ここでも、サポート ベクター マシン分類器が最良の結果をもたらしました。
非がん性疾患といえば、ペンシルバニア大学の研究者は機械学習を利用して、冠動脈疾患 (CAD) 治療薬の適切な標的となる遺伝子を特定しました。チームは、ML を利用したツリーベースのパイプライン最適化ツール (TPOT) を使用して、CAD に関連する一塩基多型 (SNP) の組み合わせを特定しました。彼らは、英国のバイオバンクからのゲノムデータを分析し、28 の関連する SNP を明らかにしました。このリストの上位にある SNP と CAD との関係は、以前に文献で言及されており、この研究によって実際的な検証が行われました。
高度な配列決定技術により、ゲノム データベースは 2.5 年ごとに 2 倍になり、研究者はこの蓄積された知識から有用な洞察を引き出す方法を探しています。バイオインフォマティクスにおける機械学習は、生物医学の出版物やレポートをふるいにかけて、さまざまな遺伝子やタンパク質を特定し、それらの機能を検索することができます。また、タンパク質データベースに注釈を付けたり、文献から取得した情報で補完したりすることもできます。
一例は、バイオインフォマティクスと機械学習を文献マイニングに導入して、タンパク質モデルのスコアリングを容易にした研究者グループからのものです。タンパク質間ドッキングの構造モデリングは、通常、構造上の制約に基づいてさらにスコアリングされるいくつかのモデルをもたらします。チームは ML アルゴリズムを使用して、タンパク質間相互作用に関する PubMed の論文を調べ、モデル スコアリングの制約を生成するのに役立つ残基を探しました。そして、制約が関連していることを確認するために、科学者は、関連性について発見されたすべての残基をチェックするさまざまな機械学習アルゴリズムの機能を調査しました。
この研究により、計算コストの高いニューラル ネットワークとリソース要求の少ないサポート ベクター マシンの両方が、非常に類似した結果を達成したことが明らかになりました。
薬物転用または再プロファイリングは、科学者が意図していなかった既存の薬物の新しい用途を発見するために使用する手法です。研究者はバイオインフォマティクスに AI を採用して、BindingDB や DrugBank などの関連データベースで薬物分析を実行しています。ドラッグ リパーパスには、主に次の 3 つの方向性があります。
中国石油大学と山東大学の研究者は、ディープ ニューラル ネットワーク アルゴリズムを開発し、それを DrugBank データベースで使用しました。彼らは、薬物分子とアルツハイマー病を引き起こす可能性のある主要なタンパク質の 1 つであるミトコンドリア融合タンパク質 2 (MFN2) との間の薬物-標的相互作用を研究したいと考えていました。この研究では、結合の可能性がある 15 の薬物分子が特定されています。さらに調査したところ、そのうちの 11 個が MFN2 とのドッキングに成功したようです。そのうちの 5 つは中程度から強い結合力を持っています。
バイオインフォマティクスにおける機械学習は、以下の 4 つの要因により、他の分野の ML とは異なります。これらの要因は、この分野に ML を適用する際の主な課題でもあります。
バイオインフォマティクス AI は高価です。アルゴリズムを適切に実行するには、大規模なトレーニング データセットを取得する必要があります。ただし、10,000 の胸部スキャンやその他の種類の医療データを取得するにはかなりの費用がかかります。
トレーニング データセットに関連する問題。他の分野では、十分なトレーニング データがない場合は、合成データを生成してデータセットを拡張できます。ただし、このトリックは、人間の臓器に関しては適切ではない場合があります。問題は、スキャン生成ソフトウェアが実際の人間のスキャンを生成する可能性があることです。そして、その人の許可なしにそれを使い始めると、その人のプライバシーを著しく侵害することになります.
トレーニング データに関連するもう 1 つの課題は、希少疾患で機能するアルゴリズムを構築したい場合、そもそも使用するデータがあまりないということです。
信頼度は非常に高くなければなりません。人間の命がアルゴリズムのパフォーマンスに依存している場合、リスクが大きすぎるため、エラーの余地はありません。
説明可能性の問題。医師は、ML モデルがどのように推奨事項を作成したかを理解していない場合、ML モデルの使用にオープンではありません。代わりに説明可能な AIを使用できますが、これらのアルゴリズムは、一部のブラックボックスの教師なし学習モデルほど強力ではありません。
一般的な AI 関連の課題と実装のヒントについては、記事と無料の eBookをご覧ください。
AI および ML テクノロジーは、医学および生物学の分野で多くの用途があります。私たちのブログでは、臨床試験における人工知能、 がんの診断と治療における AI 、ヘルスケアにおける AI の利点に関する詳細情報を見つけることができます。
バイオインフォマティクスは、ML とAI ベースの医療ソリューションが役立つもう 1 つの医療関連分野です。バイオインフォマティクスでは、ゲノム配列、タンパク質構造、科学出版物など、大量のさまざまなデータを扱う必要があります。 ML はそのデータ処理機能でよく知られていますが、多くの AI バイオインフォマティクス モデルは実行に費用がかかります。深層学習アルゴリズムをトレーニングするには、数十万ドルかかる場合があります。たとえば、タンパク質構造予測のために AlphaFold2 モデルをトレーニングすると、数週間実行すると 100 ~ 200 GPU に相当する量が消費されます。
AI を実装するためのコストに関する記事で、価格面で何が期待できるかについての詳細を見つけることができます。
機械学習をバイオインフォマティクスに展開したい場合は、ご連絡ください。お客様と協力して、妥当な予算で最適な ML モデルを見つけます。
機械学習をバイオインフォマティクスに展開することを検討していますが、どのモデルが適切かわかりませんか?お問い合わせください!タスクに最適な ML タイプの選択を支援します。また、アルゴリズムの構築/カスタマイズ、トレーニング、デプロイも支援します。