DNA 配列決定技術の進歩により、研究者は、従来のアプローチでは約 10 年を費やしていた、わずか 1 日でヒトゲノムの配列を決定できるようになりました。これは、バイオインフォマティクスにおける機械学習の多くの強力な貢献の 1 つにすぎません。 多くのバイオテクノロジー企業 を雇って生物医学データの処理プロセスを促進しているため、バイオインフォマティクス市場における AI は成長を続けています。 予測されており、2022 年から 42.7% の CAGR で成長しています。このデジタル革命の一部になりたいですか? が ML コンサルタント 2029 年までに $37,027.96 に達すると この記事では、ML を簡単に紹介し、ML が生物医学研究をどのようにサポートするかを説明し、このテクノロジを展開する際に直面する可能性のある課題を列挙します。 バイオインフォマティクスのための機械学習の概要 機械学習は、 です。これにより、システムはデータから独立して学習し、処理するように明示的にプログラムされていないタスクを実行できます。その目標は、診断、計画、予測など、人間の知性を必要とするタスクをマシンが実行できるようにすることです。 より広い分野の人工知能 (AI) のサブセット 機械学習には、主に次の 2 つのタイプがあります。 ラベル付けされたデータセットに依存して、アルゴリズムに既存の分類システムとそれに基づいて予測を行う方法を教えます。この ML タイプは、決定木とニューラル ネットワークのトレーニングに使用されます。 教師あり学習は、 ラベルを使用しません。代わりに、アルゴリズムは独自にデータ パターンを明らかにしようとします。つまり、私たちが直接教えられないことを学ぶのです。これは、人間の脳の仕組みに匹敵します。 教師なし学習では トレーニング中にラベル付きデータとラベルなしデータを組み合わせることも可能で、半教師あり学習になります。この ML タイプは、教師あり学習アプローチ用の高品質のラベル付きデータが十分にない場合に役立ちますが、それでも学習プロセスを指示するために使用したい場合があります。 バイオインフォマティクスで使用される最も一般的な機械学習手法は何ですか? これらのアルゴリズムの一部は、教師あり/教師なし学習のカテゴリに厳密に分類され、一部は両方の方法で使用できます。 自然言語処理 自然言語処理 (NLP) は、構造化されていない人間の言語を理解できる一連の技術です。 NLP は、大量の生物学研究を検索し、さまざまなソースから特定のトピックに関する情報を集約し、研究結果をある言語から別の言語に翻訳することができます。研究論文のマイニングに加えて、NLP ソリューションは関連する生物医学データベースを解析できます。 NLP は、バイオインフォマティクス分野に次のようなメリットをもたらします。 遺伝的バリアントの解釈 DNA 発現アレイの分析 タンパク質機能の注釈 新しい創薬ターゲットを探しています ニューラル ネットワーク これは、ノード/ニューロンを構成要素とする多層構造です。隣接する層のニューロンはリンクを介して相互に接続されていますが、同じ層のニューロンは相互にリンクされていません。入力層のニューロンは、情報を受け取り、それを処理して、入力として次の層に渡します。そして、このプロセスは、処理された情報が出力層に到達するまで続きます。 最も基本的なニューラル ネットワークはパーセプトロンと呼ばれます。これは、分類器として機能する 1 つのニューロンで構成されます。このニューロンは入力を受け取り、線形識別関数を使用して 2 つのクラスのいずれかに配置します。大規模なニューラル ネットワークでは、レイヤーの数や 1 つのレイヤー内のノードの数に制限はありません。 遺伝子発現プロファイルの分類 タンパク質構造の予測 DNAの配列決定 クラスタリング 教師なしクラスタリングは、指定された類似性の定義に基づいて要素をさまざまなグループに編成するプロセスです。このような分類の結果、あるクラスターに位置する要素は互いに密接に関連し、他のクラスターの要素とは異なります。 教師あり分類とは異なり、クラスタリングでは、形成されるクラスターの数が事前にわかりません。バイオインフォマティクスにおけるこの機械学習アプローチの有名な例の 1 つは、マイクロアレイに基づく遺伝子の発現プロファイリングです。この場合、同様の発現レベルを持つ遺伝子が 1 つのクラスターに配置されます。 次元削減 機械学習の分類問題では、因子/特徴に基づいて分類が実行されます。最終結果に影響を与える要因が多すぎて、データセットの視覚化と操作が困難になる場合があります。次元削減アルゴリズムは特徴の数を最小限に抑え、データセットをより管理しやすくします。たとえば、気候分類の問題には、その特徴に湿度と降雨量が含まれる場合があります。これら 2 つは密接に関連しているため、簡単にするために 1 つの要因にまとめることができます。 次元削減には、次の 2 つの主要コンポーネントがあります。 。フィーチャの埋め込み、フィルタリング、またはラッピングによってモデル全体を表す変数のサブセットを選択します。 機能の選択 。データセットの次元数を減らします。たとえば、3D 空間は 2 つの 2D 空間に分割できます。 特徴抽出 このタイプのアルゴリズムは、計算時間とストレージ要件を削減するために、大規模なデータセットを圧縮するために使用されます。また、データに存在する冗長な特徴を排除することもできます。 決定木分類器 これは、最も人気のある古典的な教師あり学習分類器の 1 つです。これらのアルゴリズムは、再帰的なアプローチを適用してフローチャートのようなツリー モデルを構築します。各ノードは機能のテストを表します。最初に、アルゴリズムは最上位ノード (ルート) を決定し、一度に 1 つのパラメーターを考慮してツリーを再帰的に構築します。各シーケンスの最後のノードは「リーフ ノード」と呼ばれます。これは最終的な分類を表し、クラス ラベルを保持します。 ディシジョン ツリー モデルは、トレーニング中に高い計算能力を必要としますが、その後は大規模な計算を行わなくても分類を実行できます。これらの分類器がバイオインフォマティクス分野にもたらす主な利点は、理解可能なルールと説明可能な結果を生成することです。 サポート ベクター マシン これは、2 グループ分類の問題を解決できる教師あり ML モデルです。データ ポイントを分類するために、これらのアルゴリズムは、データ ポイント間の距離が最大になる 2 つのクラスにデータを分割する最適な超平面を探します。 超平面の両側にある点は、異なるクラスに属します。超平面の次元は、特徴の数によって異なります。 2 つのフィーチャの場合、決定境界はラインであり、3 つのフィーチャの場合は 2D プレートです。この特性により、3 つ以上の特徴を持つ分類に SVM を使用することが困難になります。 このアプローチは、機能的な RNA 遺伝子のコンピューターによる同定に役立ちます。発現データに基づいて、がん検出に最適な遺伝子セットを選択できます。 バイオインフォマティクスにおける機械学習の上位 5 つのアプリケーション 機械学習を簡単に紹介し、最も一般的に使用されている ML アルゴリズムを強調した後、バイオインフォマティクスの分野でそれらをどのように展開できるかを見てみましょう。 これらのユース ケースのいずれかが気になる場合は、 に相談して、ビジネスに合わせてカスタマイズされたソリューションを実装してください。 AI ソフトウェア コンサルティングの専門家 1. 遺伝子編集実験の促進 遺伝子編集とは、生物の DNA 配列の一部を削除、挿入、置換することにより、生物の遺伝子構成を操作することを指します。このプロセスは通常、かなり効果的な CRISPR 技術に依存しています。しかし、操作に適した DNA 配列を選択する領域には、まだ多くの改善が必要であり、ML が役立つのはこの点です。バイオインフォマティクスに機械学習を使用することで、研究者は遺伝子編集実験の設計を強化し、その結果を予測できます。 ある研究チームは、ML アルゴリズムを使用して、ゲノム編集タンパク質 Cas9 が標的 DNA と結合できるようにするアミノ酸残基の 。これらのバリアントの数が多いため、このような実験は大規模になりすぎましたが、ML 主導のエンジニアリング アプローチを使用することで、スクリーニングの負担が約 95% 削減されました。 最適な組み合わせバリアントを発見しました タンパク質構造の同定 プロテオミクスは、タンパク質、その相互作用、組成、および人体における役割の研究です。このフィールドには、大量の生物学的データセットが含まれており、計算コストが高くなります。したがって、バイオインフォマティクスにおける機械学習のような技術は、ここでは不可欠です。 この分野で最も成功したアプリケーションの 1 つは、畳み込みニューラル ネットワークを使用して、タンパク質のアミノ酸を 3 つのクラス (シート、ヘリックス、コイル) に配置することです。ニューラル ネットワークは を達成でき、理論上の限界は 88% ~ 90% です。 84% の精度 プロテオミクスにおける ML のもう 1 つの用途は、タンパク質モデルのスコアリングです。これは、タンパク質の構造を予測するために不可欠なタスクです。ファイエットビル州立大学の研究者は、バイオインフォマティクスへの機械学習アプローチにおいて、タンパク質モデルのスコアリングを改善するために 。問題のタンパク質モデルをグループに分け、ML インタープリターを使用して各グループに属するモデルを評価するための特徴ベクトルを決定しました。これらの特徴ベクトルは、後で各グループで個別にトレーニングしながら、ML アルゴリズムをさらに改善するために使用されました。 ML を導入しました 3. 疾患関連遺伝子のスポッティング 研究者は、特定の疾患に関与する可能性が高い遺伝子を特定するために、バイオインフォマティクスで機械学習をますます使用しています。これは、遺伝子発現マイクロ アレイと RNA シーケンスを分析することによって達成されます。 特に、遺伝子同定は、がんに寄与する可能性が高い遺伝子を特定し、それらを分子レベルで分析することによって腫瘍を分類するために、がん関連の研究で勢いを増しています。 たとえば、ワシントン大学の科学者グループは、意思決定ツリー、サポート ベクター マシン、ニューラル ネットワークなどのバイオインフォマティクス アルゴリズムでいくつかの機械学習を使用して、 。研究者は、The Cancer Genome Atlas プロジェクトの RNA 配列決定データを展開し、線形サポート ベクター マシンが最も正確であり、がん分類で 95.8% の精度を達成したことを発見しました。 がんの種類を予測および分類する能力をテストしました 別の例では、研究者は 。このチームは、Cancer Genome Atlas プロジェクトのデータにも依存していました。研究者は、サンプルをトリプルネガティブ乳がん(最も致命的な乳がんの1つ)と非トリプルネガティブ乳がんに分類しました.ここでも、サポート ベクター マシン分類器が最良の結果をもたらしました。 ML を使用して、遺伝子発現データに基づいて乳がんの種類を分類しました 非がん性疾患といえば、ペンシルバニア大学の研究者 。チームは、ML を利用したツリーベースのパイプライン最適化ツール (TPOT) を使用して、CAD に関連する一塩基多型 (SNP) の組み合わせを特定しました。彼らは、英国のバイオバンクからのゲノムデータを分析し、28 の関連する SNP を明らかにしました。このリストの上位にある SNP と CAD との関係は、以前に文献で言及されており、この研究によって実際的な検証が行われました。 は機械学習を利用して、冠動脈疾患 (CAD) 治療薬の適切な標的となる遺伝子を特定しました 4. 意味のあるパターンを求めて知識ベースをたどる 高度な配列決定技術により、 、研究者はこの蓄積された知識から有用な洞察を引き出す方法を探しています。バイオインフォマティクスにおける機械学習は、生物医学の出版物やレポートをふるいにかけて、さまざまな遺伝子やタンパク質を特定し、それらの機能を検索することができます。また、タンパク質データベースに注釈を付けたり、文献から取得した情報で補完したりすることもできます。 ゲノム データベースは 2.5 年ごとに 2 倍になり 一例は、バイオインフォマティクスと機械学習を文献マイニングに 、タンパク質モデルのスコアリングを容易にした研究者グループからのものです。タンパク質間ドッキングの構造モデリングは、通常、構造上の制約に基づいてさらにスコアリングされるいくつかのモデルをもたらします。チームは ML アルゴリズムを使用して、タンパク質間相互作用に関する PubMed の論文を調べ、モデル スコアリングの制約を生成するのに役立つ残基を探しました。そして、制約が関連していることを確認するために、科学者は、関連性について発見されたすべての残基をチェックするさまざまな機械学習アルゴリズムの機能を調査しました。 導入して この研究により、計算コストの高いニューラル ネットワークとリソース要求の少ないサポート ベクター マシンの両方が、非常に類似した結果を達成したことが明らかになりました。 5. 薬の転用 薬物転用または再プロファイリングは、科学者が意図していなかった既存の薬物の新しい用途を発見するために使用する手法です。研究者はバイオインフォマティクスに AI を採用して、BindingDB や DrugBank などの関連データベースで を実行しています。ドラッグ リパーパスには、主に次の 3 つの方向性があります。 薬物分析 薬物-標的相互作用は、標的タンパク質に直接結合する薬物の能力を調べます 薬と薬の相互作用は、薬を組み合わせて服用したときに薬がどのように作用するかを調査します タンパク質間相互作用は、相互作用する細胞内タンパク質の表面を調べ、ホットスポットとアロステリック サイトを発見しようとします。 中国石油大学と山東大学の研究者は 、それを DrugBank データベースで使用しました。彼らは、薬物分子とアルツハイマー病を引き起こす可能性のある主要なタンパク質の 1 つであるミトコンドリア融合タンパク質 2 (MFN2) との間の薬物-標的相互作用を研究したいと考えていました。この研究では、結合の可能性がある 15 の薬物分子が特定されています。さらに調査したところ、そのうちの 11 個が MFN2 とのドッキングに成功したようです。そのうちの 5 つは中程度から強い結合力を持っています。 、ディープ ニューラル ネットワーク アルゴリズムを開発し バイオインフォマティクスにおける機械学習がもたらす課題 バイオインフォマティクスにおける機械学習は、以下の 4 つの要因により、他の分野の ML とは異なります。これらの要因は、この分野に ML を適用する際の主な課題でもあります。 。アルゴリズムを適切に実行するには、大規模なトレーニング データセットを取得する必要があります。ただし、10,000 の胸部スキャンやその他の種類の医療データを取得するにはかなりの費用がかかります。 バイオインフォマティクス AI は高価です 。他の分野では、十分なトレーニング データがない場合は、合成データを生成してデータセットを拡張できます。ただし、このトリックは、人間の臓器に関しては適切ではない場合があります。問題は、スキャン生成ソフトウェアが実際の人間のスキャンを生成する可能性があることです。そして、その人の許可なしにそれを使い始めると、その人のプライバシーを著しく侵害することになります. トレーニング データセットに関連する問題 トレーニング データに関連するもう 1 つの課題は、希少疾患で機能するアルゴリズムを構築したい場合、そもそも使用するデータがあまりないということです。 。人間の命がアルゴリズムのパフォーマンスに依存している場合、リスクが大きすぎるため、エラーの余地はありません。 信頼度は非常に高くなければなりません 。医師は、ML モデルがどのように推奨事項を作成したかを理解していない場合、ML モデルの使用にオープンではありません。代わりに を使用できますが、これらのアルゴリズムは、一部のブラックボックスの教師なし学習モデルほど強力ではありません。 説明可能性の問題 説明可能な AI 一般的な AI 関連の課題と実装のヒントについては、 をご覧ください。 記事と無料の eBook 総括する AI および ML テクノロジーは、医学および生物学の分野で多くの用途があります。私たちのブログでは、 、 、 に関する詳細情報を見つけることができます。 臨床試験における人工知能 がんの診断と治療における AI ヘルスケアにおける AI の利点 バイオインフォマティクスは、ML と 役立つもう 1 つの医療関連分野です。バイオインフォマティクスでは、ゲノム配列、タンパク質構造、科学出版物など、大量のさまざまなデータを扱う必要があります。 ML はそのデータ処理機能でよく知られていますが、多くの AI バイオインフォマティクス モデルは実行に費用がかかります。深層学習アルゴリズムをトレーニングするには、数十万ドルかかる場合があります。たとえば、タンパク質構造予測のために AlphaFold2 モデルをトレーニングすると、数週間実行すると 100 ~ 200 GPU に相当する量が消費されます。 AI ベースの医療ソリューションが 記事で、価格面で何が期待できるかについての詳細を見つけることができます。 AI を実装するためのコストに関する 機械学習をバイオインフォマティクスに展開したい場合は、ご連絡ください。お客様と協力して、妥当な予算で最適な ML モデルを見つけます。 機械学習をバイオインフォマティクスに展開することを検討していますが、どのモデルが適切かわかりませんか? !タスクに最適な ML タイプの選択を支援します。また、アルゴリズムの構築/カスタマイズ、トレーニング、デプロイも支援します。 お問い合わせください