paint-brush
Tin sinh học chứng kiến sự đổi mới đáng kể nhờ AI và máy họctừ tác giả@itrex
1,961 lượt đọc
1,961 lượt đọc

Tin sinh học chứng kiến sự đổi mới đáng kể nhờ AI và máy học

từ tác giả ITRex11m2023/02/10
Read on Terminal Reader

dài quá đọc không nổi

Học máy là một tập hợp con của lĩnh vực trí tuệ nhân tạo (AI) rộng lớn hơn. Nó cho phép các hệ thống học hỏi độc lập từ dữ liệu và thực hiện các tác vụ mà chúng không được lập trình rõ ràng để xử lý. AI trong thị trường tin sinh học được dự đoán sẽ đạt 37.027,96 USD vào năm 2029.
featured image - Tin sinh học chứng kiến sự đổi mới đáng kể nhờ AI và máy học
ITRex HackerNoon profile picture

Những tiến bộ trong kỹ thuật giải trình tự DNA cho phép các nhà nghiên cứu giải trình tự bộ gen của con người chỉ trong một ngày, một nhiệm vụ tiêu tốn khoảng một thập kỷ với các phương pháp truyền thống. Đây chỉ là một trong nhiều đóng góp mạnh mẽ của máy học trong tin sinh học.


Khi nhiều công ty công nghệ sinh học thuê chuyên gia tư vấn ML để tạo thuận lợi cho quá trình xử lý dữ liệu y sinh, AI trong thị trường tin sinh học tiếp tục phát triển. Nó được dự đoán sẽ đạt 37.027,96 đô la vào năm 2029 , tăng trưởng với tốc độ CAGR là 42,7% từ năm 2022. Bạn có muốn trở thành một phần của cuộc cách mạng kỹ thuật số này không?

Bài viết này giới thiệu ngắn gọn về ML, giải thích cách nó hỗ trợ nghiên cứu y sinh và liệt kê những thách thức mà bạn có thể gặp phải khi triển khai công nghệ này.

Giới thiệu về máy học cho tin sinh học

Học máy là một tập hợp con của lĩnh vực trí tuệ nhân tạo (AI) rộng lớn hơn . Nó cho phép các hệ thống học hỏi độc lập từ dữ liệu và thực hiện các tác vụ mà chúng không được lập trình rõ ràng để xử lý. Mục tiêu của nó là cung cấp cho máy móc khả năng thực hiện các nhiệm vụ đòi hỏi trí thông minh của con người, chẳng hạn như chẩn đoán, lập kế hoạch và dự đoán.


Có hai loại máy học chính:

  1. Học có giám sát dựa trên các bộ dữ liệu được gắn nhãn để dạy các thuật toán về một hệ thống phân loại hiện có và cách đưa ra dự đoán dựa trên hệ thống đó. Loại ML này được sử dụng để huấn luyện cây quyết định và mạng lưới thần kinh.
  2. Học tập không giám sát không sử dụng nhãn. Thay vào đó, các thuật toán cố gắng tự khám phá các mẫu dữ liệu. Nói cách khác, chúng học những điều mà chúng ta không thể dạy chúng trực tiếp. Điều này có thể so sánh với cách bộ não con người hoạt động.


Cũng có thể kết hợp dữ liệu được gắn nhãn và không được gắn nhãn trong quá trình đào tạo, điều này sẽ dẫn đến việc học bán giám sát. Loại ML này có thể hữu ích khi bạn không có đủ dữ liệu được gắn nhãn chất lượng cao cho phương pháp học có giám sát, nhưng bạn vẫn muốn sử dụng nó để định hướng quá trình học.

Các kỹ thuật học máy phổ biến nhất được sử dụng trong tin sinh học là gì?

Một số thuật toán này hoàn toàn thuộc danh mục học tập có giám sát/không giám sát và một số thuật toán có thể được sử dụng với cả hai phương pháp.

Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) là một tập hợp các kỹ thuật có thể hiểu được ngôn ngữ phi cấu trúc của con người.


NLP có thể tìm kiếm trong khối lượng nghiên cứu sinh học, tổng hợp thông tin về một chủ đề nhất định từ nhiều nguồn khác nhau và dịch các kết quả nghiên cứu từ ngôn ngữ này sang ngôn ngữ khác. Ngoài các tài liệu nghiên cứu khai thác, các giải pháp NLP có thể phân tích cú pháp cơ sở dữ liệu y sinh có liên quan.


NLP có thể mang lại lợi ích cho lĩnh vực tin sinh học theo những cách sau:

  • Giải thích các biến thể di truyền
  • Phân tích mảng biểu hiện DNA
  • Chú thích chức năng protein
  • Tìm kiếm mục tiêu thuốc mới

mạng lưới thần kinh

Đây là một cấu trúc nhiều lớp bao gồm các nút/nơ-ron làm khối xây dựng của nó. Các tế bào thần kinh trong các lớp liền kề được kết nối với nhau thông qua các liên kết, nhưng các tế bào thần kinh của cùng một lớp không được liên kết với nhau. Các tế bào thần kinh của lớp đầu vào nhận thông tin, xử lý nó và truyền nó dưới dạng đầu vào cho lớp tiếp theo. Và quá trình này tiếp tục cho đến khi thông tin được xử lý đến lớp đầu ra.


Mạng thần kinh cơ bản nhất được gọi là perceptron. Nó bao gồm một tế bào thần kinh hoạt động như một bộ phân loại. Tế bào thần kinh này nhận một đầu vào và đặt nó vào một trong hai lớp bằng cách sử dụng hàm phân biệt tuyến tính. Trong các mạng thần kinh lớn hơn, không có giới hạn về số lớp hoặc số nút trong một lớp.

mạng lưới thần kinh


  • Phân loại hồ sơ biểu hiện gen
  • Dự đoán cấu trúc protein
  • Trình tự DNA

phân cụm

Phân cụm không giám sát là quá trình tổ chức các phần tử thành các nhóm khác nhau dựa trên định nghĩa tương tự được cung cấp. Kết quả của sự phân loại như vậy là các phần tử được định vị trong một cụm liên quan chặt chẽ với nhau và khác với các phần tử trong các cụm khác.


Không giống như phân loại có giám sát, trong phân cụm, chúng ta không biết trước có bao nhiêu cụm sẽ được hình thành. Một ví dụ nổi tiếng về phương pháp học máy này trong tin sinh học là lập hồ sơ biểu hiện gen dựa trên microarray, trong đó các gen có mức biểu hiện tương tự được định vị trong một cụm.

Nguồn

Giảm kích thước

Trong các bài toán phân loại học máy, việc phân loại được thực hiện dựa trên các yếu tố/tính năng. Đôi khi có quá nhiều yếu tố ảnh hưởng đến kết quả cuối cùng, khiến bộ dữ liệu khó hình dung và thao tác. Các thuật toán giảm kích thước có thể giảm thiểu số lượng tính năng, giúp tập dữ liệu dễ quản lý hơn. Ví dụ, một vấn đề phân loại khí hậu có thể có độ ẩm và lượng mưa trong số các tính năng của nó. Để đơn giản, hai yếu tố này có thể được gộp lại thành một yếu tố vì cả hai đều có liên quan chặt chẽ với nhau.

Giảm kích thước có hai thành phần chính:


  • Lựa chọn tính năng . Chọn một tập hợp con các biến để đại diện cho toàn bộ mô hình bằng cách nhúng, lọc hoặc gói các tính năng.
  • Khai thác tính năng . Giảm số lượng thứ nguyên trong tập dữ liệu. Chẳng hạn, một không gian 3D có thể được chia thành hai không gian 2D.


Loại thuật toán này được sử dụng để nén các tập dữ liệu lớn nhằm giảm thời gian tính toán và yêu cầu lưu trữ. Nó cũng có thể loại bỏ các tính năng dư thừa có trong dữ liệu.

Phân loại cây quyết định

Đây là một trong những phân loại học tập có giám sát cổ điển phổ biến nhất. Các thuật toán này áp dụng cách tiếp cận đệ quy để xây dựng mô hình cây giống như lưu đồ, trong đó mỗi nút biểu thị một thử nghiệm trên một tính năng. Đầu tiên, thuật toán xác định nút trên cùng — gốc — và sau đó xây dựng cây theo cách đệ quy xem xét từng tham số một. Nút cuối cùng trong mỗi chuỗi được gọi là “nút lá”. Nó đại diện cho phân loại cuối cùng và giữ nhãn lớp.


Các mô hình cây quyết định đòi hỏi sức mạnh tính toán cao trong quá trình đào tạo, nhưng sau đó chúng có thể thực hiện phân loại mà không cần tính toán nhiều. Ưu điểm chính mà các bộ phân loại này mang lại cho lĩnh vực tin sinh học là chúng tạo ra các quy tắc dễ hiểu và kết quả có thể giải thích được.

Nguồn


Máy véc tơ hỗ trợ

Đây là một mô hình ML được giám sát có thể giải quyết các vấn đề về phân loại hai nhóm. Để phân loại các điểm dữ liệu, các thuật toán này tìm kiếm một siêu phẳng tối ưu để phân chia dữ liệu thành hai lớp với khoảng cách tối đa giữa các điểm dữ liệu.

Nguồn


Các điểm nằm ở hai bên của siêu phẳng thuộc về các lớp khác nhau. Kích thước của siêu phẳng phụ thuộc vào số lượng tính năng. Trong trường hợp có hai tính năng, ranh giới quyết định là một đường, với ba tính năng, đó là một tấm 2D. Đặc điểm này làm cho việc sử dụng SVM để phân loại có nhiều hơn ba tính năng trở nên khó khăn.

Cách tiếp cận này rất hữu ích trong việc xác định tính toán các gen RNA chức năng. Nó có thể chọn bộ gen tối ưu để phát hiện ung thư dựa trên dữ liệu biểu hiện của chúng.

5 ứng dụng hàng đầu của học máy trong tin sinh học

Sau khi giới thiệu ngắn gọn về học máy và nêu bật các thuật toán ML được sử dụng phổ biến nhất, hãy xem cách chúng có thể được triển khai trong lĩnh vực tin sinh học.

Nếu bất kỳ trường hợp sử dụng nào trong số này thu hút sự chú ý của bạn, hãy liên hệ với các chuyên gia tư vấn phần mềm AI để triển khai giải pháp tùy chỉnh cho doanh nghiệp của bạn.

1. Tạo điều kiện thuận lợi cho các thí nghiệm chỉnh sửa gen

Chỉnh sửa gen đề cập đến các thao tác trên thành phần gen của sinh vật bằng cách xóa, chèn và thay thế một phần trình tự DNA của nó. Quá trình này thường dựa vào kỹ thuật CRISPR, khá hiệu quả. Nhưng vẫn còn nhiều cải tiến mong muốn trong lĩnh vực chọn trình tự DNA phù hợp để thao tác và đây là lúc ML có thể trợ giúp. Sử dụng máy học cho tin sinh học, các nhà nghiên cứu có thể nâng cao thiết kế của các thí nghiệm chỉnh sửa gen và dự đoán kết quả của chúng.


Một nhóm nghiên cứu đã sử dụng các thuật toán ML để khám phá các biến thể tổ hợp tối ưu nhất của các gốc axit amin cho phép protein chỉnh sửa bộ gen Cas9 liên kết với DNA đích. Do số lượng lớn các biến thể này, một thử nghiệm như vậy sẽ quá lớn, nhưng việc sử dụng phương pháp kỹ thuật dựa trên ML đã giảm khoảng 95% gánh nặng sàng lọc.

Xác định cấu trúc protein

Proteomics là một nghiên cứu về protein, tương tác, thành phần và vai trò của chúng trong cơ thể con người. Lĩnh vực này liên quan đến các bộ dữ liệu sinh học nặng và tốn kém về mặt tính toán. Do đó, các công nghệ như học máy trong tin sinh học là rất cần thiết ở đây.


Một trong những ứng dụng thành công nhất trong lĩnh vực này là sử dụng mạng lưới thần kinh tích chập để định vị các axit amin của protein thành ba lớp — tấm, chuỗi xoắn và cuộn. Mạng lưới thần kinh có thể đạt được độ chính xác 84% với giới hạn lý thuyết là 88%–90%.


Một cách sử dụng khác của ML trong proteomics là chấm điểm mô hình protein, một nhiệm vụ cần thiết để dự đoán cấu trúc protein. Trong phương pháp học máy của họ đối với tin sinh học, các nhà nghiên cứu từ Đại học bang Fayetteville đã triển khai ML để cải thiện việc chấm điểm mô hình protein. Họ chia các mô hình protein theo câu hỏi thành các nhóm và sử dụng trình thông dịch ML để quyết định vectơ đặc trưng để đánh giá các mô hình thuộc từng nhóm. Các vectơ đặc trưng này đã được sử dụng sau đó để cải thiện hơn nữa các thuật toán ML trong khi đào tạo chúng trên từng nhóm riêng biệt.

3. Đốm gen liên quan đến bệnh tật

Các nhà nghiên cứu ngày càng sử dụng máy học trong tin sinh học để xác định các gen có khả năng liên quan đến các bệnh cụ thể. Điều này đạt được bằng cách phân tích các vi mô biểu hiện gen và giải trình tự RNA.


Đặc biệt, việc xác định gen thu hút sự chú ý trong các nghiên cứu liên quan đến ung thư để xác định các gen có khả năng góp phần gây ung thư, cũng như phân loại các khối u bằng cách phân tích chúng ở cấp độ phân tử.

Chẳng hạn, một nhóm các nhà khoa học tại Đại học Washington đã sử dụng một số máy học trong các thuật toán tin sinh học, bao gồm cây quyết định, máy vectơ hỗ trợ và mạng lưới thần kinh để kiểm tra khả năng dự đoán và phân loại các loại ung thư của chúng . Các nhà nghiên cứu đã triển khai dữ liệu giải trình tự RNA từ dự án The Cancer Genome Atlas và phát hiện ra rằng máy vectơ hỗ trợ tuyến tính là chính xác nhất, đạt độ chính xác 95,8% trong phân loại ung thư.


Trong một ví dụ khác, các nhà nghiên cứu đã sử dụng ML để phân loại các loại ung thư vú dựa trên dữ liệu biểu hiện gen. Nhóm này cũng dựa vào dữ liệu của dự án Cancer Genome Atlas. Các nhà nghiên cứu đã phân loại các mẫu thành ung thư vú bộ ba âm tính - một trong những loại ung thư vú nguy hiểm nhất - và không phải bộ ba âm tính. Và một lần nữa, bộ phân loại máy vectơ hỗ trợ đã mang lại kết quả tốt nhất.


Nói về các bệnh không phải ung thư, các nhà nghiên cứu tại Đại học Pennsylvania đã dựa vào học máy để xác định các gen sẽ là mục tiêu phù hợp cho các loại thuốc điều trị bệnh động mạch vành (CAD). Nhóm đã sử dụng Công cụ tối ưu hóa đường ống dựa trên cây (TPOT) do ML cung cấp để xác định sự kết hợp của các đa hình nucleotide đơn (SNP) liên quan đến CAD. Họ đã phân tích dữ liệu bộ gen từ Ngân hàng sinh học Vương quốc Anh và phát hiện ra 28 SNP có liên quan. Mối quan hệ giữa các SNP ở đầu danh sách này và CAD đã được đề cập trước đây trong tài liệu và nghiên cứu này đã đưa ra một xác nhận thực tế.

4. Duyệt qua cơ sở tri thức để tìm kiếm các mẫu có ý nghĩa

Công nghệ giải trình tự tiên tiến nhân đôi cơ sở dữ liệu bộ gen cứ sau 2,5 năm và các nhà nghiên cứu đang tìm cách trích xuất những hiểu biết hữu ích từ kiến thức tích lũy này. Học máy trong tin sinh học có thể sàng lọc các ấn phẩm và báo cáo y sinh để xác định các gen và protein khác nhau và tìm kiếm chức năng của chúng. Nó cũng có thể hỗ trợ trong việc chú thích cơ sở dữ liệu protein và bổ sung cho chúng những thông tin mà nó lấy được từ tài liệu.

Một ví dụ đến từ một nhóm các nhà nghiên cứu đã triển khai tin sinh học và học máy trong khai thác tài liệu để tạo điều kiện cho điểm mô hình protein. Mô hình cấu trúc của các điểm nối protein-protein thường dẫn đến một số mô hình được chấm điểm thêm dựa trên các ràng buộc về cấu trúc. Nhóm đã sử dụng các thuật toán ML để duyệt qua các bài báo PubMed về tương tác protein-protein, tìm kiếm các phần còn lại có thể giúp tạo ra các ràng buộc này để chấm điểm mô hình. Và để đảm bảo rằng các ràng buộc có liên quan, các nhà khoa học đã khám phá khả năng của các thuật toán học máy khác nhau để kiểm tra mức độ liên quan của tất cả các dư lượng được phát hiện.

Nghiên cứu này tiết lộ rằng cả mạng thần kinh đắt tiền về mặt tính toán và máy véc tơ hỗ trợ đòi hỏi ít tài nguyên hơn đều đạt được kết quả rất giống nhau.

5. Tái sử dụng thuốc

Tái sử dụng thuốc, hoặc tái lập hồ sơ, là một kỹ thuật mà các nhà khoa học sử dụng để khám phá các ứng dụng mới của các loại thuốc hiện có mà chúng không dành cho. Các nhà nghiên cứu áp dụng AI trong tin sinh học để thực hiện phân tích thuốc trên các cơ sở dữ liệu có liên quan, chẳng hạn như BindingDB và DrugBank. Có ba hướng chính để tái sử dụng thuốc:


  • Tương tác thuốc-mục tiêu xem xét khả năng của thuốc liên kết trực tiếp với protein mục tiêu
  • Tương tác thuốc-thuốc điều tra cách thức hoạt động của thuốc khi chúng được dùng kết hợp
  • Tương tác protein-protein xem xét bề mặt của các protein nội bào tương tác và cố gắng khám phá các điểm nóng và các vị trí dị lập thể.


Các nhà nghiên cứu từ Đại học Dầu khí Trung Quốc và Đại học Sơn Đông đã phát triển một thuật toán mạng thần kinh sâu và sử dụng nó trên cơ sở dữ liệu của DrugBank. Họ muốn nghiên cứu sự tương tác giữa thuốc và mục tiêu giữa các phân tử thuốc và protein tổng hợp ty thể 2 (MFN2), một trong những protein chính có thể gây ra bệnh Alzheimer. Nghiên cứu xác định 15 phân tử thuốc có khả năng liên kết. Sau khi điều tra thêm, có vẻ như 11 trong số chúng có thể cập bến thành công với MFN2. Và năm trong số chúng có lực liên kết từ trung bình đến mạnh.

Những thách thức do máy học đưa ra trong tin sinh học

Học máy trong tin sinh học khác với ML trong các lĩnh vực khác do bốn yếu tố dưới đây, đây cũng là những thách thức chính khi áp dụng ML vào lĩnh vực này.

  1. Tin sinh học AI đắt tiền . Để thuật toán hoạt động chính xác, bạn cần có một tập dữ liệu huấn luyện lớn. Tuy nhiên, khá tốn kém để có được 10.000 lần quét ngực hoặc bất kỳ loại dữ liệu y tế nào khác cho vấn đề đó.

  2. Những khó khăn liên quan đến tập dữ liệu huấn luyện . Trong các lĩnh vực khác, nếu không có đủ dữ liệu đào tạo, bạn có thể tạo dữ liệu tổng hợp để mở rộng tập dữ liệu của mình. Tuy nhiên, thủ thuật này có thể không phù hợp khi nói đến nội tạng người. Vấn đề là phần mềm tạo bản quét của bạn có thể tạo ra bản quét của một người thực. Và nếu bạn bắt đầu sử dụng nó mà không có sự cho phép của người đó, bạn sẽ vi phạm nghiêm trọng quyền riêng tư của họ.

    Một thách thức khác liên quan đến dữ liệu đào tạo là nếu bạn muốn xây dựng một thuật toán hoạt động với các bệnh hiếm gặp, thì ngay từ đầu sẽ không có nhiều dữ liệu để xử lý.

  3. Mức độ tự tin phải rất cao . Khi cuộc sống của con người phụ thuộc vào hiệu suất của thuật toán, thì có quá nhiều nguy cơ bị đe dọa, điều này không có chỗ cho sai sót.

  4. Vấn đề khả năng giải thích . Các bác sĩ sẽ không sẵn sàng sử dụng mô hình ML nếu họ không hiểu cách mô hình này tạo ra các khuyến nghị. Thay vào đó, bạn có thể sử dụng AI có thể giải thích được , nhưng các thuật toán này không mạnh bằng một số mô hình học tập không giám sát hộp đen.

Để biết các mẹo triển khai và thách thức chung liên quan đến AI, hãy xem bài viết của chúng tôi và Sách điện tử miễn phí .

Tóm lại

Công nghệ AI và ML có nhiều ứng dụng trong lĩnh vực y học và sinh học. Trên blog của chúng tôi, bạn có thể tìm thêm thông tin về trí tuệ nhân tạo trong các thử nghiệm lâm sàng , AI trong chẩn đoán và điều trị ung thư cũng như lợi ích của AI trong chăm sóc sức khỏe .


Tin sinh học là một lĩnh vực khác liên quan đến y học, nơi các giải pháp y tế dựa trên ML và AI trở nên hữu ích. Tin sinh học yêu cầu xử lý một lượng lớn dữ liệu khác nhau, chẳng hạn như trình tự bộ gen, cấu trúc protein và các ấn phẩm khoa học. ML nổi tiếng với khả năng xử lý dữ liệu, tuy nhiên, nhiều mô hình tin sinh học AI rất tốn kém để chạy. Có thể mất hàng trăm nghìn đô la để đào tạo một thuật toán học sâu. Ví dụ: đào tạo mô hình AlphaFold2 để dự đoán cấu trúc protein tiêu thụ lượng GPU tương đương 100-200 chạy trong vài tuần.


Bạn có thể tìm thêm thông tin về những gì mong đợi về giá khôn ngoan trong bài viết của chúng tôi về chi phí triển khai AI là bao nhiêu .


Nếu bạn muốn triển khai máy học trong tin sinh học, hãy liên hệ với chúng tôi. Chúng tôi sẽ làm việc cùng với bạn để tìm ra các mô hình ML phù hợp nhất với ngân sách hợp lý.


Cân nhắc triển khai học máy trong tin sinh học, nhưng không chắc mô hình nào phù hợp với bạn? Hãy liên lạc ! Chúng tôi sẽ hỗ trợ bạn trong việc chọn loại ML phù hợp nhất cho nhiệm vụ. Chúng tôi cũng sẽ giúp bạn xây dựng/tùy chỉnh, đào tạo và triển khai thuật toán.