paint-brush
Mô hình ngôn ngữ lớn: Khám phá Transformers - Phần 2từ tác giả@shyamganesh
1,532 lượt đọc
1,532 lượt đọc

Mô hình ngôn ngữ lớn: Khám phá Transformers - Phần 2

từ tác giả Shyam Ganesh S5m2024/05/22
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Mô hình biến áp là một loại mô hình mạng thần kinh học sâu được sử dụng rộng rãi trong các tác vụ Xử lý ngôn ngữ tự nhiên (NLP). Trong những năm gần đây, máy biến áp đã được sử dụng làm mô hình cơ sở trong nhiều Mô hình ngôn ngữ lớn (LLM). Trong blog này, chúng ta sẽ khám phá về máy biến áp, các thành phần của chúng, cách chúng hoạt động và hơn thế nữa.

People Mentioned

Mention Thumbnail
Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - Mô hình ngôn ngữ lớn: Khám phá Transformers - Phần 2
Shyam Ganesh S HackerNoon profile picture


Xin chào các độc giả, tôi rất vui khi có bạn tham gia cùng tôi khi chúng ta đi sâu vào thế giới hấp dẫn của Mô hình ngôn ngữ lớn (LLM). Sự phát triển của LLM đã thu hút được sự quan tâm của mọi người trên nhiều lĩnh vực khác nhau. Nếu bạn là người mới biết đến chủ đề này thì bạn đã đến đúng nơi. Trong blog này, chúng ta sẽ khám phá máy biến áp, các bộ phận của chúng, cách chúng hoạt động và hơn thế nữa.


Sẵn sàng để bắt đầu? Hãy đi sâu vào!

Máy biến áp trong NLP

Mô hình biến áp là một loại mô hình mạng thần kinh học sâu được sử dụng rộng rãi trong các tác vụ Xử lý ngôn ngữ tự nhiên (NLP). Các mô hình máy biến áp là chuyên gia trong việc tìm hiểu bối cảnh của dữ liệu đầu vào nhất định dưới dạng một chuỗi và tạo ra dữ liệu mới từ dữ liệu đó. Trong những năm gần đây, máy biến áp đã được sử dụng làm mô hình cơ sở trong nhiều Mô hình ngôn ngữ lớn (LLM) .

Lịch sử của máy biến áp

Kiến trúc máy biến áp đã được giới thiệu vào tháng 6 năm 2017 trên bài báo " Chú ý là tất cả những gì bạn cần ". Sau sự ra đời của máy biến áp, lĩnh vực NLP đã phát triển mạnh mẽ xung quanh kiến trúc máy biến áp. Nhiều Mô hình ngôn ngữ lớn (LLM) và các mô hình được đào tạo trước đã được ra mắt với máy biến áp làm xương sống. Chúng ta hãy xem tổng quan ngắn gọn về sự phát triển của máy biến áp trong lĩnh vực NLP.


Lịch sử của máy biến áp. (Tín dụng hình ảnh: HuggingFace)

Vào tháng 6 năm 2018, GPT (Máy biến áp được đào tạo trước tạo ra) dựa trên máy biến áp đầu tiên đã được giới thiệu. Cuối cùng năm đó, BERT (Đại diện bộ mã hóa hai chiều từ Transformers) đã được ra mắt. Vào tháng 2 năm 2019, phiên bản nâng cao của GPT, tức là GPT-2 , đã được OpenAI ra mắt. Cùng năm đó, nhiều mô hình được đào tạo trước như XLMRoBERTa được đưa ra khiến lĩnh vực NLP càng trở nên cạnh tranh hơn.


Từ năm 2020, lĩnh vực NLP bùng nổ với nhiều mô hình đào tạo trước mới ra đời. Sự phát triển của các mô hình này phần lớn phụ thuộc vào kiến trúc máy biến áp. Trên đây chỉ là một số đại diện trong danh sách, trong khi đó, trong các tình huống thực tế, thậm chí có nhiều mô hình được phát triển trên kiến trúc máy biến áp.


Trước khi khám phá cấu tạo của máy biến áp, trước tiên chúng ta hãy tìm hiểu một số khái niệm cơ bản.

Tập huấn trước

Đào tạo trước là hành động đào tạo mô hình Machine Learning (ML) từ đầu. Quy trình huấn luyện bắt đầu bằng việc ngẫu nhiên hóa các trọng số của mô hình. Trong giai đoạn này, một khối dữ liệu khổng lồ được đưa vào mô hình để học. Thông thường, giai đoạn đào tạo này tốn kém và tốn thời gian.

Đào tạo trước và tinh chỉnh. (Tín dụng hình ảnh: Wikipedia)


Tinh chỉnh

Tinh chỉnh là một quy trình đào tạo được thực hiện trên mô hình được đào tạo trước với thông tin dành riêng cho miền. Các mô hình được đào tạo trước đã có được kiến thức sâu rộng, khiến chúng ít phù hợp hơn với các lĩnh vực cụ thể. Trong quá trình này, mô hình được đào tạo lại sẽ được đào tạo lại nhưng với chi phí giảm do nó đã học được một số khái niệm.


Để thực hiện tinh chỉnh trên mô hình được đào tạo trước, chúng tôi sử dụng kỹ thuật học chuyển giao. Học chuyển giao là một phương pháp học máy trong đó một mô hình áp dụng kiến thức học được từ một trường hợp sử dụng này để dự đoán các suy luận trong một trường hợp sử dụng khác.

Mã hoá

Bộ mã hóa trong máy biến áp lấy chuỗi dữ liệu làm đầu vào và tạo ra một chuỗi vectơ cho chuỗi đầu vào nhất định. Các mô hình bộ mã hóa thực hiện điều này bằng cách sử dụng các lớp tự chú ý có trong chúng. Chúng ta sẽ thảo luận chi tiết hơn về các lớp tự chú ý này sau.


Những mô hình này thường được mô tả là có sự chú ý "hai chiều" và thường được gọi là mô hình mã hóa tự động. Các mô hình bộ mã hóa chủ yếu được sử dụng trong phân loại câu và Nhận dạng thực thể được đặt tên (NER).

Các mô hình chỉ có bộ mã hóa là các mô hình máy biến áp chỉ có bộ mã hóa trong kiến trúc của chúng. Chúng rất hiệu quả trong các trường hợp sử dụng như phân loại văn bản, trong đó mô hình nhằm mục đích hiểu cách trình bày cơ bản của văn bản.


Bộ mã hóa và giải mã. (Tín dụng hình ảnh: Trung bình)


Bộ giải mã

Bộ giải mã trong máy biến áp lấy một chuỗi vectơ làm đầu vào và tạo ra một chuỗi mã thông báo đầu ra. Các mã thông báo đầu ra này là các từ trong văn bản được tạo. Giống như bộ mã hóa, bộ giải mã cũng sử dụng nhiều lớp tự chú ý. Việc đào tạo trước các mô hình giải mã thường xoay quanh việc dự đoán từ tiếp theo trong câu. Những mô hình này phù hợp nhất cho các nhiệm vụ liên quan đến việc tạo văn bản.

Các mô hình chỉ có bộ giải mã là các mô hình máy biến áp chỉ có bộ giải mã trong kiến trúc của chúng. Họ rất hiệu quả trong việc tạo văn bản. Bộ giải mã chuyên tạo mã thông báo đầu ra (văn bản). Dịch máy và tóm tắt văn bản là một số trường hợp sử dụng trong đó các mô hình chỉ dành cho bộ giải mã tỏ ra vượt trội.

Lớp chú ý

Các lớp tự chú ý trong máy biến áp cho phép mô hình tìm hiểu sự phụ thuộc tầm xa giữa các từ trong văn bản đầu vào.

Nói cách khác, lớp này sẽ hướng dẫn mô hình chú ý hơn đến các từ cụ thể trong văn bản đầu vào nhất định.

Mô hình thực hiện điều này bằng cách tính điểm tương tự giữa các cặp văn bản trong chuỗi đầu vào. Sau đó, lớp này sử dụng điểm này để tính trọng số của vectơ đầu vào. Đầu ra của các lớp này là các vectơ đầu vào có trọng số.


Bây giờ bạn đã có ý tưởng về các khái niệm cơ bản về bộ mã hóa, bộ giải mã và các lớp chú ý, hãy đi sâu vào kiến trúc của máy biến áp.


Kiến trúc của máy biến áp

Cấu trúc của một mô hình máy biến áp giống như hình ảnh dưới đây.


Kiến trúc máy biến áp. (Tín dụng hình ảnh: HuggingFace)


Bộ mã hóa được đặt ở phía bên trái và bộ giải mã được đặt ở phía bên phải. Bộ mã hóa chấp nhận chuỗi văn bản làm đầu vào và tạo ra một chuỗi vectơ làm đầu ra, được cung cấp làm đầu vào cho bộ giải mã. Bộ giải mã sẽ tạo ra một chuỗi mã thông báo đầu ra. Các bộ mã hóa được xếp chồng lên nhau với các lớp tự chú ý.


Mỗi lớp nhận một vectơ đầu vào và trả về một vectơ đầu vào có trọng số dựa trên cơ chế tự chú ý mà chúng ta đã thảo luận. Tổng trọng số là đầu ra của lớp tự chú ý.


Bộ giải mã cũng chứa một loạt các lớp tự chú ý và Mạng thần kinh tái phát (RNN). Các lớp tự chú ý hoạt động theo cách tương tự như bộ mã hóa, nhưng RNN sẽ chịu trách nhiệm chuyển đổi tổng trọng số của vectơ thành mã thông báo đầu ra. Do đó, hiện tại rõ ràng là RNN chấp nhận các vectơ có trọng số làm đầu vào và tạo mã thông báo đầu ra làm đầu ra. Nói một cách đơn giản, mã thông báo đầu ra là những từ có trong câu đầu ra.


Để hiểu rõ về máy biến áp ở cấp độ mã, tôi đánh giá cao việc bạn xem xét triển khai PyTorch này của Transformers .


Phần kết luận

Transformers đã cách mạng hóa lĩnh vực Trí tuệ nhân tạo (AI) và Xử lý ngôn ngữ tự nhiên (NLP) bằng cách xử lý xuất sắc lượng lớn dữ liệu. Các mô hình hàng đầu như dòng BERT của Google và dòng GPT của OpenAI thể hiện tác động biến đổi của chúng đối với các công cụ tìm kiếm và tạo văn bản.


Do đó, chúng đã trở nên thiết yếu trong học máy hiện đại, đẩy lùi các giới hạn của AI và tạo ra những cơ hội mới cho tiến bộ công nghệ. Do đó, chúng đã trở nên không thể thiếu trong học máy hiện đại, thúc đẩy các ranh giới của AI và mở ra những con đường mới cho những tiến bộ công nghệ.


Chúc bạn học tập vui vẻ!


Người giới thiệu

Tham khảo các bài viết khác của loạt bài này về Mô hình ngôn ngữ lớn (LLM):