paint-brush
Tình trạng LLM vào năm 2023: Tóm tắt nhanh về những tiến bộ mới nhấttừ tác giả@vndee
585 lượt đọc
585 lượt đọc

Tình trạng LLM vào năm 2023: Tóm tắt nhanh về những tiến bộ mới nhất

từ tác giả Duy Huynh8m2024/01/26
Read on Terminal Reader

dài quá đọc không nổi

Năm 2023 đánh dấu một giai đoạn tăng trưởng và đổi mới đáng kể trong lĩnh vực mô hình ngôn ngữ lớn (LLM).
featured image - Tình trạng LLM vào năm 2023: Tóm tắt nhanh về những tiến bộ mới nhất
Duy Huynh HackerNoon profile picture
0-item

Được rồi, đã hơn một năm kể từ khi ChatGPT được phát hành. Trước bước ngoặt này, cộng đồng nghiên cứu và các nhà lãnh đạo ngành đã tích cực nghiên cứu về AI tổng quát, đặc biệt là trong lĩnh vực thị giác máy tính, với một loạt phát hiện và ứng dụng phổ biến ổn định. Tóm tắt ngắn gọn, năm 2022 có thể được coi là năm của sự lan tỏa ổn định và năm 2023 là năm của các mô hình ngôn ngữ lớn (LLM).


Băng đảng Llama đến thị trấn - Ảnh của DALL-E 3.


Đầu năm 2023 đánh dấu sự thống trị của LLM, trong đó ChatGPT dẫn đầu về việc áp dụng và đổi mới rộng rãi. Năm nay chứng kiến LLM trở nên phổ biến trên nhiều lĩnh vực khác nhau, thu hẹp khoảng cách giữa nghiên cứu lý thuyết và ứng dụng thực tế của ngành một cách hiệu quả. Hãy cùng khám phá các cột mốc và xu hướng quan trọng đã định hình bối cảnh LLM vào năm 2023, đồng thời có một số hiểu biết sâu sắc về cách chúng đã cách mạng hóa sự tương tác của chúng ta với công nghệ.

Năm LLM nguồn mở

Năm 2023, chúng ta chứng kiến một năm đáng chú ý đối với các mô hình ngôn ngữ lớn (LLM) nguồn mở. Bản phát hành quan trọng nhất là dòng LLaMa của Meta, tạo tiền lệ cho các bản phát hành thường xuyên sau đó, với các mẫu mới xuất hiện hàng tháng, hàng tuần và đôi khi hàng ngày. Những người chơi chính như Meta, EleutherAI, KhảmML, TIIUAE và StabilityAI đã giới thiệu nhiều mô hình được đào tạo trên các bộ dữ liệu công khai, đáp ứng nhu cầu đa dạng trong cộng đồng AI. Phần lớn các mẫu này là Transformers chỉ có bộ giải mã, tiếp tục xu hướng do ChatGPT thiết lập. Dưới đây là một số mẫu đáng chú ý nhất được ra mắt trong năm nay:

  • LLaMa của Meta: Gia đình LLaMa có các mô hình có quy mô khác nhau, với mô hình lớn nhất có 65 tỷ tham số, được đào tạo trên 1,4 nghìn tỷ mã thông báo. Đáng chú ý, các mô hình nhỏ hơn, đặc biệt là mô hình có 13 tỷ tham số, được đào tạo trên 1 nghìn tỷ mã thông báo, đã thể hiện hiệu suất vượt trội bằng cách tận dụng thời gian đào tạo kéo dài trên nhiều dữ liệu hơn, thậm chí vượt qua các mô hình lớn hơn ở một số điểm chuẩn. Mẫu 13B LLaMa vượt trội hơn GPT-3 ở hầu hết các điểm chuẩn và mẫu lớn nhất đã thiết lập các điểm chuẩn hiệu suất tiên tiến mới khi phát hành.

  • Pythia của Eleuther AI: Pythia bao gồm một bộ gồm 16 mô hình với 154 điểm kiểm tra được đào tạo một phần, được thiết kế để tạo điều kiện thuận lợi cho nghiên cứu khoa học có kiểm soát về LLM được đào tạo minh bạch và có thể truy cập mở. Loạt bài này hỗ trợ rất nhiều cho các nhà nghiên cứu bằng cách cung cấp các bài viết chi tiết và cơ sở mã toàn diện để đào tạo LLM.

  • MPT của KhảmML Dòng chim ưng của TIIUAE: Cả hai đều được đào tạo về nhiều nguồn dữ liệu khác nhau, từ mã thông báo 1T đến 1,5T và tạo ra các phiên bản có tham số 7B và 30B. Đáng chú ý, vào cuối năm đó, TIIUAE đã phát hành mô hình 180B, mô hình nguồn mở lớn nhất cho đến nay.

  • Mistral , Phi cá kình : Những mô hình này nêu bật một xu hướng khác vào năm 2023, tập trung vào việc đào tạo các mô hình nhỏ hơn và hiệu quả hơn phù hợp với những hạn chế về phần cứng và ngân sách hạn chế, đánh dấu sự thay đổi đáng kể hướng tới khả năng tiếp cận và tính thực tiễn trong phát triển mô hình AI.


Llama 2 được huấn luyện trước bằng cách sử dụng dữ liệu trực tuyến có sẵn công khai. Sau đó, phiên bản ban đầu của Llama Chat sẽ được tạo thông qua việc sử dụng tính năng tinh chỉnh có giám sát. Tiếp theo, Llama Chat được cải tiến nhiều lần bằng cách sử dụng Học tăng cường từ phản hồi của con người (RLHF), bao gồm lấy mẫu từ chối và tối ưu hóa chính sách gần nhất (PPO). - Llama 2: mã nguồn mở, miễn phí cho nghiên cứu và sử dụng thương mại

Mô hình nhỏ và hiệu quả

Vào năm 2023, chúng ta cũng đã chứng kiến sự ra đời của nhiều mô hình nhỏ và hiệu quả. Lý do chính cho xu hướng này là chi phí đào tạo các mô hình lớn đối với hầu hết các nhóm nghiên cứu rất cao. Ngoài ra, các mô hình lớn thường không phù hợp với nhiều ứng dụng trong thế giới thực do chi phí đào tạo và triển khai đắt đỏ cũng như yêu cầu về bộ nhớ và năng lượng tính toán đáng kể. Vì vậy, các mô hình nhỏ và hiệu quả đã nổi lên như một trong những xu hướng chính của năm. Như đã đề cập trước đó, dòng Mistral và Orca là những nhân vật chủ chốt trong xu hướng này. Mistral đã khiến cộng đồng ngạc nhiên với mẫu 7B vượt trội hơn so với các mẫu lớn hơn ở hầu hết các điểm chuẩn, trong khi dòng Phi thậm chí còn nhỏ hơn, chỉ có thông số 1,3B đến 2,7B nhưng lại mang lại hiệu suất ấn tượng.

Hiệu suất của Mistral-7b so với dòng LLaMA - https://mistral.ai/news/announce-mistral-7b/


Một cách tiếp cận sáng tạo khác là Orca 2: Dạy các mô hình ngôn ngữ nhỏ cách suy luận , bao gồm việc chắt lọc kiến thức từ một mô hình lớn hơn, chẳng hạn như GPT-4, thành một mô hình nhỏ hơn. Không giống như các nghiên cứu trước đây chủ yếu dựa vào việc học bắt chước để tái tạo kết quả đầu ra của các mô hình lớn hơn, Orca 2 nhằm mục đích trang bị cho các LLM "nhỏ hơn", đặc biệt là các LLM có tham số 7B và 13B, với nhiều phương pháp lý luận khác nhau, chẳng hạn như phân tích và thu hồi từng bước. -sau đó tạo ra các kỹ thuật. Cách tiếp cận này cho phép các mô hình này xác định và áp dụng phương pháp phù hợp nhất cho từng nhiệm vụ, giúp Orca 2 hoạt động tốt hơn đáng kể so với các mô hình có kích thước tương tự và thậm chí cạnh tranh với các mô hình lớn hơn từ 5 đến 10 lần.

Kết quả so sánh Orca 2 (7B và 13B) với LLaMA-2-Chat (13B và 70B) và WizardLM (13B và 70B) trên nhiều điểm chuẩn (trong cài đặt không bắn) bao gồm hiểu ngôn ngữ, lý luận thông thường, nhiều bước lý luận, giải toán, v.v. - Orca 2: Dạy các mô hình ngôn ngữ nhỏ cách suy luận


Sự thành công của các mô hình nhỏ và hiệu quả phần lớn phụ thuộc vào chất lượng dữ liệu và các thủ thuật chú ý nhanh. Mặc dù Mistral chưa tiết lộ chi tiết cụ thể về dữ liệu đào tạo của mình nhưng nhiều nghiên cứu và mô hình khác nhau đã chỉ ra rằng chất lượng dữ liệu rất quan trọng để đào tạo các mô hình hiệu quả. Một trong những phát hiện đáng chú ý nhất trong năm nay là LIMA: "Càng ít càng tốt cho sự liên kết" , chứng minh rằng một tập dữ liệu chất lượng cao do con người tạo ra chỉ bao gồm 1.000 mẫu đào tạo có thể được sử dụng để tinh chỉnh nhằm vượt trội hơn mô hình tương tự được tinh chỉnh trên 50.000 phản hồi do ChatGPT tạo.

Điều chỉnh thích ứng cấp thấp

Được rồi, hãy nói về LoRA , đã tỏa sáng như ngôi sao sáng nhất trong số các phương pháp Tinh chỉnh Thông số Hiệu quả được giới thiệu vào năm ngoái. Thích ứng cấp thấp (LoRA) nổi lên như một công cụ thay đổi cuộc chơi để tinh chỉnh LLM một cách hiệu quả. Bằng cách đưa phép tính gần đúng của ma trận thứ hạng thấp vào các mô hình được huấn luyện trước, LoRA cho phép tinh chỉnh tham số một cách hiệu quả, giảm đáng kể tải tính toán và yêu cầu lưu trữ. Cách tiếp cận này không chỉ tiết kiệm tài nguyên mà còn cho phép tùy chỉnh cho các ứng dụng khác nhau mà không ảnh hưởng đến khả năng cốt lõi của mô hình cơ sở.


Sự khác biệt giữa LoRA và tinh chỉnh thông thường - Lời khuyên thiết thực để tinh chỉnh LLM bằng cách sử dụng LoRA (Thích ứng cấp thấp)


LoRA về cơ bản là đóng băng các trọng số mô hình được đào tạo trước và đưa vào các lớp có thể huấn luyện được ( ma trận phân rã thứ hạng ). Các ma trận này nhỏ gọn nhưng có khả năng xấp xỉ những điều chỉnh cần thiết đối với hành vi của mô hình, cho phép tinh chỉnh hiệu quả trong khi vẫn duy trì tính toàn vẹn của kiến thức của mô hình ban đầu. Một trong những biến thể được sử dụng thường xuyên nhất của LoRA là QLoRA (Thích ứng cấp thấp được lượng tử hóa) . Đây là phiên bản hiệu quả về bộ nhớ của LoRA vanilla bằng cách lượng tử hóa các ma trận cấp thấp. Cách tiếp cận này cho phép sử dụng các ma trận thứ hạng thấp trong quá trình tinh chỉnh mà không làm tăng dung lượng bộ nhớ và ít tính toán chuyên sâu hơn.


QLORA cải thiện so với LoRA bằng cách lượng tử hóa mô hình máy biến áp thành độ chính xác 4 bit và sử dụng trình tối ưu hóa phân trang để xử lý các đột biến bộ nhớ. - Hình ảnh từ giấy: QLoRA (Quantized Low-Rank Adaption)

Sự kết hợp của các chuyên gia

Các Hỗn hợp các chuyên gia (MoE) Cách tiếp cận này thể hiện một bước nhảy vọt đáng kể trong kiến trúc LLM năm ngoái. MoE là một mô hình học máy có lịch sử lâu đời giúp đơn giản hóa các vấn đề phức tạp bằng cách chia chúng thành các vấn đề phụ nhỏ hơn, dễ quản lý hơn, mỗi vấn đề được giải quyết bởi một mô hình phụ chuyên biệt hoặc "chuyên gia". Điều này giống như việc có một nhóm chuyên gia, trong đó mỗi thành viên đều xuất sắc trong một lĩnh vực cụ thể. Trong mô hình MoE, mỗi chuyên gia tập trung vào một tập hợp con dữ liệu hoặc nhiệm vụ cụ thể. Quyết định sử dụng chuyên gia nào cho đầu vào nhất định được thực hiện bằng "cơ chế kiểm soát", hoạt động như một giám đốc lưu lượng, định tuyến các nhiệm vụ đến chuyên gia phù hợp nhất. Phương pháp này cho phép các mô hình MoE xử lý hiệu quả và chính xác nhiều nhiệm vụ. MoE đặc biệt có lợi vì nó kết hợp điểm mạnh của các mô hình đa dạng, dẫn đến nâng cao hiệu suất đối với các nhiệm vụ phức tạp mà một mô hình thống nhất, duy nhất có thể khó giải quyết. Nó có thể so sánh với việc bạn có một đội ngũ chuyên gia sẵn sàng sử dụng, đảm bảo rằng mọi khía cạnh của vấn đề đều được quản lý bởi người có chuyên môn cần thiết, mang lại các giải pháp tinh tế và hiệu quả hơn.

Lớp MoE từ bài báo Mạng lưới thần kinh cực lớn: Lớp hỗn hợp các chuyên gia có cổng thưa thớt, 2017.


Một trong những mẫu MoE đáng chú ý nhất được ra mắt năm ngoái là Hỗn hợp-8x-7B , đã đạt được hiệu suất ấn tượng bằng cách kết hợp tám mô hình nhỏ hơn, mỗi mô hình có tham số 7B, sử dụng phương pháp MoE. Cũng có tin đồn rằng GPT-4 có thể là mẫu của MoE, bao gồm 8 mẫu chuyên nghiệp, mỗi mẫu có 220 tỷ thông số.

Hiệu suất Mixtral-8x-7b - Mixtral-8x-7B

Từ ngôn ngữ đến các mô hình nền tảng chung

LLM đang phát triển thành các mô hình nền tảng chung, mở rộng khả năng của chúng ngoài việc xử lý ngôn ngữ. Quá trình chuyển đổi này biểu thị sự thay đổi hướng tới các mô hình có thể hiểu và tạo ra không chỉ văn bản mà còn cả mã, nội dung hình ảnh, âm thanh, v.v. Năm ngoái, chúng ta đã chứng kiến sự ra đời của các mẫu như LLaVA và GPT-4 cho tầm nhìn, cung cấp khả năng ấn tượng trong việc hiểu nội dung hình ảnh. Điều này đã khơi dậy những nghiên cứu đầy hứa hẹn trong lĩnh vực mô hình nền tảng tổng quát. Trong tương lai gần, các mô hình nền tảng chung sẽ có thể nhìn, nghe và hiểu thế giới xung quanh, cho phép tương tác tự nhiên và trực quan hơn với con người.


Một ví dụ từ dự án LLaVA.

Đại lý được trang bị công cụ

Việc tích hợp LLM với nhiều công cụ và nền tảng khác nhau đang giúp AI trở nên dễ tiếp cận và thiết thực hơn cho việc sử dụng hàng ngày. Các nhân viên được trang bị những công cụ này đang được điều chỉnh cho các nhiệm vụ cụ thể, từ hỗ trợ mã hóa đến viết sáng tạo, khiến AI trở thành một phần không thể thiếu trong nhiều quy trình làm việc chuyên nghiệp. Sự phát triển này đã được thực hiện nhờ vào khả năng suy luậnhành động của LLM. Loại tính năng này thường được gọi là gọi hàm trong phần Phản ứng khuôn khổ. Ngoài ra còn có nhiều mô hình được đào tạo về bộ dữ liệu bao gồm chức năng gọi hàm để kích hoạt tính năng này. Chức năng này cho phép các nhà phát triển tạo ra các tác nhân LLM có khả năng tự động hóa một loạt các tác vụ và quy trình công việc đơn giản.


So sánh phương pháp ReAct với các kỹ thuật nhắc nhở khác - ReAct: Phối hợp lý luận và hành động trong mô hình ngôn ngữ

OpenAI vẫn thống trị bối cảnh ngành

OpenAI tiếp tục thống trị bối cảnh ngành, duy trì vị trí dẫn đầu về mặt nghiên cứu và ứng dụng. GPT-4 và cái mới Cửa hàng GPT Tính năng trong ChatGPT vẫn là tiêu chuẩn của ngành, cung cấp các ứng dụng AI tổng hợp chất lượng cao, vô song và độc đáo, không có đối thủ cạnh tranh nào sánh kịp vào thời điểm này. OpenAI cũng đã thể hiện sự hỗ trợ đáng kể cho cộng đồng người dùng của mình bằng cách tổ chức buổi hội thảo đầu tiên Ngày phát triển OpenAI và cung cấp nhiều tính năng thân thiện với nhà phát triển vào năm 2023. Anthropic nổi lên như một trong những đối thủ cạnh tranh hứa hẹn nhất, mặc dù LLM hàng đầu của nó, Claude , vẫn chưa được phổ biến rộng rãi. Một gã khổng lồ công nghệ khác, Google, đã phát hành Song Tử theo báo cáo, năm ngoái, khá ấn tượng so với dòng GPT của OpenAI. Tuy nhiên, nó vẫn chưa thu hút được đủ lực kéo trong cộng đồng. Chúng ta sẽ xem điều gì sẽ xảy ra vào năm 2024 khi họ dự định phát hành phiên bản lớn nhất của Gemini.


Ngày phát triển OpenAI - https://www.youtube.com/watch?v=U9mJuUkhUzk

Phần kết luận

Năm 2023 đánh dấu một giai đoạn tăng trưởng và đổi mới đáng kể trong lĩnh vực mô hình ngôn ngữ lớn (LLM). Từ việc dân chủ hóa AI thông qua các mô hình nguồn mở đến phát triển các hệ thống chuyên biệt và hiệu quả hơn, những tiến bộ này không chỉ là những thành tựu kỹ thuật mà còn là các bước hướng tới việc giúp AI dễ tiếp cận và áp dụng hơn trong nhiều lĩnh vực khác nhau. Nhìn về phía trước, tiềm năng của những công nghệ này trong việc chuyển đổi các ngành công nghiệp và nâng cao năng lực của con người tiếp tục là một triển vọng thú vị. Vào năm 2024, chúng tôi dự đoán sẽ còn có những cột mốc đáng chú ý hơn nữa, khi Meta công bố kế hoạch đào tạo LLaMA-3 và có kế hoạch cung cấp nguồn mở cho nó. Trong bối cảnh ngành, người ta cũng rất quan tâm xem liệu những gã khổng lồ như Google hay các công ty khởi nghiệp như Anthropic có thể vượt qua OpenAI hay không.


Truy cập và đăng ký blog cá nhân của tôi để biết thêm bài viết.