Được rồi, đã hơn một năm kể từ khi ChatGPT được phát hành. Trước bước ngoặt này, cộng đồng nghiên cứu và các nhà lãnh đạo ngành đã tích cực nghiên cứu về AI tổng quát, đặc biệt là trong lĩnh vực thị giác máy tính, với một loạt phát hiện và ứng dụng phổ biến ổn định. Tóm tắt ngắn gọn, năm 2022 có thể được coi là năm của sự lan tỏa ổn định và năm 2023 là năm của các mô hình ngôn ngữ lớn (LLM).
Đầu năm 2023 đánh dấu sự thống trị của LLM, trong đó ChatGPT dẫn đầu về việc áp dụng và đổi mới rộng rãi. Năm nay chứng kiến LLM trở nên phổ biến trên nhiều lĩnh vực khác nhau, thu hẹp khoảng cách giữa nghiên cứu lý thuyết và ứng dụng thực tế của ngành một cách hiệu quả. Hãy cùng khám phá các cột mốc và xu hướng quan trọng đã định hình bối cảnh LLM vào năm 2023, đồng thời có một số hiểu biết sâu sắc về cách chúng đã cách mạng hóa sự tương tác của chúng ta với công nghệ.
Năm LLM nguồn mở
Năm 2023, chúng ta chứng kiến một năm đáng chú ý đối với các mô hình ngôn ngữ lớn (LLM) nguồn mở. Bản phát hành quan trọng nhất là dòng LLaMa của Meta, tạo tiền lệ cho các bản phát hành thường xuyên sau đó, với các mẫu mới xuất hiện hàng tháng, hàng tuần và đôi khi hàng ngày. Những người chơi chính như Meta, EleutherAI, KhảmML, TIIUAE và StabilityAI đã giới thiệu nhiều mô hình được đào tạo trên các bộ dữ liệu công khai, đáp ứng nhu cầu đa dạng trong cộng đồng AI. Phần lớn các mẫu này là Transformers chỉ có bộ giải mã, tiếp tục xu hướng do ChatGPT thiết lập. Dưới đây là một số mẫu đáng chú ý nhất được ra mắt trong năm nay:
LLaMa của Meta: Gia đình LLaMa có các mô hình có quy mô khác nhau, với mô hình lớn nhất có 65 tỷ tham số, được đào tạo trên 1,4 nghìn tỷ mã thông báo. Đáng chú ý, các mô hình nhỏ hơn, đặc biệt là mô hình có 13 tỷ tham số, được đào tạo trên 1 nghìn tỷ mã thông báo, đã thể hiện hiệu suất vượt trội bằng cách tận dụng thời gian đào tạo kéo dài trên nhiều dữ liệu hơn, thậm chí vượt qua các mô hình lớn hơn ở một số điểm chuẩn. Mẫu 13B LLaMa vượt trội hơn GPT-3 ở hầu hết các điểm chuẩn và mẫu lớn nhất đã thiết lập các điểm chuẩn hiệu suất tiên tiến mới khi phát hành.Pythia của Eleuther AI: Pythia bao gồm một bộ gồm 16 mô hình với 154 điểm kiểm tra được đào tạo một phần, được thiết kế để tạo điều kiện thuận lợi cho nghiên cứu khoa học có kiểm soát về LLM được đào tạo minh bạch và có thể truy cập mở. Loạt bài này hỗ trợ rất nhiều cho các nhà nghiên cứu bằng cách cung cấp các bài viết chi tiết và cơ sở mã toàn diện để đào tạo LLM.MPT của KhảmML VàDòng chim ưng của TIIUAE: Cả hai đều được đào tạo về nhiều nguồn dữ liệu khác nhau, từ mã thông báo 1T đến 1,5T và tạo ra các phiên bản có tham số 7B và 30B. Đáng chú ý, vào cuối năm đó, TIIUAE đã phát hành mô hình 180B, mô hình nguồn mở lớn nhất cho đến nay.Mistral ,Phi Vàcá kình : Những mô hình này nêu bật một xu hướng khác vào năm 2023, tập trung vào việc đào tạo các mô hình nhỏ hơn và hiệu quả hơn phù hợp với những hạn chế về phần cứng và ngân sách hạn chế, đánh dấu sự thay đổi đáng kể hướng tới khả năng tiếp cận và tính thực tiễn trong phát triển mô hình AI.
Mô hình nhỏ và hiệu quả
Vào năm 2023, chúng ta cũng đã chứng kiến sự ra đời của nhiều mô hình nhỏ và hiệu quả. Lý do chính cho xu hướng này là chi phí đào tạo các mô hình lớn đối với hầu hết các nhóm nghiên cứu rất cao. Ngoài ra, các mô hình lớn thường không phù hợp với nhiều ứng dụng trong thế giới thực do chi phí đào tạo và triển khai đắt đỏ cũng như yêu cầu về bộ nhớ và năng lượng tính toán đáng kể. Vì vậy, các mô hình nhỏ và hiệu quả đã nổi lên như một trong những xu hướng chính của năm. Như đã đề cập trước đó, dòng Mistral và Orca là những nhân vật chủ chốt trong xu hướng này. Mistral đã khiến cộng đồng ngạc nhiên với mẫu 7B vượt trội hơn so với các mẫu lớn hơn ở hầu hết các điểm chuẩn, trong khi dòng Phi thậm chí còn nhỏ hơn, chỉ có thông số 1,3B đến 2,7B nhưng lại mang lại hiệu suất ấn tượng.
Một cách tiếp cận sáng tạo khác là
Sự thành công của các mô hình nhỏ và hiệu quả phần lớn phụ thuộc vào chất lượng dữ liệu và các thủ thuật chú ý nhanh. Mặc dù Mistral chưa tiết lộ chi tiết cụ thể về dữ liệu đào tạo của mình nhưng nhiều nghiên cứu và mô hình khác nhau đã chỉ ra rằng chất lượng dữ liệu rất quan trọng để đào tạo các mô hình hiệu quả. Một trong những phát hiện đáng chú ý nhất trong năm nay là
Điều chỉnh thích ứng cấp thấp
Được rồi, hãy nói về
LoRA về cơ bản là đóng băng các trọng số mô hình được đào tạo trước và đưa vào các lớp có thể huấn luyện được ( ma trận phân rã thứ hạng ). Các ma trận này nhỏ gọn nhưng có khả năng xấp xỉ những điều chỉnh cần thiết đối với hành vi của mô hình, cho phép tinh chỉnh hiệu quả trong khi vẫn duy trì tính toàn vẹn của kiến thức của mô hình ban đầu. Một trong những biến thể được sử dụng thường xuyên nhất của LoRA là
Sự kết hợp của các chuyên gia
Các
Một trong những mẫu MoE đáng chú ý nhất được ra mắt năm ngoái là
Từ ngôn ngữ đến các mô hình nền tảng chung
LLM đang phát triển thành các mô hình nền tảng chung, mở rộng khả năng của chúng ngoài việc xử lý ngôn ngữ. Quá trình chuyển đổi này biểu thị sự thay đổi hướng tới các mô hình có thể hiểu và tạo ra không chỉ văn bản mà còn cả mã, nội dung hình ảnh, âm thanh, v.v. Năm ngoái, chúng ta đã chứng kiến sự ra đời của các mẫu như
Đại lý được trang bị công cụ
Việc tích hợp LLM với nhiều công cụ và nền tảng khác nhau đang giúp AI trở nên dễ tiếp cận và thiết thực hơn cho việc sử dụng hàng ngày. Các nhân viên được trang bị những công cụ này đang được điều chỉnh cho các nhiệm vụ cụ thể, từ hỗ trợ mã hóa đến viết sáng tạo, khiến AI trở thành một phần không thể thiếu trong nhiều quy trình làm việc chuyên nghiệp. Sự phát triển này đã được thực hiện nhờ vào khả năng suy luận và hành động của LLM. Loại tính năng này thường được gọi là gọi hàm trong phần
OpenAI vẫn thống trị bối cảnh ngành
OpenAI tiếp tục thống trị bối cảnh ngành, duy trì vị trí dẫn đầu về mặt nghiên cứu và ứng dụng. GPT-4 và cái mới
Phần kết luận
Năm 2023 đánh dấu một giai đoạn tăng trưởng và đổi mới đáng kể trong lĩnh vực mô hình ngôn ngữ lớn (LLM). Từ việc dân chủ hóa AI thông qua các mô hình nguồn mở đến phát triển các hệ thống chuyên biệt và hiệu quả hơn, những tiến bộ này không chỉ là những thành tựu kỹ thuật mà còn là các bước hướng tới việc giúp AI dễ tiếp cận và áp dụng hơn trong nhiều lĩnh vực khác nhau. Nhìn về phía trước, tiềm năng của những công nghệ này trong việc chuyển đổi các ngành công nghiệp và nâng cao năng lực của con người tiếp tục là một triển vọng thú vị. Vào năm 2024, chúng tôi dự đoán sẽ còn có những cột mốc đáng chú ý hơn nữa, khi Meta công bố kế hoạch đào tạo LLaMA-3 và có kế hoạch cung cấp nguồn mở cho nó. Trong bối cảnh ngành, người ta cũng rất quan tâm xem liệu những gã khổng lồ như Google hay các công ty khởi nghiệp như Anthropic có thể vượt qua OpenAI hay không.
Truy cập và đăng ký blog cá nhân của tôi để biết thêm bài viết.