11,366 lượt đọc

Những thách thức, chi phí và những cân nhắc khi xây dựng hoặc tinh chỉnh một LLM

từ tác giả Edouard d'Archimbaud18m2023/09/01

dài quá đọc không nổi

Con đường xây dựng hoặc tinh chỉnh LLM cho công ty của bạn có thể phức tạp. Nhóm của bạn cần một người hướng dẫn để bắt đầu.

featured image - Những thách thức, chi phí và những cân nhắc khi xây dựng hoặc tinh chỉnh một LLM

Việc LLM đã thay đổi và sẽ tiếp tục thay đổi cuộc chơi cho AI và các doanh nghiệp trong các ngành không còn là tin tức nữa. Một nghiên cứu của IBM cho thấy các CEO ngày càng sử dụng AI để cải thiện năng suất và đạt được lợi thế cạnh tranh. Nghiên cứu khảo sát 3.000 CEO từ khắp nơi trên thế giới, cho thấy 75% CEO tin rằng tổ chức có AI tiên tiến nhất sẽ có lợi thế cạnh tranh.

Nếu bạn đang thắc mắc về cách tốt nhất để sử dụng LLM và liệu nên xây dựng hay tinh chỉnh chúng, chúng tôi muốn chia sẻ hướng dẫn này về những điều bạn phải biết để thực hiện điều đó một cách hiệu quả và năng suất.

Trước tiên, chúng ta sẽ xem xét cách LLM đang được áp dụng và những ngành nào chúng có thể có tác động nhiều nhất để bạn có ý tưởng rõ hơn về những gì bạn có thể đạt được với LLM. Sau đó, chúng ta sẽ nói về lý do tại sao chúng ta xây dựng hoặc tinh chỉnh LLM. Và cuối cùng, chúng tôi sẽ chia sẻ những cân nhắc quan trọng, chiến lược và phương pháp hay nhất để nhóm của bạn có thể có cái nhìn sắc bén hơn sau khi bạn đã quyết định.

Bây giờ, hãy tìm hiểu sâu hơn về cách LLM được dự đoán sẽ thay đổi các ngành và doanh nghiệp:

LLM đang thay đổi các ngành công nghiệp như thế nào

Công nghiệp thông tin

Một bài báo gần đây của các nhà nghiên cứu của OpenAI, Open Research và Đại học Pennsylvania đã phát hiện ra rằng LLM nhìn chung có thể ảnh hưởng đến nhiều thị trường Hoa Kỳ và ngành thông tin có thể sẽ bị ảnh hưởng nhiều nhất do những lý do sau:

Ngành thông tin phụ thuộc rất nhiều vào khả năng cốt lõi của LLM, như viết, phân tích dữ liệu, truy xuất thông tin và tạo nội dung. Những điều này phù hợp chặt chẽ với thế mạnh của các mô hình AI tổng quát.
Các nhiệm vụ như soạn thảo bài viết, báo cáo và nội dung khác có thể đạt được mức tăng năng suất đáng kể từ việc LLM tự động tạo ra các bản nháp và sửa đổi.
Các nhiệm vụ hàng ngày khác của ngành thông tin như tìm kiếm, xử lý dữ liệu, gắn thẻ nội dung/tạo siêu dữ liệu và hỗ trợ khách hàng cũng có thể được LLM hỗ trợ đáng kể.
Các doanh nghiệp thông tin thường có khối lượng lớn dữ liệu văn bản có thể được sử dụng để đào tạo và tinh chỉnh LLM để đạt hiệu quả cao cho các trường hợp sử dụng cụ thể của họ.
Tính chất vật lý thấp của công việc trong ngành này khiến cho việc tự động hóa thông qua phần mềm trở nên rất dễ dàng.

Ngành ngân hàng

Trong khi đó, một nghiên cứu từ McKinsey cho rằng ngân hàng là một trong những ngành có thể thấy tác động đáng kể nhất nhờ LLM. Nếu các trường hợp sử dụng được triển khai đầy đủ, họ dự đoán công nghệ này sẽ mang lại giá trị bổ sung hàng năm từ 200 tỷ USD đến 340 tỷ USD.

LLM có thể cải thiện dịch vụ khách hàng bằng cách tự động trả lời các câu hỏi của khách hàng, giảm số lượng liên hệ do con người phục vụ.
Họ cũng có thể hỗ trợ đánh giá rủi ro bằng cách phân tích khối lượng lớn dữ liệu để xác định các mô hình và xu hướng có thể chỉ ra những rủi ro tiềm ẩn.
Hơn nữa, LLM có thể giúp ngân hàng tuân thủ các yêu cầu quy định bằng cách theo dõi các thay đổi quy định và tự động cập nhật các quy trình tuân thủ tương ứng.

Công nghiệp dược phẩm và sản phẩm y tế

Điều thú vị là nghiên cứu tương tự của McKinsey cũng tuyên bố rằng dược phẩm và sản phẩm y tế có thể được thúc đẩy nhờ các mô hình nền tảng và AI tổng hợp. Nghiên cứu cho biết tác động có thể từ 60 đến 110 tỷ USD hàng năm . Đặc biệt, họ nhìn thấy tiềm năng trong việc khám phá thuốc. Đây là cách thực hiện:

Trong quá trình phát triển thuốc sơ bộ, các mô hình nền tảng tự động hóa việc lựa chọn các hóa chất tiềm năng, thay thế việc kiểm tra thủ công quá trình nuôi cấy tế bào. Các mô hình của Tổ chức tập hợp các hình ảnh thử nghiệm tương tự một cách chính xác, hỗ trợ lựa chọn các hóa chất có triển vọng để phân tích sâu hơn.
Trong việc tìm kiếm chỉ định, các chỉ định thuốc tiềm năng được xác định dựa trên lịch sử lâm sàng và hồ sơ bệnh án của nhóm bệnh nhân. Những mô hình này giúp định lượng các sự kiện lâm sàng, thiết lập mối quan hệ và đo lường sự tương đồng giữa các nhóm bệnh nhân và các chỉ định được chứng minh bằng bằng chứng. Kết quả là một danh sách các chỉ định có xác suất thành công cao hơn trong các thử nghiệm lâm sàng do sự phù hợp chính xác giữa nhóm bệnh nhân.
Các công ty sử dụng phương pháp này đã đạt được tỷ lệ thử nghiệm thành công cao, đẩy nhanh quá trình chuyển sang thử nghiệm Giai đoạn 3.

Những thách thức và hạn chế của LLM

Nhưng trong khi sự cường điệu xung quanh các mô hình nền tảng và LLM có thể tạo ra những ý tưởng về các giải pháp thần kỳ thì thực tế là LLM và các mô hình nền tảng không hoàn hảo. Bất kỳ ai đã sử dụng rộng rãi ChatGPT hoặc các LLM khác trên thị trường đều thấy rằng, đặc biệt đối với các tác vụ theo miền cụ thể, việc sử dụng LLM ngay lập tức có thể không thành công. Dưới đây là một số thách thức và hạn chế của LLM:

Ảo giác

Có lẽ vấn đề phổ biến nhất mà chúng ta gặp phải là ảo giác. Ảo giác là một hiện tượng trong đó LLM có thể trả về những tuyên bố không chính xác có vẻ hợp lý. Có hai loại ảo giác: nội tại và ngoại sinh. Ảo giác bên trong xảy ra khi mô hình sử dụng logic sai trái với thông tin đầu vào của người dùng, trong khi ảo giác bên ngoài xảy ra khi mô hình hiểu sai ngữ cảnh câu hỏi của người dùng.

Hạn chế về bộ nhớ

Các mô hình nền tảng như GPT có cửa sổ ngữ cảnh nhỏ và chỉ có thể lấy một số ký tự giới hạn làm đầu vào, điều này có thể không lý tưởng cho các ứng dụng cụ thể. Tương tự như con người, khi độ dài của đầu vào tăng lên thì độ khó để mô hình xử lý nó một cách chính xác cũng tăng theo.

Sự lãng quên thảm khốc

Sự quên lãng nghiêm trọng là hiện tượng xảy ra khi mạng lưới thần kinh nhân tạo được huấn luyện tuần tự trên nhiều nhiệm vụ và các trọng số quan trọng trong mạng cho Nhiệm vụ A được sửa đổi để phù hợp với mục tiêu của Nhiệm vụ B. Điều này có thể khiến mạng quên nhiệm vụ A, mặc dù trước đó nó đã có thể thực hiện tốt.

Vấn đề về chất lượng dữ liệu

LLM, chủ yếu được đào tạo về dữ liệu không được gắn nhãn, có thể dễ bị sai lệch vì dữ liệu được sử dụng trong quá trình đào tạo của họ có thể không thể hiện chính xác việc phân phối dữ liệu trong thế giới thực. Điều này là do dữ liệu sai lệch được sử dụng để huấn luyện có thể được phản ánh trong đầu ra của mô hình.

Những hạn chế này khiến các công ty và doanh nghiệp phải suy nghĩ một cách chiến lược về cách họ muốn làm việc với LLM. Thật vậy, LLM có tiềm năng to lớn để thay đổi cách thức hoạt động của các công ty, điều này có thể mang lại nhiều giá trị hơn cho họ, nhưng những thách thức này phải được giải quyết. Đây là nơi có thể nảy sinh câu hỏi về việc xây dựng hoặc tinh chỉnh LLM hiện tại.

Khi nào bạn nên xây dựng hoặc tinh chỉnh LLM hiện có

Xây dựng Mô hình ngôn ngữ lớn (LLM) của bạn từ đầu

Khi nào thì việc xây dựng LLM từ đầu là hợp lý? Việc tạo LLM của riêng bạn sẽ có ý nghĩa nhất nếu bạn có một trường hợp sử dụng rất riêng mà LLM chung hiện tại không thể phục vụ hoặc nếu LLM trở thành sản phẩm cốt lõi hoặc động lực kinh doanh chính cho công ty của bạn. Ngoài ra, nếu bạn có quyền truy cập vào một lượng lớn dữ liệu độc quyền có giá trị, thì việc xây dựng LLM để sử dụng nó có lợi cho bạn trong khi vẫn duy trì quyền riêng tư và bảo mật dữ liệu cũng là điều hợp lý.

Tinh chỉnh LLM

Bạn có hai lựa chọn khi tinh chỉnh LLM: sử dụng LLM nguồn mở hiện có hoặc sử dụng API của LLM thương mại. LLM thương mại có thể có ý nghĩa hơn nếu nhóm của bạn có ít chuyên môn kỹ thuật hơn, trong khi mô hình nguồn mở sẽ mang lại cho bạn nhiều quyền kiểm soát hơn. Điều đó nói lên rằng, có những rủi ro liên quan đến việc tinh chỉnh LLM. Bạn phải để mắt đến những thành kiến, độc tính và rủi ro bảo mật dữ liệu tiềm ẩn. Ngoài ra, các API thương mại có thể hạn chế khả năng tùy chỉnh của mô hình và dữ liệu đào tạo cũng như khả năng kiểm soát chính sản phẩm.

Những cân nhắc chính trong việc xây dựng hoặc tinh chỉnh LLM hiện có

Phân bổ nguồn lực

Cho dù bạn có tinh chỉnh hay chọn xây dựng LLM từ đầu hay không, hãy biết rằng bạn phải sẵn sàng phân bổ các nguồn lực quan trọng để đạt được mục tiêu của mình. Xây dựng LLM từ đầu đòi hỏi sức mạnh tính toán khổng lồ, bên cạnh việc dành thời gian và tài chính cũng như tìm kiếm chuyên môn phù hợp.

Ví dụ: ước tính GPT-3 của OpenAI, một mô hình ngôn ngữ lớn với khoảng 175 tỷ tham số, có giá hơn 4,6 triệu USD . OpenAI cũng đầu tư vào siêu máy tính của Microsoft có hơn 285.000 lõi CPU và 10.000 GPU. Mô hình BloombergGPT nhỏ hơn của Bloomberg, với 50 tỷ thông số, ước tính chi phí xây dựng khoảng 2,7 triệu USD . Các ước tính này không bao gồm việc lặp lại mô hình cần thiết để xây dựng và đảm bảo các LLM này có hiệu quả.

Để xử lý hiệu quả kích thước khổng lồ của LLM, cần đảm bảo rằng dữ liệu được làm sạch, dán nhãn, sắp xếp và lưu trữ hiệu quả. Hãy nhớ rằng việc quản lý và xử lý dữ liệu có thể tốn kém, đặc biệt khi xem xét đến cơ sở hạ tầng, công cụ và kỹ sư dữ liệu cần thiết.

Tất nhiên, việc tinh chỉnh LLM có thể thực tế hơn vì chi phí thấp hơn so với việc xây dựng LLM của riêng tổ chức bạn. Chi phí tinh chỉnh LLM phụ thuộc vào một số yếu tố, bao gồm kích thước của mô hình, lượng dữ liệu được sử dụng để tinh chỉnh nó và tài nguyên máy tính được sử dụng.

Chi phí tinh chỉnh LLM cũng có thể bị ảnh hưởng bởi thuật toán tinh chỉnh cụ thể được sử dụng và một số thuật toán đắt hơn về mặt tính toán so với các thuật toán khác. Các mô hình tinh chỉnh của OpenAI có thể có giá từ 0,0004 USD đến 0,0300 USD cho mỗi 1.000 mã thông báo và sẽ tùy thuộc vào loại mô hình bạn sẽ sử dụng để đào tạo. Và sau đó là chi phí bổ sung cho việc sử dụng khoảng 0,0016 USD đến 0,1200 USD cho mỗi 1.000 mã thông báo.

Điều đó nói lên rằng, những tiến bộ trong các kỹ thuật tinh chỉnh khác nhau đã giúp giảm chi phí tài chính và tính toán. Một ví dụ là việc Hugging Face sử dụng Đánh giá chính sách với cách tiếp cận Công bằng và Minh bạch để tinh chỉnh GPT-3 . Bằng cách tận dụng phương pháp này và thư viện bitandbytes, Hugging Face đã chứng minh rằng có thể tinh chỉnh LLM lớn hơn đáng kể so với bộ nhớ GPU hiện có. Chúng ta sẽ thảo luận thêm một vài phương pháp trong bài viết này.

Chuyên môn kỹ thuật

Không có gì ngạc nhiên khi cần phải có chuyên môn kỹ thuật nâng cao để xây dựng và tinh chỉnh LLM. Một kỹ sư học máy cao cấp sẽ được trang bị kiến thức cần thiết để tinh chỉnh LLM. Tuy nhiên, bạn sẽ cần một nhóm kỹ sư máy học thực sự xuất sắc để lãnh đạo và xây dựng LLM của riêng bạn ngay từ đầu một cách đúng đắn. Hãy xem hồ sơ của các nhà khoa học, nhà nghiên cứu và kiến trúc sư hàng đầu của các công ty AI như OpenAI, Meta và Google AI để hiểu rõ hơn về loại kỹ sư bạn cần có trong nhóm của mình để xây dựng LLM của riêng tổ chức của bạn từ đó. cào. Bạn cũng cần đảm bảo rằng những nhà nghiên cứu này có kiến thức sâu rộng về lĩnh vực và hoạt động kinh doanh của bạn.

Kích thước, chất lượng và cân nhắc về đạo đức của dữ liệu

Ai cũng biết rằng việc xây dựng LLM của riêng bạn từ đầu sẽ cần một lượng lớn dữ liệu. Ví dụ: LLaMA đã sử dụng tập dữ liệu huấn luyện chứa 1,4 nghìn tỷ mã thông báo đạt 4,6 terabyte. Các phiên bản nhỏ hơn của LLaMA đã được đào tạo trên 1 nghìn tỷ token. Trong trường hợp GPT, 1,5 nghìn tỷ token đã được sử dụng.

Để tinh chỉnh LLM, tùy thuộc vào phương pháp và tài nguyên của bạn, bạn sẽ cần ít hơn. Một ví dụ là Med-PaLM 2 của Google, được tinh chỉnh từ PaLM LLM. Theo bài báo , nhóm AI đã sử dụng tinh chỉnh hướng dẫn và yêu cầu 193.000 ví dụ, tương đương khoảng 19 triệu đến 39 triệu mã thông báo. Med-PaLM 2 đã thiết lập một công nghệ tiên tiến mới so với phiên bản tiền nhiệm bằng cách đạt 86,5% trên tập dữ liệu MedQA, được sử dụng để đo lường hiệu suất của Med-PaLM và PaLM.

Nhưng ngoài kích thước dữ liệu, các công ty cũng phải đảm bảo rằng họ đã thực hiện các biện pháp chất lượng dữ liệu phù hợp vì “rác vào, rác ra” vẫn áp dụng ngay cả với các mô hình ngôn ngữ lớn sử dụng lượng lớn dữ liệu đào tạo.

Khi sử dụng dữ liệu độc quyền, các tổ chức sẽ phải tìm ra các nhiệm vụ sau để đảm bảo chất lượng và đạo đức được duy trì ở tiêu chuẩn cao cho các mô hình hiệu quả hơn:

Sao chép và làm sạch dữ liệu: Quá trình này bao gồm việc xác định và xóa các mục trùng lặp trong tập dữ liệu để đảm bảo dữ liệu chính xác và đáng tin cậy. Nó cũng bao gồm sửa lỗi, sự không nhất quán và không chính xác trong dữ liệu, chẳng hạn như thiếu giá trị hoặc định dạng không chính xác. Bước này rất quan trọng để tránh đào tạo mô hình với dữ liệu không chính xác hoặc dư thừa, điều này có thể dẫn đến hiệu suất mô hình kém.
Kiểm duyệt dữ liệu: Các tổ chức cần thiết lập một quy trình kiểm duyệt dữ liệu được sử dụng để đào tạo mô hình của họ. Điều này có thể liên quan đến việc xem xét dữ liệu theo cách thủ công, sử dụng các công cụ tự động hoặc lý tưởng nhất là kết hợp cả hai để lọc ra nội dung không phù hợp hoặc có hại. Kiểm duyệt dữ liệu hiệu quả giúp đảm bảo rằng mô hình không học cách tự tạo ra nội dung đó.
Bảo mật dữ liệu: Các tổ chức phải đảm bảo rằng dữ liệu của họ tôn trọng các tiêu chuẩn về quyền riêng tư và tuân thủ các quy định có liên quan, chẳng hạn như GDPR hoặc CCPA. Điều này có thể liên quan đến việc ẩn danh dữ liệu cá nhân, có được các quyền cần thiết để sử dụng dữ liệu và triển khai các biện pháp xử lý và lưu trữ dữ liệu an toàn. Điều này rất quan trọng không chỉ vì lý do đạo đức mà còn để tránh các vấn đề pháp lý.
Xu hướng dữ liệu: Dữ liệu được sử dụng để đào tạo mô hình thường có thể chứa các thành kiến mà sau đó mô hình có thể học hỏi và duy trì. Các tổ chức cần thực hiện các quy trình để xác định và giảm thiểu những sai lệch này trong dữ liệu. Điều này có thể liên quan đến các chiến lược thu thập dữ liệu đa dạng, các công cụ kiểm tra sai lệch và các phương pháp tiếp cận để loại bỏ sai lệch dữ liệu. Giải quyết sai lệch dữ liệu là điều cần thiết cho các mô hình xây dựng công bằng và điều đó tạo ra kết quả đáng tin cậy trên các nhóm dân cư khác nhau.

Hiệu suất mẫu

Tùy thuộc vào mục tiêu của tổ chức, việc tinh chỉnh LLM thực sự có thể là đủ. Có nhiều cách khác nhau để điều chỉnh LLM cho phù hợp với nhu cầu của tổ chức bạn và cải thiện hiệu suất của nó. Tuy nhiên, chúng tôi khuyên bạn nên làm theo phương pháp ngược để xác định phương pháp tối ưu. Phương pháp này cũng giúp giảm chi phí cho việc tinh chỉnh LLM, vì bạn càng “lùi” các bước này thì các kỹ thuật này càng có thể tốn kém.

Hãy chia nhỏ điều này theo cách đơn giản nhất.

Thông thường, việc đào tạo mô hình nền tảng hoặc LLM sẽ bắt đầu bằng việc các kỹ sư máy học trải qua quá trình đào tạo không có giám sát, sau đó đào tạo có giám sát để tinh chỉnh LLM và cuối cùng là nhắc nhở và điều chỉnh kịp thời để đạt được đầu ra cần thiết. Tất nhiên, có những bước khác nhau ở giữa, nhưng chúng tôi sẽ tuân theo ba bước này.

Con đường được đề xuất của chúng tôi để tinh chỉnh LLM sẽ đi ngược lại. Trong đó, trước tiên bạn bắt đầu điều chỉnh lời nhắc, bao gồm kỹ thuật nhanh chóng và gỡ lỗi nhanh chóng. Điều này sẽ sử dụng ít tài nguyên nhất. Tuy nhiên, giả sử LLM đang trì trệ hoặc không hoạt động như bạn mong muốn. Trong trường hợp đó, bạn chuyển sang tinh chỉnh hướng dẫn/giám sát, có thể bao gồm các phương pháp như RLHF, tạo tăng cường truy xuất hoặc học chuyển giao.

Ví dụ: chúng tôi đã tăng độ chính xác của DinoV2 từ 83 lên 95% trong trường hợp sử dụng phân loại phát hiện lỗi cụ thể thông qua học chuyển bằng cách chỉ sử dụng 200 mẫu được gắn nhãn.

Cuối cùng, nếu mọi cách khác đều thất bại, bước tiếp theo sẽ là sử dụng các phương pháp không giám sát và đảm bảo chúng tôi có tập dữ liệu phù hợp để đào tạo trước mô hình.

Bảo trì và cập nhật

Giống như hầu hết các mô hình được triển khai trong môi trường động, dù được xây dựng hay tinh chỉnh, LLM đều yêu cầu lặp lại để duy trì hiệu quả với dữ liệu mới. Lặp lại là trang bị lại mô hình cho phù hợp với dữ liệu mới hoặc mục tiêu được làm mới. Các công ty phải tạo ra các quy trình mạnh mẽ để thường xuyên lặp lại các mô hình bằng cách sử dụng các bộ dữ liệu mới, thường là lặp lại, bao gồm xây dựng/tinh chỉnh, thử nghiệm và triển khai chúng vào sản xuất.

Các công ty đã xây dựng LLM thành công, chẳng hạn như OpenAI, liên tục tung ra các phiên bản GPT-3 mới. Trong khi thời hạn dữ liệu đào tạo của ChatGPT là vào tháng 9 năm 2021, OpenAI sử dụng dữ liệu mới từ hành vi của người dùng để cải thiện khả năng dự đoán của mô hình , giảm sai lệch và ít gây hại hơn.

Điều chỉnh chiến lược kinh doanh

Mục tiêu kinh doanh của bạn cũng là một yếu tố quan trọng trong việc xây dựng hoặc tinh chỉnh LLM có hợp lý hay không. Hãy xem xét khả năng của LLM phù hợp như thế nào với tầm nhìn chiến lược rộng hơn của công ty. Bằng cách này, bạn tận dụng tối đa tiềm năng của những công cụ mạnh mẽ này trong khi vẫn tập trung vào các mục tiêu kinh doanh cốt lõi của chúng. Một số ví dụ đã được trích dẫn trong các ngành được đề cập ở đầu bài viết này, nhưng bây giờ chúng ta hãy thảo luận về một số nhiệm vụ mà LLM vượt trội và ý nghĩa chiến lược của chúng đối với các ngành khác nhau:

Tóm tắt: LLM có thể trích xuất các điểm chính và tóm tắt từ các tài liệu hoặc báo cáo dài. Điều này có thể có giá trị to lớn trong các ngành xử lý khối lượng lớn dữ liệu văn bản. Ví dụ: các công ty nghiên cứu thị trường tạo và phân tích các báo cáo chuyên sâu có thể sử dụng LLM để tạo các bản tóm tắt ngắn gọn, giúp rút ra thông tin chuyên sâu và chia sẻ kết quả với khách hàng dễ dàng hơn.
Hoàn thành văn bản: LLM có thể dự đoán và tạo văn bản dựa trên các lời nhắc nhất định, có thể được sử dụng để hỗ trợ tạo nội dung. Các ngành tham gia sáng tạo nội dung hoặc dịch vụ truyền thông có thể tận dụng điều này để nâng cao năng suất và tính sáng tạo.
Hỏi & Đáp (Q&A): LLM có thể trả lời các truy vấn dựa trên ngữ cảnh được cung cấp, khiến chúng trở nên hữu ích trong dịch vụ khách hàng trên nhiều ngành. Ví dụ: các ngân hàng có thể sử dụng các chatbot được hỗ trợ bởi LLM để xử lý các truy vấn của khách hàng suốt ngày đêm, cung cấp thông tin nhanh chóng, chính xác cho khách hàng của họ và giảm khối lượng công việc của nhân viên dịch vụ khách hàng.
Chatbots: Ngoài phần Hỏi & Đáp, LLM có thể hỗ trợ các chatbot tương tác và trò chuyện nhiều hơn, có khả năng hiểu ngữ cảnh và duy trì cuộc trò chuyện qua nhiều lượt. Điều này có thể nâng cao trải nghiệm của khách hàng trong các ngành như bán lẻ, viễn thông và khách sạn, nơi sự tương tác của người tiêu dùng là rất quan trọng.
Dịch thuật: LLM cũng có thể dịch văn bản giữa các ngôn ngữ khác nhau, có khả năng phá vỡ các rào cản giao tiếp trong các doanh nghiệp toàn cầu. Khả năng này có thể mang lại lợi ích cho các ngành như du lịch, thương mại quốc tế và các công ty công nghệ toàn cầu hoạt động ở các khu vực ngôn ngữ khác nhau.

Đánh giá các mô hình ngôn ngữ lớn

Cho dù bạn đang xây dựng hay tinh chỉnh LLM, việc chọn LLM phù hợp thường là bước đầu tiên. Có, ngay cả khi xây dựng LLM, người ta thường xem xét kiến trúc của mô hình hiện có trước đó và bắt đầu từ đó. Dù lựa chọn của bạn là gì, các nhóm đều phải thử nghiệm và đánh giá một số mô hình để tìm ra điểm khởi đầu tốt nhất.

Việc đánh giá LLM cũng đi kèm với những thách thức riêng. Xét cho cùng, đây vẫn là một lĩnh vực nghiên cứu đang được tiến hành, vì vậy không có tiêu chuẩn hóa hoặc hệ thống hóa chặt chẽ nào để đánh giá các mô hình này.

Tất nhiên, có những bảng xếp hạng do các cộng đồng như HuggingFace thiết lập, có thể cho bạn ý tưởng chung về mức độ hoạt động của một mô hình. Tuy nhiên, những gì có thể hoạt động tốt trên bảng xếp hạng có thể không dễ dàng áp dụng cho trường hợp sử dụng cụ thể của bạn. LLM thường được đánh giá trên các tập dữ liệu chuẩn, nhưng hiệu suất của chúng có thể không phản ánh chính xác cách chúng sẽ hoạt động trong các tình huống thực tế, có thể đa dạng và khó đoán hơn nhiều.

Có hai cách tiếp cận để đánh giá các mô hình ngôn ngữ lớn: cách tiếp cận định lượng và định tính. Cả hai đều đi kèm với những cảnh báo của họ.

Đánh giá định lượng

Đánh giá định lượng thường liên quan đến các số liệu học máy như độ bối rối, BLEU, mất entropy chéo, v.v. Các công cụ như thư viện eval OpenAI, gói python lm-eval của EleutherAI và Đánh giá toàn diện về mô hình ngôn ngữ (HELM) cho phép người dùng đánh giá các mô hình ngôn ngữ của họ. mô hình trên nhiều điểm chuẩn về mặt định lượng.

Mặc dù việc đánh giá định lượng rất đơn giản nhưng những số liệu này có thể không nhất thiết hỗ trợ người dùng lựa chọn một mô hình phù hợp cho nhiệm vụ cụ thể của họ. Người dùng thường cần một mô hình vượt trội trong nhiệm vụ cụ thể của họ, chẳng hạn như soạn thảo văn bản pháp lý hoặc phân tích báo cáo tài chính của công ty, thay vì mô hình có thể dự đoán mã thông báo tiếp theo với độ chính xác cao nhất.

Đánh giá định tính

Đánh giá định tính bao gồm việc đánh giá LLM dựa trên các nhiệm vụ cụ thể bằng cách sử dụng các tiêu chí như tính mạch lạc, sai lệch, tính sáng tạo và độ tin cậy. Việc đánh giá thủ công này tương đối chậm vì tốc độ và sự sẵn có của người đánh giá con người có thể gây cản trở cho quá trình đánh giá. Tuy nhiên, có thể tối ưu hóa quy trình bằng cách áp dụng các kỹ thuật tự động hóa tương tự trong ghi nhãn dữ liệu: học tích cực, QA theo chương trình, QA tự động, v.v.

Bạn nên kết hợp cả đánh giá định lượng và định tính bằng cách sử dụng tập dữ liệu cụ thể của công ty bạn để tìm ra LLM tốt nhất để tinh chỉnh hoặc làm cơ sở.

Thực hành tốt nhất

Hiểu luật tỉ lệ

Luật mở rộng quy mô trong học máy được sử dụng để tập trung vào việc tăng kích thước của mô hình so với kích thước tập dữ liệu khi ngân sách điện toán được mở rộng. Điều này dựa trên giả định rằng các mô hình lớn hơn có thể trích xuất nhiều thông tin chi tiết hơn và hoạt động tốt hơn ngay cả khi lượng dữ liệu không đổi.

Nhưng vào năm 2022, DeepMind đã thách thức cách tiếp cận này , cho thấy rằng các mô hình nhìn chung chưa được đào tạo bài bản và do đó, kích thước của tập dữ liệu sẽ tăng lên cùng với kích thước mô hình. Theo phát hiện của DeepMind, kích thước mô hình và tập dữ liệu sẽ tăng khoảng ba lần cho mỗi lần tăng sức mạnh tính toán gấp 10 lần. Điều này ngụ ý rằng các mô hình hiện tại nằm dưới đường cong dữ liệu/tính toán tối ưu và việc chỉ làm cho chúng lớn hơn sẽ không mang lại kết quả tốt hơn nếu không có sự gia tăng dữ liệu đi kèm.

Các luật chia tỷ lệ mới này khuyên bạn nên xác định kích thước tập dữ liệu chất lượng cao tối đa trước tiên, dựa trên thông tin có sẵn. Sau đó, kích thước mô hình tối ưu cho tập dữ liệu đó có thể được chọn dựa trên tính toán có sẵn, sử dụng luật chia tỷ lệ tối ưu dữ liệu của DeepMind. Điều cần thiết là không tạo ra các mô hình lớn một cách tùy tiện mà phải tìm ra sự cân bằng phù hợp dựa trên dữ liệu. Hơn nữa, các bộ dữ liệu lớn hơn đòi hỏi chuyên môn để thu thập và tính đa dạng để cải thiện khả năng khái quát hóa, điều này làm tăng thêm độ phức tạp cho quy trình.

Chất lượng dữ liệu

Cho dù bạn đang tinh chỉnh hay xây dựng LLM, các mô hình sẽ chỉ hoạt động tốt khi dữ liệu chúng được cung cấp. Do đó, dữ liệu của bạn phải mang tính đại diện và được xử lý trước một cách rộng rãi. Sự đa dạng của các nguồn dữ liệu có lợi ngay cả đối với các LLM dành riêng cho từng miền.

Ví dụ: Med-PaLM 2 của Google yêu cầu hàng trăm đến hàng nghìn ví dụ từ một số bộ dữ liệu QA về sức khỏe và y tế để mô hình được tinh chỉnh chính xác. Và để xây dựng BloombergGPT, hỗn hợp tập dữ liệu được sử dụng là 51% dữ liệu tài chính và 49% dữ liệu miền chung để đảm bảo tính đa dạng theo chủ đề. Trong cả hai trường hợp, các nhà nghiên cứu đã thực hiện quản lý dữ liệu rộng rãi để đảm bảo dữ liệu có liên quan và chất lượng cao được sử dụng để xây dựng các mô hình hiệu quả.

Đào tạo trước và thử nghiệm theo từng bước tăng dần

Không có con đường trực tiếp nào khi xây dựng hoặc tinh chỉnh LLM. Giống như hầu hết các nỗ lực về học máy hoặc AI, bắt đầu từ quy mô nhỏ luôn là một biện pháp tốt . Bắt đầu với một mô hình nhỏ hơn trên tập dữ liệu nhỏ hơn sẽ giúp việc thử nghiệm dễ dàng hơn. Việc lặp lại và giới thiệu các thay đổi gia tăng đối với kiến trúc mô hình, như chiều rộng, chiều sâu, độ thưa thớt, v.v., sẽ giúp nhóm của bạn đánh giá tác động của chúng dễ dàng hơn. Bạn có thể bắt đầu với các mẫu cũ hơn hiện có, điều chỉnh chúng theo nhu cầu của mình và bắt đầu từ đó. Khi mô hình nhỏ hơn của bạn hoạt động tốt, bạn có thể tăng dần kích thước mô hình và tập dữ liệu.

Hãy nhớ lưu ảnh chụp nhanh mô hình của bạn làm bản sao lưu trong trường hợp cần dự phòng. Những thất bại sẽ không thể tránh khỏi cho dù bạn đang xây dựng hay tinh chỉnh, vì vậy việc lường trước các vấn đề là rất quan trọng.

Giảm thiểu sự bất ổn

Điều này dẫn chúng ta tới một biện pháp quan trọng nhằm tiết kiệm thời gian là giảm thiểu sự bất ổn. Mô hình càng lớn thì càng khó bảo trì. Ngoài việc trang bị quá mức và thiếu trang bị, mô hình của bạn có thể gặp phải các vấn đề như độ dốc biến mất hoặc bùng nổ, sụp đổ chế độ, mất dữ liệu đột ngột, lãng quên nghiêm trọng và các hạn chế về phần cứng.

Chúng ta đã thảo luận về sự quên lãng nghiêm trọng, xảy ra khi một mô hình thực hiện kém nhiệm vụ trước đó sau khi giới thiệu một loại nhiệm vụ mới. Độ dốc biến mất hoặc bùng nổ là những vấn đề phổ biến trong quá trình đào tạo mạng lưới thần kinh sâu, trong đó độ dốc trở nên quá nhỏ hoặc quá lớn, dẫn đến quá trình học tập bị chậm lại hoặc không ổn định. Sự sụp đổ chế độ xảy ra trong các mô hình tổng quát và xảy ra khi mô hình tạo ra các đầu ra giống nhau mặc dù có các đầu vào khác nhau. Mức lỗ tăng đột biến đề cập đến những dự đoán ngày càng kém từ mô hình. Và cuối cùng, làm việc với LLM có thể là thách thức đối với phần cứng và có thể dẫn đến lỗi.

Có một số cách bạn có thể chuẩn bị hoặc ít nhất là giảm thiểu sự bất ổn. Đây không phải là đột phá nhưng là các phương pháp tiêu chuẩn mà bạn cũng có thể thấy trong các ứng dụng deep learning khác nhau:

Kích thước lô — Thông thường, bạn nên sử dụng kích thước lô lớn nhất có thể vừa với bộ nhớ GPU của mình. Kích thước lô lớn hơn mang lại lợi thế về hiệu quả tính toán, sử dụng bộ nhớ và ước tính độ dốc chính xác hơn. Họ có thể sử dụng tốt hơn khả năng xử lý song song của GPU, giúp rút ngắn thời gian đào tạo.

Sử dụng các kỹ thuật Chính quy hóa - Các kỹ thuật chính quy hóa như bỏ qua và giảm trọng lượng có thể giúp ngăn ngừa tình trạng trang bị quá mức hoặc mất ổn định mô hình.

Chuẩn hóa hàng loạt - Chuẩn hóa hàng loạt có thể giúp giảm sự dịch chuyển hiệp phương sai nội bộ, cho phép hội tụ nhanh hơn và ổn định hơn trong quá trình đào tạo. Nó cũng giúp giảm bớt vấn đề biến mất độ dốc bằng cách đảm bảo rằng độ dốc truyền qua mạng trơn tru hơn.

Chọn mức khởi tạo trọng số phù hợp — Việc khởi tạo trọng số đóng một vai trò quan trọng trong việc giảm thiểu sự mất ổn định trong quá trình luyện tập và đảm bảo việc học tập hiệu quả. Một cách tiếp cận phổ biến để khởi tạo trọng số là sử dụng nhiễu Gaussian nhỏ. Điều này liên quan đến việc khởi tạo ngẫu nhiên các trọng số từ phân bố Gaussian với giá trị trung bình bằng 0 và độ lệch chuẩn nhỏ. Bằng cách thêm nhiễu ngẫu nhiên, các trọng số sẽ có được sự đa dạng ban đầu, cho phép mô hình khám phá các giải pháp khác nhau trong quá trình huấn luyện.

Tăng cường dữ liệu - Nếu mô hình của bạn đang gặp khó khăn trong việc khái quát hóa và có xu hướng trang bị quá mức, việc tăng cường dữ liệu có thể giúp giảm thiểu điều này bằng cách đưa ra các biến thể trong dữ liệu huấn luyện và cải thiện độ mạnh mẽ của mô hình.

Lập kế hoạch tỷ lệ học tập - Giảm dần tốc độ học tập của bạn theo thời gian để giảm tổn thất và duy trì sự ổn định của mô hình nhiều nhất có thể. Bạn có thể sử dụng phân rã bước hoặc phân rã theo cấp số nhân. Giảm dần theo từng bước là khi bạn giảm tốc độ học theo hệ số đều đặn, trong khi phân rã theo cấp số nhân làm giảm tốc độ học theo cấp số nhân.

Phần kết luận

Khi các doanh nghiệp tiếp tục nhận ra tác động của LLM, điều đó chỉ có nghĩa là các công ty bắt đầu hỏi đâu là cách tốt nhất để sử dụng công cụ có giá trị này. Chọn LLM phù hợp và tinh chỉnh nó cho phù hợp với nhu cầu của công ty bạn có thể là lựa chọn đơn giản hơn. Tuy nhiên, nó vẫn sẽ liên quan đến nhiều cân nhắc khác nhau để tinh chỉnh mô hình một cách hiệu quả và theo cách hiệu quả nhất có thể.

Đầu tiên, nhóm của bạn phải có khả năng đánh giá chính xác nhiều loại LLM khác nhau để chọn điểm xuất phát tốt nhất. Họ nên cảm thấy thoải mái khi thử nghiệm mô hình. Để hoạt động hiệu quả, họ cần lưu ý đến dữ liệu chất lượng cao và các phương pháp hay nhất khi tạo chiến lược xung quanh việc xây dựng hoặc tinh chỉnh LLM.

Theo cách bạn chọn, đây là một dự án phức tạp và đầy tham vọng, nhưng như chúng ta đã thấy, LLM có tiềm năng mang lại giá trị ấn tượng.