Việc LLM đã thay đổi và sẽ tiếp tục thay đổi cuộc chơi cho AI và các doanh nghiệp trong các ngành không còn là tin tức nữa. Một nghiên cứu của IBM cho thấy các CEO ngày càng sử dụng AI để cải thiện năng suất và đạt được lợi thế cạnh tranh. Nghiên cứu khảo sát 3.000 CEO từ khắp nơi trên thế giới, cho thấy 75% CEO tin rằng tổ chức có AI tiên tiến nhất sẽ có lợi thế cạnh tranh.
Nếu bạn đang thắc mắc về cách tốt nhất để sử dụng LLM và liệu nên xây dựng hay tinh chỉnh chúng, chúng tôi muốn chia sẻ hướng dẫn này về những điều bạn phải biết để thực hiện điều đó một cách hiệu quả và năng suất.
Trước tiên, chúng ta sẽ xem xét cách LLM đang được áp dụng và những ngành nào chúng có thể có tác động nhiều nhất để bạn có ý tưởng rõ hơn về những gì bạn có thể đạt được với LLM. Sau đó, chúng ta sẽ nói về lý do tại sao chúng ta xây dựng hoặc tinh chỉnh LLM. Và cuối cùng, chúng tôi sẽ chia sẻ những cân nhắc quan trọng, chiến lược và phương pháp hay nhất để nhóm của bạn có thể có cái nhìn sắc bén hơn sau khi bạn đã quyết định.
Bây giờ, hãy tìm hiểu sâu hơn về cách LLM được dự đoán sẽ thay đổi các ngành và doanh nghiệp:
Một bài báo gần đây của các nhà nghiên cứu của OpenAI, Open Research và Đại học Pennsylvania đã phát hiện ra rằng LLM nhìn chung có thể ảnh hưởng đến nhiều thị trường Hoa Kỳ và ngành thông tin có thể sẽ bị ảnh hưởng nhiều nhất do những lý do sau:
Trong khi đó, một nghiên cứu từ McKinsey cho rằng ngân hàng là một trong những ngành có thể thấy tác động đáng kể nhất nhờ LLM. Nếu các trường hợp sử dụng được triển khai đầy đủ, họ dự đoán công nghệ này sẽ mang lại giá trị bổ sung hàng năm từ 200 tỷ USD đến 340 tỷ USD.
Điều thú vị là nghiên cứu tương tự của McKinsey cũng tuyên bố rằng dược phẩm và sản phẩm y tế có thể được thúc đẩy nhờ các mô hình nền tảng và AI tổng hợp. Nghiên cứu cho biết tác động có thể từ 60 đến 110 tỷ USD hàng năm . Đặc biệt, họ nhìn thấy tiềm năng trong việc khám phá thuốc. Đây là cách thực hiện:
Nhưng trong khi sự cường điệu xung quanh các mô hình nền tảng và LLM có thể tạo ra những ý tưởng về các giải pháp thần kỳ thì thực tế là LLM và các mô hình nền tảng không hoàn hảo. Bất kỳ ai đã sử dụng rộng rãi ChatGPT hoặc các LLM khác trên thị trường đều thấy rằng, đặc biệt đối với các tác vụ theo miền cụ thể, việc sử dụng LLM ngay lập tức có thể không thành công. Dưới đây là một số thách thức và hạn chế của LLM:
Có lẽ vấn đề phổ biến nhất mà chúng ta gặp phải là ảo giác. Ảo giác là một hiện tượng trong đó LLM có thể trả về những tuyên bố không chính xác có vẻ hợp lý. Có hai loại ảo giác: nội tại và ngoại sinh. Ảo giác bên trong xảy ra khi mô hình sử dụng logic sai trái với thông tin đầu vào của người dùng, trong khi ảo giác bên ngoài xảy ra khi mô hình hiểu sai ngữ cảnh câu hỏi của người dùng.
Các mô hình nền tảng như GPT có cửa sổ ngữ cảnh nhỏ và chỉ có thể lấy một số ký tự giới hạn làm đầu vào, điều này có thể không lý tưởng cho các ứng dụng cụ thể. Tương tự như con người, khi độ dài của đầu vào tăng lên thì độ khó để mô hình xử lý nó một cách chính xác cũng tăng theo.
Sự quên lãng nghiêm trọng là hiện tượng xảy ra khi mạng lưới thần kinh nhân tạo được huấn luyện tuần tự trên nhiều nhiệm vụ và các trọng số quan trọng trong mạng cho Nhiệm vụ A được sửa đổi để phù hợp với mục tiêu của Nhiệm vụ B. Điều này có thể khiến mạng quên nhiệm vụ A, mặc dù trước đó nó đã có thể thực hiện tốt.
LLM, chủ yếu được đào tạo về dữ liệu không được gắn nhãn, có thể dễ bị sai lệch vì dữ liệu được sử dụng trong quá trình đào tạo của họ có thể không thể hiện chính xác việc phân phối dữ liệu trong thế giới thực. Điều này là do dữ liệu sai lệch được sử dụng để huấn luyện có thể được phản ánh trong đầu ra của mô hình.
Những hạn chế này khiến các công ty và doanh nghiệp phải suy nghĩ một cách chiến lược về cách họ muốn làm việc với LLM. Thật vậy, LLM có tiềm năng to lớn để thay đổi cách thức hoạt động của các công ty, điều này có thể mang lại nhiều giá trị hơn cho họ, nhưng những thách thức này phải được giải quyết. Đây là nơi có thể nảy sinh câu hỏi về việc xây dựng hoặc tinh chỉnh LLM hiện tại.
Khi nào thì việc xây dựng LLM từ đầu là hợp lý? Việc tạo LLM của riêng bạn sẽ có ý nghĩa nhất nếu bạn có một trường hợp sử dụng rất riêng mà LLM chung hiện tại không thể phục vụ hoặc nếu LLM trở thành sản phẩm cốt lõi hoặc động lực kinh doanh chính cho công ty của bạn. Ngoài ra, nếu bạn có quyền truy cập vào một lượng lớn dữ liệu độc quyền có giá trị, thì việc xây dựng LLM để sử dụng nó có lợi cho bạn trong khi vẫn duy trì quyền riêng tư và bảo mật dữ liệu cũng là điều hợp lý.
Bạn có hai lựa chọn khi tinh chỉnh LLM: sử dụng LLM nguồn mở hiện có hoặc sử dụng API của LLM thương mại. LLM thương mại có thể có ý nghĩa hơn nếu nhóm của bạn có ít chuyên môn kỹ thuật hơn, trong khi mô hình nguồn mở sẽ mang lại cho bạn nhiều quyền kiểm soát hơn. Điều đó nói lên rằng, có những rủi ro liên quan đến việc tinh chỉnh LLM. Bạn phải để mắt đến những thành kiến, độc tính và rủi ro bảo mật dữ liệu tiềm ẩn. Ngoài ra, các API thương mại có thể hạn chế khả năng tùy chỉnh của mô hình và dữ liệu đào tạo cũng như khả năng kiểm soát chính sản phẩm.
Cho dù bạn có tinh chỉnh hay chọn xây dựng LLM từ đầu hay không, hãy biết rằng bạn phải sẵn sàng phân bổ các nguồn lực quan trọng để đạt được mục tiêu của mình. Xây dựng LLM từ đầu đòi hỏi sức mạnh tính toán khổng lồ, bên cạnh việc dành thời gian và tài chính cũng như tìm kiếm chuyên môn phù hợp.
Ví dụ: ước tính GPT-3 của OpenAI, một mô hình ngôn ngữ lớn với khoảng 175 tỷ tham số, có giá hơn 4,6 triệu USD . OpenAI cũng đầu tư vào siêu máy tính của Microsoft có hơn 285.000 lõi CPU và 10.000 GPU. Mô hình BloombergGPT nhỏ hơn của Bloomberg, với 50 tỷ thông số, ước tính chi phí xây dựng khoảng 2,7 triệu USD . Các ước tính này không bao gồm việc lặp lại mô hình cần thiết để xây dựng và đảm bảo các LLM này có hiệu quả.
Để xử lý hiệu quả kích thước khổng lồ của LLM, cần đảm bảo rằng dữ liệu được làm sạch, dán nhãn, sắp xếp và lưu trữ hiệu quả. Hãy nhớ rằng việc quản lý và xử lý dữ liệu có thể tốn kém, đặc biệt khi xem xét đến cơ sở hạ tầng, công cụ và kỹ sư dữ liệu cần thiết.
Tất nhiên, việc tinh chỉnh LLM có thể thực tế hơn vì chi phí thấp hơn so với việc xây dựng LLM của riêng tổ chức bạn. Chi phí tinh chỉnh LLM phụ thuộc vào một số yếu tố, bao gồm kích thước của mô hình, lượng dữ liệu được sử dụng để tinh chỉnh nó và tài nguyên máy tính được sử dụng.
Chi phí tinh chỉnh LLM cũng có thể bị ảnh hưởng bởi thuật toán tinh chỉnh cụ thể được sử dụng và một số thuật toán đắt hơn về mặt tính toán so với các thuật toán khác. Các mô hình tinh chỉnh của OpenAI có thể có giá từ 0,0004 USD đến 0,0300 USD cho mỗi 1.000 mã thông báo và sẽ tùy thuộc vào loại mô hình bạn sẽ sử dụng để đào tạo. Và sau đó là chi phí bổ sung cho việc sử dụng khoảng 0,0016 USD đến 0,1200 USD cho mỗi 1.000 mã thông báo.
Điều đó nói lên rằng, những tiến bộ trong các kỹ thuật tinh chỉnh khác nhau đã giúp giảm chi phí tài chính và tính toán. Một ví dụ là việc Hugging Face sử dụng Đánh giá chính sách với cách tiếp cận Công bằng và Minh bạch để tinh chỉnh GPT-3 . Bằng cách tận dụng phương pháp này và thư viện bitandbytes, Hugging Face đã chứng minh rằng có thể tinh chỉnh LLM lớn hơn đáng kể so với bộ nhớ GPU hiện có. Chúng ta sẽ thảo luận thêm một vài phương pháp trong bài viết này.
Không có gì ngạc nhiên khi cần phải có chuyên môn kỹ thuật nâng cao để xây dựng và tinh chỉnh LLM. Một kỹ sư học máy cao cấp sẽ được trang bị kiến thức cần thiết để tinh chỉnh LLM. Tuy nhiên, bạn sẽ cần một nhóm kỹ sư máy học thực sự xuất sắc để lãnh đạo và xây dựng LLM của riêng bạn ngay từ đầu một cách đúng đắn. Hãy xem hồ sơ của các nhà khoa học, nhà nghiên cứu và kiến trúc sư hàng đầu của các công ty AI như OpenAI, Meta và Google AI để hiểu rõ hơn về loại kỹ sư bạn cần có trong nhóm của mình để xây dựng LLM của riêng tổ chức của bạn từ đó. cào. Bạn cũng cần đảm bảo rằng những nhà nghiên cứu này có kiến thức sâu rộng về lĩnh vực và hoạt động kinh doanh của bạn.
Ai cũng biết rằng việc xây dựng LLM của riêng bạn từ đầu sẽ cần một lượng lớn dữ liệu. Ví dụ: LLaMA đã sử dụng tập dữ liệu huấn luyện chứa 1,4 nghìn tỷ mã thông báo đạt 4,6 terabyte. Các phiên bản nhỏ hơn của LLaMA đã được đào tạo trên 1 nghìn tỷ token. Trong trường hợp GPT, 1,5 nghìn tỷ token đã được sử dụng.
Để tinh chỉnh LLM, tùy thuộc vào phương pháp và tài nguyên của bạn, bạn sẽ cần ít hơn. Một ví dụ là Med-PaLM 2 của Google, được tinh chỉnh từ PaLM LLM. Theo bài báo , nhóm AI đã sử dụng tinh chỉnh hướng dẫn và yêu cầu 193.000 ví dụ, tương đương khoảng 19 triệu đến 39 triệu mã thông báo. Med-PaLM 2 đã thiết lập một công nghệ tiên tiến mới so với phiên bản tiền nhiệm bằng cách đạt 86,5% trên tập dữ liệu MedQA, được sử dụng để đo lường hiệu suất của Med-PaLM và PaLM.
Nhưng ngoài kích thước dữ liệu, các công ty cũng phải đảm bảo rằng họ đã thực hiện các biện pháp chất lượng dữ liệu phù hợp vì “rác vào, rác ra” vẫn áp dụng ngay cả với các mô hình ngôn ngữ lớn sử dụng lượng lớn dữ liệu đào tạo.
Khi sử dụng dữ liệu độc quyền, các tổ chức sẽ phải tìm ra các nhiệm vụ sau để đảm bảo chất lượng và đạo đức được duy trì ở tiêu chuẩn cao cho các mô hình hiệu quả hơn:
Tùy thuộc vào mục tiêu của tổ chức, việc tinh chỉnh LLM thực sự có thể là đủ. Có nhiều cách khác nhau để điều chỉnh LLM cho phù hợp với nhu cầu của tổ chức bạn và cải thiện hiệu suất của nó. Tuy nhiên, chúng tôi khuyên bạn nên làm theo phương pháp ngược để xác định phương pháp tối ưu. Phương pháp này cũng giúp giảm chi phí cho việc tinh chỉnh LLM, vì bạn càng “lùi” các bước này thì các kỹ thuật này càng có thể tốn kém.
Hãy chia nhỏ điều này theo cách đơn giản nhất.
Thông thường, việc đào tạo mô hình nền tảng hoặc LLM sẽ bắt đầu bằng việc các kỹ sư máy học trải qua quá trình đào tạo không có giám sát, sau đó đào tạo có giám sát để tinh chỉnh LLM và cuối cùng là nhắc nhở và điều chỉnh kịp thời để đạt được đầu ra cần thiết. Tất nhiên, có những bước khác nhau ở giữa, nhưng chúng tôi sẽ tuân theo ba bước này.
Con đường được đề xuất của chúng tôi để tinh chỉnh LLM sẽ đi ngược lại. Trong đó, trước tiên bạn bắt đầu điều chỉnh lời nhắc, bao gồm kỹ thuật nhanh chóng và gỡ lỗi nhanh chóng. Điều này sẽ sử dụng ít tài nguyên nhất. Tuy nhiên, giả sử LLM đang trì trệ hoặc không hoạt động như bạn mong muốn. Trong trường hợp đó, bạn chuyển sang tinh chỉnh hướng dẫn/giám sát, có thể bao gồm các phương pháp như RLHF, tạo tăng cường truy xuất hoặc học chuyển giao.
Ví dụ: chúng tôi đã tăng độ chính xác của DinoV2 từ 83 lên 95% trong trường hợp sử dụng phân loại phát hiện lỗi cụ thể thông qua học chuyển bằng cách chỉ sử dụng 200 mẫu được gắn nhãn.
Cuối cùng, nếu mọi cách khác đều thất bại, bước tiếp theo sẽ là sử dụng các phương pháp không giám sát và đảm bảo chúng tôi có tập dữ liệu phù hợp để đào tạo trước mô hình.
Giống như hầu hết các mô hình được triển khai trong môi trường động, dù được xây dựng hay tinh chỉnh, LLM đều yêu cầu lặp lại để duy trì hiệu quả với dữ liệu mới. Lặp lại là trang bị lại mô hình cho phù hợp với dữ liệu mới hoặc mục tiêu được làm mới. Các công ty phải tạo ra các quy trình mạnh mẽ để thường xuyên lặp lại các mô hình bằng cách sử dụng các bộ dữ liệu mới, thường là lặp lại, bao gồm xây dựng/tinh chỉnh, thử nghiệm và triển khai chúng vào sản xuất.
Các công ty đã xây dựng LLM thành công, chẳng hạn như OpenAI, liên tục tung ra các phiên bản GPT-3 mới. Trong khi thời hạn dữ liệu đào tạo của ChatGPT là vào tháng 9 năm 2021, OpenAI sử dụng dữ liệu mới từ hành vi của người dùng để cải thiện khả năng dự đoán của mô hình , giảm sai lệch và ít gây hại hơn.
Mục tiêu kinh doanh của bạn cũng là một yếu tố quan trọng trong việc xây dựng hoặc tinh chỉnh LLM có hợp lý hay không. Hãy xem xét khả năng của LLM phù hợp như thế nào với tầm nhìn chiến lược rộng hơn của công ty. Bằng cách này, bạn tận dụng tối đa tiềm năng của những công cụ mạnh mẽ này trong khi vẫn tập trung vào các mục tiêu kinh doanh cốt lõi của chúng. Một số ví dụ đã được trích dẫn trong các ngành được đề cập ở đầu bài viết này, nhưng bây giờ chúng ta hãy thảo luận về một số nhiệm vụ mà LLM vượt trội và ý nghĩa chiến lược của chúng đối với các ngành khác nhau:
Cho dù bạn đang xây dựng hay tinh chỉnh LLM, việc chọn LLM phù hợp thường là bước đầu tiên. Có, ngay cả khi xây dựng LLM, người ta thường xem xét kiến trúc của mô hình hiện có trước đó và bắt đầu từ đó. Dù lựa chọn của bạn là gì, các nhóm đều phải thử nghiệm và đánh giá một số mô hình để tìm ra điểm khởi đầu tốt nhất.
Việc đánh giá LLM cũng đi kèm với những thách thức riêng. Xét cho cùng, đây vẫn là một lĩnh vực nghiên cứu đang được tiến hành, vì vậy không có tiêu chuẩn hóa hoặc hệ thống hóa chặt chẽ nào để đánh giá các mô hình này.
Tất nhiên, có những bảng xếp hạng do các cộng đồng như HuggingFace thiết lập, có thể cho bạn ý tưởng chung về mức độ hoạt động của một mô hình. Tuy nhiên, những gì có thể hoạt động tốt trên bảng xếp hạng có thể không dễ dàng áp dụng cho trường hợp sử dụng cụ thể của bạn. LLM thường được đánh giá trên các tập dữ liệu chuẩn, nhưng hiệu suất của chúng có thể không phản ánh chính xác cách chúng sẽ hoạt động trong các tình huống thực tế, có thể đa dạng và khó đoán hơn nhiều.
Có hai cách tiếp cận để đánh giá các mô hình ngôn ngữ lớn: cách tiếp cận định lượng và định tính. Cả hai đều đi kèm với những cảnh báo của họ.
Đánh giá định lượng thường liên quan đến các số liệu học máy như độ bối rối, BLEU, mất entropy chéo, v.v. Các công cụ như thư viện eval OpenAI, gói python lm-eval của EleutherAI và Đánh giá toàn diện về mô hình ngôn ngữ (HELM) cho phép người dùng đánh giá các mô hình ngôn ngữ của họ. mô hình trên nhiều điểm chuẩn về mặt định lượng.
Mặc dù việc đánh giá định lượng rất đơn giản nhưng những số liệu này có thể không nhất thiết hỗ trợ người dùng lựa chọn một mô hình phù hợp cho nhiệm vụ cụ thể của họ. Người dùng thường cần một mô hình vượt trội trong nhiệm vụ cụ thể của họ, chẳng hạn như soạn thảo văn bản pháp lý hoặc phân tích báo cáo tài chính của công ty, thay vì mô hình có thể dự đoán mã thông báo tiếp theo với độ chính xác cao nhất.
Đánh giá định tính bao gồm việc đánh giá LLM dựa trên các nhiệm vụ cụ thể bằng cách sử dụng các tiêu chí như tính mạch lạc, sai lệch, tính sáng tạo và độ tin cậy. Việc đánh giá thủ công này tương đối chậm vì tốc độ và sự sẵn có của người đánh giá con người có thể gây cản trở cho quá trình đánh giá. Tuy nhiên, có thể tối ưu hóa quy trình bằng cách áp dụng các kỹ thuật tự động hóa tương tự trong ghi nhãn dữ liệu: học tích cực, QA theo chương trình, QA tự động, v.v.
Bạn nên kết hợp cả đánh giá định lượng và định tính bằng cách sử dụng tập dữ liệu cụ thể của công ty bạn để tìm ra LLM tốt nhất để tinh chỉnh hoặc làm cơ sở.
Luật mở rộng quy mô trong học máy được sử dụng để tập trung vào việc tăng kích thước của mô hình so với kích thước tập dữ liệu khi ngân sách điện toán được mở rộng. Điều này dựa trên giả định rằng các mô hình lớn hơn có thể trích xuất nhiều thông tin chi tiết hơn và hoạt động tốt hơn ngay cả khi lượng dữ liệu không đổi.
Nhưng vào năm 2022, DeepMind đã thách thức cách tiếp cận này , cho thấy rằng các mô hình nhìn chung chưa được đào tạo bài bản và do đó, kích thước của tập dữ liệu sẽ tăng lên cùng với kích thước mô hình. Theo phát hiện của DeepMind, kích thước mô hình và tập dữ liệu sẽ tăng khoảng ba lần cho mỗi lần tăng sức mạnh tính toán gấp 10 lần. Điều này ngụ ý rằng các mô hình hiện tại nằm dưới đường cong dữ liệu/tính toán tối ưu và việc chỉ làm cho chúng lớn hơn sẽ không mang lại kết quả tốt hơn nếu không có sự gia tăng dữ liệu đi kèm.
Các luật chia tỷ lệ mới này khuyên bạn nên xác định kích thước tập dữ liệu chất lượng cao tối đa trước tiên, dựa trên thông tin có sẵn. Sau đó, kích thước mô hình tối ưu cho tập dữ liệu đó có thể được chọn dựa trên tính toán có sẵn, sử dụng luật chia tỷ lệ tối ưu dữ liệu của DeepMind. Điều cần thiết là không tạo ra các mô hình lớn một cách tùy tiện mà phải tìm ra sự cân bằng phù hợp dựa trên dữ liệu. Hơn nữa, các bộ dữ liệu lớn hơn đòi hỏi chuyên môn để thu thập và tính đa dạng để cải thiện khả năng khái quát hóa, điều này làm tăng thêm độ phức tạp cho quy trình.
Cho dù bạn đang tinh chỉnh hay xây dựng LLM, các mô hình sẽ chỉ hoạt động tốt khi dữ liệu chúng được cung cấp. Do đó, dữ liệu của bạn phải mang tính đại diện và được xử lý trước một cách rộng rãi. Sự đa dạng của các nguồn dữ liệu có lợi ngay cả đối với các LLM dành riêng cho từng miền.
Ví dụ: Med-PaLM 2 của Google yêu cầu hàng trăm đến hàng nghìn ví dụ từ một số bộ dữ liệu QA về sức khỏe và y tế để mô hình được tinh chỉnh chính xác. Và để xây dựng BloombergGPT, hỗn hợp tập dữ liệu được sử dụng là 51% dữ liệu tài chính và 49% dữ liệu miền chung để đảm bảo tính đa dạng theo chủ đề. Trong cả hai trường hợp, các nhà nghiên cứu đã thực hiện quản lý dữ liệu rộng rãi để đảm bảo dữ liệu có liên quan và chất lượng cao được sử dụng để xây dựng các mô hình hiệu quả.
Không có con đường trực tiếp nào khi xây dựng hoặc tinh chỉnh LLM. Giống như hầu hết các nỗ lực về học máy hoặc AI, bắt đầu từ quy mô nhỏ luôn là một biện pháp tốt . Bắt đầu với một mô hình nhỏ hơn trên tập dữ liệu nhỏ hơn sẽ giúp việc thử nghiệm dễ dàng hơn. Việc lặp lại và giới thiệu các thay đổi gia tăng đối với kiến trúc mô hình, như chiều rộng, chiều sâu, độ thưa thớt, v.v., sẽ giúp nhóm của bạn đánh giá tác động của chúng dễ dàng hơn. Bạn có thể bắt đầu với các mẫu cũ hơn hiện có, điều chỉnh chúng theo nhu cầu của mình và bắt đầu từ đó. Khi mô hình nhỏ hơn của bạn hoạt động tốt, bạn có thể tăng dần kích thước mô hình và tập dữ liệu.
Hãy nhớ lưu ảnh chụp nhanh mô hình của bạn làm bản sao lưu trong trường hợp cần dự phòng. Những thất bại sẽ không thể tránh khỏi cho dù bạn đang xây dựng hay tinh chỉnh, vì vậy việc lường trước các vấn đề là rất quan trọng.
Điều này dẫn chúng ta tới một biện pháp quan trọng nhằm tiết kiệm thời gian là giảm thiểu sự bất ổn. Mô hình càng lớn thì càng khó bảo trì. Ngoài việc trang bị quá mức và thiếu trang bị, mô hình của bạn có thể gặp phải các vấn đề như độ dốc biến mất hoặc bùng nổ, sụp đổ chế độ, mất dữ liệu đột ngột, lãng quên nghiêm trọng và các hạn chế về phần cứng.
Chúng ta đã thảo luận về sự quên lãng nghiêm trọng, xảy ra khi một mô hình thực hiện kém nhiệm vụ trước đó sau khi giới thiệu một loại nhiệm vụ mới. Độ dốc biến mất hoặc bùng nổ là những vấn đề phổ biến trong quá trình đào tạo mạng lưới thần kinh sâu, trong đó độ dốc trở nên quá nhỏ hoặc quá lớn, dẫn đến quá trình học tập bị chậm lại hoặc không ổn định. Sự sụp đổ chế độ xảy ra trong các mô hình tổng quát và xảy ra khi mô hình tạo ra các đầu ra giống nhau mặc dù có các đầu vào khác nhau. Mức lỗ tăng đột biến đề cập đến những dự đoán ngày càng kém từ mô hình. Và cuối cùng, làm việc với LLM có thể là thách thức đối với phần cứng và có thể dẫn đến lỗi.
Có một số cách bạn có thể chuẩn bị hoặc ít nhất là giảm thiểu sự bất ổn. Đây không phải là đột phá nhưng là các phương pháp tiêu chuẩn mà bạn cũng có thể thấy trong các ứng dụng deep learning khác nhau:
Kích thước lô — Thông thường, bạn nên sử dụng kích thước lô lớn nhất có thể vừa với bộ nhớ GPU của mình. Kích thước lô lớn hơn mang lại lợi thế về hiệu quả tính toán, sử dụng bộ nhớ và ước tính độ dốc chính xác hơn. Họ có thể sử dụng tốt hơn khả năng xử lý song song của GPU, giúp rút ngắn thời gian đào tạo.
Sử dụng các kỹ thuật Chính quy hóa - Các kỹ thuật chính quy hóa như bỏ qua và giảm trọng lượng có thể giúp ngăn ngừa tình trạng trang bị quá mức hoặc mất ổn định mô hình.
Chuẩn hóa hàng loạt - Chuẩn hóa hàng loạt có thể giúp giảm sự dịch chuyển hiệp phương sai nội bộ, cho phép hội tụ nhanh hơn và ổn định hơn trong quá trình đào tạo. Nó cũng giúp giảm bớt vấn đề biến mất độ dốc bằng cách đảm bảo rằng độ dốc truyền qua mạng trơn tru hơn.
Chọn mức khởi tạo trọng số phù hợp — Việc khởi tạo trọng số đóng một vai trò quan trọng trong việc giảm thiểu sự mất ổn định trong quá trình luyện tập và đảm bảo việc học tập hiệu quả. Một cách tiếp cận phổ biến để khởi tạo trọng số là sử dụng nhiễu Gaussian nhỏ. Điều này liên quan đến việc khởi tạo ngẫu nhiên các trọng số từ phân bố Gaussian với giá trị trung bình bằng 0 và độ lệch chuẩn nhỏ. Bằng cách thêm nhiễu ngẫu nhiên, các trọng số sẽ có được sự đa dạng ban đầu, cho phép mô hình khám phá các giải pháp khác nhau trong quá trình huấn luyện.
Tăng cường dữ liệu - Nếu mô hình của bạn đang gặp khó khăn trong việc khái quát hóa và có xu hướng trang bị quá mức, việc tăng cường dữ liệu có thể giúp giảm thiểu điều này bằng cách đưa ra các biến thể trong dữ liệu huấn luyện và cải thiện độ mạnh mẽ của mô hình.
Lập kế hoạch tỷ lệ học tập - Giảm dần tốc độ học tập của bạn theo thời gian để giảm tổn thất và duy trì sự ổn định của mô hình nhiều nhất có thể. Bạn có thể sử dụng phân rã bước hoặc phân rã theo cấp số nhân. Giảm dần theo từng bước là khi bạn giảm tốc độ học theo hệ số đều đặn, trong khi phân rã theo cấp số nhân làm giảm tốc độ học theo cấp số nhân.
Khi các doanh nghiệp tiếp tục nhận ra tác động của LLM, điều đó chỉ có nghĩa là các công ty bắt đầu hỏi đâu là cách tốt nhất để sử dụng công cụ có giá trị này. Chọn LLM phù hợp và tinh chỉnh nó cho phù hợp với nhu cầu của công ty bạn có thể là lựa chọn đơn giản hơn. Tuy nhiên, nó vẫn sẽ liên quan đến nhiều cân nhắc khác nhau để tinh chỉnh mô hình một cách hiệu quả và theo cách hiệu quả nhất có thể.
Đầu tiên, nhóm của bạn phải có khả năng đánh giá chính xác nhiều loại LLM khác nhau để chọn điểm xuất phát tốt nhất. Họ nên cảm thấy thoải mái khi thử nghiệm mô hình. Để hoạt động hiệu quả, họ cần lưu ý đến dữ liệu chất lượng cao và các phương pháp hay nhất khi tạo chiến lược xung quanh việc xây dựng hoặc tinh chỉnh LLM.
Theo cách bạn chọn, đây là một dự án phức tạp và đầy tham vọng, nhưng như chúng ta đã thấy, LLM có tiềm năng mang lại giá trị ấn tượng.
[4] C. Li, Làm sáng tỏ GPT-3 (2023), Blog của Lambda Labs
[6] J. Sheikh, ChatGPT về Tài chính đây: Bloomberg đang kết hợp AI và Fintech (2023), Forbes.com