Gần đây người ta đã nói nhiều về sự kỳ diệu của Mô hình Ngôn ngữ Lớn (LLM). Hầu hết những giải thưởng này đều xứng đáng. Yêu cầu ChatGPT mô tả Thuyết tương đối rộng và bạn sẽ nhận được câu trả lời rất hay (và chính xác). Tuy nhiên, suy cho cùng thì ChatGPT vẫn là một chương trình máy tính (cũng như tất cả các LLM khác) đang thực thi tập lệnh của nó một cách mù quáng. Nó hiểu Thuyết Tương đối rộng không hơn gì con vật cưng yêu thích của bạn. Thật không may, chúng tôi sử dụng những từ “giống con người” để mô tả các kỹ thuật mà kỹ sư sử dụng để tạo ra chúng - ví dụ: “học máy” và “đào tạo”. Điều này gây hiểu nhầm vì LLM không có trí tuệ như con người.
Có một điều trớ trêu nhất định ở đây - làm thế nào một chatbot không suy nghĩ có thể tóm tắt chính xác những phát hiện của người đàn ông thông minh nhất từng sống? Để hiểu bản chất mâu thuẫn này của LLM, hãy khám phá chúng sâu hơn về Điểm mạnh, Điểm yếu và Nguy hiểm để xem cách chúng ta có thể sử dụng dữ liệu và giải pháp lưu trữ như MinIO, để khai thác cái đầu tiên và giảm thiểu hai cái còn lại. Đây là những kỹ thuật mà mọi kỹ sư nên ghi nhớ khi đào tạo, kiểm tra và triển khai LLM cho tổ chức của mình.
Điểm mạnh của LLM là chúng được đào tạo để hiểu phân bố xác suất của các từ trong tập huấn luyện được sử dụng để tạo ra chúng. Nếu tập huấn luyện đủ lớn (tức là một tập hợp các bài viết trên Wikipedia hoặc mã công khai trên GitHub), thì các mô hình sẽ có vốn từ vựng và phân bố xác suất tương ứng sẽ làm cho kết quả của chúng xuất hiện như thể chúng có hiểu biết thực tế về văn bản họ xuất ra. Hãy xem xét một ví dụ khác chi tiết hơn - lần này là từ Triết học. Đặt câu hỏi cho ChatGPT, "'cogito, ergo sum' nghĩa là gì và ai đã viết nó?" và bạn sẽ nhận được một cái gì đó tương tự như văn bản dưới đây.
"Cogito, ergo sum" là một mệnh đề triết học Latinh có nghĩa là "Tôi nghĩ, do đó tôi tồn tại" trong tiếng Anh. Tuyên bố này nổi tiếng gắn liền với René Descartes, một triết gia, nhà toán học và nhà khoa học người Pháp. Descartes thể hiện ý tưởng này trong tác phẩm “Diễn ngôn về phương pháp” xuất bản năm 1637. Cụm từ này phản ánh nỗ lực của Descartes nhằm thiết lập một chân lý nền tảng không thể nghi ngờ - sự chắc chắn về sự tồn tại của chính con người với tư cách là một thực thể có tư duy.
LLM tạo ra kết quả như thế này bằng cách sử dụng phân phối xác suất. Nó hoạt động như thế này, họ bắt đầu bằng cách nhìn vào văn bản trong câu hỏi và xác định rằng từ “Cogito” có xác suất cao nhất là từ đầu tiên của câu trả lời. Từ đó, họ nhìn vào câu hỏi và từ đầu tiên của câu trả lời để xác định từ có khả năng đứng tiếp theo cao nhất. Điều này cứ tiếp diễn cho đến khi một ký tự đặc biệt “kết thúc câu trả lời” được xác định là có xác suất cao nhất.
Khả năng tạo ra phản hồi bằng ngôn ngữ tự nhiên dựa trên hàng tỷ xác suất này không phải là điều đáng lo ngại - đúng hơn, đó là thứ nên được khai thác để lấy giá trị kinh doanh. Kết quả thậm chí còn tốt hơn khi bạn sử dụng các kỹ thuật hiện đại. Ví dụ: bằng cách sử dụng các kỹ thuật như Tạo tăng cường truy xuất (RAG) và Tinh chỉnh, bạn có thể dạy LLM về doanh nghiệp cụ thể của mình. Để đạt được những kết quả giống con người này sẽ cần có dữ liệu và cơ sở hạ tầng của bạn sẽ cần một giải pháp lưu trữ dữ liệu mạnh mẽ.
Những khả năng dự đoán mã thông báo tiếp theo này không chỉ có thể được sử dụng để tạo văn bản tuyệt vời cho chatbot hoặc bản sao tiếp thị của bạn mà còn có thể được sử dụng để cho phép đưa ra quyết định tự động trong ứng dụng của bạn. Đưa ra các lời nhắc được xây dựng khéo léo chứa tuyên bố vấn đề và thông tin về các API (“chức năng”) có thể được gọi, sự hiểu biết về ngôn ngữ của LLM sẽ cho phép nó tạo ra câu trả lời giải thích “chức năng” nên được gọi là gì. Ví dụ: trên ứng dụng trò chuyện về thời tiết, người dùng có thể hỏi: “Tôi có cần áo mưa nếu định đến Công viên Fenway tối nay không?” Với một số lời nhắc thông minh, LLM có thể trích xuất dữ liệu vị trí từ truy vấn (Boston, MA) và có thể xác định cách hình thành yêu cầu đối với API Lượng mưa Weather.com.
Trong một thời gian dài, phần khó nhất khi xây dựng phần mềm là giao tiếp giữa ngôn ngữ tự nhiên và hệ thống cú pháp như lệnh gọi API. Trớ trêu thay, đó có thể là một trong những phần đơn giản nhất. Tương tự như việc tạo văn bản, chất lượng và độ tin cậy của hành vi gọi hàm LLM có thể được hỗ trợ bằng cách sử dụng phương pháp học tập tinh chỉnh và củng cố bằng phản hồi của con người (RLHF).
Bây giờ chúng ta đã hiểu LLM giỏi về lĩnh vực gì và tại sao, hãy cùng điều tra những gì LLM không thể làm.
LLM không thể suy nghĩ, hiểu hoặc lý luận. Đây là hạn chế cơ bản của LLM. Mô hình ngôn ngữ thiếu khả năng suy luận về câu hỏi của người dùng. Chúng là những cỗ máy xác suất có khả năng đưa ra dự đoán thực sự chính xác cho câu hỏi của người dùng. Cho dù phỏng đoán có tốt đến đâu thì điều gì đó vẫn là phỏng đoán và bất cứ điều gì tạo ra những phỏng đoán này cuối cùng sẽ tạo ra điều gì đó không đúng. Trong AI sáng tạo, điều này được gọi là “ảo giác”.
Khi được huấn luyện đúng cách, ảo giác có thể được hạn chế ở mức tối thiểu. Tinh chỉnh và RAG cũng giảm đáng kể ảo giác. Điểm mấu chốt - để đào tạo một mô hình một cách chính xác, tinh chỉnh nó và cung cấp cho nó bối cảnh phù hợp (RAG) cần có dữ liệu và cơ sở hạ tầng để lưu trữ mô hình trên quy mô lớn và phục vụ nó một cách hiệu quả.
Hãy xem xét thêm một khía cạnh khác của LLM mà tôi sẽ xếp vào loại nguy hiểm vì nó ảnh hưởng đến khả năng kiểm tra chúng của chúng tôi.
Việc sử dụng LLM phổ biến nhất là AI sáng tạo. AI sáng tạo không tạo ra câu trả lời cụ thể có thể so sánh với kết quả đã biết. Điều này trái ngược với các trường hợp sử dụng AI khác, vốn đưa ra dự đoán cụ thể có thể dễ dàng kiểm tra. Việc kiểm tra các mô hình để phát hiện, phân loại và hồi quy hình ảnh rất đơn giản. Nhưng làm thế nào để bạn kiểm tra LLM được sử dụng cho AI tổng hợp theo cách khách quan, trung thực và có thể mở rộng? Làm thế nào bạn có thể chắc chắn rằng các câu trả lời phức tạp mà LLM tạo ra là chính xác nếu bản thân bạn không phải là chuyên gia? Ngay cả khi bạn là chuyên gia, người đánh giá là con người không thể tham gia vào quá trình kiểm tra tự động diễn ra trong quy trình CI/CD.
Có một số tiêu chuẩn trong ngành có thể giúp ích. GLUE (Đánh giá hiểu ngôn ngữ chung) được sử dụng để đánh giá và đo lường hiệu suất của LLM. Nó bao gồm một tập hợp các nhiệm vụ đánh giá khả năng của các mô hình trong việc xử lý ngôn ngữ của con người. SuperGLUE là phần mở rộng của tiêu chuẩn GLUE giới thiệu các nhiệm vụ ngôn ngữ đầy thử thách hơn. Những nhiệm vụ này liên quan đến việc giải quyết vấn đề cốt lõi, trả lời câu hỏi và các hiện tượng ngôn ngữ phức tạp hơn.
Mặc dù các điểm chuẩn ở trên rất hữu ích nhưng phần lớn giải pháp phải là việc thu thập dữ liệu của riêng bạn. Hãy cân nhắc việc ghi lại tất cả các câu hỏi và câu trả lời, đồng thời tạo các bài kiểm tra của riêng bạn dựa trên những phát hiện tùy chỉnh. Điều này cũng sẽ yêu cầu cơ sở hạ tầng dữ liệu được xây dựng để mở rộng quy mô và hoạt động.
Ở đó bạn có nó. Điểm mạnh, điểm yếu và mối nguy hiểm của LLM. Nếu bạn muốn khai thác cái đầu tiên và giảm thiểu hai cái còn lại, thì bạn sẽ cần dữ liệu và giải pháp lưu trữ có thể xử lý rất nhiều dữ liệu đó.