Phía trước Hãy để tôi bắt đầu bằng cách nói rằng tôi không có ý xúc phạm những người tạo ra Mô hình ngôn ngữ lớn (LLM), các công cụ để đánh giá chúng hoặc các cá nhân\tổ chức xếp hạng chúng và tạo bảng xếp hạng. Với tư cách là một người mới tham gia vào hệ sinh thái này, tôi mang ơn công việc của bạn và biết ơn vì cách này đã giúp tôi dễ dàng hoàn thành những nhiệm vụ mà nếu không sẽ tốn nhiều công sức. Rõ ràng, bài đăng tiếp theo của tôi phải khám phá các phương pháp khác nhau để xếp hạng mô hình, để biết thêm một chút chi tiết về cách hoạt động của các đánh giá. Giới thiệu Nếu bạn chưa đọc bài viết trước của tôi thì bạn có thể thấy hữu ích khi xem lại vì tôi đã định nghĩa các thuật ngữ và giải thích các phương tiện giúp tôi đạt được nhiều thực tiễn và niềm tin khác nhau. PrivateGPT về Tóm tắt sách: Kiểm tra và xếp hạng các biến cấu hình Nếu bạn đã đọc bài viết đó thì bạn sẽ biết rằng trong vài tháng, tôi đã tinh chỉnh các quy trình của mình bằng cách sử dụng Mô hình ngôn ngữ lớn (LLM) cho mục đích tóm tắt sách. Tôi đã đo một loạt thông số bao gồm mẫu lời nhắc, lời nhắc hệ thống, lời nhắc của người dùng, v.v. Từ vòng xếp hạng mô hình sơ bộ và thu thập dữ liệu về việc sử dụng các biến cấu hình, tôi nhận thấy tạo ra các ghi chú có dấu đầu dòng chất lượng cao nhất và đã tìm kiếm một ghi chú tốt nhất, kể từ đó, nó phù hợp với 12GB 3060 của tôi. mistral-7b-instruct-v0.2.Q8_0.gguf Đối với bảng xếp hạng này, tôi đang sử dụng nền tảng kiến thức đó để đánh giá nhiều mô hình 7b hàng đầu. Lần này tôi đang sử dụng vì tôi thấy nó dễ sử dụng hơn và khá hiệu quả. Ollama Tôi chọn các mẫu sau vì tôi thấy chúng xếp trên trên nhiều bảng xếp hạng khác nhau hoặc tự nhận là tốt nhất 7b. Mistral 7b Instruct 0,2 (mẫu trò chuyện được kiểm tra trong ngoặc đơn) openchat-3.5-0106.Q8_0.gguf (OpenChat) ống thở-mistral-pairrm-dpo.Q8_0.gguf (Mistral) cá heo-2.6-mistral-7b.Q8_0.gguf (Mistral) supermario-v2.Q8_0.gguf (ChatML) openhermes-2.5-mistral-7b.Q8_0.gguf (ChatML) openhermes-2.5-neural-chat-7b-v3-1-7b.Q8_0.gguf (ChatML) openhermes-2.5-neural-chat-v3-3-slerp.Q8_0.gguf (ChatML) WestLake-7B-v2-Q8_0.gguf (ChatML, Mistral) MBX-7B-v3-DPO.q8_0.gguf (ChatML, Mistral) thần kinh14-7b.q8_0.gguf (ChatML, Mistral) omnibeagle-7b-q8_0.gguf (ChatML, Mistral) Đối với một số mô hình mà tôi không nhận được kết quả mong muốn vì chúng chủ yếu có nguồn gốc từ Mistral, tôi đã thử nghiệm mẫu Mistral mặc dù họ liệt kê ChatML làm đầu vào ưa thích. Ghi chú Bullet Point với tiêu đề và thuật ngữ in đậm Viết các ghi chú có dấu đầu dòng toàn diện tóm tắt văn bản sau đây, với các tiêu đề, thuật ngữ và khái niệm chính được in đậm.\n\nTEXT: Mặc dù GPT3.5 không phải là tiêu chuẩn cá nhân của tôi nhưng nó là một tiêu chuẩn ngành và tôi kỳ vọng nó sẽ tạo ra kết quả tốt hơn hầu hết các GGUF 7b Q8. Mặc dù không có khái niệm chính nào về các thuật ngữ được in đậm, nhưng các tiêu đề in đậm và nhìn chung, điều này khá dễ đọc so với các đoạn văn. Ngoài ra, việc chúng tôi có tìm thấy các thuật ngữ in đậm hay không có thể phụ thuộc vào chính văn bản đầu vào, trong đó phần tóm tắt dấu đầu dòng phải bao gồm các tiêu đề được in đậm. được luôn Tôi đang tìm kiếm các mô hình tạo ra ghi chú: nhanh hơn với nhiều chi tiết hơn, ít phụ hơn với chi tiết tương đương với ngữ cảnh dài hơn (hiện đang mở rộng các khả năng này trong bối cảnh 2,5k) Tôi coi đây là nhiệm vụ cơ bản đối với bất kỳ mô hình Instruct nào. Lý tưởng nhất là các nhà phát triển sẽ đào tạo mô hình của họ để tạo ra các loại ghi chú có dấu đầu dòng lý tưởng này. Tôi có rất nhiều dữ liệu, với một số sách đã được đào tạo, nhưng việc tạo các ghi chú này cho một cuốn sách là tương đối đơn giản (Sử dụng với văn bản được chia nhỏ về mặt ngữ nghĩa, bằng tay, thành các phần có giá trị dưới 2,5 nghìn mã thông báo, mỗi phần). Mistral 7b Instruct 0.2 Nếu đó là một cuốn sách dày 300-600 trang thì thường có thể hoàn thành trong một ngày, bao gồm cả khâu xử lý trước và sau. Cuối cùng, tôi có thể thử nghiệm một số điều chỉnh nhằm cố gắng tự mình nâng cao năng lực của họ. Bảng xếp hạng Trước đây, tôi đã cố gắng cho điểm mỗi thứ hạng. Thật sự rất khó để đưa ra một con số. Trong tương lai, tôi nghĩ mình sẽ cố gắng lấy bằng LLM để xếp hạng các bản tóm tắt. Lần này, tôi sẽ chỉ để lại nhận xét về điểm thiếu sót và điều tôi thích mà không đưa ra điểm số cho từng mô hình. Tôi đã thử nghiệm từng mô hình sau đây trên một chương sách, được chia thành 6 phần, mỗi phần có giá trị từ 1900-3000 token. Tôi sẽ chia sẻ đầu ra ví dụ đại diện từ mỗi đầu ra và dữ liệu đầy đủ sẽ có sẵn trên GitHub như mọi khi. Mistral 7b Hướng dẫn 0,2 Q8 GGUF Tôi chắc rằng bây giờ bạn đã nhận ra rằng, theo ý kiến của tôi, có 7b để đánh bại. Mistral Tệp mô hình trong đó bạn nhập vị trí mô hình, mẫu và tham số vào tệp Mô hình mà nó sử dụng để lưu bản sao LLM bằng cấu hình đã chỉ định của bạn. Điều này giúp bạn dễ dàng demo các mô hình khác nhau mà không cần phải luôn loay hoay với các thông số. Ollama có một tính năng Tôi đã giữ nguyên các thông số cho tất cả các mô hình ngoại trừ mẫu trò chuyện nhưng tôi sẽ chia sẻ với bạn mẫu tôi đang sử dụng cho từng mô hình để bạn có thể biết chính xác cách tôi sử dụng mẫu. Bạn có thể cho tôi biết liệu tôi có nhận được kết quả tốt hơn từ các mô hình sau bằng cách sử dụng Modelfile được định cấu hình khác hay không. TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Mistral 7b Hướng dẫn v0.2 Kết quả Tôi sẽ không nói rằng Mistral lần nào cũng làm điều đó một cách hoàn hảo, nhưng thường thì đây là kết quả của tôi. Và nếu nhìn lại phản hồi GPT3.5, bạn có thể đồng ý rằng điều này tốt hơn. OpenChat 3.5 0106 Q8 GGUF Tôi rất ngạc nhiên với . Đây là mẫu được tuyên bố là có mẫu 7b tốt nhất và ít nhất có khả năng cạnh tranh với Mistral 7b. 0106 của OpenChat Tệp mô hình TEMPLATE """ GPT4 Correct User: {{ .Prompt }}<|end_of_turn|>GPT4 Correct Assistant: """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Kết quả OpenChat 3.5 0106 Trong mẫu nhỏ này, nó có tiêu đề in đậm 4/6 lần. Sau đó, tôi sẽ xem xét nó cùng với bất kỳ ứng cử viên hàng đầu nào khác bằng cách phân tích chi tiết hơn. Ống thở Mistral Pairrm DPO Q8 GGUF Rõ ràng, ở đây tôi thiên vị vì Snorkel đã được đào tạo về Mistral 7b Instruct 0.2. Bất chấp điều đó, tôi vẫn lạc quan một cách thận trọng và mong chờ nhiều bản phát hành hơn từ . Snorkel.ai Tệp mô hình TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Kết quả DPO của Snorkel Mistral Pairrm 4/6 trong số những bản tóm tắt này là chính xác, nhưng những bản tóm tắt khác có những điểm bất quy tắc, chẳng hạn như danh sách siêu dài các thuật ngữ và tiêu đề chính thay vì chỉ in đậm chúng trong dòng như một phần của bản tóm tắt. Dolphin 2.6 Mistral 7B Q8 GGUF Đây là được đánh giá cao. một dẫn xuất sai lầm khác Tệp mô hình TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Kết quả Dolphin 2.6 Mistral 7B Đây là một model tốt khác tốt như Mistral 7b Instruct 0.2. Ba trong số 6 bản tóm tắt có định dạng phù hợp và tiêu đề in đậm, một bản tóm tắt khác có định dạng tốt nhưng không in đậm, nhưng 2/6 bản tóm tắt có hình thức xấu. gần như OpenHermes 2.5 Mistral-7B Q8 GGUF khá phổ biến, cả trên bảng xếp hạng và trong số “những người” trong các cuộc trò chuyện bất hòa không liên kết. Tôi muốn nó dẫn đầu trong bảng xếp hạng này, nhưng thực tế không phải vậy. Mô hình này Tệp mô hình TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Kết quả Mistral của OpenHermes 2.5 Kết quả 3/6 cho ra cấu trúc phù hợp nhưng không có văn bản in đậm. Một trong số chúng có cả cấu trúc và văn bản in đậm. Hai cái còn lại có nhiều khối văn bản lớn \ hơn và cấu trúc kém. OpenHermes 2.5 Trò chuyện thần kinh 7b v3.1 7B Q8 GGUF Tôi cũng đã thử một vài cao cấp của OpenHermes 2.5 Mistral để xem liệu tôi có thể nhận được kết quả tốt hơn không. Thật không may, đó không phải là trường hợp. phiên bản Tệp mô hình TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Kết quả trò chuyện thần kinh OpenHermes 2.5 7b v3.1 Không có kết quả nào trong số này là mong muốn. OpenHermes 2.5 Trò chuyện thần kinh v3.3 Slerp Q8 GGUF Dù họ có làm gì thì này cũng không cải thiện được so với bản gốc. những sản phẩm phái sinh Tệp mô hình TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Kết quả Slerp của OpenHermes 2.5 Neural-chat v3.3 Nó chỉ trở nên tồi tệ hơn với mỗi phiên bản mới! Super Mario V2 Q8 Tôi không mong đợi nhiều từ Mario, nhưng nó cho thấy một số hứa hẹn. Trong khi đó, V3 và V4 đã có sẵn nhưng tôi vẫn chưa tìm thấy GGUF cho những thứ đó. Tệp mô hình TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Kết quả Super Mario V2 Kết quả đầu tiên của nó có vẻ tốt. Tuy nhiên, mỗi bản tóm tắt sau đây đều sai lệch so với mẫu mong muốn. Tôi sẽ chú ý đến GGUF của các phiên bản mới hơn. Bạn có thể thấy ở đây chúng tôi có các khối đoạn văn với tiêu đề được in đậm ban đầu. Không thực sự những gì tôi yêu cầu. Những đề cập đáng trân trọng (ChatML) - Cái này thực sự đang tạo ra một định dạng hợp lý nhưng không có văn bản in đậm. omnibeagle-7b (ChatML, Mistral) - Hoạt động tốt hơn với mẫu mistral. Kết quả “OK” nhưng có quá nhiều nhầm lẫn xung quanh các mẫu lời nhắc theo ý thích của tôi. neurbeagle14-7b (ChatML) - Tôi đã thấy tệ hơn WestLake-7B-v2 (ChatML) - Không nhất quán về định dạng. MBX-7B-v3-DPO Phần kết luận Tôi ước tôi có tin tức tốt hơn để chia sẻ. Tiêu đề lý tưởng của tôi là Thật không may, đó không phải là trường hợp. có rất nhiều mô hình hàng đầu tạo ra đầu ra chất lượng khi tạo và thật khó để tôi chọn trong số đó. các bản tóm tắt ghi chú có dấu đầu dòng toàn diện Có thể họ vượt trội hơn Mistral 0.2 ở dạng đầy đủ nhưng chỉ xếp sau ở định dạng GGUF? Tôi nghĩ rất có thể là không có cuộc đánh giá hiện tại nào của chúng tôi nhắm mục tiêu đến loại đầu ra này, nhưng tôi chắc chắn sẽ lập luận rằng đó là nhiệm vụ mà bất kỳ mô hình 7b gguf hàng đầu nào cũng có thể quản lý. Một điều khác cần cân nhắc là Mistral 7b Instruct v0.2 đã ra mắt ngay sau Mixtral, giữa vô số sự phô trương. Tôi nghĩ việc phát hành đó đã lọt vào tầm ngắm. Trên thực tế, nhiều mẫu xe “hàng đầu” mà tôi đã xem xét đều dựa trên 0,1 Mistral. Có lẽ mọi thứ sẽ thay đổi và thế giới sẽ nhận ra rằng những mẫu xe tốt nhất của họ vẫn không thể vượt qua Mistral? Một lần nữa, có thể tất cả những mô hình đó đều thực sự giỏi ở tất cả các nhiệm vụ khác mà tôi không yêu cầu. Tôi sẵn sàng giúp đỡ và tôi sẵn sàng được chứng minh là sai Tôi có dữ liệu, tôi có quy trình và tôi có nhu cầu vô tận về việc tạo các bản tóm tắt ghi chú có dấu đầu dòng. Nếu bạn muốn làm việc với tôi, xin vui lòng liên hệ. Bạn cũng có thể xem GitHub của tôi, kiểm tra dữ liệu và dùng thử phiên bản thử nghiệm này của riêng bạn. Tôi rất vui khi được chứng minh là sai.