paint-brush
Xếp hạng 7b GGUF về ghi chú có dấu đầu dòng toàn diện với Ollama: Xếp hạng mô hình về nhà, bạn say rồi!từ tác giả@cognitivetech
1,623 lượt đọc
1,623 lượt đọc

Xếp hạng 7b GGUF về ghi chú có dấu đầu dòng toàn diện với Ollama: Xếp hạng mô hình về nhà, bạn say rồi!

từ tác giả CognitiveTech8m2024/02/11
Read on Terminal Reader

dài quá đọc không nổi

Tìm kiếm một mô hình thực sự đánh bại Mistral 7b Instruct 0.2. Trái ngược với thứ hạng trên bảng xếp hạng, tôi không tìm thấy gì. Xem lại phương pháp và kết quả của tôi, chứng minh tôi sai!
featured image - Xếp hạng 7b GGUF về ghi chú có dấu đầu dòng toàn diện với Ollama: Xếp hạng mô hình về nhà, bạn say rồi!
CognitiveTech HackerNoon profile picture
0-item
1-item
2-item
3-item

Phía trước

Hãy để tôi bắt đầu bằng cách nói rằng tôi không có ý xúc phạm những người tạo ra Mô hình ngôn ngữ lớn (LLM), các công cụ để đánh giá chúng hoặc các cá nhân\tổ chức xếp hạng chúng và tạo bảng xếp hạng. Với tư cách là một người mới tham gia vào hệ sinh thái này, tôi mang ơn công việc của bạn và biết ơn vì cách này đã giúp tôi dễ dàng hoàn thành những nhiệm vụ mà nếu không sẽ tốn nhiều công sức.


Rõ ràng, bài đăng tiếp theo của tôi phải khám phá các phương pháp khác nhau để xếp hạng mô hình, để biết thêm một chút chi tiết về cách hoạt động của các đánh giá.

Giới thiệu

Nếu bạn chưa đọc bài viết trước của tôi PrivateGPT về Tóm tắt sách: Kiểm tra và xếp hạng các biến cấu hình thì bạn có thể thấy hữu ích khi xem lại vì tôi đã định nghĩa các thuật ngữ và giải thích các phương tiện giúp tôi đạt được nhiều thực tiễn và niềm tin khác nhau.


Nếu bạn đã đọc bài viết đó thì bạn sẽ biết rằng trong vài tháng, tôi đã tinh chỉnh các quy trình của mình bằng cách sử dụng Mô hình ngôn ngữ lớn (LLM) cho mục đích tóm tắt sách. Tôi đã đo một loạt thông số bao gồm mẫu lời nhắc, lời nhắc hệ thống, lời nhắc của người dùng, v.v.


Từ vòng xếp hạng mô hình sơ bộ và thu thập dữ liệu về việc sử dụng các biến cấu hình, tôi nhận thấy mistral-7b-instruct-v0.2.Q8_0.gguf tạo ra các ghi chú có dấu đầu dòng chất lượng cao nhất và đã tìm kiếm một ghi chú tốt nhất, kể từ đó, nó phù hợp với 12GB 3060 của tôi.

Tôi thách bạn hai lần!! Chỉ cho tôi 7b vượt trội hơn Mistral cho nhiệm vụ này.


Đối với bảng xếp hạng này, tôi đang sử dụng nền tảng kiến thức đó để đánh giá nhiều mô hình 7b hàng đầu. Lần này tôi đang sử dụng Ollama vì tôi thấy nó dễ sử dụng hơn và khá hiệu quả.


Tôi chọn các mẫu sau vì tôi thấy chúng xếp trên Mistral 7b Instruct 0,2 trên nhiều bảng xếp hạng khác nhau hoặc tự nhận là tốt nhất 7b. (mẫu trò chuyện được kiểm tra trong ngoặc đơn)


  • openchat-3.5-0106.Q8_0.gguf (OpenChat)

  • ống thở-mistral-pairrm-dpo.Q8_0.gguf (Mistral)

  • cá heo-2.6-mistral-7b.Q8_0.gguf (Mistral)

  • supermario-v2.Q8_0.gguf (ChatML)

  • openhermes-2.5-mistral-7b.Q8_0.gguf (ChatML)

  • openhermes-2.5-neural-chat-7b-v3-1-7b.Q8_0.gguf (ChatML)

  • openhermes-2.5-neural-chat-v3-3-slerp.Q8_0.gguf (ChatML)

  • WestLake-7B-v2-Q8_0.gguf (ChatML, Mistral)

  • MBX-7B-v3-DPO.q8_0.gguf (ChatML, Mistral)

  • thần kinh14-7b.q8_0.gguf (ChatML, Mistral)

  • omnibeagle-7b-q8_0.gguf (ChatML, Mistral)


Đối với một số mô hình mà tôi không nhận được kết quả mong muốn vì chúng chủ yếu có nguồn gốc từ Mistral, tôi đã thử nghiệm mẫu Mistral mặc dù họ liệt kê ChatML làm đầu vào ưa thích.

Ghi chú Bullet Point với tiêu đề và thuật ngữ in đậm

Viết các ghi chú có dấu đầu dòng toàn diện tóm tắt văn bản sau đây, với các tiêu đề, thuật ngữ và khái niệm chính được in đậm.\n\nTEXT:


Mặc dù GPT3.5 không phải là tiêu chuẩn cá nhân của tôi nhưng nó là một tiêu chuẩn ngành và tôi kỳ vọng nó sẽ tạo ra kết quả tốt hơn hầu hết các GGUF 7b Q8.


Một phản hồi mẫu từ GPT3.5

Mặc dù không có khái niệm chính nào về các thuật ngữ được in đậm, nhưng các tiêu đề được in đậm và nhìn chung, điều này khá dễ đọc so với các đoạn văn. Ngoài ra, việc chúng tôi có tìm thấy các thuật ngữ in đậm hay không có thể phụ thuộc vào chính văn bản đầu vào, trong đó phần tóm tắt dấu đầu dòng phải luôn bao gồm các tiêu đề được in đậm.

Tôi đang tìm kiếm các mô hình tạo ra ghi chú:

  • nhanh hơn
  • với nhiều chi tiết hơn, ít phụ hơn
  • với chi tiết tương đương với ngữ cảnh dài hơn (hiện đang mở rộng các khả năng này trong bối cảnh 2,5k)


Tôi coi đây là nhiệm vụ cơ bản đối với bất kỳ mô hình Instruct nào. Lý tưởng nhất là các nhà phát triển sẽ đào tạo mô hình của họ để tạo ra các loại ghi chú có dấu đầu dòng lý tưởng này. Tôi có rất nhiều dữ liệu, với một số sách đã được đào tạo, nhưng việc tạo các ghi chú này cho một cuốn sách là tương đối đơn giản (Sử dụng Mistral 7b Instruct 0.2 với văn bản được chia nhỏ về mặt ngữ nghĩa, bằng tay, thành các phần có giá trị dưới 2,5 nghìn mã thông báo, mỗi phần).


Nếu đó là một cuốn sách dày 300-600 trang thì thường có thể hoàn thành trong một ngày, bao gồm cả khâu xử lý trước và sau.


Cuối cùng, tôi có thể thử nghiệm một số điều chỉnh nhằm cố gắng tự mình nâng cao năng lực của họ.

Bảng xếp hạng

Trước đây, tôi đã cố gắng cho điểm mỗi thứ hạng. Thật sự rất khó để đưa ra một con số. Trong tương lai, tôi nghĩ mình sẽ cố gắng lấy bằng LLM để xếp hạng các bản tóm tắt. Lần này, tôi sẽ chỉ để lại nhận xét về điểm thiếu sót và điều tôi thích mà không đưa ra điểm số cho từng mô hình.


Tôi đã thử nghiệm từng mô hình sau đây trên một chương sách, được chia thành 6 phần, mỗi phần có giá trị từ 1900-3000 token. Tôi sẽ chia sẻ đầu ra ví dụ đại diện từ mỗi đầu ra và dữ liệu đầy đủ sẽ có sẵn trên GitHub như mọi khi.

Mistral 7b Hướng dẫn 0,2 Q8 GGUF

Tôi chắc rằng bây giờ bạn đã nhận ra rằng, theo ý kiến của tôi, Mistral có 7b để đánh bại.

Tệp mô hình

Ollama có một tính năng trong đó bạn nhập vị trí mô hình, mẫu và tham số vào tệp Mô hình mà nó sử dụng để lưu bản sao LLM bằng cấu hình đã chỉ định của bạn. Điều này giúp bạn dễ dàng demo các mô hình khác nhau mà không cần phải luôn loay hoay với các thông số.


Tôi đã giữ nguyên các thông số cho tất cả các mô hình ngoại trừ mẫu trò chuyện nhưng tôi sẽ chia sẻ với bạn mẫu tôi đang sử dụng cho từng mô hình để bạn có thể biết chính xác cách tôi sử dụng mẫu. Bạn có thể cho tôi biết liệu tôi có nhận được kết quả tốt hơn từ các mô hình sau bằng cách sử dụng Modelfile được định cấu hình khác hay không.

 TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Mistral 7b Hướng dẫn v0.2 Kết quả

Tôi sẽ không nói rằng Mistral lần nào cũng làm điều đó một cách hoàn hảo, nhưng thường thì đây là kết quả của tôi. Và nếu nhìn lại phản hồi GPT3.5, bạn có thể đồng ý rằng điều này tốt hơn.

7b DÊ?

OpenChat 3.5 0106 Q8 GGUF

Tôi rất ngạc nhiên với 0106 của OpenChat . Đây là mẫu được tuyên bố là có mẫu 7b tốt nhất và ít nhất có khả năng cạnh tranh với Mistral 7b.

Tệp mô hình

 TEMPLATE """ GPT4 Correct User: {{ .Prompt }}<|end_of_turn|>GPT4 Correct Assistant: """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Kết quả OpenChat 3.5 0106

Trong mẫu nhỏ này, nó có tiêu đề in đậm 4/6 lần. Sau đó, tôi sẽ xem xét nó cùng với bất kỳ ứng cử viên hàng đầu nào khác bằng cách phân tích chi tiết hơn.

Tôi thích những gì tôi thấy, nhưng nó cần được kiểm tra sâu hơn

Ống thở Mistral Pairrm DPO Q8 GGUF

Rõ ràng, ở đây tôi thiên vị vì Snorkel đã được đào tạo về Mistral 7b Instruct 0.2. Bất chấp điều đó, tôi vẫn lạc quan một cách thận trọng và mong chờ nhiều bản phát hành hơn từ Snorkel.ai .

Tệp mô hình

 TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Kết quả DPO của Snorkel Mistral Pairrm

4/6 trong số những bản tóm tắt này là chính xác, nhưng những bản tóm tắt khác có những điểm bất quy tắc, chẳng hạn như danh sách siêu dài các thuật ngữ và tiêu đề chính thay vì chỉ in đậm chúng trong dòng như một phần của bản tóm tắt.

Con ngựa ô của cuộc đua này.

Dolphin 2.6 Mistral 7B Q8 GGUF

Đây là một dẫn xuất sai lầm khác được đánh giá cao.

Tệp mô hình

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Kết quả Dolphin 2.6 Mistral 7B

Đây là một model tốt khác gần như tốt như Mistral 7b Instruct 0.2. Ba trong số 6 bản tóm tắt có định dạng phù hợp và tiêu đề in đậm, một bản tóm tắt khác có định dạng tốt nhưng không in đậm, nhưng 2/6 bản tóm tắt có hình thức xấu.

Hình thức xấu

OpenHermes 2.5 Mistral-7B Q8 GGUF

Mô hình này khá phổ biến, cả trên bảng xếp hạng và trong số “những người” trong các cuộc trò chuyện bất hòa không liên kết. Tôi muốn nó dẫn đầu trong bảng xếp hạng này, nhưng thực tế không phải vậy.

Tệp mô hình

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Kết quả Mistral của OpenHermes 2.5

Kết quả 3/6 cho ra cấu trúc phù hợp nhưng không có văn bản in đậm. Một trong số chúng có cả cấu trúc và văn bản in đậm. Hai cái còn lại có nhiều khối văn bản lớn \ hơn và cấu trúc kém.

Chỉ là không phải "ở đó", đối với tôi.

OpenHermes 2.5 Trò chuyện thần kinh 7b v3.1 7B Q8 GGUF

Tôi cũng đã thử một vài phiên bản cao cấp của OpenHermes 2.5 Mistral để xem liệu tôi có thể nhận được kết quả tốt hơn không. Thật không may, đó không phải là trường hợp.

Tệp mô hình

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Kết quả trò chuyện thần kinh OpenHermes 2.5 7b v3.1

Không có kết quả nào trong số này là mong muốn.

Nếu tôi trả cho bạn 20$ bạn sẽ làm điều đó chứ?

OpenHermes 2.5 Trò chuyện thần kinh v3.3 Slerp Q8 GGUF

Dù họ có làm gì thì những sản phẩm phái sinh này cũng không cải thiện được so với bản gốc.

Tệp mô hình

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Kết quả Slerp của OpenHermes 2.5 Neural-chat v3.3

Nó chỉ trở nên tồi tệ hơn với mỗi phiên bản mới!

Tôi rất buồn khi đánh giá các mô hình ngôn ngữ hàng đầu.

Super Mario V2 Q8

Tôi không mong đợi nhiều từ Mario, nhưng nó cho thấy một số hứa hẹn. Trong khi đó, V3 và V4 đã có sẵn nhưng tôi vẫn chưa tìm thấy GGUF cho những thứ đó.

Tệp mô hình

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Kết quả Super Mario V2

Kết quả đầu tiên của nó có vẻ tốt. Tuy nhiên, mỗi bản tóm tắt sau đây đều sai lệch so với mẫu mong muốn. Tôi sẽ chú ý đến GGUF của các phiên bản mới hơn. Bạn có thể thấy ở đây chúng tôi có các khối đoạn văn với tiêu đề được in đậm ban đầu. Không thực sự những gì tôi yêu cầu.

Ví dụ về những gì tôi không muốn.

Những đề cập đáng trân trọng

  • omnibeagle-7b (ChatML) - Cái này thực sự đang tạo ra một định dạng hợp lý nhưng không có văn bản in đậm.


  • neurbeagle14-7b (ChatML, Mistral) - Hoạt động tốt hơn với mẫu mistral. Kết quả “OK” nhưng có quá nhiều nhầm lẫn xung quanh các mẫu lời nhắc theo ý thích của tôi.



  • MBX-7B-v3-DPO (ChatML) - Không nhất quán về định dạng.

Phần kết luận

Tôi ước tôi có tin tức tốt hơn để chia sẻ. Tiêu đề lý tưởng của tôi là có rất nhiều mô hình hàng đầu tạo ra đầu ra chất lượng khi tạo các bản tóm tắt ghi chú có dấu đầu dòng toàn diện và thật khó để tôi chọn trong số đó. Thật không may, đó không phải là trường hợp.


Có thể họ vượt trội hơn Mistral 0.2 ở dạng đầy đủ nhưng chỉ xếp sau ở định dạng GGUF? Tôi nghĩ rất có thể là không có cuộc đánh giá hiện tại nào của chúng tôi nhắm mục tiêu đến loại đầu ra này, nhưng tôi chắc chắn sẽ lập luận rằng đó là nhiệm vụ mà bất kỳ mô hình 7b gguf hàng đầu nào cũng có thể quản lý.


Một điều khác cần cân nhắc là Mistral 7b Instruct v0.2 đã ra mắt ngay sau Mixtral, giữa vô số sự phô trương. Tôi nghĩ việc phát hành đó đã lọt vào tầm ngắm. Trên thực tế, nhiều mẫu xe “hàng đầu” mà tôi đã xem xét đều dựa trên 0,1 Mistral.


Có lẽ mọi thứ sẽ thay đổi và thế giới sẽ nhận ra rằng những mẫu xe tốt nhất của họ vẫn không thể vượt qua Mistral? Một lần nữa, có thể tất cả những mô hình đó đều thực sự giỏi ở tất cả các nhiệm vụ khác mà tôi không yêu cầu.

Tôi sẵn sàng giúp đỡ và tôi sẵn sàng được chứng minh là sai

Tôi có dữ liệu, tôi có quy trình và tôi có nhu cầu vô tận về việc tạo các bản tóm tắt ghi chú có dấu đầu dòng. Nếu bạn muốn làm việc với tôi, xin vui lòng liên hệ.


Bạn cũng có thể xem GitHub của tôi, kiểm tra dữ liệu và dùng thử phiên bản thử nghiệm này của riêng bạn. Tôi rất vui khi được chứng minh là sai.