paint-brush
Ollama ile Kapsamlı Madde İşaretli Notlar için GGUF Sıralaması 7b: Eve Git Model Sıralaması, Sarhoşsun!ile@cognitivetech
1,552 okumalar
1,552 okumalar

Ollama ile Kapsamlı Madde İşaretli Notlar için GGUF Sıralaması 7b: Eve Git Model Sıralaması, Sarhoşsun!

ile CognitiveTech8m2024/02/11
Read on Terminal Reader

Çok uzun; Okumak

Mistral 7b Instruct 0.2'yi gerçekten yenen bir model aranıyor. Skor tablolarındaki sıralamanın aksine hiçbir şey bulamadım. Yöntemlerimi ve sonuçlarımı gözden geçirin, yanıldığımı kanıtlayın!
featured image - Ollama ile Kapsamlı Madde İşaretli Notlar için GGUF Sıralaması 7b: Eve Git Model Sıralaması, Sarhoşsun!
CognitiveTech HackerNoon profile picture
0-item
1-item
2-item
3-item

İleri

Büyük Dil Modelleri'nin (LLM) yaratıcılarına, bunları değerlendirme araçlarına veya onları derecelendiren ve liderlik tabloları oluşturan bireylere/kuruluşlara karşı bir suç kast etmediğimi söyleyerek başlayayım. Bu ekosisteme göreceli olarak yeni katılan biri olarak, çalışmalarınıza borçluyum ve aksi takdirde zahmetli olacak görevleri başarmamı kolaylaştırdığı için minnettarım.


Açıkçası, bir sonraki yazımda değerlendirmelerin nasıl çalıştığına dair biraz daha ayrıntılı bilgi edinmek için model sıralamasına yönelik çeşitli yöntemleri araştırmak gerekiyor.

giriiş

Kitap Özetlemesi için PrivateGPT: Yapılandırma Değişkenlerini Test Etme ve Sıralama adlı önceki makalemi okumadıysanız, terimleri tanımladığım ve çeşitli uygulamalara ve inançlara ulaşmamı sağlayan araçları açıkladığım için incelemenizi faydalı bulabilirsiniz.


Bu makaleyi okuduysanız, birkaç aydır kitapları özetlemek amacıyla Büyük Dil Modelleri (LLM) kullanarak süreçlerimi iyileştirdiğimi bileceksiniz. İstem şablonları, sistem istemleri, kullanıcı istemleri vb. dahil olmak üzere bir dizi parametreyi ölçtüm.


Model sıralamalarının ve konfigürasyon değişkenlerinin kullanımına ilişkin verilerin toplanmasının bu ön turundan,mistral-7b-instruct-v0.2.Q8_0.gguf'un en yüksek kalitede madde işaretli notlar ürettiğini buldum ve bunu en iyi şekilde karşılayacak birini arıyordum. o zamandan beri 12GB 3060'ıma uyuyor.

Sana iki kere cesaret ediyorum!! Bu görev için bana 7b'den daha iyi bir Mistral performansı gösterin.


Bu sıralamada, çeşitli önde gelen 7b modellerini değerlendirmek amacıyla bu bilgi tabanını kullanıyorum. Kullanımı daha basit ve oldukça performanslı bulduğum için bu sefer Ollama kullanıyorum.


Aşağıdaki modelleri seçtim çünkü bunların çeşitli lider tablolarında Mistral 7b Instruct 0.2'nin üzerinde yer aldığını veya kendilerinin en iyi 7b olarak ilan edildiğini gördüm. (parantez içinde test edilen sohbet şablonları)


  • openchat-3.5-0106.Q8_0.gguf (OpenChat)

  • şnorkel-mistral-çiftirm-dpo.Q8_0.gguf (Mistral)

  • dolphin-2.6-mistral-7b.Q8_0.gguf (Mistral)

  • supermario-v2.Q8_0.gguf (ChatML)

  • openhermes-2.5-mistral-7b.Q8_0.gguf (ChatML)

  • openhermes-2.5-nöral-sohbet-7b-v3-1-7b.Q8_0.gguf (ChatML)

  • openhermes-2.5-nöral-sohbet-v3-3-slerp.Q8_0.gguf (ChatML)

  • WestLake-7B-v2-Q8_0.gguf (ChatML, Mistral)

  • MBX-7B-v3-DPO.q8_0.gguf (ChatML, Mistral)

  • neuralbeagle14-7b.q8_0.gguf (ChatML, Mistral)

  • omnibeagle-7b-q8_0.gguf (ChatML, Mistral)


Çoğunlukla Mistral'dan türetildiği için istenen sonuçları alamadığım bazı modellerde, ChatML'i tercih ettikleri giriş olarak listeleseler bile Mistral şablonunu test ettim.

Başlıkları ve Terimleri Kalın Yazıyla Yazan Madde İşareti Notları

Aşağıdaki metni özetleyen, başlıklar, terimler ve temel kavramlarla birlikte kalın harflerle yazılmış kapsamlı madde işaretli notlar yazın.\n\nMETİN:


GPT3.5 benim kişisel temel çizgim olmasa da bir endüstri standardıdır ve çoğu 7b Q8 GGUF'dan daha iyi sonuçlar üretmesini beklerim.


GPT3.5'ten örnek bir yanıt

Kalın harflerle yazılan terimlerin anahtar kavramları olmasa da, başlıklar kalın harflerle yazılmıştır ve genel olarak paragraf bloklarıyla karşılaştırıldığında okunması oldukça kolaydır. Ayrıca, terimleri kalın harflerle bulup bulmamamız giriş metninin kendisine bağlı olabilir; madde işareti özetinin her zaman kalın harflerle yazılmış başlıklar içermesi gerekir.

Nota Üreten Modeller Arıyorum:

  • Daha hızlı
  • daha fazla ayrıntı, daha az dolgu maddesi
  • daha uzun bağlamla benzer ayrıntılara sahip (şu anda bu yetenekler 2,5k bağlam civarında genişletiliyor)


Bunu herhangi bir Instruct modeli için temel bir görev olarak görüyorum. İdeal olarak, geliştiriciler modellerini bu tür ideal madde işaretli notları oluşturacak şekilde eğiteceklerdir. Halihazırda eğitilmiş bazı kitaplarla birlikte tonlarca veriye sahibim, ancak bir kitap için bu notları oluşturmak nispeten basittir (Metin anlamsal olarak elle, her biri 2,5 bin jetonun altındaki parçalara bölünmüş şekilde Mistral 7b Instruct 0.2'yi kullanmak).


300-600 sayfalık bir kitapsa genellikle ön ve son işlemler de dahil olmak üzere tek bir günde yapılabilir.


Sonunda kapasitelerini kendim geliştirmek amacıyla bazı ince ayarlar deneyebilirim.

Sıralamalar

Daha önce her sıralamaya bir puan vermeye çalışıyordum. Sayısal bir puan vermek gerçekten zor. Gelecekte, özetleri sıralayacak bir yüksek lisans derecesi almaya çalışacağımı düşünüyorum. Bu sefer her modele sayısal bir puan vermeden sadece nerede yetersiz kaldığımı ve neleri beğendiğimi yorum olarak bırakacağım.


Aşağıdaki modellerin her birini, her biri 1900-3000 jetondan oluşan 6 parçaya bölünmüş tek bir kitap bölümünde test ettim. Her birinden temsili bir örnek çıktı paylaşacağım ve tüm veriler her zaman olduğu gibi GitHub'da mevcut olacak.

Mistral 7b Talimatı 0.2 Q8 GGUF

Eminim şu ana kadar bana göre Mistral'ın yenilmesi gereken 7b'ye sahip olduğunu anlamışsınızdır.

Model dosyası

Ollama, belirlediğiniz konfigürasyonu kullanarak LLM'nizin bir kopyasını kaydetmek için model konumunu, şablonu ve parametreleri bir Model dosyasına girdiğiniz bir özelliğe sahiptir . Bu, her zaman parametrelerle uğraşmanıza gerek kalmadan çeşitli modellerin demosunu yapmayı kolaylaştırır.


Sohbet şablonu dışında tüm modeller için parametreleri aynı tuttum ancak her biri için kullandığım şablonu sizlerle paylaşacağım, böylece şablonu nasıl kullandığımı tam olarak görebilirsiniz. Farklı yapılandırılmış bir Model dosyası kullanarak aşağıdaki modellerden daha iyi sonuçlar alıp alamayacağımı bana bildirebilirsiniz.

 TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Mistral 7b Talimatı v0.2 Sonucu

Mistral'in bunu her seferinde mükemmel bir şekilde yaptığını söylemeyeceğim, ancak çoğu zaman benim sonucum budur. Geriye dönüp GPT3.5 yanıtına baktığınızda bunun daha iyi olduğunu kabul edebilirsiniz.

7b KEÇİ mi?

OpenChat 3.5 0106 Q8 GGUF

OpenChat'in 0106'sı beni hoş bir şekilde şaşırttı. İşte en iyi 7b modeline sahip olduğunu iddia eden ve en azından Mistral 7b ile rekabet edebilecek bir model.

Model dosyası

 TEMPLATE """ GPT4 Correct User: {{ .Prompt }}<|end_of_turn|>GPT4 Correct Assistant: """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

OpenChat 3.5 0106 Sonuç

Bu küçük örnekte 4/6 kez kalın başlıklar verildi. Daha sonra, daha ayrıntılı bir analiz kullanarak diğer üst düzey yarışmacılarla birlikte inceleyeceğim.

Gördüğüm hoşuma gitti ama daha derin bir incelemeye ihtiyacı var

Şnorkel Mistral Çifti DPO Q8 GGUF

Açıkçası ben önyargılıyım çünkü Snorkel Mistral 7b Instruct 0.2'de eğitilmişti. Ne olursa olsun, ihtiyatlı bir iyimserim ve Snorkel.ai'den daha fazla yayın gelmesini sabırsızlıkla bekliyorum.

Model dosyası

 TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Şnorkel Mistral Pairrm DPO Sonucu

Bu özetlerin 4/6'sı yerinde, ancak diğerleri özetin bir parçası olarak satır içi kalın harflerle yazmak yerine çok uzun anahtar terim ve başlık listeleri gibi düzensizlikler içeriyor.

Bu ırkın karanlık atı.

Yunus 2.6 Mistral 7B Q8 GGUF

İşte iyi kabul edilen başka bir mistral türevi .

Model dosyası

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Dolphin 2.6 Mistral 7B Sonucu

Bu neredeyse Mistral 7b Instruct 0.2 kadar iyi olan başka bir iyi model. 6 özetten üçü uygun formatta ve kalın başlıklar veriyordu, bir diğeri kalın olmayan iyi bir formattaydı, ancak 2/6'sı genel olarak kötü formdaydı.

Kötü biçim

OpenHermes 2.5 Mistral-7B Q8 GGUF

Bu model hem skor tablolarında hem de bağlantısız anlaşmazlık sohbetlerindeki "insanlar" arasında oldukça popülerdir. Bu sıralamada lider olmasını istiyorum ama öyle değil.

Model dosyası

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

OpenHermes 2.5 Mistral Sonucu

3/6 sonuçlar uygun yapıyı üretir ancak kalın metin oluşturmaz. Bunlardan biri hem yapıya hem de kalın yazıya sahip. Diğer ikisinde daha büyük metin blokları ve zayıf yapı vardı.

Benim için "orada" değil.

OpenHermes 2.5 Sinirsel Sohbet 7b v3.1 7B Q8 GGUF

Ayrıca daha iyi sonuçlar alıp alamayacağımı görmek için OpenHermes 2.5 Mistral'in birkaç yüksek dereceli türevini de denedim. Maalesef konu bu değildi.

Model dosyası

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

OpenHermes 2.5 Sinirsel Sohbet 7b v3.1 Sonuç

Bu sonuçların hiçbiri arzu edilen bir sonuç değildi.

Sana 20 dolar ödesem bunu yapar mısın?

OpenHermes 2.5 Neural-Chat v3.3 Slerp Q8 GGUF

Ne yaptılarsa yapsınlar, bu türevler orijinaline göre bir gelişme göstermedi.

Model dosyası

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

OpenHermes 2.5 sinirsel sohbet v3.3 Slerp Sonucu

Her yeni versiyonda durum daha da kötüye gidiyor!

Önde gelen dil modellerinin çok üzücü bir değerlendiricisiyim.

Süper Mario V2 Q8

Mario'dan pek bir şey beklemiyordum ama biraz umut vaat ediyor. Bu arada V3 ve V4 mevcut ancak bunlar için henüz GGUF'u bulamadım.

Model dosyası

 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000

Süper Mario V2 Sonucu

İlk sonucu aldatıcı derecede iyiydi. Ancak aşağıdaki özetlerin her biri istenen kalıptan saptı. Yeni sürümlerin GGUF'unu takip edeceğim. Burada, başlangıçta kalın harflerle yazılmış paragraf bloklarının olduğunu görebilirsiniz. Gerçekten istediğim şey bu değildi.

İstemediğim şeye örnek.

Mansiyonlar

  • omnibeagle-7b (ChatML) - Bu aslında düzgün bir format üretiyor ancak kalın metin üretmiyor.


  • neuralbeagle14-7b (ChatML, Mistral) - Mistral şablonuyla daha iyi çalışır. Sonuçlar "Tamam" ama benim beğenime göre bilgi istemi şablonları konusunda çok fazla kafa karışıklığı var.



Çözüm

Keşke paylaşacak daha iyi haberlerim olsaydı. İdeal başlığım , kapsamlı madde işaretli not özetleri oluştururken kaliteli çıktı üreten çok sayıda önde gelen modelin olduğu ve benim için bunlar arasında seçim yapmanın çok zor olduğudur. Ne yazık ki, bu durum böyle değil.


Belki tam formda Mistral 0.2'den daha iyi performans gösteriyorlar ama sadece GGUF formatında geride kalıyorlar? Mevcut değerlendirmelerimizin hiçbirinin bu tür bir çıktıyı hedeflememesinin oldukça muhtemel olduğunu düşünüyorum, ancak bunun önde gelen herhangi bir 7b gguf modelinin yönetebilmesi gereken bir görev olduğunu kesinlikle savunuyorum.


Göz önünde bulundurulması gereken bir diğer husus da Mistral 7b Instruct v0.2'nin Mixtral'dan kısa bir süre sonra, bir sürü tantananın ortasında çıkmış olmasıdır. Bu yayının gözden kaçtığını düşünüyorum. Aslında baktığım "önde gelen" modellerin çoğu 0.1 Mistral'ı temel alıyor.


Belki işler değişecek ve dünya en iyi modellerinin hâlâ Mistral'ı geçemeyeceğini anlayacak? Öte yandan, belki de tüm bu modeller benim istemediğim diğer tüm görevlerde gerçekten iyidir.

Yardım Etmeye Hazırım ve Yanıldığımı Kanıtlamaya Hazırım

Verilerim var, bir boru hattım var ve madde işaretli not özetleri oluşturmaya sonsuz bir ihtiyacım var. Benimle çalışmak isterseniz lütfen iletişime geçin.


Ayrıca GitHub'uma göz atabilir, verileri kontrol edebilir ve bu deneyin kendi versiyonunu deneyebilirsiniz. Yanıldığım kanıtlandığı için mutluyum.