Вперед Позвольте мне начать с того, что я не хочу обижать создателей больших языковых моделей (LLM), инструментов для их оценки или отдельных лиц/организаций, которые оценивают их и создают таблицы лидеров. Как относительный новичок в этой экосистеме, я в долгу за вашу работу и благодарен за то, что мне стало проще выполнять задачи, которые в противном случае были бы трудоемкими. Очевидно, что мой следующий пост должен быть посвящен изучению различных методов ранжирования моделей, чтобы получить немного больше подробностей о том, как работают оценки. Введение Если вы не читали мою предыдущую статью возможно, вам будет полезно просмотреть ее, поскольку я определил термины и объяснил средства, с помощью которых я пришел к различным практикам и убеждениям. PrivateGPT для обобщения книг: тестирование и ранжирование переменных конфигурации, Если вы читали эту статью, то знаете, что в течение нескольких месяцев я совершенствовал свои процессы, используя модели большого языка (LLM) с целью обобщения книг. Я измерил ряд параметров, включая шаблоны подсказок, системные подсказки, подсказки пользователя и т. д. В результате предварительного ранжирования моделей и сбора данных об использовании переменных конфигурации я обнаружил, что создает маркированные заметки высочайшего качества, и начал искать вариант, который бы превзошел его. с тех пор это подходит для моего 3060 объемом 12 ГБ. файл mistral-7b-instruct-v0.2.Q8_0.gguf Для составления этого рейтинга я использую эту базу знаний для оценки различных ведущих моделей 7b. На этот раз я использую , так как считаю его более простым в использовании и достаточно производительным. Ollama Я выбрал следующие модели, потому что обнаружил, что они имеют рейтинг выше в различных таблицах лидеров или были провозглашены лучшими 7b. Mistral 7b Instruct 0.2 (шаблоны чатов, проверенные в скобках) openchat-3.5-0106.Q8_0.gguf (OpenChat) трубка-мистраль-pairrm-dpo.Q8_0.gguf (Мистраль) дельфин-2.6-мистраль-7b.Q8_0.gguf (Мистраль) supermario-v2.Q8_0.gguf (ChatML) openhermes-2.5-mistral-7b.Q8_0.gguf (ChatML) openhermes-2.5-neural-chat-7b-v3-1-7b.Q8_0.gguf (ChatML) openhermes-2.5-neural-chat-v3-3-slerp.Q8_0.gguf (ChatML) WestLake-7B-v2-Q8_0.gguf (ChatML, Mistral) MBX-7B-v3-DPO.q8_0.gguf (ChatML, Mistral) Neuralbeagle14-7b.q8_0.gguf (ChatML, Mistral) omnibeagle-7b-q8_0.gguf (ChatML, Mistral) Для некоторых моделей, где я не получил желаемых результатов, поскольку они в основном созданы на основе Mistral, я протестировал шаблон Mistral, хотя они указывают ChatML в качестве предпочтительного входного параметра. Примечания к маркированным пунктам с заголовками и терминами, выделенными жирным шрифтом Напишите подробные маркированные примечания, обобщающие следующий текст, выделив заголовки, термины и ключевые понятия жирным шрифтом.\n\nТЕКСТ: Хотя GPT3.5 не является моей личной базой, это своего рода отраслевой стандарт, и я ожидаю, что он даст лучшие результаты, чем большинство GGUF 7b Q8. Хотя ключевые понятия терминов не выделены жирным шрифтом, заголовки жирным шрифтом, и в целом их довольно легко читать по сравнению с блоками абзацев. Кроме того, то, найдем ли мы термины, выделенные жирным шрифтом, может зависеть от самого входного текста, где краткое изложение пунктов должно включать заголовки, выделенные жирным шрифтом. выделены всегда Я ищу модели, которые производят заметки: Быстрее больше деталей, меньше наполнителя со сравнимой детализацией и более длинным контекстом (в настоящее время эти возможности расширяются до 2,5 тыс. контекстов) Я считаю это фундаментальной задачей для любой модели Instruct. В идеале разработчики обучат свои модели генерированию таких идеальных маркированных заметок. У меня есть тонны данных, некоторые книги уже обучены, но создать эти заметки для книги относительно просто (используя с текстом, семантически разбитым вручную на части размером менее 2,5 тыс. токенов каждая). Mistral 7b Instruct 0.2 Если это книга на 300–600 страниц, то ее обычно можно сделать за один день, включая предварительную и постобработку. В конце концов, я мог бы поэкспериментировать с некоторой тонкой настройкой, чтобы попытаться улучшить их возможности самостоятельно. Рейтинги Раньше я пытался дать каждому рейтингу оценку. Очень сложно дать числовую оценку. В будущем, я думаю, я постараюсь получить степень магистра права для ранжирования резюме. На этот раз я просто оставлю комментарий о том, чего мне не хватает и что мне нравится, не давая числовой оценки каждой модели. Я тестировал каждую из следующих моделей на одной главе книги, разделенной на 6 частей по 1900-3000 жетонов каждая. Я поделюсь репрезентативным примером результатов каждого из них, а полные данные, как всегда, будут доступны на GitHub. Мистраль 7б Инструкт 0.2 Q8 ГГУФ Я уверен, вы уже понимаете, что, на мой взгляд, нужно победить 7b. Мистралю Файл модели , позволяющая вводить местоположение модели, шаблон и параметры в файл модели, который он использует для сохранения копии вашего LLM с использованием указанной вами конфигурации. Это позволяет легко демонстрировать различные модели без необходимости постоянно возиться с параметрами. В Ollama есть функция Я сохранил параметры одинаковыми для всех моделей, кроме шаблона чата, но поделюсь с вами шаблоном, который использую для каждой, чтобы вы могли точно увидеть, как я его использую. Вы можете сообщить мне, получу ли я лучшие результаты от следующих моделей, используя файл модели с другой конфигурацией. TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Mistral 7b Instruct v0.2 Результат Не скажу, что Мистраль каждый раз делает это идеально, но чаще всего это мой результат. И если вы вернетесь к ответу GPT3.5, вы, возможно, согласитесь, что это лучше. OpenChat 3.5 0106 Q8 GGUF Я был приятно удивлен . Вот модель, которая претендует на звание лучшей модели 7б и, по крайней мере, конкурирует с Мистралем 7б. 0106 OpenChat Файл модели TEMPLATE """ GPT4 Correct User: {{ .Prompt }}<|end_of_turn|>GPT4 Correct Assistant: """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenChat 3.5 0106 Результат В этой небольшой выборке заголовки были выделены жирным шрифтом 4/6 раз. Позже я рассмотрю его вместе с другими главными претендентами, используя более подробный анализ. Шноркель Mistral Pairrm DPO Q8 GGUF Очевидно, я здесь предвзят, поскольку Шноркель обучался на Mistral 7b Instruct 0.2. Несмотря на это, я настроен осторожно и оптимистично и с нетерпением жду новых релизов от . Snorkel.ai Файл модели TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Шноркель Mistral Pairrm DPO Результат 4/6 из этих резюме точны, но другие содержат неточности, такие как очень длинные списки ключевых терминов и заголовков вместо того, чтобы просто выделять их жирным шрифтом как часть резюме. Дельфин 2.6 Мистраль 7Б Q8 ГГУФ Вот , пользующаяся большим уважением. еще одна производная мистраля Файл модели TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Дельфин 2.6 Мистраль 7Б Результат Это еще одна достойная модель, не уступающая Mistral 7b Instruct 0.2. Три из шести резюме имели правильный формат и жирные заголовки, еще одно имело хороший формат без жирного шрифта, но 2/6 были в плохом формате. почти OpenHermes 2.5 Мистраль-7Б Q8 ГГУФ довольно популярна, как в таблицах лидеров, так и среди «народа» в несвязанных дискорд-чатах. Я хочу, чтобы он был лидером в этом рейтинге, но это не так. Эта модель Файл модели TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 Мистраль Результат 3/6 результатов дают правильную структуру, но не жирный текст. Один из них имеет как структуру, так и жирный текст. Два других имели более крупные блоки текста и плохую структуру. OpenHermes 2.5 Нейронный чат 7b v3.1 7B Q8 GGUF Я также попробовал несколько высокопоставленных OpenHermes 2.5 Mistral, чтобы посмотреть, смогу ли я добиться лучших результатов. К сожалению, это было не так. производных Файл модели TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 Neural Chat 7b v3.1 Результат Ни один из этих результатов не был желательным. OpenHermes 2.5 Neural-Chat v3.3 Slerp Q8 GGUF Что бы они ни делали, эти не улучшали оригинал. производные Файл модели TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 нейронный чат v3.3 Результат Slerp С каждой новой версией становится только хуже! Супер Марио V2 Q8 Я не ожидал многого от Марио, но он подает некоторые надежды. Между тем, доступны версии V3 и V4, но я пока не нашел для них GGUF. Файл модели TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Результат Супер Марио V2 Первый результат оказался обманчиво хорошим. Однако каждое из следующих резюме отклонялось от желаемой модели. Я буду искать GGUF новых выпусков. Здесь вы можете видеть, что у нас есть блоки абзацев с начальным заголовком, выделенным жирным шрифтом. Не совсем то, что я просил. Почетные упоминания (ChatML) — на самом деле он создает приличный формат, но без жирного шрифта. omnibeagle-7b (ChatML, Mistral) — лучше работает с шаблоном Mistral. Результат «ОК», но на мой вкус слишком много путаницы вокруг шаблонов подсказок. Neuralbeagle14-7b (ChatML) — я видел хуже WestLake-7B-v2 (ChatML) — нет единообразия формата. MBX-7B-v3-DPO Заключение Мне бы хотелось поделиться лучшими новостями. Мой идеальный заголовок заключается в том, что К сожалению, это не так. существует множество ведущих моделей, которые обеспечивают качественный результат при создании и мне очень сложно выбрать среди них. подробных маркированных заметок, Может быть, они превосходят Мистраль 0.2 в полном виде, но отстают только в формате GGUF? Я думаю, что вполне вероятно, что ни один из наших существующих тестов не предназначен для такого типа вывода, но я определенно утверждаю, что это задача, с которой должна справиться любая ведущая модель 7b gguf. Еще следует учитывать, что Mistral 7b Instruct v0.2 вышел вскоре после Mixtral, среди шумной помпы. Я думаю, что этот релиз ускользнул от внимания. Фактически, многие из «ведущих» моделей, которые я смотрел, основаны на 0,1 Mistral. Может быть, что-то изменится, и мир поймет, что их лучшие модели по-прежнему не могут превзойти Мистрали? Опять же, может быть, все эти модели действительно хороши во всех других задачах, о которых я не прошу. Я готов помочь, и я готов оказаться неправым У меня есть данные, есть конвейер, и мне бесконечно нужно создавать маркированные сводки заметок. Если вы хотите работать со мной, пожалуйста, свяжитесь с нами. Вы также можете посетить мой GitHub, проверить данные и опробовать свою версию этого эксперимента. Я рад, что оказался не прав.