앞으로 LLM(Large Language Models)의 제작자, 이를 평가하는 도구 또는 순위를 매기고 리더보드를 만드는 개인/조직에 대한 모욕이 아니라는 점을 먼저 말씀드리고 싶습니다. 이 생태계에 상대적으로 새로 온 사람으로서 저는 여러분의 작업에 빚을 지고 있으며, 그렇지 않으면 힘든 작업을 수행할 수 있는 방법이 쉽게 만들어졌다는 사실에 감사드립니다. 확실히, 내 다음 게시물은 평가가 어떻게 작동하는지 좀 더 자세히 알아보기 위해 모델 순위를 매기는 다양한 방법을 탐구하는 것이어야 합니다. 소개 이전 기사 읽지 않았다면 용어를 정의하고 다양한 관행과 신념에 도달한 수단을 설명했기 때문에 검토하는 것이 도움이 될 수 있습니다. 도서 요약을 위한 PrivateGPT: 구성 변수 테스트 및 순위 지정을 해당 기사를 읽어보셨다면 제가 책을 요약할 목적으로 LLM(대형 언어 모델)을 사용하여 몇 달 동안 프로세스를 개선해 왔다는 사실을 아실 것입니다. 프롬프트 템플릿, 시스템 프롬프트, 사용자 프롬프트 등을 포함한 일련의 매개변수를 측정했습니다. 모델 순위의 예비 라운드와 구성 변수 사용에 대한 데이터 수집을 통해 최고 품질의 글머리 기호 메모를 생성하는 것을 발견했으며 가장 좋은 항목을 검색해 왔습니다. 그 이후로 내 12GB 3060에 딱 맞습니다. mistral-7b-instruct-v0.2.Q8_0.gguf가 이 순위에서는 이러한 지식 기반을 사용하여 다양한 주요 7b 모델을 평가합니다. 이번에는 사용하고 있습니다. 사용하기가 더 간단하고 성능도 매우 좋기 때문입니다. Ollama를 나는 다양한 순위표에서 보다 상위에 랭크되었거나 최고의 7b라고 자칭했기 때문에 다음 모델을 선택했습니다. Mistral 7b Instruct 0.2 (괄호 안은 테스트된 채팅 템플릿) openchat-3.5-0106.Q8_0.gguf (오픈챗) snorkel-mistral-pairrm-dpo.Q8_0.gguf (미스트랄) 돌고래-2.6-mistral-7b.Q8_0.gguf (미스트랄) supermario-v2.Q8_0.gguf (ChatML) openhermes-2.5-mistral-7b.Q8_0.gguf (ChatML) openhermes-2.5-neural-chat-7b-v3-1-7b.Q8_0.gguf (ChatML) openhermes-2.5-neural-chat-v3-3-slerp.Q8_0.gguf (ChatML) WestLake-7B-v2-Q8_0.gguf(ChatML, 미스트랄) MBX-7B-v3-DPO.q8_0.gguf(ChatML, 미스트랄) neutralbeagle14-7b.q8_0.gguf(ChatML, 미스트랄) omnibeagle-7b-q8_0.gguf(ChatML, 미스트랄) 원하는 결과를 얻지 못한 일부 모델의 경우 대부분 Mistral에서 파생되었기 때문에 ChatML을 선호하는 입력으로 나열하더라도 Mistral 템플릿을 테스트했습니다. 제목과 용어가 굵게 표시된 글머리 기호 메모 제목, 용어, 주요 개념을 굵은 글씨로 포함하여 다음 텍스트를 요약하는 포괄적인 글머리 기호 메모를 작성하세요.\n\nTEXT: GPT3.5는 내 개인적인 기준은 아니지만 업계 표준이므로 대부분의 7b Q8 GGUF보다 더 나은 결과를 얻을 것으로 기대합니다. 굵게 표시된 용어에는 주요 개념이 없지만 제목은 굵게 표시 있으며 전체적으로 단락 블록에 비해 읽기가 매우 쉽습니다. 또한 굵게 표시된 용어를 찾을 수 있는지 여부는 입력 텍스트 자체에 따라 달라질 수 있으며, 여기서 글머리 기호 요약에는 굵게 표시된 제목이 포함되어야 합니다. 되어 항상 나는 메모를 생성하는 모델을 찾고 있습니다: 더 빠르게 더 자세하게, 더 적은 양의 필러로 더 긴 컨텍스트로 비슷한 세부 정보를 제공합니다(현재 이러한 기능은 약 2.5k 컨텍스트로 확장됨). 나는 이것이 모든 Instruct 모델의 기본 작업이라고 생각합니다. 이상적으로 개발자는 이러한 유형의 이상적인 글머리 기호를 생성하도록 모델을 교육할 것입니다. 나는 이미 학습된 일부 책과 함께 엄청난 양의 데이터를 가지고 있지만 책에 대한 이러한 노트를 생성하는 것은 상대적으로 간단합니다(텍스트를 의미론적으로 각각 2.5k 토큰 아래의 부분으로 손으로 청크한 사용). Mistral 7b Instruct 0.2 300~600페이지 분량의 책이라면 일반적으로 전처리와 후처리를 포함해 하루 만에 완료할 수 있습니다. 결국, 나는 그들의 능력을 향상시키기 위해 약간의 미세 조정을 실험해 볼 수도 있습니다. 순위 이전에는 각 순위에 점수를 주려고 노력했습니다. 숫자로 점수를 매기는 것은 정말 어렵습니다. 앞으로는 LLM을 통해 요약 순위를 매길 수 있도록 노력할 것입니다. 이번에는 모델별로 수치적인 점수를 매기지 않고, 부족한 점과 마음에 드는 점만 댓글로 남겨보도록 하겠습니다. 나는 각각 1900-3000개 토큰의 6개 청크로 나누어진 단일 책 장에서 다음 모델을 각각 테스트했습니다. 각각의 대표적인 예제 출력을 공유하겠습니다. 전체 데이터는 언제나처럼 GitHub에서 사용할 수 있습니다. 미스트랄 7b 지시 0.2 Q8 GGUF 제 생각에는 이길 수 있는 7b를 가지고 있다는 것을 지금쯤 깨닫게 되리라 확신합니다. 미스트랄이 모델파일 , 이 기능은 지정된 구성을 사용하여 LLM 사본을 저장하는 데 사용됩니다. 이를 통해 항상 매개변수를 다루느라 애쓰지 않고도 다양한 모델을 쉽게 시연할 수 있습니다. Ollama에는 모델 위치, 템플릿 및 매개변수를 모델 파일에 입력하는 기능이 있으며 채팅 템플릿을 제외한 모든 모델에 대해 매개변수를 동일하게 유지했지만, 제가 템플릿을 어떻게 사용하는지 정확하게 보실 수 있도록 각 모델에 사용하고 있는 템플릿을 공유해 드리겠습니다. 다르게 구성된 Modelfile을 사용하여 다음 모델에서 더 나은 결과를 얻을 수 있는지 알려주십시오. TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 미스트랄 7b 지침 v0.2 결과 Mistral이 매번 완벽하게 해낸다고는 말할 수 없지만, 대부분의 경우 이것이 내 결과입니다. 그리고 GPT3.5 응답을 되돌아보면 이것이 더 낫다는 데 동의할 수도 있습니다. 오픈챗 3.5 0106 Q8 GGUF 나는 에 놀랐습니다. 여기에 최고의 7b 모델이 있다고 주장하고 적어도 Mistral 7b와 경쟁할 수 있는 모델이 있습니다. OpenChat의 0106 모델파일 TEMPLATE """ GPT4 Correct User: {{ .Prompt }}<|end_of_turn|>GPT4 Correct Assistant: """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenChat 3.5 0106 결과 이 작은 샘플에서는 굵은 제목을 4/6번 사용했습니다. 나중에 더 자세한 분석을 사용하여 다른 최고 경쟁자와 함께 검토하겠습니다. 스노클 미스트랄 페어름 DPO Q8 GGUF 분명히, 저는 Snorkel이 Mistral 7b Instruct 0.2에서 훈련을 받았기 때문에 편향되어 있습니다. 그럼에도 불구하고 저는 조심스럽게 낙관하고 있으며 에서 더 많은 릴리스가 출시되기를 기대합니다. Snorkel.ai 모델파일 TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 스노클 미스트랄 페어름 DPO 결과 이러한 요약 중 4/6은 정확하지만 일부는 요약의 일부로 인라인으로 굵은 글씨로 표시하는 대신 핵심 용어 및 제목의 매우 긴 목록과 같은 불규칙성을 포함합니다. 돌핀 2.6 미스트랄 7B Q8 GGUF 여기 잘 알려진 있습니다. 또 다른 미스트랄 파생물이 모델파일 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 돌핀 2.6 미스트랄 7B 결과 이것은 Mistral 7b Instruct 0.2와 비슷한 또 다른 괜찮은 모델입니다. 6개 요약 중 3개는 적절한 형식과 굵은 제목을 제공했고, 다른 하나는 굵은체 없이 좋은 형식을 사용했지만 2/6은 전반적으로 잘못된 형식이었습니다. 거의 오픈에르메스 2.5 미스트랄-7B Q8 GGUF 순위표와 관련되지 않은 불일치 채팅의 "사람들" 사이에서 꽤 인기가 있습니다. 나는 그것이 이 순위에서 선두가 되기를 원하지만, 그것은 단지 그렇지 않습니다. 이 모델은 모델파일 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 미스트랄 결과 3/6 결과는 적절한 구조를 생성하지만 굵은 텍스트는 없습니다. 그 중 하나는 구조와 굵은 텍스트를 모두 가지고 있습니다. 나머지 두 개는 더 큰 텍스트 블록과 빈약한 구조를 가지고 있었습니다. OpenHermes 2.5 신경망 채팅 7b v3.1 7B Q8 GGUF 또한 더 나은 결과를 얻을 수 있는지 확인하기 위해 OpenHermes 2.5 Mistral의 몇 가지 상위 사용해 보았습니다. 불행히도 그렇지 않았습니다. 파생 제품을 모델파일 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 신경망 채팅 7b v3.1 결과 이들 결과 중 어느 것도 바람직하지 않았습니다. OpenHermes 2.5 신경채팅 v3.3 Slerp Q8 GGUF 그들이 무엇을 하든, 이 원본보다 개선되지 않았습니다. 파생물은 모델파일 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 신경 채팅 v3.3 Slerp 결과 새 버전이 나올 때마다 상황이 점점 더 악화되고 있습니다! 슈퍼 마리오 V2 Q8 나는 마리오에게 많은 것을 기대하지 않았지만 약간의 가능성을 보여줍니다. 한편 V3와 V4를 사용할 수 있지만 아직 해당 GGUF를 찾지 못했습니다. 모델파일 TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 슈퍼 마리오 V2 결과 첫 번째 결과는 믿을 수 없을 정도로 좋았습니다. 그러나 다음의 각 요약은 원하는 패턴에서 벗어났습니다. 나는 최신 릴리스의 GGUF를 찾아볼 것입니다. 여기서 볼 수 있듯이 초기에 굵게 표시된 제목이 있는 단락 블록이 있습니다. 실제로 내가 요청한 것은 아닙니다. 명예로운 언급 (ChatML) - 이것은 실제로 괜찮은 형식을 생성하지만 굵은 텍스트는 생성하지 않습니다. omnibeagle-7b (ChatML, Mistral) - mistral 템플릿과 더 잘 작동합니다. "괜찮아" 결과가 나왔지만 내가 원하는 대로 프롬프트 템플릿에 대해 너무 많은 혼란이 있었습니다. neutralbeagle14-7b (ChatML) - 더 나쁜 것도 본 적이 있습니다 WestLake-7B-v2 (ChatML) - 형식에 일관성이 없습니다. MBX-7B-v3-DPO 결론 더 좋은 소식을 공유하고 싶습니다. 제가 이상적인 헤드라인 불행히도 그렇지 않습니다. 은 작성할 때 고품질의 결과를 생성하는 선도적인 모델이 풍부하고 그 중에서 선택하기가 너무 어렵다는 것입니다. 포괄적인 글머리 기호 요약을 아마도 전체 형태에서는 Mistral 0.2보다 성능이 뛰어나지만 GGUF 형식에서만 뒤처지고 있을까요? 나는 우리의 기존 평가 중 어느 것도 이러한 유형의 출력을 목표로 하지 않을 가능성이 높다고 생각하지만, 이는 모든 주요 7b gguf 모델이 관리할 수 있어야 하는 작업이라고 확실히 주장하고 싶습니다. 고려해야 할 또 다른 점은 Mistral 7b Instruct v0.2가 Mixtral 이후 곧 엄청난 팡파르 속에서 나왔다는 것입니다. 나는 그 릴리스가 레이더 아래로 미끄러졌다고 생각합니다. 실제로 제가 살펴본 "선도적인" 모델 중 다수는 0.1 Mistral을 기반으로 했습니다. 아마도 상황이 바뀔 것이고, 세계는 그들의 최고의 모델이 여전히 미스트랄을 능가할 수 없다는 것을 깨닫게 될 것입니다. 그렇다면 다시 말하지만, 그 모든 모델은 제가 요구하지 않는 다른 모든 작업에 정말 능숙할 수도 있습니다. 나는 기꺼이 돕고자 하며, 내가 틀렸다는 것을 증명할 용의도 있습니다. 데이터가 있고 파이프라인이 있으며 글머리 기호 요약을 작성해야 하는 필요성이 끝없이 존재합니다. 저와 함께 일하고 싶으시면 연락주세요. 또한 내 GitHub를 확인하고, 데이터를 확인하고, 이 실험을 자신만의 버전으로 시도해 볼 수도 있습니다. 나는 틀렸다는 것이 증명되어 기쁘다.