paint-brush
Занадта шмат штучнага інтэлекту з занадта вялікай колькасцю жудасных назваў: як выбраць мадэль штучнага інтэлектупа@lee.aao
824 чытанні
824 чытанні

Занадта шмат штучнага інтэлекту з занадта вялікай колькасцю жудасных назваў: як выбраць мадэль штучнага інтэлекту

па Leo Khomenko4m2025/03/25
Read on Terminal Reader

Занадта доўга; Чытаць

Лабараторыі штучнага інтэлекту завалілі нас такой колькасцю новых мадэляў, што я з цяжкасцю паспяваю. Новыя мадэлі цудоўныя, але з іх назвамі - поўны беспарадак. Вы нават не можаце адрозніць мадэлі па тэстах. Простае "гэта лепшае, ім карыстаюцца ўсе" зараз не працуе.
featured image - Занадта шмат штучнага інтэлекту з занадта вялікай колькасцю жудасных назваў: як выбраць мадэль штучнага інтэлекту
Leo Khomenko HackerNoon profile picture

З пачатку 2025 года лабараторыі штучнага інтэлекту завалілі нас такой колькасцю новых мадэляў, што я з цяжкасцю паспяваю.


Але тэндэнцыі кажуць, што нікога гэта не хвалюе! Ёсць толькі ChatGPT:


Як так?


Новыя мадэлі цудоўныя, але з іх назвамі - поўны беспарадак. Акрамя таго, вы нават не можаце адрозніць мадэлі па тэстах. Простае «гэта лепшае, ім карыстаюцца ўсе» зараз не працуе.


Карацей кажучы, на рынку ёсць шмат сапраўды фантастычных мадэляў штучнага інтэлекту, але мала хто імі карыстаецца.


І гэта крыўдна!


Я паспрабую разабрацца ў хаосе наймення, растлумачу крызіс эталонных паказчыкаў і падзялюся парадамі, як выбраць правільную мадэль для вашых патрэб.

Занадта шмат мадэляў, жудасныя імёны

Дарыё Амадэі даўно жартаваў, што мы можам стварыць AGI, перш чым навучымся выразна называць нашы мадэлі. Google традыцыйна вядзе гульню ў блытаніну:



Па праўдзе кажучы, у гэтым ёсць пэўны сэнс. Кожная «базавая» мадэль цяпер мае мноства абнаўленняў. Яны не заўсёды дастаткова наватарскія, каб апраўдаць кожнае абнаўленне як новую версію. Вось адкуль усе гэтыя прыстаўкі.


Каб спрасціць рэчы, я склаў табліцу тыпаў мадэляў з буйных лабараторый, выдаліўшы ўсе непатрэбныя дэталі.



Такім чынам, што гэта за мадэлі?


  1. Ёсць велізарныя, магутныя базавыя мадэлі. Яны ўражваюць, але павольныя і дарагія ў маштабе.


  2. Вось чаму мы вынайшлі дыстыляцыю : вазьміце базавую мадэль, навучыце больш кампактную мадэль на яе адказах, і вы атрымаеце прыкладна тыя ж магчымасці, толькі хутчэй і танней.


  3. Гэта асабліва важна для мадэляў разважанняў . Лепшыя выканаўцы цяпер ідуць за шматэтапнымі ланцужкамі разважанняў - плануюць рашэнне, выконваюць і правяраюць вынік. Эфектыўны, але дарагі.


Існуюць таксама спецыялізаваныя мадэлі: для пошуку, супертанныя для простых задач або мадэлі для пэўных сфер, такіх як медыцына і права. Плюс асобная група для малюнкаў, відэа і аўдыё. Я не ўключыў усё гэта, каб пазбегнуць блытаніны. Я таксама наўмысна ігнараваў некаторыя іншыя мадэлі і лабараторыі, каб зрабіць усё як мага прасцей.


Часам дадатковыя дэталі толькі пагаршаюць сітуацыю.

Зараз усе мадэлі ў асноўным роўныя

Стала цяжка вызначыць відавочнага пераможцу. Андрэй Карпаты нядаўна назваў гэта «ацэначным крызісам».


Незразумела, на якія паказчыкі цяпер глядзець. MMLU састарэў, а SWE-Bench занадта вузкі. Chatbot Arena настолькі папулярны, што ў лабараторыях навучыліся яго «ўзломваць».



У цяперашні час існуе некалькі спосабаў ацэнкі мадэляў:


  1. Вузкія арыенціры вымяраюць вельмі спецыфічныя навыкі, такія як кадаванне Python або ўзровень галюцынацый. Але мадэлі становяцца разумнейшымі і спраўляюцца з большай колькасцю задач, таму вы больш не можаце вымераць іх узровень толькі адным паказчыкам.


  1. Комплексныя тэсты спрабуюць ахапіць некалькі вымярэнняў з мноствам паказчыкаў. Аднак параўнанне ўсіх гэтых балаў хутка становіцца хаатычным. Звярніце ўвагу, што людзі спрабуюць раскласці на множнікі гэтыя складаныя арыенціры. Пяць-дзесяць адначасова! Адна мадэль перамагае тут, другая там — жадаем поспеху ў разуменні гэтага.

LifeBench мае 3 паказчыкі ў кожнай катэгорыі. І гэта толькі адзін эталон з дзесяткаў.


  1. Арэна, дзе людзі ўсляпую параўноўваюць мадэльныя адказы на аснове асабістых пераваг. Мадэлі атрымліваюць рэйтынг ELO, як шахматысты. Перамагайце часцей, атрымлівайце больш высокі ELO. Але гэта было выдатна, пакуль мадэлі не наблізіліся адна да адной.


Розніца ў 35 балаў азначае, што мадэль лепш толькі ў 55% выпадкаў.


Як і ў шахматах, гулец з меншым ELO па-ранейшаму мае добрыя шанцы на перамогу. Нават пры разрыве ў 100 балаў «горшая» мадэль усё роўна пераўзыходзіць у траціне выпадкаў.


І зноў жа — адны задачы лепш вырашае адна мадэль, іншыя — іншая. Выберыце мадэль вышэй у спісе, і адзін з вашых 10 запытаў можа быць лепшым. Які з іх і наколькі лепш?


Хто ведае.

Такім чынам, як вы выбіраеце?

За адсутнасцю лепшых варыянтаў Karpathy прапануе спадзявацца на праверку атмасферы.


Праверце мадэлі самастойна і паглядзіце, якая з іх вам падыходзіць. Вядома, лёгка падмануць сябе.


Гэта суб'ектыўна і схільна да прадузятасці, але гэта практычна.


Вось мая асабістая парада:


  1. Калі задача новая - адкрыйце некалькі ўкладак з рознымі мадэлямі і параўнайце вынікі. Давярайце сваёй інтуіцыі, якая мадэль патрабуе менш налад або правак.
  2. Калі задача больш звыклая, выкарыстоўвайце толькі сваю лепшую мадэль.
  3. Забудзьцеся пра пагоню за эталоннымі лічбамі. Засяродзьцеся на UX, які вам падабаецца, і аддайце перавагу падпісцы, за якую вы ўжо гатовыя плаціць.
  4. Калі вы ўсё яшчэ хочаце лічбы, паспрабуйце https://livebench.ai/#/ . Стваральнікі сцвярджаюць, што гэта выпраўляе агульныя праблемы параўнальнага аналізу, такія як узлом, састарэласць, вузкасць і суб'ектыўнасць.
  5. Для стваральнікаў прадукту вось выдатнае кіраўніцтва ад HuggingFace аб тым, як наладзіць свой уласны тэст. https://github.com/huggingface/evaluation-guidebook/


Між тым, калі вы чакалі знака, каб паспрабаваць нешта іншае, чым ChatGPT, вось ён:


https://claude.ai/

https://gemini.google.com/

https://grok.com/

https://chat.deepseek.com/

httрs://сhаt.openai.сom


Далей я распавяду пра асноўныя моманты кожнай мадэлі і абагулю вынікі праверкі атмасферы іншых людзей.


Калі вам гэта спадабалася і вы не хочаце прапусціць наступны артыкул, падпішыцеся!



Яшчэ наперадзе!!