На секои неколку месеци, некој објавува дека „АИ ќе нè замени сите нас“. Бидејќи работам тесно со него, постојано го добивам тоа прашање. Но, погледнете поблиску: AI не го заменува Тоа го заменува И постои голема разлика. people tasks LLMs се папрати со авионски мотори Големи јазични модели како ChatGPT, Claude и DeepSeek се изградени за да го предвидат следниот токен толку убедливо што се чувствува како некој да го напишал, и тие се брилијантни во тоа. Да се биде добар во Тоа не е исто како . sounding right being right Овие модели учат од мешавина од книги, статии, кодови, Википедија, форуми, постови и избришани веб-страници. Некои од нив се рецензирани. Повеќето од нив не се. Нема армија на уредници ја проверуваат вистината за секој ред. Податоците се загаткани со контрадикторности, предрасуди, застарени факти и искрени измислици. Размислете за тоа како учење медицина од секоја медицинска учебница што некогаш е напишана... и секој здравствен форум, секој хороскопски блог и неколку рецепт сајтови за добра мерка. Кои модели ја одразуваат реалноста.Тоа само добива многу добро во имитирање на јазикот на консензусот. know Видов од прва рака зошто тоа е важно. Quality Over Quantity Квалитет над квантитет Во 2016 година работев на проект за машинско учење за да откријам замрзнат малициозен софтвер. Мајкрософт имаше јавен сет на податоци Kaggle (Microsoft Malware Classification Challenge) за токму овој проблем. Мојот супервизор ми советуваше да го користам или да генерирам синтетички податоци. Во текот на неколку месеци, секој ден преземав малициозен софтвер, извршував примероци во песочна кутија, реверзно ги инженерирав бинарите и сам ги етикетирав.На крајот, имав сет на податоци од околу 120.000 малициозни софтвер и бенигни примероци, што е далеку помало од Microsoft, но беше изградено рачно. Резултатите зборуваа гласно: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Microsoft Kaggle сет на податоци 53 проценти Мојот сопствен рачно изграден сет на податоци 80% од Мојот сет на податоци + синтетички податоци 64 проценти Истиот алгоритам, истата цевка, само промената на податоците. Поентата: најдобрите перформанси дојдоа од рачни, експертски курирани податоци. Јавните податоци содржат аномалии; синтетичките податоци воведоа свои изопачувања. Тоа е спротивното на начинот на кој LLMs се обучуваат: тие скрапуваат сè и се обидуваат да учат од тоа, аномалии и сè. Една халуцинација од ChatGPT, објавена на социјалните медиуми, се споделува, ретуира, препакува и завршува со враќање во следниот тренинг сет. . digital inbreeding Интернетот веќе беше полн со нискоквалитетни содржини пред да дојдат LLMs: лажни вести, фиктивни "како-тос", скршен код, спам текст. Во моментов, претежно автоматизирани филтри, некои човечки црвени тимови и внатрешни системи за оценување.Не постои еквивалент на оценување на колегите по скала, без лиценцирање на одборот, без одговорност за лоши податоци. Од каде доаѓаат „новите“ податоци? Што природно доведува до очигледното прашање: кога јавниот интернет веќе е преземен, загаден и се повеќе синтетички? where do we find fresh, high-quality training data Првата идеја што речиси секој ја има е „Ќе тренираме само на нашите кориснички податоци. Во 2023 година, јас се обидов токму тоа со мојот gamedev стартување Мислевме дека бета-тестовите ќе бидат совршен материјал за обука: вистинскиот формат, вистинските интеракции, директно релевантни за нашиот домен. Fortune Folly За фаќањето ? Еден тестер произведуваше повеќе податоци од петнаесет нормални корисници заедно, но не затоа што граделе побогати светови. Тие немилосрдно се обидуваа да го насочат системот кон сексуална содржина, повици за бомби и расистички одговори. оставени без надзор, дека податоците ќе имаат Тоа би научило да го имитира напаѓачот, а не заедницата што се обидуваме да ја служиме. Отровот Ова е токму онаа Без активен човечки преглед и курација, "реалните кориснички податоци" можат да го кодираат најлошото, а не најдоброто, на човечкиот внес, а вашиот модел верно ќе го репродуцира. data-poisoning problem Тајната Takeaway ChatGPT е само првиот чекор на патот кон “замена”. Тоа изгледа како експерт во сè, но во реалноста, тоа е специјалист за природен јазик. Неговата иднина е како за разговор помеѓу вас и подлабоки, специфични за домен модели обучени на внимателно курирани сетови на податоци. Дури и тие модели, сепак, сè уште ќе треба постојано ажурирање, валидација и човечка експертиза зад сцените. interface Вистинската „закана за замена“ ќе дојде само ако успееме да изградиме целосна : скрапери кои собираат податоци во реално време, модели на рецензенти кои го верификуваат и го проверуваат фактот, и експертни модели кои го ингестираат ова исчистено знаење. fabric of machine learning systems Но, не мислам дека сме никаде во близина на тоа. Во моментов, веќе гориме огромни количини на енергија само за да генерираме реченици слични на човекот. Скалирањето до нивото потребно за реално време, целосно прегледано експертно знаење ќе бара наредби од големина повеќе компјутерска моќ и енергија отколку што реално можеме да обезбедиме. И дури и ако инфраструктурата постоеше, некој сè уште треба да ги изгради експертските податоци.Видов ветувачки обиди во медицината, но секој од нив се потпираше на тимови на специјалисти кои работеа безброј часови за градење, чистење и валидирање на нивните податоци. Со други зборови: AI may replace tasks, but it’s nowhere close to replacing people.