Pitanje "Može li mašina misliti?" potreslo je računalnu znanost otkako je Alan Turing prvi put predložio svoj poznat test 1950. godine.Sada, 75 godina kasnije, kako se umjetna inteligencija sve više sofisticira i integrira u naš svakodnevni život, to pitanje nikada nije bilo hitnije - ili teže odgovoriti. HackerNoon lansiran U doba kada AI sustavi mogu pisati kod, generirati umjetnost, dijagnosticirati bolesti i sudjelovati u razgovorima koji se osjećaju zapanjujuće ljudski, trebamo bolje načine da razumijemo što ti sustavi mogu i ne mogu učiniti. TuringTest.tehnologija TuringTest.tehnologija Zašto graditi ovo? Svaki tjedan donosi nove modele, nove referentne vrijednosti i nove tvrdnje o umjetnoj općenitoj inteligenciji.Ali usred sve ove buke, kritično pitanje često ostaje bez odgovora: Kako zapravo znamo da li ti sustavi rade? Tradicionalni referentni pokazatelji mjere uske sposobnosti – točnost na pitanjima s višestrukim izborom, performanse na izazovima kodiranja ili stope uspjeha u određenim zadatcima.Te mjerice su važne, ali ne govore cijelu priču.Ne mogu uhvatiti može li AI doista razumjeti što radi, može li razmisliti o novim situacijama ili prikazuje li nešto slično istinskoj inteligenciji. Za razliku od statičkih referentnih točaka, Turingovi testovi su dinamične, interaktivne evaluacije koje ispituju granice strojne inteligencije.Ne pitaju samo "Može li AI dovršiti ovaj zadatak?" nego "Može li to učiniti na način koji se ne može razlikovati od - ili usporediti s - čovjeka?" Problem je u tome što su ti testovi raspršeni kroz istraživačke radove, GitHub repozitorije, korporativne blogove i akademske konferencije. Neki su strogi i dobro dizajnirani. , rješava ovaj problem stvaranjem centraliziranog, pretraživačkog kataloga testova procjene AI-a iz cijelog Interneta. Izgrađen je i organiziran od strane HackerNoon. Direktorij je dio HackerNoonove neprekidne predanosti činjenici da tehnologija bude transparentnija, pristupačnija i razumljiva. TuringTest.tehnologija TuringTest.tehnologija Što čini učinkovit Turingov test? Dok kuriramo ovaj direktorij, tražimo evaluacije koje zadovoljavaju nekoliko kriterija: Transparentnost: Metodologija ispitivanja trebala bi biti jasna i ponovljiva. procjene crne kutije koje se ne mogu neovisno provjeriti ne pomažu nikome. Strogi: Test bi zapravo trebao izazvati AI sustave na smislen način, a ne samo mjeriti njihovu sposobnost usklađivanja uzoraka s podacima o obuci. Relevantnost: Može li ova AI napisati koherentnu pravnu analizu? može li debugirati složen kod? može li objašnjavati znanstvene koncepte 10-godišnjem čovjeku? Pravednost: Test bi trebao uzeti u obzir različite vrste inteligencije i izbjegavati kulturne ili jezične predrasude koje favoriziraju određene sustave nad drugima. Evolucija: Najbolji testovi se prilagođavaju poboljšanju sposobnosti AI-a. Ono što je izazvalo GPT-2 moglo bi biti trivijalno za GPT-4, pa ocjenjivački okviri trebaju držati tempo. Procjena stanja AI-a do 2025. godine Imamo moćnije AI sustave nego ikad prije, ali naša sposobnost da ih smisleno procijenimo nije se zadržala. Razmislite o zbunjenosti oko pojmova kao što su "umjetna opća inteligencija" ili "razumijevanje."Različiti istraživači koriste ove riječi kako bi značili različite stvari. "AGI" jednog tima je "uži AI s dobrim PR-om" drugog tima. Mi moramo znati ne samo da ti sustavi rade neko vrijeme, ali kako oni ne uspiju, gdje su njihove slijepe točke, i kakve su njihove ograničenja izgledaju pod pritiskom. Kada istraživači mogu graditi na međusobnom radu - kada mogu usporediti rezultate u različitim testovima i različitim sustavima - brže napredujemo prema razumijevanju što AI može i ne može učiniti. Od istraživačkih laboratorija do stvarnog svijeta Ne radi se samo o znanstvenicima, radi se o: TuringTest.tehnologija Razvijatelji koji trebaju procijeniti je li određeni AI sustav prikladan za njihov slučaj korištenja. trebate li Claude ili GPT-4 integrirati u svoju aplikaciju? Što je s alternativama otvorenog koda? Poslovni čelnici pokušavaju odvojiti AI hype od AI stvarnosti.Kada dobavljač tvrdi da njihov sustav postiže "učinkovitost na ljudskoj razini", što to zapravo znači? Novinari i analitičari koji pokrivaju industriju umjetne inteligencije, umjesto da se oslanjaju isključivo na priopćenja za medije tvrtke, mogu ispitati stvarne podatke o evaluaciji i vidjeti kako različiti sustavi djeluju na standardiziranim testovima. Učenici trebaju razumjeti ne samo kako AI sustavi rade, već kako mi mjerimo njihove mogućnosti i ograničenja. Političari se bore s regulacijom umjetne inteligencije.Ne možete regulirati ono što ne možete mjeriti.Bolji okviri evaluacije vode boljoj politici. Put naprijed Pozivamo istraživače, programere i organizacije da podnesu svoje okvire evaluacije i Turingove testove u direktorij. Mi se kladimo da postoji vrijednost u stvaranju centraliziranog repozitorija za metodologije evaluacije AI. Mi se kladimo da će transparentnost i standardizacija dovesti do boljih AI sustava i više informiranog javnog govora o tome što ti sustavi mogu učiniti. Također se kladimo da će nam tehnološka zajednica - HackerNoonova 45.000+ pisaca i 4 milijuna mjesečnih čitatelja - pomoći da izgradimo nešto vrijedno. Originalni Turingov test bio je jednostavan: može li mašina uvjeriti čovjeka da je čovjek? Ali to nikada nije bilo pravo pitanje.Pitanje je uvijek bilo više nijanse: Što znači da mašina misli?Kako možemo reći razliku između prave inteligencije i sofisticiranog usklađivanja uzoraka?I kako ti sustavi postaju sposobniji, kako osiguramo da služe ljudskim potrebama, a ne samo da oponašaju ljudsko ponašanje? Ali s TuringTest.tech-om stvaramo prostor u kojem industrija može surađivati kako bi ih pronašla. Uključite se Posjetite Ako ste razvili okvir za procjenu umjetne inteligencije, proveli Turingov test ili znate za uvjerljive testove koji bi trebali biti uključeni, želimo čuti od vas. TuringTest.tehnologija TuringTest.tehnologija Budućnost AI-a ne ovisi samo o izgradnji pametnijih sustava, već o razumijevanju sustava koje smo već izgradili.