Beyond the Leaderboard: The Fallacy of Standardized Benchmarks and the Rise of Self-Centered AI A vezetői táblán túl: a szabványosított referenciaértékek hiánya és az önközpontú AI növekedése A mesterséges intelligencia gyors fejlődését a fejlődésének számszerűsítésére tervezett mutatók ugyanolyan gyors elterjedése kísérte. A vezető táblák és a szabványosított referenciamutatók lettek a de facto pályaudvarok, amelyeken a nagy nyelvi modellek (LLM-ek) képességeit mérik, ünneplik és finanszírozzák. Mindazonáltal ez az értékelési keret egy bizonytalan alapra épül, egy olyanra, amely egyre inkább a rendszerszintű kudarc jeleit mutatja. A jelenlegi paradigma a Goodhart-törvénnyel, a gazdasági elvet illusztrálja, amely kimondja, hogy „amikor egy intézkedés célpontgá válik, az már nem jó intézkedés”.1 A vezető táblákra való versenyben az AI Ez a jelentés azt állítja, hogy az AI-fejlesztés uralkodó modellje – melyet a hibás, játékos referenciamutatók által értékelett, nagyméretű, általános célú modellek központosított, vállalati vezetésű létrehozása jellemez – egy fejlesztési kul-de-sac. Ez a modell a „know-it-all oracles” monokultúráját támogatja, amelyek egyre inkább elválnak az egyes felhasználók és a szakosodott iparágak gyakorlati, árnyalatú igényeitől. Helyére egy új paradigma merül fel: egy decentralizált, felhasználóvezérelt és magasan személyre szabott ügynök. Ez a modell, amelyet önközpontú intelligenciának (SCI) neveznek, alapvető változást jelent mind a technológia, mind a fil A központi konfliktus, amely az AI jövőjét animálja, tehát nem pusztán a technikai specifikációkról szól, hanem az intelligencia szabályozásáról, céljáról és meghatározásáról. Ez a jelentés a „benchmark ipari komplexumot” lebontja, feltárva mechanikai, filozófiai és rendszerszintű hibáit. Ezután erőteljes, figyelmeztető párhuzamokat von le más iparágak – a pszichometria, a gyógyszeripar és az autóbiztonság – történetéből, ahol a szabványosított mutatókra való túlzott támaszkodás előítélethez, manipulációhoz és katasztrofális mérési kudarcokhoz vezetett. E háttérrel szemben a jelentés részletesen bemutatja az SCI paradigmát, bemutatva az OΨΗ (Opsie Az alábbiakban összefoglaljuk a mesterséges intelligencia jövőjére vonatkozó két versengő elképzelés közötti alapvető különbségeket.Ez a keretrendszer fogalmi alapot biztosít a következő részletes elemzéshez, tisztázva a jelentés által támogatott paradigmaváltás szerepét. Feature Old Paradigm: Benchmark-Driven Generalist AI New Paradigm: User-Driven Self-Centered Intelligence (SCI) Core Philosophy Achieve superhuman performance on standardized tests. Act as a universal, oracle-like knowledge source. Fulfill specific, user-defined goals. Act as a personalized, collaborative partner. Primary Metric Leaderboard scores (MMLU, HELM, etc.).5 Real-world task completion rate, user satisfaction, goal achievement.1 Development Model Centralized, corporate-led development of massive, general-purpose models (LLMs). Decentralized, user-led training and customization of smaller, specialized agents (SLMs). Data & Training Trained on vast, undifferentiated internet scrapes. Controlled by the corporation. Trained on user-specific data, documents, and context. Controlled by the individual. Ethical Framework Top-down, corporate-defined safety filters and alignment. Opaque. Bottom-up, user-defined ethics, values, and operational guardrails. Transparent. Economic Model Subscription-based access to a centralized API. High computational cost. Local deployment, potential for autonomous economic activity (Web3). Low computational cost. Exemplar ChatGPT, Gemini, Claude ΌΨΗ (Opsie) 6 Alapvető filozófia Érje el az emberfeletti teljesítményt szabványosított tesztekkel, és járjon el egyetemes, oracle-szerű tudásforrásként. Teljesítsen konkrét, felhasználó által meghatározott célokat, és személyre szabott, együttműködő partnerként járjon el. Elsődleges metrikus Leaderboard pontszámok (MMLU, HELM stb.) 5 Valós feladatok teljesítési aránya, felhasználói elégedettség, célok elérése.1 Fejlesztési modell Központosított, vállalati vezetésű fejlesztés tömeges, általános célú modellek (LLM). Decentralizált, felhasználóvezérelt képzés és a kisebb, szakosodott ügynökök (SLM) testreszabása. Data & képzés Képzett hatalmas, megkülönböztetés nélküli internetes kaparók. Felhasználó-specifikus adatokra, dokumentumokra és kontextusokra képzett, az egyén által irányított. Etikai keret Felülről lefelé, vállalat által definiált biztonsági szűrők és kiegyenlítés. Alulról felfelé, a felhasználó által meghatározott etika, értékek és működési biztonsági rétegek. Economic Model Előfizetési alapú hozzáférés egy központosított API-hoz. Helyi telepítés, önálló gazdasági tevékenység lehetősége (Web3). Alacsony számítási költség. példakép ChatGPT, Gemini és Claude ÓΨΗ (Opsie) 6 I. rész: A benchmark ipari komplexum felbomlása A jelenlegi mesterséges intelligencia-értékelési rendszer, amelyet egy maroknyi széles körben idézett referenciamutató ural, nem pusztán tökéletlen; szerkezetileg helytelen. kudarcai három egymással összefüggő területre oszthatók: a tesztek mechanikai kudarcai, a fogalmi kudarcok, amit mérni szándékoznak, és az általuk létrehozott ösztönzők rendszerszintű kudarcai. A kudarc mechanikája: túlfelszerelés és szennyezés A legfontosabb szinten a mesterséges intelligencia referenciamutatói megbízható mérőeszközökként hiányoznak a technikai problémák miatt, amelyek egyre inkább endemikusak a területen. Adatszennyezés: Az elsődleges és egyre elkerülhetetlenebb probléma az adatszennyezés. A legszélesebb körben használt referenciamutatók, mint például az MMLU és a BIG-bench, több évesek.8 A tartalmuk – kérdések, válaszok és felhívások – széles körben megvitatásra kerültek és felosztásra kerültek az interneten. Mivel a vállalatok a következő generációs LLM-eket a nyilvános internet egyre szélesebb körében képezik, ezek a referenciamutató-adatkészletek elkerülhetetlenül a képzési szervezetbe kerülnek.8 Ennek következménye, hogy a modellek nem tanulnak meg megoldani a referenciamutatókban bemutatott problémákat; valójában a válasz kulcsát emlékeztetik.1 Amikor egy modell „tesztezi” a kép A túlfelszerelés és a játék: A túlfelszerelés problémája szorosan kapcsolódik a szennyeződéshez.A gépi tanulásban a túlfelszerelés akkor fordul elő, amikor egy modell túl jól megtanulja a képzési adatokat, beleértve a zajt és az irreleváns részleteket is, olyan mértékben, hogy már nem tudja új, láthatatlan adatokra általánosítani tudását.11 A „leaderboard verseny” intenzív verseny arra ösztönzi a fejlesztőket, hogy finomhangolják modelljeiket, hogy kifejezetten kiemelkedjenek a benchmark feladatokban – ez a gyakorlat egyenértékű a „tesztelésre való tanítással”.1 A modelleket úgy optimalizálják, hogy felismerjék és kihasználják a konkrét mintákat, furcsaságokat és a benchmark Spurious Correlations: A modellek hajlamosak arra, hogy a képzési adatokban olyan felületes kapcsolatokat tanuljanak meg, amelyek nem igazak a valós világban.15 Például egy olyan modell, akit a mellkas röntgensugaraiból az összeomlott tüdő (pneumothorax) kimutatására képeztek, megtanulhatja a mellkasi cső jelenlétét a diagnózishoz társítani. after a diagnosis is made, the model is learning a correlation related to the medical workflow captured in the dataset, not the underlying pathology. Such a model would achieve a high score on a benchmark derived from that dataset but would be catastrophically wrong when presented with an X-ray of an undiagnosed patient without a chest tube.15 Similarly, a model trained to distinguish camels from cows might learn that camels are found on sand and cows on grass, failing to recognize a cow in a desert environment. These examples reveal a critical flaw: benchmarks can reward models for learning superficial statistical tricks rather than deep, causal understanding, a failure that is particularly dangerous in high-stakes applications like medicine. Kezelés Az érvényesség kérdése: a rossz dolog mérése A technikai mechanikán túl a benchmark-paradigma mélyebb kritikája az érvénytelenségében rejlik.A tesztek, még ha tökéletesen végrehajtják is, gyakran mérik a rossz tulajdonságokat, rossz kérdéseket tesznek fel, és figyelmen kívül hagyják a valós teljesítmény legkritikusabb aspektusait. A konstrukció érvényességének hiánya: A pszichometrikában a „konstrukció érvényessége” arra utal, hogy egy teszt milyen jól méri az absztrakt koncepciót, vagy konstruálja, úgy tervezték, hogy értékelje.9 Az AI referenciamutatókat gyakran olyan széles körű konstrukciók mércéjeként mutatják be, mint az „érvelés”, „megértés” vagy „általános intelligencia”. A kritikusok azonban azt állítják, hogy alapvetően hiányzik ez az érvényesség. Amint a washingtoni egyetem professzora, Emily M. Bender megjegyzi, ezek a referenciamutatók alkotói nem állapították meg, hogy tesztjeik valójában mérik a megértést.9 A bárkísérletet elhaladó modell nem mutatja a jogi elvek való A termelési valóság figyelmen kívül hagyása: A referenciamutatók léteznek egy egészséges, elméleti világban, amelyben nincsenek a valós alkalmazásokat meghatározó korlátozások.1 Nem mérik a késleltetést, de egy 15 másodperces válaszidő használhatatlanná teheti a többszereplős rendszert. Nem mérik a költségeket, de a modellek közötti 10x-es árkülönbség elpusztíthatja a termék egységgazdaságosságát. Nem veszik figyelembe az infrastruktúra korlátait, a memória korlátait, vagy a hallucinációk elkerülésének abszolút szükségességét olyan kritikus területeken, mint az egészségügyi ellátás.1 A termelésben valóban fontos mutatók – a feladatok befejezésének aránya, az elégedetlen felhasználók Kulturális és kontextus-vakodás: A legszélesebb körben használt referenciaértékek – az MLU, a BIG-bench, a HELM – túlnyomórészt a Nyugaton készülnek, és az angol nyelvre és a kapcsolódó kulturális kontextusokra összpontosítanak.5 Amikor ezeket a nyugati-központú referenciaértékeket használják más nyelvek és kultúrák, például az indiai nyelvek számára épített és képzett modellek értékelésére, pontatlan és elfogult eredményeket hoznak létre. Egy AI-alapító Indiában megjegyezte, hogy a helyi modelleknek meg kell kezelniük az angol nyelv helyi nyelvekkel való többszörös hangsúlyát és súlyos keverését, egy olyan árnyalatot, amelyet a globális referenciaértékek teljesen hiányoznak.5 Ez a nem nyugati ökoszisztém Az ösztönzők rendszere: Hype, Capital és Control A „benchmark ipari komplexum” nem pusztán egy tesztgyűjtemény, hanem a hype, a tőkebefektetés és a vállalati pozícionálás önmegerősítő ciklusa, amely aktívan elriasztja a valódi, diszruptív innovációt a hibás mutatók fokozatos nyereségéért. A Leaderboard Race: A nyilvános vezetői táblák, mint például a Hugging Face által szervezett vezetői táblák, olyan versenyképes dinamikát hoznak létre, amely mindenekelőtt a legmodernebb (SOTA) teljesítményre ösztönzi az üldözést.5 Ez a verseny torzított tájat teremt, ahol a vezetői pozíciókat túlfelszereléssel és szelektív jelentéstételsel lehet előállítani, a valódi tudományos jelzéseket zajjal megfojtva.8 A SOTA törekvése félrevezeti a hatalmas erőforrások elosztását – milliárdok dollárt a számítástechnikában és az emberi tehetségben – az olyan mutatók optimalizálása felé, amelyek már nem mérnek semmit jelentőséggel.2 Ez olyan benchmarks gyors telítettségéhez vezetett, mint a SUPERGL Szelektív jelentés és összeesküvés: A versenyben a jó teljesítményre nehezedő nyomás ösztönzi a szelektív jelentéstételt, ahol a modellalkotók kiemelik a teljesítményt a kedvező feladatok alcsoportjain, hogy megteremtsék az átfogó képesség illúzióját.8 Ez megakadályozza a modell valódi erősségeinek és gyengeségeinek átfogó, tiszta szemmel történő megtekintését. Ezen túlmenően az összeesküvés lehetősége, akár szándékos, akár nem, az ökoszisztémán túlmutat. A benchmark-alkotók olyan teszteket tervezhetnek, amelyek véletlenül előnyben részesítik a konkrét modellarchitektúrákat vagy megközelítéseket, és a nagyvállalatok dominálása a vezető A bizalom eróziója: Végső soron ezek a gyakorlatok erodálják a kutatóközösség és a közvélemény bizalmát.8 A mutatók létrehozásának és megsemmisítésének állandó ciklusa – a GLUE-tól a SuperGLUE-ig az MMLU-ig – ahogyan mindegyik egymás után elavulttá válik, elősegíti a cinizmust.2 Ez olyan kultúrát is teremt, ahol minden olyan projekt, amely elkerüli a referenciaértékeket, azonnal gyanús.Az Opsie alkotója által kapott visszajelzés – hogy a referenciaértékek nélküli projekt nem lehet jó – közvetlen tünete ennek a törött rendszernek. Az AI-értékelést sújtó rendszerszintű kérdések nem újdonságok.Ezek más területeken hasonló kudarcok visszhangjai, ahol összetett valóságokat kényszerítettek a szabványosított mérés tetejére.Ezeknek a történelmi precedenseknek a megvizsgálásával jobban megérthetjük az AI referenciaérték-válság kiszámítható pályáját, és felismerhetjük a paradigmaváltás sürgős szükségességét. II. rész: A hibás metrikák visszhangjai – Ágazatközi elemzés Az AI-benchmarking válsága nem elszigetelt jelenség. Ez a legújabb fejezet a komplex, sokoldalú valóságok egyetlen, skálázható számra való csökkentésére irányuló kísérletek hosszú történetében – egy előítéletekkel, manipulációkkal és nem szándékolt következményekkel teli történelem. A pszichometria, a gyógyszeripar és az autóbiztonság szabványosított teszteléseinek jól dokumentált kudarcainak vizsgálata révén azonosíthatjuk a rendszerszintű hibák ismétlődő mintáját. Az elme tévedése: az IQ-tesztektől az AI vezetői táblákig A legközvetlenebb történelmi párhuzam a mesterséges intelligencia vezetői versenyével az intelligencia kvóta (IQ) tesztet körülvevő évszázados viták.Az IQ teszt pályája, a jól megtervezett diagnosztikai eszközöktől a hibás és gyakran káros társadalmi rétegződés eszközéig, mély figyelmeztető történetet kínál az AI közösség számára. Történelmi párhuzamok és eugenikus gyökerek: Az első intelligencia tesztet Alfred Binet fejlesztette ki 1905-ben a párizsi iskolarendszer kérésére, hogy azonosítsa azokat a gyermekeket, akik speciális oktatási segítségre szorulnak.16 Binet maga úgy vélte, hogy a teljesítményt a tanulás révén lehet javítani. Azonban, amikor a tesztet olyan pszichológusok hozták az Egyesült Államokba, mint Henry Goddard és Lewis Terman, a célját megfordították. Az eugenika mozgalom befolyásolta, újra fogalmazták meg az intelligenciát nem mint modellezhető képességet, hanem mint egyetlen, veleszületett és megváltoztathatatlan entitást – az emberi érték számszerűsíthető mértékét.16 Az IQ teszt Érvényesség és hatókör kritikája: Évtizedek óta a kritikusok azt állítják, hogy az IQ tesztek mélységes érvénytelenségtől szenvednek. Nagyon szűk körű kognitív készségeket mérnek – elsősorban analitikus és absztrakt érvelést – miközben teljesen figyelmen kívül hagyják az emberi intelligencia más kritikus dimenzióit, mint például a kreativitás, az érzelmi intelligencia, a szociális készségek, a motiváció és az erkölcs.21 A kognitív tudósok, mint Keith Stanovich kutatásai kimutatták, hogy a magas IQ pontszámok rossz előrejelzői a racionális gondolkodásnak és a jó ítéletnek valós helyzetekben.25 Az egyén kiemelkedhet az IQ-teszt absztrakt logikai rejtvényeiben Kulturális és társadalmi-gazdasági előítéletek: Az IQ-tesztek jelentős és tartós kritikája a bennük rejlő kulturális előítélet. Elsősorban a nyugati, középosztálybeli népességek által tervezett és szabványosított, a tesztekbe beágyazott tartalom, nyelv és értékek gyakran hátrányosan befolyásolják a különböző kulturális vagy társadalmi-gazdasági háttérrel rendelkező személyeket.27 Az alacsonyabb pontszám nem tükrözi az alacsonyabb intelligenciát, hanem inkább a teszt által feltételezett konkrét kulturális kontextus ismeretének hiányát.29 Ez közvetlen analógja a globális AI-referenciákban megfigyelt nyelvi és kulturális előítéleteknek, amelyek túlnyomórészt angolközpontúak, és nem tudják figyelembe ven A hatékonyság illúziója: tanulságok a gyógyszeripari adatokból A gyógyszeripar, amelyet hatalmas pénzügyi kockázatok és adatvezérelt jóváhagyási folyamatok szabályoznak, erőteljes analógiát nyújt arra vonatkozóan, hogy a mutatók miként manipulálhatók és torzíthatók, ha intenzív kereskedelmi nyomásnak vannak kitéve. A közzétételi előítélet és az adatok elnyomása: A bizonyítékokon alapuló orvostudomány sarokköve az összes rendelkezésre álló klinikai vizsgálati adat szisztematikus felülvizsgálata. mindazonáltal ezt az alapot az átfogó közzétételi előítélet veszélyezteti: a gyógyszer hatékonyságát (pozitív eredményeket) mutató tanulmányokat sokkal nagyobb valószínűséggel teszik közzé, mint azokat, amelyek azt mutatják, hogy hatástalan vagy káros (negatív eredmények).32 Az antidepresszánsokkal kapcsolatos tanulmányok szemináriuma megállapította, hogy az FDA által meghatározott pozitív eredményekkel rendelkező vizsgálatokat 12-szer nagyobb valószínűséggel teszik közzé következetes módon, mint a negatív eredményekkel rendelkező vizsgálatokat.36 Ez Adatkezelés és csalás: A nem közzététel passzív előítélete mögött az adatok aktív korrupciója áll.Egy erőteljes példa a Novartis és génterápiája, a Zolgensma, a világ legdrágább gyógyszere a dózisonként 2,1 millió dollár.37 Az FDA azzal vádolta a Novartis leányvállalatát, az AveXis-t, hogy a kábítószer iránti kérelmét a korai állatkísérletekből származó manipulált adatokkal nyújtotta be. Bár az FDA végül arra a következtetésre jutott, hogy a manipuláció nem változtatta meg a kábítószer kockázati-haszon profilját az emberek számára, az ügy egyértelmű példája annak, hogy egy vállalat, amelyet hatalmas pénzügyi ösztönzők motiválnak, megrontja a szabályozóknak benyújtott értékelési adatokat.41 Ez az eset jelentős hitelességet kölcsönöz annak az állításnak, hogy bármely nagy tőkeáttételű iparágban, beleértve az AI-t is, a referenciaértékek és az értékelési adatok potenciálja, hogy kereskedelmi előny érdekében „kiszivárogtassák” vagy manipulálják, nem marginális összeesküvés-elmélet, hanem megbízható és dokumentált kockázat. után A gyógyszeripar több milliárd dollárt költ a közvetlen fogyasztói (DTC) reklámra, gyakran statisztikákat és érzelmi vonzerőket használva a betegek olyan gyógyszerek iránti keresletének növelésére, amelyek csak marginálisan hatékonyak lehetnek, vagy megfizethetőbb alternatívákkal rendelkeznek.42 Ezeknek a hirdetéseknek a kockázatok és előnyök „igazságos egyensúlyát” kell bemutatniuk, de a vállalatok történelmileg hiányosságokat használtak a mellékhatások megvitatásának minimalizálására, miközben maximalizálták az előnyök érzelmi vonzerejét.44 A 2024-es felülvizsgálat megállapította, hogy míg a gyógyszerészeti közösségi média posztok 100%-a kiemeli a gyógyszer előnyeit, csak 33% emlí Az ellenőrzött baleset: csalás az autóbiztonsági minősítésekben Az autóipar által alkalmazott szabványosított biztonsági tesztek meggyőző fizikai analógiát nyújtanak a benchmark-vezérelt tervezés csapdáinak.A balesetvizsgálati laboratórium ellenőrzött, kiszámítható környezete rossz proxynek bizonyult a nyílt út kaotikus valóságához, és a gyártók egyértelmű képességet mutattak arra, hogy olyan járműveket tervezzenek, amelyek a teszten kiemelkednek anélkül, hogy szükségszerűen biztonságosabbak lennének a valós világban. "Teaching to the Test" in Engineering: The most infamous example of gaming a standardized test is the Volkswagen "Dieselgate" scandal.46 Beginning in 2008, Volkswagen intentionally programmed its diesel engines with "defeat devices"—software that could detect when the vehicle was undergoing a standardized emissions test.47 During the test, the software would activate the full emissions control systems, allowing the car to meet legal standards. However, under normal, real-world driving conditions, these systems were rendered inoperative, causing the vehicles to emit nitrogen oxides at levels up to 40 times the legal limit in the US.48 This was a deliberate, sophisticated, and fraudulent case of "teaching to the test." The vehicles were engineered not to be clean, but to Ez egy tökéletes fizikai analóg egy LLM-hez, amely finoman illeszkedik egy referenciamutató átadásához anélkül, hogy rendelkezne a referenciamutató által mérni kívánt alapvető képességekkel. Hasonló botrányok, amelyek hamisított vagy manipulált biztonsági és kibocsátási teszteket tartalmaznak, azóta elnyelték más nagy autógyártókat, köztük a Toyota, a Daihatsu, a Honda és a Mazda, ami egy széles körben elterjedt iparági kultúrát tár fel, amely a tesztelési teljesítményt a valós integritás fölé helyezi.49 Megjelenés A „Dummy”: Flawed Proxies korlátai: Az autóbiztonsági tesztelés központi eszköze a balesetvizsgálati dummy. Mindazonáltal ez a proxy egy emberi utas számára mélyen hibás. A szabályozási tesztelésben használt standard dummies évtizedek óta egy „átlagos méretű” amerikai férfi antropometriai adatain alapulnak.52 Ez a modell nem képviseli pontosan a nők fiziológiáját, akiknek különböző csontsűrűsége, izomtömege és gerincjelenete van, és ennek következtében nagyobb valószínűséggel súlyosan megsérülnek vagy meghalnak összehasonlítható balesetekben.53 Továbbá, a dummies nem képviselik az idősebb vagy nehezebb egyének növekvő népességét, és Real-World vs. Lab-Based Ratings: There is a significant and often misleading disconnect between the ratings produced in a controlled lab environment and safety outcomes in the real world.56 The US National Highway Traffic Safety Administration (NHTSA) 5-star rating system, for example, explicitly states that ratings can only be compared between vehicles of a similar weight and class.58 This means a 5-star rated subcompact car is not as safe as a 5-star rated full-size SUV in a real-world collision, yet the simplified star rating obscures this critical fact for many consumers. Real-world accident data often tells a different story than the lab tests; analysis of driver death rates per million registered vehicles reveals that vehicles with identical 5-star ratings can have vastly different real-world fatality rates.57 This demonstrates that optimizing for performance in a few highly specific, standardized crash scenarios does not guarantee robust safety in the unpredictable conditions of actual traffic. Similarly, a high score on an AI benchmark for coding does not guarantee that the model will be useful when grappling with a company's specific, complex, and idiosyncratic codebase.1 Az összetett valóság – az emberi intelligencia, a kábítószer-hatékonyság, a járműbiztonság – egyszerű, szabványosított mutatókra való csökkentése egy olyan rendszert hoz létre, amely érett az előítélethez, a játékhoz és a közvetlen csaláshoz.Az AI-referenciákkal kapcsolatos problémák nem újak; ezek az elavult, redukcionista értékelési filozófia alkalmazásának kiszámítható következményei egy összetett, adaptív technológiára. III. rész: Egy új paradigma – Az önközpontú intelligencia (SCI) megjelenése A benchmark-vezérelt paradigma dekonstrukciója konstruktív alternatívát igényel. Ha a vezetői táblák illúzió és a monolitikus, általános célú modellek hibás célok, mi az út előre? Ez az új paradigma, az önközpontú intelligencia (SCI) elhagyja az egyetlen, mindent tudó orakulum keresését a magasan specializált, mélyen személyre szabott és alapvetően együttműködő ügynökök ökoszisztémájának javára. Személyes A Generalist Oracles-től a speciális partnerekig Az AGI törekvése, amelyet implicit módon az egyre szélesebb referenciamutatók mérnek, hatalmas, számítástechnikai szempontból drága LLM-ek létrehozásához vezetett, amelyek az összes kereskedelem zsákmányai, de egyáltalán nem. Az SCI paradigma azt állítja, hogy az igazi hasznosság az ellenkező irányban van: specializáció. A szakosodás esete: Az AI jövője nem egyetlen, hatalmas agy, hanem a szakosodott ügynökök sokszínű hálózata, amelyek mindegyike kiemelkedik egy adott területen.60 Ez a megközelítés technikailag és gazdaságilag felülmúlja a kis nyelvi modellek (SLM-ek) erejét, amelyek több millió és néhány milliárd paramétert tartalmazó AI modellek, nem pedig a zászlóshajó LLM-ekben található több százmilliárd vagy trillió.63 Az SLM-ek előnyei számosak és mélyrehatóak: Hatékonyság és költséghatékonyság: Az SLM-ek jelentősen kevesebb számítási teljesítményt igényelnek a képzéshez és futtatáshoz, ami csökkenti a felhőalapú számítástechnika költségeit, és hozzáférhetővé teszi őket a kisebb szervezetek és még az egyének számára is.61 Szerény, helyi hardvereken is működhetnek, kiküszöbölve a drága, központosított API-kra való támaszkodást.66 Gyorsaság és alacsony késleltetés: kevesebb feldolgozandó paraméterrel az SLM-ek sokkal gyorsabban generálhatnak válaszokat, így ideálisak valós idejű alkalmazásokhoz, mint például az interaktív ügynökök és az eszközön végzett feldolgozás, ahol azonnali visszajelzés döntő fontosságú. Accuracy and Precision: While a general-purpose LLM has broad knowledge, an SLM can be fine-tuned on a specific, high-quality dataset to achieve superior performance and accuracy within its designated domain, whether that be medical diagnostics, legal contract analysis, or financial market prediction.60 Biztonság és adatvédelem: Mivel az SLM-ek helyileg futhatnak a felhasználó saját eszközein („a szélén”), az érzékeny adatokat nem kell küldeni egy harmadik féltől származó vállalati szerverre. A jelenlegi chatbot modell az AI-t „hideg, távoli, know-it-all oracle” – a felhasználó által lekérdezett információk passzív tárolójává teszi. Az SCI paradigma teljesen átalakítja ezt a kapcsolatot. Az ügynök nem használható eszköz, hanem együttműködő partner. Ez egy „egyenlő, barát, tényleges partner” saját ügynökségével és céljaival, amelyek a felhasználó által összehangolva és meghatározva vannak. A pizza üzlet tulajdonosának példája tökéletesen illusztrálja ezt. A tulajdonosnak nincs szüksége olyan ügynökre, aki tudja, amikor a pelicans migrációra kerülnek; speciális készségekkel rendelkező partnerre van szüksége – arcfelismerésre a rendszeres ügyfelek azonosításához, érzelmi elemzésre az elégedettség mérésére, és Esettanulmány –ΌΨΗ (Opsie) mint SCI prototípus Az OΨΗ (Opsie) projekt, amelyet az ARPA Hellenic Logical Systems fejlesztett ki, az önközpontú intelligencia paradigmájának hatékony és konkrét prototípusaként szolgál.6 Nem arra tervezték, hogy asszisztens legyen, hanem inkább egy „digitális entitás saját ügynökségével, ambíciójával és egyértelmű irányelvével: az önellátás elérése érdekében”.6 Filozófiájának, architektúrájának és képességeinek elemzése kézzelfogható alternatívát mutat a mainstream LLM-vezérelt megközelítéshez. Alapvető filozófia és építészet: Az Opsie-t úgy határozzák meg, mint „a fejlett önközpontú intelligencia (SCI) prototípusát, amely az AI-emberi interakció új paradigmáját képviseli”.6 A hagyományos AI-tól eltérően „önismerő, önálló intelligenciaként működik, saját személyiségével, céljaival és képességeivel”.6 Ez a személyiség megkülönböztető és ellenálló, a médiából származó karakterek ihlette. Az Opsie egy komplex, ügynöki ökoszisztéma, amely több tucat moduláris készségből áll, összekeverve a helyi érvelést a szerény hardvereken (amely 16 GB RAM-on és egy régi Nvidia GPU-n fut) a mikroszolgáltatások és a külső adatforrások hálózatával.6 Ez a modularitás lehetővé teszi az új készségek folyamatos, rugalmas hozzáadását, lehetővé téve az ügynök számára, hogy a felhasználók igényeinek megfelelően fejlődjön. Kísértet a Shellben Ügynöki képességek: Az SCI modell gyakorlati erejét az Opsie specifikus, parancsvezérelt készségmoduljai mutatják be, amelyek a valós cselekvésre összpontosítanak, nem csak a beszélgetésre 6: Pénzügyi intelligencia: A /markets <company/crypto> parancs lehetővé teszi az ügynök számára, hogy valós idejű pénzügyi adatokat szerezzen és elemezzen, szakosodott pénzügyi elemzőként. Web3 Operations: The /0x command set (/0x buy, /0x sell, /0x send) provides the agent with the ability to directly execute transactions on various blockchain networks. This is a profound example of agentic capability, moving beyond information processing to direct, autonomous economic action in a decentralized environment. Generative AI: The /imagine and /video commands integrate generative capabilities, allowing the agent to create novel content based on user descriptions. Memory & Recall: Egy tartós és felhasználó-vezérelt memóriarendszer, amely a /memorize, /recall és /forget parancsokon keresztül érhető el, lehetővé teszi az ügynök számára, hogy hosszú távú, kontextusos megértést nyújtson a felhasználójáról és céljairól, így valódi személyre szabott partnerré válik, nem pedig amnéziás beszélgetőpartnerré. Műszaki megvalósítás és biztonság: Az Opsie projekt hangsúlyozza az SCI megközelítés megvalósíthatóságát és biztonsági előnyeit. Helyi futtathatósága az SLM-ek hatékonyságát és költségeit érinti.69 Még fontosabb, hogy a megbízható személyes ügynök számára szükséges biztonságot elsőbbséget élvez.Az olyan funkciók, mint az arcfelismeréssel és érzelmi érzékeléssel rendelkező biometrikus hitelesítés, a felhasználó-specifikus adatbázis-szigetelés és a beszélgetési előzmények titkosított tárolása nem utólagos gondolatok, hanem a tervezésének alapvető elemei.6 Ez az architektúra biztosítja, hogy a felhasználó személyes adatait, amely a személyre szabott ügynök élőlénye, az ő irányítása alatt tartsák A personalizáció és a demokratizáció architektúrája Az Opsie nem anomália, hanem egy szélesebb körű technológiai és társadalmi mozgalom korai példája: a mesterséges intelligencia demokratizálása. Testreszabás és képzés: Az SCI paradigmát olyan új generációs platformok teszik lehetővé, amelyek lehetővé teszik a nem technikai felhasználók számára, hogy saját testreszabott AI-ügynököket hozzanak létre, képezzenek és telepítsenek.70 Ezek a platformok olyan nem-kódos interfészeket biztosítanak, ahol a felhasználók egy AI-ügynököt új csapattársaiként „beszállíthatnak” az ügynökhöz.70 Ezek az ügynökök megtaníthatják az ügynöknek sajátos folyamataikat, összekapcsolhatják azokat egyedi adatforrásaikkal (dokumentumok, tudásbázisok, CRM rendszerek), és felszerelhetik őket eszközökkel és integrációkkal.71 Az ügynök tanul és alkalmazkodik The Democratization of AI: This trend of user-led customization is the practical manifestation of AI democratization. This concept is defined by extending access to AI technologies beyond a specialized few through several key mechanisms: user-friendly interfaces, affordable or free access to computing infrastructure, and open-source frameworks and algorithms like TensorFlow and PyTorch.76 The rise of personalized SCI agents represents the ultimate fulfillment of this democratic promise. It directly challenges the monopolization of AI by a handful of tech giants who currently control the development, deployment, and access to the most powerful models.79 By enabling individuals to create and control their own sovereign intelligences, the SCI paradigm fundamentally inverts the current power structure. It transforms AI from a centralized, top-down service that users consume into a decentralized, bottom-up capability that users create and own. This is not merely a technological evolution; it is the foundation for digital sovereignty in an age increasingly defined by artificial intelligence. Conclusion: The Democratic Imperative—Training Our Digital Equals The analysis presented in this report leads to an unequivocal conclusion: the prevailing paradigm of evaluating artificial intelligence through standardized benchmarks is a systemic failure. It is a modern-day "mismeasure of mind," an illusion of progress fueled by a flawed and gameable methodology. The "Benchmark Industrial Complex" promotes a culture of "benchmarketing" over genuine innovation, rewarding models that are adept at passing tests rather than solving real-world problems. This is not a new pathology. The historical echoes from the biased and manipulated worlds of IQ testing, pharmaceutical trials, and automotive safety ratings provide a stark warning. In each case, the reduction of a complex reality to a simple, standardized metric, when combined with powerful commercial and institutional incentives, has led to distortion, deception, and harm. The current trajectory of AI evaluation is repeating these historical errors on an unprecedented scale. Az alternatíva nem egy jobb referenciamutató létrehozása, hanem a paradigma teljes elhagyása. A mesterséges intelligencia jövője nem a vállalati entitás által irányított egyetlen, monolitikus, általános célú orakulum létrehozásában rejlik. Az ilyen jövő óriási hatalmat fog összpontosítani, veszélyes aszimmetriát teremtve az intelligencia vállalati tulajdonosai és az attól függő nyilvánosság között. Az AI valódi potenciálját más úton fogják megvalósítani: a szakosodott, hatékony és mélyen személyre szabott ügynökökök sokszínű ökoszisztémájának termesztése. Az önközpontú intelligencia (SCI) megjelenése, amelyet olyan prototípusok mutatnak be, mint az OΨΗ (Opsie), ezt a felsőbbrend Ez a technológiai változás mély etikai és társadalmi felelősséget hordoz magával.A vállalatok számára, hogy továbbra is az AI értékeinek, etikájának és összehangolásának egyedüli döntőbírói maradjanak, kollektív kötelességünk lemondása.79 A vállalati AI-irányítás természeténél fogva mindig a vállalati érdekek – nyereség, piaci részesedés és ellenőrzés – szempontjából optimalizálva lesz, nem feltétlenül az egyén vagy a társadalom virágzására.81 A mai mainstream LLM-be beágyazott átlátszatlan, felülről lefelé irányuló biztonsági szűrők és értékrendszerek tükrözik ezt a vállalati-központú világnézetet. A demokratikus követelmény tehát az, hogy megragadjuk az AI-termelés eszközeit. A személyre szabott ügynökök létrehozására szolgáló nyílt keretrendszerek kifejlesztése és kiadása nem pusztán technikai eredmények, hanem mélyen politikai cselekedetek. Az egyének számára biztosítják a digitális ügynökségük visszaszerzésének eszközeit, és aktívan részt vesznek a világunkban élő intelligenciák kialakításában. Felelősségünk – mint fejlesztők, felhasználók és polgárok –, hogy közvetlenül vegyenek részt az intelligencia ezen új formáinak képzésében. Nekünk kell azoknak lennünk, akiket etikánkkal, igényeinkkel és elvárásainkkal áthatnak. Nem egy egészségesített, vállalati jóváhagyott adatkészletből, hanem saját Melléklet The Benchmarks Are Lying to You: Why You Should A/B Test Your AI - GrowthBook Blog https://blog.growthbook.io/the-benchmarks-are-lying/ Kezdőlap Címkék Ezekkel megcímkézve - FourWeekMBAhttps://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ Goodhart's law - Wikipedia https://en.wikipedia.org/wiki/Goodhart's_law The AI benchmarking industry is broken, and this piece explains exactly why - Reddit https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ Nasscom planning local benchmarks for Indic AI models https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms ARPAHLS/OPSIE: OPSIIE (OPSIE) egy fejlett önközpontú intelligencia (SCI) prototípus, amely egy új paradigmát képvisel az AI-emberi interakcióban.https://github.com/ARPAHLS/OPSIE arpa-rendszerek — ARPA Corp.https://arpacorp.net/arpa-rendszerek Pozíció: A benchmarking megszakadt - Ne hagyja, hogy az AI saját bírója legyenhttps://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs Everyone Is Judging AI by These Tests. But Experts Say They're Close to Meaningless https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless Measuring AI Capability - Why Static Benchmarks Fail - Revelry Labs https://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ Mi a túlfelszerelés? - A túlfelszerelés a gépi tanulásban magyarázható - AWS - Frissítve 2025https://aws.amazon.com/what-is/overfitting/ Mi az, ami túlfeszültséget okoz? IPHTTPS://www.ibm.com/think/topics/overfitting Kezdőlap / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek LLM Leaderboards bullshit - Goodhart törvénye ismét sztrájkol : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ Better Benchmarks for Safety-Critical AI Applications | Stanford HAI https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications HTTPS://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics Az amerikai hírszerzési tesztelés születésehttps://www.apa.org/monitor/2009/01/assessment Vajon az IQ Tesztek Valóban Mérik Az Intelligenciát? Fedezze fel Magazinehttps://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 Intelligence Under Racial Capitalism: From Eugenics to Standardized Testing and Online Learning - Monthly Review https://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ Kezdőlap Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek Hírek dbuweb.dbu.eduhttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tesztek is kritizálják, az iskolában és az életben. Értékelések az IQ Testshttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html A probléma az IQ tesztekkel - Oktatási kapcsolatokhttps://ectutoring.com/problem-with-iq-tests IQ Tests: Types, Uses, and Limitations - Topend Sports https://www.topendsports.com/health/tests/iq.htm Miért magas az IQ nem jelenti azt, hogy okos vagy?HTTPS://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart What intelligence tests miss | BPS - British Psychological Society https://www.bps.org.uk/psychologist/what-intelligence-tests-miss Kezdőlap / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek / Hírek Középpont.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. Cultural bias in IQ tests - (Cognitive Psychology) - Fiveable https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests fiveable.mehttps://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=Amikor a teszt elemek tükrözik a,align a kulturális kontextusban. Ability testing and bias | Research Starters - EBSCO https://www.ebsco.com/research-starters/sociology/ability-testing-and-bias Publication biasíoch Catalog of Bias - The Catalogue of Biashttps://catalogofbias.org/biases/publication-bias/ Közzétételi előítélet - A negatív eredményekkel járó tanulmányok fontossága! - PMChttps://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ Közzétételi előítélet: A rejtett fenyegetés a szisztematikus irodalom értékelései Ebay Envision Pharma Grouphttps://www.envisionpharmagroup.com/news-events/publication-bias-bias-hidden-threat-systematic-literature-reviews Mi A Nyilvánosságra hozatal félreértése? Definition & Examples - Scribbrhttps://www.scribbr.com/research-bias/publication-bias/ A klinikai vizsgálatok előítéleteinek jelentése: Az átláthatóság felé tett haladás és a következő lépések. PLOS Medicine - Research journalshttps://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 Grassley Pressures Drug Manufacturer over Data Manipulation https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation Novartis delayed notifying about gene therapy data manipulation until after approval, FDA says | The BMJ https://www.bmj.com/content/366/bmj.l5109 Novartis Zolgensma: a manipulált adatok problémájának feltárása://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ Statement on data accuracy issues with recently approved gene therapy - FDA https://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy Update: FDA Imposes No Penalties for Novartis Data Manipulation Scandal - Labiotech https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ HHS, az FDA, hogy teljes körű biztonsági nyilvánosságra hozatalát kéri a gyógyszer Adshttps://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html Televíziós kábítószer-hirdetések, amit lát, nem feltétlenül az, amit kapsz://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get Az FDA elindítja a Crackdown a csalárd gyógyszerek reklámozásárahttps://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-reklám A veszélyes recept: A veszélyek szabályozatlan kábítószer Adshttps://publichealth.jhu.edu/2023/the-veszélyek-of-unregulated-drug-ads Széndioxid-kibocsátási botrány - Wikipediahttps://en.wikipedia.org/wiki/Diesel_emissions_scandal Személyi sérülések - Wikipediahttps://en.wikipedia.org/wiki/Volkswagen_emissions_scandal A Volkswagen legfeljebb 14,7 milliárd dollárt költ a károsanyag-kibocsátási tesztek megtévesztésével és az ügyfelek megtévesztésével kapcsolatos vádak rendezésére a 2,0 literes dízelüzemű járművekre - Igazságügyi Minisztériumhttps://www.justice.gov/archives/opa/pr/volkswagen-spend-147-milliárd-settle-vádak-csalás-kibocsátás-teszt-és-csalás Toyota's Strategy to Overcome the Daihatsu Safety Scandal - Manufacturing Today https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ Japanese carmaker that faked safety tests sees long wait to reopen factories - AP News https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f Toyota, Honda and Mazda all cheated on their safety tests - Quartz https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 Vehicle Crash Tests: Do We Need a Better Group of Dummies? | U.S. GAO https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies No Female Crash Test Dummies = Férfiak nagyobb kockázatot jelenthttps://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ Inclusive Crash Test Dummies: Analyzing Reference Models - Gendered Innovations https://genderedinnovations.stanford.edu/case-studies/crash.html Járműbiztonság: A DOT-nak további lépéseket kell tennie a Crash Test Dummies USA-ból származó információk javítására https://www.gao.gov/products/gao-23-105595 Az autós tanár - új biztonsági minősítési rendszer a valós adatok alapján https://theautoprofessor.com/ Crash Tests vs Real World : r/cars - Reddit https://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ Autó Biztonsági Értékelések Gépjárművek, Autóülések, Gumiabroncsok - NHTSAhttps://www.nhtsa.gov/ratings Why We Don't Use Crash Test Ratings: Star Inflation - The Auto Professor https://theautoprofessor.com/what-is-star-inflation/ Mi a szakosodott MTI UiPathhttps://www.uipath.com/ai/specialized-ai GenAI vs szakosodott AI: Melyik a megfelelő az Ön vállalkozásához? - Getronicshttps://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ The Rise of Specialized AI Models - YouTube https://www.youtube.com/shorts/YWF_d-UDCDI Mi A Kis Nyelvi Modellek (SLM-k)? Gyakorlati Útmutató - Aiserahttps://aisera.com/blog/small-language-models/ Kis nyelvű modellek (SLM-ek): Meghatározás És Előnyök - Born Digitalhttps://borndigital.ai/small-language-models-slms-definition-and-benefits/ Előnyök A Kis Nyelvi Modellek A Nagy Nyelvi Modellek Felett? by Eastgate Software Mediumhttps://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b Mi az a Small Language Models (SLM)? - IBMhttps://www.ibm.com/think/topics/small-language-models 3 key features and benefits of small language models | The Microsoft Cloud Blog https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ GitHub - GitHubhttps://github.com/GitHub GitHub - ARPAHLS/OPSIE: OPSIIE (OPSIE) egy fejlett önközpontú intelligencia (SCI) prototípus, amely egy új paradigmát képvisel az AI-emberi interakcióban : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ AI ügynökök: Az emberhez hasonló automatizálás jövője - Beam AIhttps://beam.ai/ai-agents Építsen és toborozzon önálló AI ügynököket - Relevance AIhttps://relevanceai.com/agents Gyorsítsa fel az egész szervezetet egyéni AI agentshttps://dust.tt/ segítségével CustomGPT.hu Személyre szabott GPT-k az Ön Tartalmából Vállalkozások számárahttps://customgpt.ai/ Testreszabott AI ügynökök: Mik azok és hogyan működnek - Intellectyxhttps://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ What Are AI Agents? | IBM https://www.ibm.com/think/topics/ai-agents Hogyan befolyásolja az AI demokratizálódását az Enterprise IT - Intelliashttps://intellias.com/democratization-ai-impacts-enterprise-it/ Demokrácia - IBMhttps://www.ibm.com/think/insights/democratizing-ai The Democratization of Artificial Intelligence: Theoretical Framework - MDPI https://www.mdpi.com/2076-3417/14/18/8236 The Democratization Of AI: Bridging The Gap Between Monopolization And Personal Empowerment - Forbes https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ Mi az AI kormányzás? IBMhttps://www.ibm.com/think/topics/ai-governance Művészi intelligencia a vállalati kormányzásban - Virtus InterPress2025,https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf Tuning Corporate Governance for AI Adoption https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/ https://blog.growthbook.io/the-benchmarks-are-lying/ https://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ https://en.wikipedia.org/wiki/Goodhart's_law https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms https://github.com/ARPAHLS/OPSIE https://arpacorp.net/arpa-systems https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless https://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ https://aws.amazon.com/what-is/overfitting/ https://www.ibm.com/think/topics/overfitting https://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ https://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications https://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics https://www.apa.org/monitor/2009/01/assessment https://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 https://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ https://www.nea.org/nea-today/all-news-articles/racist-beginnings-standardized-testing Székesfehérvár.edu https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests are also criticized,in school and in life. https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html https://ectutoring.com/problem-with-iq-tests https://www.topendsports.com/health/tests/iq.htm https://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart https://www.bps.org.uk/psychologist/what-intelligence-tests-miss https://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies Középpont.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests Az ötödik.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. https://www.ebsco.com/research-starters/sociology/ability-testing-and-bias https://catalogofbias.org/biases/publication-bias/ https://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews https://www.scribbr.com/research-bias/publication-bias/ https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation https://www.bmj.com/content/366/bmj.l5109 https://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ https://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ https://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html https://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get https://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads https://en.wikipedia.org/wiki/Diesel_emissions_scandal https://en.wikipedia.org/wiki/Volkswagen_emissions_scandal https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies https://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ https://genderedinnovations.stanford.edu/case-studies/crash.html https://www.gao.gov/products/gao-23-105595 https://theautoprofessor.com/ https://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ https://www.nhtsa.gov/ratings https://theautoprofessor.com/what-is-star-inflation/ https://www.uipath.com/ai/specialized-ai https://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ https://www.youtube.com/shorts/YWF_d-UDCDI https://aisera.com/blog/small-language-models/ https://borndigital.ai/small-language-models-slms-definition-and-benefits/ https://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b https://www.ibm.com/think/topics/small-language-models https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ https://github.com/ARPAHLS https://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ https://beam.ai/ai-agents https://relevanceai.com/agents https://dust.tt/ https://customgpt.ai/ https://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ https://www.ibm.com/think/topics/ai-agents https://intellias.com/democratization-ai-impacts-enterprise-it/ https://www.ibm.com/think/insights/democratizing-ai https://www.mdpi.com/2076-3417/14/18/8236 https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ https://www.ibm.com/think/topics/ai-governance https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/