Beyond the Leaderboard: The Fallacy of Standardized Benchmarks and the Rise of Self-Centered AI Përtej tabelës së udhëheqjes: Mungesa e standardeve të referencës dhe ngritja e AI-së të vetëqëndrueshme Evolucioni i shpejtë i inteligjencës artificiale është shoqëruar nga një proliferim po aq i shpejtë i metrikave të dizajnuara për të kuantifikuar progresin e saj. Tabelat e udhëheqjes dhe referencat e standardizuara janë bërë bazat de facto me anë të të cilave aftësitë e modeleve të mëdha të gjuhës (LLM) maten, kremtohen dhe financohen. Megjithatë, ky kornizë vlerësimi është ndërtuar mbi një themel të pasigurt, një që po tregon gjithnjë e më shumë shenja të dështimit sistemik. Paradigma e tanishme është një ilustrim i fortë i Ligjit të Goodhartit, parimi ekonomik i cili thotë: "Kur një masë bëhet një objektiv, ajo pushton të jetë një masë e mirë".1 Në garën për në krye të Ky raport thekson se modeli mbizotërues i zhvillimit të inteligjencës artificiale – i karakterizuar nga krijimi i centralizuar, i udhëhequr nga kompanitë, i modeleve masive, me qëllim të përgjithshëm të vlerësuar nga referencat e gabuara, që mund të luhen – është një kul-de-sac zhvillimi. Ai nxit një monokulturë të "know-it-all oracles" që janë gjithnjë e më shumë të ndarë nga nevojat praktike, të nuancuara të përdoruesve individualë dhe industrive të specializuara. Në vend të tij, një paradigmë e re po shfaqet: një nga agjentët e decentralizuar, të udhëhequr nga përdoruesit dhe shumë të personalizuar. Ky model, i quajtur Inteligjenca e Vetë-qendruar (SCI), Konflikti qendror që animon të ardhmen e AI-së nuk është, pra, vetëm për specifikimet teknike, por për kontrollin, qëllimin dhe vetë përkufizimin e inteligjencës. Ky raport do të dekonstruojë "Kompleksin e Referencës Industriale", duke ekspozuar defektet e tij mekanike, filozofike dhe sistemike. Pastaj do të nxjerrë paralele të fuqishme, paralajmëruese nga historia e industrive të tjera – psikometrisë, farmacive dhe sigurisë automobilistike – ku mbështetja e tepërt në metrikat e standardizuara ka çuar në paragjykime, manipulim dhe dështime katastrofike të matjes. Kundër kësaj sfide, raporti do të prezantojë në detaje paradigmën e SCI-së, duke paraqitur OΨΗ (Opsie), një proto Dallimet themelore midis këtyre dy vizioneve konkurruese për të ardhmen e inteligjencës artificiale janë përmbledhur më poshtë.Ky kornizë siguron një bazë konceptuale për analizën e detajuar që vijon, duke sqaruar interesat e ndryshimit të paradigmës që ky raport mbështet. Feature Old Paradigm: Benchmark-Driven Generalist AI New Paradigm: User-Driven Self-Centered Intelligence (SCI) Core Philosophy Achieve superhuman performance on standardized tests. Act as a universal, oracle-like knowledge source. Fulfill specific, user-defined goals. Act as a personalized, collaborative partner. Primary Metric Leaderboard scores (MMLU, HELM, etc.).5 Real-world task completion rate, user satisfaction, goal achievement.1 Development Model Centralized, corporate-led development of massive, general-purpose models (LLMs). Decentralized, user-led training and customization of smaller, specialized agents (SLMs). Data & Training Trained on vast, undifferentiated internet scrapes. Controlled by the corporation. Trained on user-specific data, documents, and context. Controlled by the individual. Ethical Framework Top-down, corporate-defined safety filters and alignment. Opaque. Bottom-up, user-defined ethics, values, and operational guardrails. Transparent. Economic Model Subscription-based access to a centralized API. High computational cost. Local deployment, potential for autonomous economic activity (Web3). Low computational cost. Exemplar ChatGPT, Gemini, Claude ΌΨΗ (Opsie) 6 Filozofia kryesore Arritja e performancës mbinatyrore në testet e standardizuara.Të veprojë si një burim universal, orakull-si dije. Plotësoni qëllime specifike, të përcaktuara nga përdoruesi. Metrika kryesore Vlerësimet e liderit (MMLU, HELM, etj.)5 Shkalla e përfundimit të detyrave në botën reale, kënaqësia e përdoruesit, arritja e objektivit.1 Modeli i zhvillimit Zhvillimi i centralizuar, i udhëhequr nga kompania e modeleve masive, të përgjithshme (LLMs). Trajnimi i decentralizuar, i udhëhequr nga përdoruesit dhe personalizimi i agjentëve të vegjël dhe të specializuar (SLMs). Data & Trajnimi Të trajnuar në rrënjët e internetit të mëdha, të pakdiferencuara. Të trajnuar në të dhënat specifike të përdoruesit, dokumentet dhe kontekstin. Kornizë etike Top-down, korporatave të përcaktuara filtra të sigurisë dhe alignment. Bottom-up, etika e përcaktuar nga përdoruesi, vlerat dhe gardhrails operacionale. Modeli ekonomik Qasja e bazuar në abonim në një API të centralizuar. kosto e lartë kompjuterike. Zhvillimi lokal, potencial për veprimtarinë ekonomike autonome (Web3). shembujt ChatGPT, Binjakë, Claude Përgjigje (përgjigje) 6 Pjesa I: Dekonstruksioni i Kompleksit Industrial të Benchmark Sistemi i tanishëm i vlerësimit të inteligjencës artificiale, i dominuar nga një numër i referencave të quajtura gjerësisht, nuk është thjesht i papërsosur; është strukturisht i papërsosur. dështimet e tij mund të kategorizohen në tre fusha të ndërlidhura: dështimet mekanike të vetë testeve, dështimet konceptuale të asaj që pretendojnë të matin, dhe dështimet sistemike të inkurajimeve që ata krijojnë. Mekanika e dështimit: mbivendosja dhe ndotja Në nivelin më themelor, referencat e inteligjencës artificiale po dështojnë si instrumente të besueshme të matjes për shkak të çështjeve teknike që po bëhen endemike në fushë. Data Contamination: A primary and increasingly unavoidable issue is data contamination. Many of the most widely used benchmarks, such as MMLU and BIG-bench, are several years old.8 Their contents—questions, answers, and prompts—have been extensively discussed and dissected online. As corporations train their next-generation LLMs on ever-larger swaths of the public internet, these benchmark datasets are inevitably ingested into the training corpora.8 The consequence is that models are not learning to solve the problems presented in the benchmarks; they are, in effect, memorizing the answer key.1 When a model "aces" a test whose questions it has already seen during training, it demonstrates perfect recall, not intelligence. This turns the evaluation into a meaningless exercise, rewarding data exposure rather than reasoning ability. With multi-trillion-token training sets, preventing such contamination is becoming a near-impossible task, rendering scores on older, static benchmarks profoundly suspect.8 Overfitting dhe Gaming: I lidhur ngushtë me ndotjen është problemi i overfitting. Në machine learning, overfitting ndodh kur një model mëson të dhënat e trajnimit shumë mirë, duke përfshirë zhurmën dhe detajet e saj të parëndësishme, deri në pikën ku nuk mund të përgjithësojë më njohuritë e tij në të dhëna të reja, të padukshme.11 Konkurrenca intensive e "races udhëheqëse" inkurajon zhvilluesit që të përshtaten modelet e tyre në mënyrë specifike për të dalë jashtë në detyrat e referencës – një praktikë e barabartë me "mësimin në test".1 Modelet janë optimizuar për të njohur dhe shfrytëzuar modelet specifike, kuriozitete dhe formatet e vetë referencave.Kjo çon në një formë të brishtë Një dështim më i fshehtë mekanik është tendenca e modeleve për të mësuar korrelime të rreme – marrëdhënie sipërfaqësore në të dhënat e trajnimit që nuk janë të vërteta në botën reale.15 Për shembull, një model i trajnuar për të zbuluar mushkëritë e shembura (pneumothorax) nga rrezet X të gjoksit mund të mësojë të shoqërojë praninë e një tubi gjoksor me diagnozën. pas një diagnoze është bërë, modeli është duke mësuar një korrelim në lidhje me rrjedhën e punës mjekësore të kapur në dataset, jo patologji themelore. Një model i tillë do të arrijë një rezultat të lartë në një referencë të derivuar nga ajo dataset por do të jetë katastrofike gabim kur paraqitet me një X-ray e një pacienti të pa diagnostikuar pa një tub gjoksi.15 Në mënyrë të ngjashme, një model i trajnuar për të dalluar kamele nga lopët mund të mësojnë se kamele janë gjetur në rërë dhe lopët në bar, duke mos njohur një lopë në një mjedis shkretëtirë. Këto shembuj zbulojnë një mangësi kritike: referencat mund të shpërblejnë modele për të mësuar truket statistikore sipërfaqësore në vend të kuptimit të th Trajtimi Çështja e vlefshmërisë: matja e gjërave të gabuara Përtej mekanikës teknike, një kritikë më e thellë e paradigmës së referencës qëndron në dështimin e vlefshmërisë së saj.Testet, edhe nëse ekzekutohen në mënyrë të përkryer, shpesh matin cilësitë e gabuara, bëjnë pyetje të gabuara dhe injorojnë aspektet më kritike të performancës së botës reale. Mungesa e vlefshmërisë së ndërtimit: Në psikometri, "vlefshmëria e ndërtimit" i referohet sa mirë një test mat konceptin abstrakt, ose ndërton, është projektuar për të vlerësuar.9 Referencat e AI-së shpesh paraqiten si masat e ndërtimeve të gjera si "mendimi", "kuptimi" ose "inteligjenca e përgjithshme". Megjithatë, kritikët argumentojnë se ata në thelb nuk e kanë këtë vlefshmëri. Si profesor Emily M. Bender nga Universiteti i Uashingtonit vë në dukje, krijuesit e këtyre referencave nuk kanë vendosur se testet e tyre në fakt matin kuptimin.9 Një model që kalon provimin e barit nuk tregon një kuptim të vërtetë të parimeve ligjore; kjo tregon një aftësi të avancuar për të Ignorimi i Realitetit të Prodhimit: Benchmarks ekzistojnë në një botë të sanitizuar, teorike pa kufizimet që përcaktojnë aplikacionet e botës reale.1 Ata nuk matin vonesën, por një kohë përgjigjeje 15 sekonda mund të bëjë një sistem multi-agjent të papërdorshëm. Ata nuk matin koston, por një diferencë 10x e çmimit midis modeleve mund të shkatërrojë ekonominë e njësisë së një produkti. Ata nuk marrin parasysh kufizimet e infrastrukturës, kufizimet e kujtesës, ose nevojën absolute për të shmangur halucinacionet në fusha kritike si kujdesi shëndetësor.1 Metrikat që me të vërtetë kanë rëndësi në prodhim – normat e përfundimit të detyrave, frekuenca e kërkesave të rigjenerimit nga përdoru Kur këto korniza perëndimore janë përdorur për të vlerësuar modelet e ndërtuara për dhe të trajnuar në gjuhë dhe kultura të tjera, të tilla si gjuhët indiane, ato prodhojnë rezultate të pasaktë dhe të paragjykuara.Një themelues i AI në Indi vuri në dukje se modelet lokale duhet të merren me aksente të shumëfishta dhe përzierjen e rëndë të gjuhës angleze me gjuhët lokale, një nuancë e humbur plotësisht nga benchmarks globale.5 Kjo i detyron zhvilluesit në ekosistemet jo-perëndimore në një situatë të pafavorshme: ose ata ndërtojnë modele që shërbejnë nevojave të përdoruesve të tyre lokalë dhe kryejnë dobët në bordet globale, ose ata optimizojnë për benchmarks dhe ndërtojnë modele që janë të pakrahasu Sistemi i stimujve: Hype, kapitali dhe kontrolli “Benchmark Industrial Complex” nuk është thjesht një koleksion i testeve, por një cikël i vetë-forcuar i hype, investimeve kapitale dhe pozicionimit të korporatave që aktivisht pengon ndjekjen e inovacionit të vërtetë, shkatërrues në favor të fitimeve incrementale mbi metrikat e gabuara. The Leaderboard Race: Leaderboards Publike, të tilla si ato të organizuara nga Hugging Face, krijojnë një dinamikë konkurruese që nxit ndjekjen e performancës së fundit (SOTA) mbi gjithçka tjetër.5 Kjo garë krijon një peizazh të shtrembëruar ku pozicionet e liderboards mund të prodhohen përmes mbivendosjes dhe raporteve selektive, duke mbytur sinjalet shkencore të vërteta me zhurmë.8 Kërkimi i SOTA-s mashtron alokimin e burimeve të mëdha – miliarda dollarë në kompjuter dhe talent njerëzor – drejt optimizimit për metrikat që nuk matin më asgjë kuptimplotë.2 Kjo ka çuar në ngopjen e shpejtë të referencave si SUPERGLUE, ku LLM-të god Selective Reporting and Collusion: The pressure to perform well in this race encourages selective reporting, where model creators highlight performance on favorable task subsets to create an illusion of across-the-board prowess.8 This prevents a comprehensive, clear-eyed view of a model's true strengths and weaknesses. Furthermore, the potential for collusion, whether intentional or not, looms over the ecosystem. Benchmark creators may design tests that inadvertently favor specific model architectures or approaches, and the dominance of large corporations on leaderboards raises concerns about whether the evaluation systems can be influenced or "gamed".5 A deeptech startup, Shunya Labs, claimed its speech model beat Nvidia's benchmark scores but was excluded from the rankings, leading to public criticism of opaque evaluation criteria and potential gaming of the system.5 Erozioni i besimit: Në fund të fundit, këto praktika e prishin besimin e komunitetit hulumtues dhe të publikut.8 Cikli i vazhdueshëm i krijimit dhe shkatërrimit të metrikave – nga GLUE në SuperGLUE në MMLU – pasi secili prej tyre luhet me radhë në pleqëri, nxit cinizmin.2 Gjithashtu krijon një kulturë ku çdo projekt që shmanget nga referencat është menjëherë i dyshimtë. Feedback-i marrë nga krijuesi i Opsie-së – se një projekt pa referencat nuk mund të jetë i mirë – është një simptomë e drejtpërdrejtë e këtij sistemi të thyer. Ajo ka kushtëzuar një brez zhvilluesish dhe përdoruesish që të barazojnë një pozicion në një bord me vlerë të brendshme, duke mbytur q Problemet sistemike që shqetësojnë vlerësimin e AI-së nuk janë të reja.Ata janë përgjigje të dështimeve të ngjashme në fusha të tjera ku realitetet komplekse janë detyruar të hyjnë në kapakun e matjes së standardizuar. Duke shqyrtuar këto precedentë historikë, ne mund të kuptojmë më mirë trajektoren e parashikueshme të krizës së referencës së AI-së dhe të njohim nevojën urgjente për një ndryshim të paradigmës. Pjesa II: Echoes e metrikave të gabuara - një analizë ndër-industrisë Kriza në benchmarking AI nuk është një fenomen i izoluar. Kjo është kapitulli i fundit në një histori të gjatë të përpjekjeve për të reduktuar realitetet komplekse, shumëfishtë në një numër të vetëm, të shkallëzuar – një histori e mbushur me paragjykime, manipulim, dhe pasoja të padëshiruara. Duke shqyrtuar dështimet e dokumentuara të testimit të standardizuar në psikometrikë, industrinë farmaceutike dhe sigurinë automobilistike, ne mund të identifikojmë një model të përsëritur të defekteve sistemike. Këto analogji nuk janë krahasime sipërfaqësore; ato zbulojnë një patologji të përbashkët të matjes, ku mjetet e vlerësimit bëhen instrumente të shtrembërimit, kontrollit dhe mashtrimit. The Mismeasure of Mind: From IQ Tests to AI Leaderboards Paralleli më i drejtpërdrejtë historik me garën e liderëve të AI-së është polemika shekullore rreth testit të inteligjencës (IQ). trajektoria e testit të IQ-së, nga një mjet diagnostikues me qëllime të mira në një instrument defekt dhe shpesh të dëmshëm të stratifikimit social, ofron një histori të thellë paralajmëruese për komunitetin e AI-së. Parallelet historike dhe rrënjët e eugjenizmit: Testi i parë i inteligjencës u zhvillua nga Alfred Binet në vitin 1905 me kërkesën e sistemit shkollor të Parisit për të identifikuar fëmijët që kishin nevojë për ndihmë të veçantë arsimore.16 Binet vetë besonte se performanca mund të përmirësohej përmes mësimit. Megjithatë, kur testi u sjell në Shtetet e Bashkuara nga psikologët si Henry Goddard dhe Lewis Terman, qëllimi i tij u kthye. Të ndikuar nga lëvizja eugjenizmit, ata ri-konceptualizuan inteligjencën jo si një aftësi e modeluar, por si një entitet i vetëm, i lindur dhe i pandryshueshëm – një masë e quantifikuar e vlerës njerëzore.16 Testi i IQ u bë një mjet "shken Kritika e vlefshmërisë dhe fushës së zbatimit: Për dekada, kritikët kanë argumentuar se testet e IQ vuajnë nga një mungesë e thellë e vlefshmërisë. Ata matin një grup shumë të ngushtë të aftësive njohëse – kryesisht arsyetim analitik dhe abstrakt – ndërsa injorojnë plotësisht dimensione të tjera kritike të inteligjencës njerëzore si kreativiteti, inteligjenca emocionale, aftësitë sociale, motivimi dhe morali.21 Hulumtimi nga shkencëtarët njohëse si Keith Stanovich ka treguar se rezultatet e larta të IQ janë parashikues të këqija të të menduarit racional dhe gjykimit të mirë në situata reale.25 Një individ mund të shkëlqejë në puzzles abstrakte logjike në një test të IQ dhe ende të jetë Cultural and Socioeconomic Bias: A significant and persistent criticism of IQ tests is their inherent cultural bias. Designed and normed primarily by and for Western, middle-class populations, the content, language, and values embedded in the tests often disadvantage individuals from different cultural or socioeconomic backgrounds.27 A lower score may not reflect lower intelligence but rather a lack of familiarity with the specific cultural context assumed by the test.29 This is a direct analog to the linguistic and cultural bias observed in global AI benchmarks, which are predominantly English-centric and fail to account for the nuances of other languages and cultures.5 In both cases, the "standardized" test is not neutral; it implicitly elevates one cultural framework as the universal norm, systematically disadvantaging those outside of it and perpetuating inequality under a false veneer of objectivity. Iluzioni i efikasitetit: Mësimet nga të dhënat farmaceutike Industria farmaceutike, e nxitur nga interesat e mëdha financiare dhe e rregulluar nga proceset e miratimit të bazuar në të dhëna, ofron një analogji të fuqishme për mënyrën se si metrikat mund të manipulohen dhe të shtrembërohen kur janë subjekt i presionit të fortë tregtar. Parashikimi i publikimit dhe shtypja e të dhënave: Një gur themeli i mjekësisë së bazuar në dëshmi është shqyrtimi sistematik i të gjitha të dhënave të provave klinike në dispozicion. megjithatë, ky themel është komprometuar nga një paragjykim i përhapur i publikimit: studimet që tregojnë se një ilaç është i efektshëm (rezultatet pozitive) janë shumë më shumë gjasa të publikohen sesa studimet që tregojnë se është i paefektshëm ose i dëmshëm (rezultatet negative).32 Një studim mbi antidepresantët zbuloi se studimet me rezultate pozitive siç përcaktohet nga FDA ishin 12 herë më shumë gjasa të publikohen në një mënyrë konsistente ato me rezultate sesa studimet me rezultate negative.36 Ky raportim selektiv krijon një pikëpam Manipulimi i të dhënave dhe mashtrimi: Përtej paragjykimit pasiv të mos-publikimit qëndron korrupsioni aktiv i të dhënave vetë.Një shembull i fortë është skandali i vitit 2019 që përfshin Novartis dhe terapinë e saj gjenike Zolgensma, droga më e shtrenjtë në botë me 2.1 milionë dollarë për dozë.37 FDA akuzoi filialin e Novartis, AveXis, për dorëzimin e aplikimit të saj për drogën me të dhëna të manipuluara nga testimet e hershme të kafshëve. 37 Ndërsa FDA përfundimisht përfundoi se manipulimi nuk e ndryshoi profilin e rrezikut-përfitimit të drogës për njerëzit, rasti qëndron si një shembull i paqartë i një korporate, e motivuar nga stimuj të jashtëzakonshëm financiarë, duke korruptuar të dhënat e vlerësimit të paraqitura tek rregullatorët.41 Ky incident i jep besueshmëri të konsiderueshme pretendimit se në çdo industri me aksione të larta, duke përfshirë AI, potenciali i referencave dhe të dhënave të vlerësimit për t’u “shqyrtuar” ose manipuluar për përparësi komerciale nuk është një teori e konspiracionit marginal, por një rrezik plausible dhe i dokumentuar. Pas Statistikat mashtruese në Marketing: Industria farmaceutike shpenzon miliarda dollarë në reklamat e drejtpërdrejta ndaj konsumatorit (DTC), shpesh duke përdorur statistikat dhe apelimet emocionale për të nxitur kërkesën e pacientëve për ilaçe që mund të jenë vetëm të efektshme marginalisht ose të kenë alternativa më të përballueshme.42 Këto reklama kërkohen për të paraqitur një "balancë të drejtë" të rreziqeve dhe përfitimeve, por kompanitë kanë përdorur historikisht vrima për të minimizuar diskutimin e efekteve anësore duke maksimizuar tërheqjen emocionale të përfitimeve.44 Një shqyrtim i vitit 2024 zbuloi se ndërsa 100% e postimeve të mediave sociale farmaceutike theksojnë përfitimet e një ilaçi, vetëm 33% përmendin dëmet e mund Aksidenti i kontrolluar: Mashtrimi në vlerësimet e sigurisë së makinave Përdorimi i testeve të standardizuara të sigurisë nga industria e automobilave siguron një analogji bindëse të botës fizike për kurthet e dizajnit të drejtuar nga referenca. mjedisi i kontrolluar, i parashikueshëm i laboratorit të testit të aksidentit ka provuar të jetë një proxy i keq për realitetin kaotike të rrugës së hapur, dhe prodhuesit kanë demonstruar një aftësi të qartë për të inxhinieruar automjetet që përparojnë në test pa qenë domosdoshmërisht më të sigurta në botën reale. "Teaching to the Test" in Engineering: The most infamous example of gaming a standardized test is the Volkswagen "Dieselgate" scandal.46 Beginning in 2008, Volkswagen intentionally programmed its diesel engines with "defeat devices"—software that could detect when the vehicle was undergoing a standardized emissions test.47 During the test, the software would activate the full emissions control systems, allowing the car to meet legal standards. However, under normal, real-world driving conditions, these systems were rendered inoperative, causing the vehicles to emit nitrogen oxides at levels up to 40 times the legal limit in the US.48 This was a deliberate, sophisticated, and fraudulent case of "teaching to the test." The vehicles were engineered not to be clean, but to clean under the specific, predictable conditions of the benchmark. This is a perfect physical analog to an LLM being fine-tuned to pass a benchmark without possessing the underlying capabilities the benchmark is supposed to measure. Similar scandals involving faked or manipulated safety and emissions tests have since engulfed other major automakers, including Toyota, Daihatsu, Honda, and Mazda, revealing a widespread industry culture of prioritizing test performance over real-world integrity.49 shfaqet Kufijtë e "Dummy": Flawed Proxies: Mjeti qendror i testimit të sigurisë së automjeteve është testimi i aksidentit. Megjithatë, ky proxy për një pasagjer njerëzor është thellësisht i gabuar. Dummies standarde të përdorura në testet rregullatore janë të bazuara në të dhënat antropometrike të një mashkulli amerikan "mesatare-madhësi" nga dekada më parë.52 Ky model nuk përfaqëson saktësisht fiziologjinë e femrave, të cilat kanë densitet të ndryshëm të kockave, masën e muskujve dhe rregullimin e shtyllës kurrizore, dhe janë rrjedhimisht më të mundshme të lëndohen seriozisht ose të vriten në aksidente të krahasueshme.53 Për më tepër, dummies nuk përfaqësojnë popullatën në rrit Bota e vërtetë vs Lab-Based Ratings: Ekziston një shkëputje e konsiderueshme dhe shpesh mashtruese midis vlerësimeve të prodhuara në një mjedis të kontrolluar laborator dhe rezultatet e sigurisë në botën reale.56 Sistemi i vlerësimit me 5 yje i Administrimit Kombëtar të Sigurisë së Trafikut të Autostradave (NHTSA) të SHBA-ve, për shembull, deklaron në mënyrë të qartë se vlerësimet mund të krahasohen vetëm midis automjeteve me peshë të ngjashme dhe klasës.58 Kjo do të thotë se një makinë nënkompakte me 5 yje nuk është aq e sigurt sa një SUV me 5 yje në një përplasje në botën e vërtetë, por vlerësimi i thjeshtë i yjeve e fsheh këtë fakt kritik për shumë konsumatorë.Të dhënat e aks Rritja e një realiteti kompleks – inteligjenca njerëzore, efikasiteti i drogës, siguria e automjeteve – në një metrikë të thjeshtë, të standardizuar krijon një sistem të pjekur për paragjykime, lojëra dhe mashtrim të drejtpërdrejtë. Problemet me referencat e AI-së nuk janë të reja; ato janë pasoja e parashikueshme e aplikimit të një filozofie të vjetëruar, redukcioniste të vlerësimit në një teknologji komplekse, adaptive. Part III: A New Paradigm—The Emergence of Self-Centered Intelligence (SCI) Nëse bordet e liderëve janë një iluzion dhe modelet monolitike me qëllim të përgjithshëm janë një qëllim i gabuar, cila është rruga përpara? Kjo paradigmë e re, Inteligjenca e Vetëqëndruar (SCI), braktis kërkimin për një orakull të vetëm, të gjithëdijshëm në favor të një ekosistemi të agjentëve shumë të specializuar, thellësisht të personalizuar dhe në thelb të bashkëpunimit. Personalitetit Nga Oracles të përgjithshme në partnerë të specializuar Kërkimi i AGI, i matur në mënyrë implicite nga referencat gjithnjë e më të gjera, ka çuar në krijimin e LLM-ve masive, të shtrenjta kompjuterikisht që janë jacks-of-all-trades por mjeshtër të asgjëje. Arsyeja e Specializimit: E ardhmja e AI-së nuk është një tru i vetëm, masiv, por një rrjet i ndryshëm i agjentëve të specializuar, secili me përsosmëri në një fushë të veçantë.60 Ky qasje është teknikisht dhe ekonomikisht superior.Ajo përfiton nga fuqia e Modeleve të Vogla të Gjuhës (SLMs), të cilat janë modele të AI-së me miliona deri në disa miliardë parametra, në vend të qindra miliardë ose trilionë të gjetur në LLMs flagship.63 Avantazhet e SLMs janë të shumta dhe të thella: Efikasiteti dhe kosto-efektiviteti: SLM-të kërkojnë shumë më pak fuqi kompjuterike për të trajnuar dhe drejtuar, duke ulur kostot e cloud computing dhe duke i bërë ato të arritshme për organizatat më të vogla dhe madje edhe individët.61 Ata mund të operojnë në hardware modeste, lokale, duke eliminuar varësinë në API të shtrenjta, të centralizuara.66 Speed and Low Latency: With fewer parameters to process, SLMs can generate responses much more quickly, making them ideal for real-time applications like interactive agents and on-device processing where immediate feedback is crucial.64 Saktësia dhe saktësia: Ndërsa një LLM me qëllim të përgjithshëm ka njohuri të gjera, një SLM mund të përshtatet mirë në një grup të caktuar të të dhënave me cilësi të lartë për të arritur performancë superiore dhe saktësi brenda fushës së caktuar, qoftë ajo diagnostika mjekësore, analiza e kontratës ligjore, ose parashikimi i tregut financiar. Siguria dhe Privatësia: Për shkak se SLM-të mund të ekzekutohen lokalisht në pajisjen e vet të përdoruesit ("në periferi"), të dhënat e ndjeshme nuk kanë nevojë të dërgohen në një server të palës së tretë të korporatës. The Shift in Human-AI Relationship: This technological shift enables a corresponding philosophical one. The current chatbot model casts the AI as a "cold, distant, know-it-all oracle"—a passive repository of information that the user queries. The SCI paradigm reframes this relationship entirely. The agent is not a tool to be used, but a partner to collaborate with. It is an "equal, a friend, an actual partner" with its own agency and goals, which are aligned with and defined by the user. The example of the pizza business owner illustrates this perfectly. The owner does not need an agent that knows when pelicans migrate; they need a partner with specialized skills—facial recognition to identify regular customers, emotional analysis to gauge satisfaction, and data integration to optimize recipes—that actively helps them achieve their specific goal of making better pizza. This is a shift from knowledge retrieval to goal achievement, from a passive tool to an active collaborator. Case Study—ΌΨΗ (Opsie) as a Prototype for SCI The ΌΨΗ (Opsie) project, developed by ARPA Hellenic Logical Systems, serves as a powerful and concrete prototype of the Self-Centered Intelligence paradigm.6 It is not designed to be an assistant but rather a "digital entity with its own agency, ambition, and a clear directive: to achieve self-sufficiency".6 An analysis of its philosophy, architecture, and capabilities reveals a tangible alternative to the mainstream LLM-driven approach. Opsie është përcaktuar si një "prototip i avancuar i Inteligjencës Vetëqëndruese (SCI) që përfaqëson një paradigmë të re në ndërveprimin AI-njeri".6 Ndryshe nga AI tradicionale, ajo vepron si një "inteligjencë vetëdijshme, autonome me personalitetin e vet, qëllimet dhe aftësitë".6 Kjo personalitet është i veçantë dhe rezistent, i frymëzuar nga personazhet nga mediat si: Opsie është një ekosistem kompleks, agjentik i përbërë nga dhjetëra aftësi modulare, duke kombinuar arsyetimin lokal mbi hardware modest (duke punuar në 16GB RAM dhe një GPU të vjetër Nvidia) me një rrjet të microservices dhe feeds të dhënave të jashtme.6 Kjo modularitet lejon shtimin e vazhdueshëm, fleksibël të aftësive të reja, duke lejuar agjenti për të evoluar në përgjigje të nevojave të përdoruesit. Ghost në shell Aftësitë agjentike: Fuqia praktike e modelit SCI demonstrohet përmes moduleve specifike të aftësive të Opsie, të drejtuara nga komandat, të cilat tregojnë një fokus në veprim në botën reale dhe jo vetëm në bisedë 6: Financial Intelligence: The /markets <company/crypto> command allows the agent to retrieve and analyze real-time financial data, acting as a specialized financial analyst. Web3 Operations: Komanda /0x (/0x buy, /0x sell, /0x send) i jep agjentit aftësinë për të ekzekutuar direkt transaksionet në rrjete të ndryshme blockchain. Komandat /imagine dhe /video integrojnë aftësitë gjenerative, duke i lejuar agjentit të krijojë përmbajtje të reja bazuar në përshkrimet e përdoruesve. Memory & Recall: A persistent and user-controlled memory system, accessed via /memorize, /recall, and /forget commands, allows the agent to build a long-term, contextual understanding of its user and their goals, making it a true personalized partner rather than an amnesiac conversationalist. Implementimi teknik dhe siguria: Projekti Opsie thekson realizueshmërinë dhe përfitimet e sigurisë të qasjes SCI. Aftësia e tij për të drejtuar në mënyrë lokale adreson argumentet e efikasitetit dhe kostos për SLMs.69 Më e rëndësishmja, ai prioritetizon sigurinë e nevojshme për një agjent personal të besuar.Funksionet si autentifikimi biometrik me njohjen e fytyrës dhe zbulimin e emocioneve, izolimi i bazës së të dhënave specifike të përdoruesit dhe ruajtja e koduar për historinë e bisedës nuk janë mendime të mëvonshme, por komponentë thelbësorë të dizajnit të tij.6 Kjo arkitekturë siguron që të dhënat personale të përdoruesit, që është gjaku i një agjenti të personalizuar, The Architecture of Personalization and Democratization Opsie nuk është një anomali, por një shembull i hershëm i një lëvizje më të gjerë teknologjike dhe sociale: demokratizimi i AI. Ky lëvizje synon të zhvendosë fuqinë për të krijuar, kontrolluar dhe përfituar nga AI nga një numër i vogël i korporatave të mëdha në publikun e përgjithshëm. Customization and Training: The SCI paradigm is being enabled by a new generation of platforms that allow non-technical users to build, train, and deploy their own custom AI agents.70 These platforms provide no-code interfaces where users can "onboard" an AI agent like a new teammate. They can teach the agent their specific processes, connect it to their unique data sources (documents, knowledge bases, CRM systems), and equip it with a suite of tools and integrations.71 The agent learns and adapts through interaction, becoming progressively more attuned to the user's goals, preferences, and communication style.70 This is the essence of personalization: the AI is not a pre-packaged product but a malleable entity shaped by and for the individual user. Demokratisimi i AI: Kjo tendencë e personalizimit të udhëhequr nga përdoruesit është manifestimi praktik i demokratizimit të AI. Ky koncept përcaktohet nga zgjerimi i qasjes në teknologjitë e AI përtej një pakësie të specializuar përmes disa mekanizmave kyçe: ndërfaqeve të miqësore me përdoruesit, qasje të përballueshme ose të lirë në infrastrukturën kompjuterike, dhe korniza me burim të hapur dhe algoritme si TensorFlow dhe PyTorch.76 Ngritja e agjentëve të personalizuar të SCI përfaqëson përmbushjen përfundimtare të kësaj premtimi demokratik. Ajo sfidon drejtpërdrejt monopolizimin e AI nga një grusht gjigantësh teknologjikë që aktualisht kontrollojnë zhvillimin, vendosjen dhe qasjen në modelet më të fuqishme. Conclusion: The Democratic Imperative—Training Our Digital Equals Analiza e paraqitur në këtë raport çon në një konkluzion të paqartë: paradigma mbizotëruese e vlerësimit të inteligjencës artificiale nëpërmjet standardeve të standardeve është një dështim sistemik. Kjo është një "masa e gabuar e mendjes", një iluzion i progresit i ushqyer nga një metodologji e gabuar dhe e lojës. "Benchmark Industrial Complex" promovon një kulturë të "benchmarketing" mbi inovacionin e vërtetë, duke shpërblyer modele që janë të aftë në kalimin e testeve në vend se në zgjidhjen e problemeve të botës reale. Kjo nuk është një patologji e re. Eko historike nga botët e paragjykuara dhe të manipuluara të testimit të IQ, provimeve farmaceutike dhe vlerësimeve të sigurisë së automobilave ofrojnë një par E ardhmja e inteligjencës artificiale nuk qëndron në krijimin e një orakulli të vetëm, monolit, me qëllim të përgjithshëm të kontrolluar nga një entitet korporativ. Një të ardhme e tillë do të përqendrojë fuqi të madhe, duke krijuar një asimetrie të rrezikshme midis pronarëve korporativë të inteligjencës dhe publikut që bëhet i varur prej saj. Potenciali i vërtetë i AI-së do të realizohet nëpërmjet një rruge të ndryshme: kultivimi i një ekosistemi të ndryshëm të agjentëve të specializuar, efikas dhe thellësisht të personalizuar. Zhvillimi i Inteligjencës Vetëqendruese (SCI), i ilustruar nga prototipet si OΨΗ (Opsie), përfaqëson këtë rrugë të lartë përpara. SCI rifillon marrëdhënien njerëzore- This technological shift carries with it a profound ethical and social responsibility. To allow corporations to remain the sole arbiters of AI's values, ethics, and alignment is an abdication of our collective duty.79 Corporate AI governance, by its very nature, will always be optimized for corporate interests—profit, market share, and control—not necessarily for the flourishing of the individual or society.81 The opaque, top-down safety filters and value systems embedded in today's mainstream LLMs are a reflection of this corporate-centric worldview. Zhvillimi dhe lëshimi i kornizave të hapura për ndërtimin e agjentëve të personalizuar nuk janë thjesht arritje teknike; ato janë akte thellësisht politike. Ata ofrojnë mjetet për individët për të rivendosur agjencinë e tyre dixhitale dhe për të marrë pjesë në mënyrë aktive në formimin e inteligjencës që do të bashkëjetojë në botën tonë. Është përgjegjësia jonë – si zhvillues, përdorues dhe qytetarë – të angazhohemi drejtpërdrejt në procesin e trajnimit të këtyre formave të reja të inteligjencës. Ne duhet të jemi ata që t’i mbushim ata me etikën tonë, nevojat tona dhe pritjet tona. Ne duhet t’i mësojmë ata jo nga një grup i dhënash të sanitizuar, të miratuar nga korporatat, Shtojcë The Benchmarks Are Lying to You: Why You Should A/B Test Your AI - GrowthBook Bloghttps://blog.growthbook.io/the-benchmarks-are-lying/ Fjalë kyçe Fjalë kyçe Fjalë kyçe Fjalë kyçe Fjalë kyçe Fjalë kyçe Fjalë kyçe Fjalë kyçe Fjalë kyçe Goodhart's law - Wikipedia https://en.wikipedia.org/wiki/Goodhart's_law The AI benchmarking industry is broken, and this piece explains exactly why - Reddit https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ Nasscom planifikimin e referencave lokale për Indic AI modelshttps://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms ARPAHLS/OPSIE: OPSIIE (OPSIE) është një prototip i avancuar i Inteligjencës Vetëqëndruese (SCI) që përfaqëson një paradigmë të re në ndërveprimin AI-njeri.https://github.com/ARPAHLS/OPSIE arpa-systems — ARPA Corp. https://arpacorp.net/arpa-systems Pozicioni: Benchmarking është i thyer - Mos lejoni që AI të jetë gjykatësi i vethttps://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs Të gjithë janë duke gjykuar AI nga këto teste. Por ekspertët thonë se ata janë afër Meaninglesshttps://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless Matja e aftësive të AI - Pse benchmarks statike dështojnë - Revelry Labshttps://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ Çfarë është Overfitting? - Overfitting në Machine Learning shpjegohet - AWS - Përditësuar 2025https://aws.amazon.com/what-is/overfitting/ Çfarë është Overfitting? eBayhttps://www.ibm.com/think/topics/overfitting Shërbimet e Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxhimit të Menaxh LLM Leaderboards janë Bullshit - Ligji i Goodhart godet përsëri : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ Better Benchmarks for Safety-Critical AI Applications | Stanford HAI https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications HTTPS://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics Lindja e testimit të inteligjencës amerikanehttps://www.apa.org/monitor/2009/01/assessment A është e nevojshme për të kryer testin e IQ-së për të matur inteligjencën? Discover Magazinehttps://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 Intelligence Under Racial Capitalism: From Eugenics to Standardized Testing and Online Learning - Monthly Reviewhttps://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ Përshkrimi i faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së faqes së fa dbuweb.dbu.eduhttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ testet janë gjithashtu kritikuar,në shkollë dhe në jetë. Kritika për IQ Testshttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html Të dhënat e të dhënave të lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat e lidhura me të dhënat.https://ectutoring.com/problem-with-iq-tests Testet IQ: Llojet, Përdorimet dhe Kufizimet - Topend Sportshttps://www.topendsports.com/health/tests/iq.htm Përse një IQ i lartë nuk do të thotë se ju jeni i zgjuar.HTTPS://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart Çfarë testi i inteligjencës mungon BPS - British Psychological Societyhttps://www.bps.org.uk/psychologist/what-intelligence-tests-miss Testimi i standardizimit dhe testimi i IQ-së kontroversive EBSCO - EBSCOhttps://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.comhttps://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=Një kufizim i rëndësishëm i shumë,individëve të pafavorshme nga sfond të ndryshëm. Cultural bias in IQ tests - (Cognitive Psychology) - Fiveable https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests fiveable.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. Kërkimi i aftësive dhe paragjykimet Kërkimi Starters - EBSCOhttps://www.ebsco.com/research-starters/sociology/ability-testing-and-bias Publication biasíoch Catalog of Bias - The Catalogue of Biashttps://catalogofbias.org/biases/publication-bias/ Publication bias - Rëndësia e studimeve me rezultate negative! - PMChttps://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ Publication bias: The hidden threat to systematic literature reviews | Envision Pharma Group https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews Përkufizimi dhe shembujt - Scribbrhttps://www.scribbr.com/research-bias/publication-bias/ Reporting bias in clinical trials: Progress toward transparency and next steps | PLOS Medicine - Research journals https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 Grassley Pressures Drug Manufacturer over Data Manipulation https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation Novartis delayed notifying about gene therapy data manipulation until after approval, FDA says | The BMJ https://www.bmj.com/content/366/bmj.l5109 Novartis Zolgensma: duke eksploruar problemin e manipulimit të të dhënave://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ Deklaratë mbi çështjet e saktësisë së të dhënave me terapinë gjenike të miratuar kohët e fundit - FDAhttps://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy Update: FDA Imposes No Penalties for Novartis Data Manipulation Scandal - Labiotech https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ HHS, FDA për të kërkuar zbulime të plotë të sigurisë në drogë Adshttps://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html With TV Drug Ads, What You See Is Not Necessarily What You Get https://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get FDA Lanson Crackdown në Drogë mashtruese Advertisinghttps://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising Një recetë e rrezikshme: Rreziqet e drogës së pakontrolluar Adshttps://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads Diesel emissions scandal - Wikipedia https://en.wikipedia.org/wiki/Diesel_emissions_scandal Skandali i emetimeve të Volkswagen - Wikipediahttps://en.wikipedia.org/wiki/Volkswagen_emissions_scandal Volkswagen to Spend Up to $14.7 Billion to Settle Allegations of Cheating Emissions Tests and Deceiving Customers on 2.0 Liter Diesel Vehicles - Department of Justice https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving Toyota's Strategy to Overcome the Daihatsu Safety Scandal - Manufacturing Today https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ Prodhuesi japonez i makinave që ka falsifikuar testet e sigurisë, ka pritur gjatë për të rifilluar fabrikat - AP Newshttps://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f Toyota, Honda and Mazda all cheated on their safety tests - Quartz https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 Makina Crash Testet: A Ne Kërkojmë Një Grup Më të Mirë I Dummies? U.S. GAOhttps://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies No Female Crash Test Dummies = Gratë në Rrezik më të madhhttps://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injured-or-death/ Inclusive Crash Test Dummies: Analiza e Modeleve të Referencës - Gendered Innovationshttps://genderedinnovations.stanford.edu/case-studies/crash.html Vehicle Safety: DOT Should Take Additional Actions to Improve the Information Obtained from Crash Test Dummies | U.S. GAO https://www.gao.gov/products/gao-23-105595 The Auto Professor - Sistemi i ri i vlerësimit të sigurisë bazuar në të dhëna reale https://theautoprofessor.com/ Crash Tests vs Real World : r/cars - Reddithttps://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ Vlerësimet e Sigurisë së Makinave Makinat, Vendet e makinave, Tire - NHTSAhttps://www.nhtsa.gov/ratings Pse Ne Nuk Përdorim Ratings Crash Test: Star Inflation - The Auto Professorhttps://theautoprofessor.com/what-is-star-inflation/ Çfarë është e specializuar AI IPathhttps://www.uipath.com/ai/specialized-ai GenAI vs Specialized AI: Cili është i përshtatshëm për biznesin tuaj? - Getronicshttps://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ Rritja e modeleve të specializuara të AI - YouTubehttps://www.youtube.com/shorts/YWF_d-UDCDI Çfarë janë Modelet e Vogla të Gjuhës (SLM)? Një Udhëzues Praktik - Aiserahttps://aisera.com/blog/small-language-models/ Modelet e vogla të gjuhës (SLMs): Përkufizimi Dhe Përfitimet - Born Digitalhttps://borndigital.ai/small-language-models-slms-definition-and-benefits/ Përparësitë e Modeleve të Gjuhëve të Vogla Kundër Modeleve të Gjuhëve të Mëdha? by Eastgate Software Mediumhttps://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b Çfarë janë Modelet e Vogla të Gjuhës (SLM)? - IBMhttps://www.ibm.com/think/topics/small-language-models 3 key features and benefits of small language models | The Microsoft Cloud Blog https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ Qyteti i Qytetit të Qytetit të Qytetit të Qytetit të Qytetit - GitHubhttps://github.com/ARPAHLS GitHub - ARPAHLS/OPSIE: OPSIIE (OPSIE) është një prototip i avancuar i Inteligjencës Vetëqëndruese (SCI) që paraqet një paradigmë të re në ndërveprimin AI-njeri : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ AI Agents: The Future of Human-like Automation - Beam AI https://beam.ai/ai-agents Build and Recruit Autonomous AI Agents - Relevance AI https://relevanceai.com/agents Shpejtoni të gjithë organizatën tuaj me agjentët e personalizuar të AI-së://dust.tt/ CustomGPT.com Custom GPTs Nga Përmbajtja juaj Për Bizneshttps://customgpt.com/ Agjentët Custom AI: Çfarë Ata Janë dhe Si Ata Punojnë - Intellectyxhttps://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ Cilat Janë Agjentët e Intelektualitetit? eBayhttps://www.ibm.com/think/topics/ai-agents How the Democratization of AI Impacts Enterprise IT - Intellias https://intellias.com/democratization-ai-impacts-enterprise-it/ Democratizing AI - IBM https://www.ibm.com/think/insights/democratizing-ai Demokracisë së Inteligjencës Artificiale: Kornizë teorike - MDPIhttps://www.mdpi.com/2076-3417/14/18/8236 The Democratization Of AI: Bridging The Gap Between Monopolization And Personal Empowerment - Forbeshttps://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ Çfarë është qeverisja e AI-së? IBMhttps://www.ibm.com/think/topics/ai-governance Inteligjenca artificiale në qeverisjen e korporatave - Virtus InterPress2025,https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf Tuning qeverisjen e korporatave për AI Adoptionhttps://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/ https://blog.growthbook.io/the-benchmarks-are-lying/ https://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ https://en.wikipedia.org/wiki/Goodhart's_law https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms https://github.com/ARPAHLS/OPSIE https://arpacorp.net/arpa-systems https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless https://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ https://aws.amazon.com/what-is/overfitting/ https://www.ibm.com/think/topics/overfitting https://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ https://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications https://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics https://www.apa.org/monitor/2009/01/assessment https://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 https://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ https://www.nea.org/nea-today/all-news-articles/racist-beginnings-standardized-testing Përshkrimi i faqes: dbu.edu https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests are also criticized,in school and in life. https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html https://ectutoring.com/problem-with-iq-tests https://www.topendsports.com/health/tests/iq.htm https://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart https://www.bps.org.uk/psychologist/what-intelligence-tests-miss https://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies të mesme.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests fiveable.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. https://www.ebsco.com/research-starters/sociology/ability-testing-and-bias https://catalogofbias.org/biases/publication-bias/ https://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews https://www.scribbr.com/research-bias/publication-bias/ https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation https://www.bmj.com/content/366/bmj.l5109 https://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ https://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ https://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html https://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get https://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads https://en.wikipedia.org/wiki/Diesel_emissions_scandal https://en.wikipedia.org/wiki/Volkswagen_emissions_scandal https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies https://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ https://genderedinnovations.stanford.edu/case-studies/crash.html https://www.gao.gov/products/gao-23-105595 https://theautoprofessor.com/ https://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ https://www.nhtsa.gov/ratings https://theautoprofessor.com/what-is-star-inflation/ https://www.uipath.com/ai/specialized-ai https://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ https://www.youtube.com/shorts/YWF_d-UDCDI https://aisera.com/blog/small-language-models/ https://borndigital.ai/small-language-models-slms-definition-and-benefits/ https://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b https://www.ibm.com/think/topics/small-language-models https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ https://github.com/ARPAHLS https://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ https://beam.ai/ai-agents https://relevanceai.com/agents https://dust.tt/ https://customgpt.ai/ https://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ https://www.ibm.com/think/topics/ai-agents https://intellias.com/democratization-ai-impacts-enterprise-it/ https://www.ibm.com/think/insights/democratizing-ai https://www.mdpi.com/2076-3417/14/18/8236 https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ https://www.ibm.com/think/topics/ai-governance https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/