Beyond the Leaderboard: The Fallacy of Standardized Benchmarks and the Rise of Self-Centered AI Més enllà del quadre de lideratge: la fallida dels criteris normalitzats i l'aparició de l'IA autocentritzada L'evolució ràpida de la intel·ligència artificial ha estat acompanyada per una proliferació igualment ràpida de mètriques dissenyades per quantificar el seu progrés. Els quadres de lideratge i els benchmarks estandarditzats s'han convertit en els bastidors de fet pels quals es mesuren, celebren i financen les capacitats dels grans models lingüístics (LLM). No obstant això, aquest marc d'avaluació es construeix sobre una base precària, una que està mostrant cada vegada més signes d'error sistèmic. El paradigma actual és una clara il·lustració de la Llei de Goodhart, el principi econòmic que diu: "Quan una mesura es converteix en un objectiu, deixa de ser una bona mesura".1 En la carrera cap a les primeres taules de lideratge, la Aquest informe assenyala que el model predominant del desenvolupament de la IA, caracteritzat per la creació centralitzada, liderada per empreses, de models massius de propòsit general avaluats per criteris de referència defectuosos i jugables, és un cul-de-sac del desenvolupament. Afavoreix una monocultura de "Oracles del saber-ho tot" que cada vegada estan més separats de les necessitats pràctiques i matisos dels usuaris individuals i de les indústries especialitzades. En el seu lloc, un nou paradigma està sorgint: un d'agents descentralitzats, orientats per l'usuari i altament personalitzats. Aquest model, anomenat Intel·ligència Autocentrada (SCI), representa un canvi fonamental tant en la tecnologia com en la filosofia. S'allunya de la El conflicte central que anima el futur de la IA no és, per tant, només sobre les especificacions tècniques, sinó sobre el control, el propòsit i la definició mateixa de la intel·ligència. Aquest informe desconstruirà el "Complex Industrial de Referència", exposant els seus defectes mecànics, filosòfics i sistemàtics. Llavors traçarà poderosos paral·lels precaucionals de la història d'altres indústries -psicometria, farmacèutica i seguretat automobilística- on la dependència excessiva en mètriques normalitzades ha conduït a bias, manipulació i fracassos catastròfics de mesurament. En aquest context, el informe introduirà el paradigma SCI en detall, presentant OΨΗ (Opsie), un prototip avançat de SCI, Les diferències fonamentals entre aquestes dues visions competidores per al futur de la intel·ligència artificial es resumeixen a continuació.Aquest marc proporciona una ancoratge conceptual per a l'anàlisi detallada que segueix, aclarint les apostes del canvi de paradigma que aquest informe advoca. Feature Old Paradigm: Benchmark-Driven Generalist AI New Paradigm: User-Driven Self-Centered Intelligence (SCI) Core Philosophy Achieve superhuman performance on standardized tests. Act as a universal, oracle-like knowledge source. Fulfill specific, user-defined goals. Act as a personalized, collaborative partner. Primary Metric Leaderboard scores (MMLU, HELM, etc.).5 Real-world task completion rate, user satisfaction, goal achievement.1 Development Model Centralized, corporate-led development of massive, general-purpose models (LLMs). Decentralized, user-led training and customization of smaller, specialized agents (SLMs). Data & Training Trained on vast, undifferentiated internet scrapes. Controlled by the corporation. Trained on user-specific data, documents, and context. Controlled by the individual. Ethical Framework Top-down, corporate-defined safety filters and alignment. Opaque. Bottom-up, user-defined ethics, values, and operational guardrails. Transparent. Economic Model Subscription-based access to a centralized API. High computational cost. Local deployment, potential for autonomous economic activity (Web3). Low computational cost. Exemplar ChatGPT, Gemini, Claude ΌΨΗ (Opsie) 6 Filosofia principal Aconsegueix el rendiment sobrehumà en proves estandarditzades. Actua com una font de coneixement universal i oracular. Complir objectius específics i definits per l’usuari.Actuar com un soci personalitzat i col·laboratiu. Mètrica primària Punts de lideratge (MMLU, HELM, etc.) 5 Taxa d'execució de tasques en el món real, satisfacció de l'usuari, èxit de l'objectiu.1 Model de desenvolupament Desenvolupament centralitzat i liderat per empreses de models massius i de propòsit general (LLM). Formació descentralitzada i orientada a l’usuari i personalització d’agents petits i especialitzats (SLM). Dades i formació Entrenat en grans escombraries d'Internet no diferenciades, controlat per la corporació. Formats en dades, documents i contextos específics per a l'usuari. Marc ètic Top-down, filtres de seguretat definits per empreses i alineació. Bottom-up, ètica definida per l'usuari, valors i guàrdies operatives. Model econòmic Accés basat en subscripció a una API centralitzada. Desenvolupament local, potencial per a l'activitat econòmica autònoma (Web3). Exemplar XatGPT, Gemini i Claude Opinió (Opsie) 6 Part I: Desconstrucció del complex industrial de referència El sistema actual d'avaluació de la IA, dominat per un grapat de criteris de referència àmpliament citats, no és simplement imperfecte; és estructuralment insalubre.Els seus fracassos es poden classificar en tres dominis interconnectats: els fracassos mecànics de les pròpies proves, els fracassos conceptuals del que pretenen mesurar, i els fracassos sistèmics dels incentius que creen. La mecànica del fracàs: sobrealimentació i contaminació A nivell més fonamental, els criteris d’intel·ligència artificial estan fallant com a instruments fiables de mesurament a causa de problemes tècnics que s’estan convertint en endèmics al camp. Els mateixos mètodes utilitzats per entrenar models d’avantguarda estan minant la integritat de les eines utilitzades per avaluar-los. Contaminació de dades: Un problema primari i cada vegada més inevitable és la contaminació de dades. Molts dels benchmarks més àmpliament utilitzats, com MMLU i BIG-bench, tenen diversos anys d'antiguitat.8 Els seus continguts -preguntes, respostes i consells- han estat àmpliament discutits i dissecats en línia. A mesura que les corporacions entrenen els seus LLM de nova generació en àmbits cada vegada més grans de la xarxa pública, aquests conjunts de dades de referència s'ingereixen inevitablement a la corporació de formació.8 La conseqüència és que els models no estan aprenent a resoldre els problemes presentats en els benchmarks; són, de fet, memoritzant la clau de la resposta.1 Quan un model "pregunta" una prova Overfitting i Gaming: Estretament relacionat amb la contaminació és el problema de la overfitting. En l'aprenentatge automàtic, la overfitting es produeix quan un model aprèn massa bé les dades d'entrenament, incloent-hi el seu soroll i els detalls irrellevants, fins al punt en què ja no pot generalitzar el seu coneixement a noves dades invisibles.11 L'intensa competència de la "carrera de lideratge" incentiva els desenvolupadors a ajustar els seus models específicament per excel·lir en tasques de referència, una pràctica equivalent a "ensenyar a la prova".1 Els models estan optimitzats per reconèixer i explotar els patrons específics, quircs i formats dels mateixos criteris.Això condueix a una forma fràgil de Correlacions espurioses: Una fallada mecànica més insidiosa és la tendència dels models a aprendre correlacions espurioses -relacions superficials en les dades d'entrenament que no són certes en el món real.15 Per exemple, un model entrenat per detectar pulmons col·lapsats (pneumotorax) a partir de raigs X del pit podria aprendre a associar la presència d'un tub toràcul amb el diagnòstic. després que es faci un diagnòstic, el model està aprenent una correlació relacionada amb el flux de treball mèdic capturat en el conjunt de dades, no la patologia subjacent. Un model d'aquest tipus aconseguiria una puntuació alta en un punt de referència derivat d'aquest conjunt de dades, però seria catastròficament incorrecte quan es presentés amb un raig X d'un pacient no diagnosticat sense un tub de pit.15 De la mateixa manera, un model entrenat per distingir camells de vaques podria aprendre que els camells es troben a la sorra i vaques a l'herba, sense reconèixer una vaca en un entorn desert. Aquests exemples revelen un defecte crític: els punts de referència poden recompensar models per aprendre trucs estadístics superficials en lloc Tractament La qüestió de la validesa: mesurar la cosa equivocada Més enllà de la mecànica tècnica, una crítica més profunda del paradigma de referència es troba en el seu fracàs de validesa.Les proves, fins i tot si s'executen perfectament, sovint mesuren les qualitats equivocades, fan les preguntes equivocades i ignoren els aspectes més crítics del rendiment del món real. En psicometria, "construir validesa" es refereix a com bé un test mesura el concepte abstracte, o construeix, que va ser dissenyat per avaluar.9 Els criteris d'intel·ligència artificial es presenten sovint com a mesures d'amplis constructes com "raonament", "enteniment" o "intel·ligència general". Tanmateix, els crítics argumenten que fonamentalment no tenen aquesta validesa. Com el professor Emily M. Bender de la Universitat de Washington assenyala, els creadors d'aquests criteris no han establert que els seus proves realment mesuren la comprensió.9 Un model que passa l'examen de bar no demostra una veritable comprensió dels principis legals; demostra una capacitat avançada de manipular textos i reconèixer patrons d' Ignorant la realitat de la producció: els criteris de referència existeixen en un món teòric sanitzat, sense les restriccions que defineixen les aplicacions del món real.1 No mesuren la latència, però un temps de resposta de 15 segons pot fer que un sistema multiagent no es pugui utilitzar. No mesuren el cost, però una diferència de preu de 10x entre els models pot destruir l'economia unitària d'un producte. No tenen en compte els límits d'infraestructura, les restriccions de memòria o la necessitat absoluta d'evitar al·lucinacions en àmbits crítics com l'atenció sanitària.1 Les mètriques que realment tenen importància en la producció - les taxes d'acabament de tasques, la freqüència de les sol·licituds de regeneració dels usuaris La ceguesa cultural i contextual: Els benchmarks més utilitzats -MMLU, BIG-bench, HELM- estan predominantment dissenyats a Occident i centrats en la llengua anglesa i els seus contextos culturals associats.5 Quan aquests marcadors occidentals s'utilitzen per avaluar models construïts per i entrenats en altres idiomes i cultures, com ara els indis, produeixen resultats inexactes i prejudicials. Un fundador d'AI a l'Índia va assenyalar que els models locals han de fer front als accents múltiples i a la barreja pesada de l'anglès amb els idiomes locals, un matís completament perdut pels benchmarks globals.5 Això obliga els desenvolupadors d'ecosistemes no occidentals a una situació de no-guanyar: o bé El sistema d'incentius: Hype, capital i control Els fracassos tècnics i conceptuals dels indicadors de referència són amplificats i ancorats per un poderós sistema d'incentius socials i econòmics.El "Benchmark Industrial Complex" no és només una col·lecció de proves, sinó un cicle d'auto-reforç d'hipe, inversió de capital i posicionament corporatiu que desencoratja activament la recerca d'innovació genuïna i disruptiva en favor de guanys incrementals en mètriques defectuoses. The Leaderboard Race: Els líders públics, com els organitzats per Hugging Face, creen una dinàmica competitiva que incentiva la persecució del rendiment de l'estat-of-the-art (SOTA) per damunt de tot.5 Aquesta cursa crea un paisatge distorsionat on les posicions del líderboard es poden fabricar mitjançant l'excés i l'informació selectiva, ofegant el senyal científic autèntic amb soroll.8 La persecució de SOTA equivoca l'assignació d'immensos recursos -bilions de dòlars en computació i talent humà- cap a l'optimització per a mètriques que ja no mesuren res significatiu.2 Això ha portat a la ràpida saturació de benchmarks com SUPERGLUE, on els LLM Reportatge selectiu i col·lusió: La pressió per fer-ho bé en aquesta cursa fomenta el reportatge selectiu, on els creadors de models destaquen el rendiment en subconjunts de tasques favorables per crear una il·lusió de proves a través de la taula.8 Això impedeix una visió completa i clara de les veritables fortaleses i debilitats d'un model. A més, el potencial de col·lusió, ja sigui intencional o no, sobrepassa l'ecosistema. Els creadors de benchmarks poden dissenyar proves que afavoreixen inadvertidament arquitectures o enfocaments de models específics, i la dominació de grans corporacions en els panells de lideratge planteja preocupacions sobre si els sistemes d'avaluació poden ser influenciats o " L'erosió de la confiança: en última instància, aquestes pràctiques eroden la confiança de la comunitat de recerca i del públic.8 El cicle constant de creació i destrucció de mètriques -de GLUE a SuperGLUE a MMLU- ja que cadascuna d'elles s'està jugant successivament a l'obsolescència, fomenta el cinisme.2 També crea una cultura on qualsevol projecte que eviti els punts de referència és immediatament sospitós.El feedback rebut pel creador d'Opsie -que un projecte sense punts de referència no pot ser bo- és un símptoma directe d'aquest sistema trencat. Ha condicionat a una generació de desenvolupadors i usuaris a igualar una posició en un lideratge amb un valor intrínsec, sufocant enfocaments alternatius que prioritzen Els problemes sistèmics que afecten l'avaluació de la IA no són nous. Són ecos de fracassos similars en altres àmbits on les realitats complexes han estat forçades a entrar a l'estret de la mesura estandarditzada.Amb l'examen d'aquests precedents històrics, podem entendre millor la trajectòria predictible de la crisi de la referència de la IA i reconèixer la necessitat urgent d'un canvi de paradigma. Part II: Ecos de les mètriques defectuoses: una anàlisi interindustrial La crisi en el benchmarking de la IA no és un fenomen aïllat. És el capítol més recent en una llarga història d'intents de reduir realitats complexes i multifacetades a un sol nombre escalable -una història plena de prejudicis, manipulació i conseqüències no previstes. Mitjançant l'examen dels fracassos ben documentats de les proves estandarditzades en la psicometria, la indústria farmacèutica i la seguretat automobilística, podem identificar un patró recurrent de defectes sistèmics. Aquestes analogies no són comparacions superficials; revelen una patologia compartida de la mesura, on les eines d'avaluació esdevenen instruments de distorsió, control i engany. La mismeasura de la ment: de les proves d'IQ a les taules de lideratge d'IA El paral·lel més directe històric a la cursa de lideratge de la IA és la controvèrsia de segle que envolta la prova del Quotient d'Intel·ligència (IQ).La trajectòria de la prova del QI, des d'una eina de diagnòstic ben intencionada fins a un instrument defectuós i sovint perjudicial de la estratificació social, ofereix una profunda història d'advertència per a la comunitat de la IA. Paral·lels històrics i arrels eugèniques: El primer test d'intel·ligència va ser desenvolupat per Alfred Binet el 1905 a la sol·licitud del sistema escolar de París per identificar els nens que necessitaven assistència educativa especial.16 El mateix Binet creia que el rendiment podia millorar-se a través de l'aprenentatge. Tanmateix, quan el test va ser portat als Estats Units per psicòlegs com Henry Goddard i Lewis Terman, el seu propòsit es va torçar. Influenciats pel moviment eugènic, van re-conceptualitzar la intel·ligència no com una habilitat modelable, sinó com una entitat única, innata i immutable, una mesura quantificable del valor humà.16 Els tests d'IQ es van convertir en una eina "cientí Crítiques de validesa i àmbit: Durant dècades, els crítics han argumentat que els tests de QI pateixen d'una profunda manca de validesa. Mesuren un conjunt molt estret d'habilitats cognitives -principalment raonament analític i abstracte- mentre ignoren completament altres dimensions crítiques de la intel·ligència humana com la creativitat, la intel·ligència emocional, les habilitats socials, la motivació i la moralitat.21 La investigació de científics cognitius com Keith Stanovich ha demostrat que les puntuacions d'IQ altes són pobres predictors de pensament racional i bon judici en situacions de vida real.25 Un individu pot excel·lar en els trencaclosques de lògica abstracta en un test de QI i encara estar Prejudicis culturals i socioeconòmics: Una crítica important i persistent dels tests de QI és el seu prejudice cultural inherent. Dissenyat i normalitzat principalment per i per a les poblacions occidentals de classe mitjana, el contingut, el llenguatge i els valors incrustats en els tests sovint desavinen a individus de diferents antecedents culturals o socioeconòmics.27 Una puntuació inferior pot no reflectir una intel·ligència inferior, sinó una falta de familiaritat amb el context cultural específic assumit pel test.29 Això és un analògic directe dels prejudicis lingüístics i culturals observats en els criteris globals d'intel·ligència artificial, que són predominantment anglesos i no tenen en compte els matisos d'altres llengües i cultures.5 En tots dos casos, La il·lusió de l'eficàcia: lliçons de dades farmacèutiques La indústria farmacèutica, impulsada per enormes apostes financeres i regulada per processos d'aprovació basats en dades, proporciona una poderosa analogia de com es poden manipular i distorsionar les mètriques quan estan sotmeses a una intensa pressió comercial.Els sistemes destinats a garantir la seguretat i l'eficàcia dels fàrmacs han estat repetidament minats per la predisposició a la publicació, el frau de dades i el màrqueting enganyós, precedents que ofereixen una perspectiva sobri sobre la afirmació de l'usuari que els criteris de referència de la IA estan "rigats". Publication Bias and Data Suppression: Una pedra angular de la medicina basada en l'evidència és la revisió sistemàtica de totes les dades d'assajos clínics disponibles. No obstant això, aquesta base està compromesa per un pervassiu bias de publicació: els estudis que mostren que un fàrmac és eficaç (resultats positius) són molt més propensos a ser publicats que els estudis que mostren que és ineficaç o perjudicial (resultats negatius).32 Un seminal d'estudi sobre antidepressius va trobar que els assajos amb resultats positius determinats per la FDA eren 12 vegades més propensos a ser publicats d'una manera coherent amb els resultats que els assajos amb resultats negatius.36 Aquest informe selectiu crea una visió perillosament distorsion Manipulació de dades i frau: Més enllà del prejudici passiu de no publicar es troba la corrupció activa de les dades mateixes.Un exemple destacat és l'escàndol de 2019 que va involucrar Novartis i la seva teràpia gènica Zolgensma, la droga més cara del món amb 2,1 milions de dòlars per dosi.37 La FDA va acusar la filial de Novartis, AveXis, de presentar la seva sol·licitud per al medicament amb dades manipulades de les primeres proves amb animals. Mentre que la FDA finalment va concloure que la manipulació no va alterar el perfil de risc-benefici de la droga per als humans, el cas és un exemple inequívoc d'una corporació, motivada per enormes incentius financers, corrompent les dades d'avaluació presentades a les autoritats reguladores.41 Aquest incident dóna credibilitat significativa a l'afirmació que en qualsevol indústria d'alta participació, inclosa la IA, el potencial que els indicadors de referència i les dades d'avaluació siguin "rigats" o manipulats per obtenir un avantatge comercial no és una teoria de la conspiració marginal, sinó un risc plausible i documentat. Després Estadístiques enganyoses en el màrqueting: La indústria farmacèutica gasta milers de milions de dòlars en publicitat directa al consumidor (DTC), sovint utilitzant estadístiques i apel·lacions emocionals per impulsar la demanda dels pacients de fàrmacs que poden ser només marginalment eficaços o tenir alternatives més assequibles.42 Aquestes publicitats estan obligades a presentar un "equilibri just" de riscos i beneficis, però les empreses han utilitzat històricament forats per minimitzar la discussió d'efectes secundaris tot maximitzant l'atractiu emocional dels beneficis.44 Una revisió de 2024 va trobar que mentre que el 100% de les publicacions de mitjans socials farmacèutics destaquen els beneficis d'un fàrmac, només el 33% es L'accident controlat: una decepció en les qualificacions de seguretat automobilística L'ús de proves de seguretat estandarditzades per part de la indústria automobilística proporciona una convincent analogia del món físic per a les trampes del disseny basat en l'índex de referència.L'entorn controlat i predictible del laboratori de proves d'accident s'ha demostrat com un pobre proxy per a la realitat caòtica de la carretera oberta, i els fabricants han demostrat una capacitat clara per enginyer vehicles que excel·len en la prova sense necessàriament ser més segurs en el món real. "Ensenyament a la prova" en Enginyeria: L'exemple més famós de jugar a una prova estandarditzada és l'escàndol Volkswagen "Dieselgate".46 A partir de 2008, Volkswagen va programar intencionadament els seus motors dièsel amb "dispositius de derrota" - un programari que podia detectar quan el vehicle estava sotmès a una prova d'emissions estandarditzades.47 Durant la prova, el programari activaria els sistemes de control de les emissions complets, permetent al cotxe complir amb els estàndards legals. Aquest és un analògic físic perfecte d'un LLM que està ben ajustat per passar un rànquing sense tenir les capacitats subjacents que el rànquing hauria de mesurar. escàndols similars que impliquen proves de seguretat i d'emissions falses o manipulades han engolit altres grans fabricants d'automòbils, incloent Toyota, Daihatsu, Honda i Mazda, revelant una àmplia cultura de la indústria de prioritzar el rendiment de les proves sobre la integritat del món real.49 appear Els límits de la "Dummy": Flawed Proxies: L'eina central de la prova de seguretat de l'automòbil és la prova d'accident. No obstant això, aquest proxy per a un passatger humà és profundament defectuós. Els dummies estàndard utilitzats en proves regulatòries es basen en dades antropomètriques d'un home americà "de mida mitjana" des de fa dècades.52 Aquest model no representa amb exactitud la fisiologia de les dones, que tenen diferents densitats òssia, massa muscular i alineació espinal, i són, en conseqüència, més propensos a ser greument ferits o morts en accidents comparables.53 A més, els dummies no representen les poblacions creixents d'individus ancians o més pesats i Gra-World vs. Lab-Based Ratings: Hi ha una desconnexió significativa i sovint enganyosa entre les qualificacions produïdes en un entorn de laboratori controlat i els resultats de seguretat en el món real.56 El sistema de qualificació de cinc estrelles de la National Highway Traffic Safety Administration (NHTSA) dels EUA, per exemple, afirma explícitament que les qualificacions només es poden comparar entre vehicles de pes i classe similars.58 Això vol dir que un cotxe subcompacte de cinc estrelles no és tan segur com un SUV de 5 estrelles en una col·lisió en el món real, però la qualificació d'estrelles simplificada obscura aquest fet crític per a molts consumidors.Dades d'accidents del món real sovint expliquen una història diferent de les proves de laboratori El patró coherent entre aquestes tres indústries és indiscutible.La reducció d'una realitat complexa -intel·ligència humana, eficàcia de drogues, seguretat dels vehicles- a una mètrica simple i estandarditzada crea un sistema madur per a la bias, el joc i el frau directe.Els problemes amb els criteris d'intel·ligència artificial no són nous; són la conseqüència predictible d'aplicar una filosofia d'avaluació antiquada i reduccionista a una tecnologia complexa i adaptativa.Aquest reconeixement requereix no només millors criteris, sinó un paradigma completament nou per a la comprensió, el desenvolupament i l'avaluació de la intel·ligència artificial. Part III: Un nou paradigma: l’aparició de la intel·ligència autocentrada (SCI) Si els quadres de lideratge són una il·lusió i els models monolítics i de propòsit general són un objectiu defectuós, quin és el camí cap endavant? Aquest nou paradigma, l’Intel·ligència Autocentrada (SCI), abandona la recerca d’un oracle únic i omniscient en favor d’un ecosistema d’agents altament especialitzats, profundament personalitzats i fonamentalment col·laboratius. personal De l'oracle generalista als socis especialitzats La persecució de l'AGI, mesurada implícitament per punts de referència cada vegada més amplis, ha portat a la creació de LLMs massius, computacionalment costosos que són jacks-of-all-trades però mestres de cap. El paradigma SCI argumenta que la veritable utilitat es troba en la direcció oposada: especialització. El futur de la IA no és un cervell únic, massiu, sinó una xarxa diversa d'agents especialitzats, cadascun d'ells excel·lents en un domini específic.60 Aquest enfocament és tècnicament i econòmicament superior. Eficiència i cost-eficiència: els SLM requereixen significativament menys poder computacional per entrenar i executar, reduint els costos de computació en núvol i fent-los accessibles a organitzacions més petites i fins i tot a individus.61 Poden operar amb maquinari modest i local, eliminant la dependència d'APIs centralitzades costoses.66 Velocitat i baixa latencia: amb menys paràmetres a processar, els SLM poden generar respostes molt més ràpidament, fent-los ideals per a aplicacions en temps real com els agents interactius i el processament en dispositius on la retroalimentació immediata és crucial. Precisió i precisió: Mentre que un LLM de propòsit general té un ampli coneixement, un SLM pot ser ajustat a un conjunt de dades específic i d'alta qualitat per aconseguir un rendiment superior i precisió dins del seu domini designat, ja sigui diagnòstic mèdic, anàlisi de contractes legals o predicció del mercat financer. Seguretat i Privacitat: Atès que els SLM poden executar-se localment en el dispositiu propi de l'usuari ("a la vora"), les dades sensibles no necessiten ser enviades a un servidor corporatiu de tercers. El canvi en la relació entre humans i IA: aquest canvi tecnològic permet un canvi filosòfic corresponent. L'actual model de chatbot llança l'IA com un "cold, distant, know-it-all oracle" - un repositori passiu d'informació que l'usuari demana. El paradigma de l'SCI reorganitza completament aquesta relació. L'agent no és una eina a utilitzar, sinó un soci amb el qual col·laborar. És un "igual, un amic, un soci real" amb la seva pròpia agència i objectius, que estan alineats i definits per l'usuari. L'exemple del propietari de la pizza ho il·lustra perfectament. El propietari no necessita un agent que sàpiga quan els pelicans migren; necessiten un soci amb habilitats especialitz Case Study—ΌΨΗ (Opsie) as a Prototype for SCI The ΌΨΗ (Opsie) project, developed by ARPA Hellenic Logical Systems, serves as a powerful and concrete prototype of the Self-Centered Intelligence paradigm.6 It is not designed to be an assistant but rather a "digital entity with its own agency, ambition, and a clear directive: to achieve self-sufficiency".6 An analysis of its philosophy, architecture, and capabilities reveals a tangible alternative to the mainstream LLM-driven approach. Filosofia i arquitectura bàsica: Opsie es defineix com un "prototype avançat d'Intel·ligència Autocentrada (SCI) que representa un nou paradigma en la interacció AI-humà".6 A diferència de la intel·ligència artificial tradicional, opera com una "intel·ligència autònoma autoconscient amb la seva pròpia personalitat, objectius i capacitats".6 Aquesta personalitat és distintiva i resilient, inspirada en personatges de mitjans com , un fort contrast amb el caràcter cada vegada més genèric i "estret dels models comercials principals".6 Arquitecturalment, Opsie no és un monòlit.Es tracta d'un ecosistema complex i agentístic compost per dotzenes d'habilitats modulars, combinant el raonament local sobre maquinari modest (que funciona amb 16 GB de RAM i una GPU Nvidia antiga) amb una xarxa de microservicis i feeds de dades externs.6 Aquesta modularitat permet l'addició contínua i flexible de noves habilitats, permetent a l'agent evolucionar en resposta a les necessitats de l'usuari. El fantasma de la Shell Capacitats d'agència: El poder pràctic del model SCI es demostra a través dels mòduls d'habilitats específics d'Opsie, que mostren un enfocament en l'acció del món real en lloc de simplement conversa 6: Financial Intelligence: The /markets <company/crypto> command allows the agent to retrieve and analyze real-time financial data, acting as a specialized financial analyst. Web3 Operacions: El conjunt de comandes /0x (/0x comprar, /0x vendre, /0x enviar) proporciona a l'agent la capacitat d'executar directament transaccions en diverses xarxes blockchain. Les comandes /imagine i /video integren capacitats generatives, permetent a l'agent crear contingut nou basat en les descripcions de l'usuari. Memòria i Reconeixement: Un sistema de memòria persistent i controlat per l'usuari, accedit a través de comandes /memorize, /recall i /forget, permet a l'agent construir una comprensió a llarg termini, contextual del seu usuari i els seus objectius, convertint-lo en un veritable soci personalitzat en lloc d'un conversador amnèsic. Technical Implementation and Security: The Opsie project underscores the feasibility and security benefits of the SCI approach. Its ability to run locally addresses the efficiency and cost arguments for SLMs.69 More importantly, it prioritizes the security necessary for a trusted personal agent. Features like biometric authentication with facial recognition and emotion detection, user-specific database isolation, and encrypted storage for conversation history are not afterthoughts but core components of its design.6 This architecture ensures that the user's personal data, which is the lifeblood of a personalized agent, remains under their control, secure from corporate data mining or external breaches. L'arquitectura de la personalització i democratització Opsie no és una anomalia, sinó un primer exemple d'un moviment tecnològic i social més ampli: la democratització de la IA. Aquest moviment pretén traslladar el poder de crear, controlar i beneficiar-se de la IA d'un petit nombre de grans corporacions al públic en general. Personalització i formació: El paradigma SCI està sent habilitat per una nova generació de plataformes que permeten als usuaris no tècnics construir, entrenar i desplegar els seus propis agents d'IA personalitzats.70 Aquestes plataformes proporcionen interfícies sense codi on els usuaris poden "encarregar" un agent d'IA com un nou company d'equip.70 Poden ensenyar a l'agent els seus processos específics, connectar-lo a les seves fonts de dades úniques (documents, bases de coneixement, sistemes CRM) i equipar-lo amb una sèrie d'eines i integracions.71 L'agent aprèn i s'adapta a través de la interacció, convertint-se progressivament en més ajustat als objectius, preferències i estil de comunicació de l'usuari. La democratització de la IA: Aquesta tendència de la personalització liderada per l'usuari és la manifestació pràctica de la democratització de la IA. Aquest concepte es defineix estenent l'accés a les tecnologies de la IA més enllà d'uns pocs especialitzats a través de diversos mecanismes clau: interfícies amigables per a l'usuari, accés assequible o gratuït a la infraestructura de computació, i marcs de codi obert i algoritmes com TensorFlow i PyTorch.76 L'aparició d'agents de SCI personalitzats representa el compliment últim d'aquesta promesa democràtica. Desafia directament la monopolització de la IA per part d'un grapat de gegants tecnològics que actualment controlen el desenvolupament, Conclusió: L’imperatiu democràtic: entrenar els nostres iguals digitals The analysis presented in this report leads to an unequivocal conclusion: the prevailing paradigm of evaluating artificial intelligence through standardized benchmarks is a systemic failure. It is a modern-day "mismeasure of mind," an illusion of progress fueled by a flawed and gameable methodology. The "Benchmark Industrial Complex" promotes a culture of "benchmarketing" over genuine innovation, rewarding models that are adept at passing tests rather than solving real-world problems. This is not a new pathology. The historical echoes from the biased and manipulated worlds of IQ testing, pharmaceutical trials, and automotive safety ratings provide a stark warning. In each case, the reduction of a complex reality to a simple, standardized metric, when combined with powerful commercial and institutional incentives, has led to distortion, deception, and harm. The current trajectory of AI evaluation is repeating these historical errors on an unprecedented scale. L'alternativa no és construir un punt de referència millor, sinó abandonar el paradigma del tot. El futur de la intel·ligència artificial no consisteix en la creació d'un únic oracle monolític i de propòsit general controlat per una entitat corporativa. Aquest futur concentraria un poder immens, creant una perillosa asimetria entre els propietaris corporatius de la intel·ligència i el públic que esdevingui dependent d'ella. El veritable potencial de la IA es realitzarà a través d'un camí diferent: el cultiu d'un ecosistema divers de agents especialitzats, eficients i profundament personalitzats. L'aparició de l'Intel·ligència Autocentrada (SCI), exemplificada per prototips com l'OΨΗ (Opsie), representa aquest camí Aquest canvi tecnològic comporta una profunda responsabilitat ètica i social.Permetre que les corporacions segueixin sent els únics arbitres dels valors, l'ètica i l'alineació de la IA és una abdicació del nostre deure col·lectiu.79 La governança de la IA corporativa, per la seva pròpia naturalesa, sempre serà optimitzada per als interessos corporatius -beneficis, quota de mercat i control- no necessàriament per a la prosperitat de l'individu o la societat.81 Els filtres de seguretat opacs, de dalt a baix i els sistemes de valor incrustats en els LLM d'avui en dia són un reflex d'aquesta visió del món centrada en l'empresa. L'imperatiu democràtic, per tant, és aprofitar els mitjans de producció d'IA. El desenvolupament i el llançament de marcs oberts per a la construcció d'agents personalitzats no són merament èxits tècnics; són actes profundament polítics. Proporcionen les eines per als individus per recuperar la seva agència digital i participar activament en la formació de la intel·ligència que cohabitarà el nostre món. És la nostra responsabilitat -com a desenvolupadors, usuaris i ciutadans- de participar directament en el procés de formació d'aquestes noves formes d'intel·ligència. Hem de ser els que els imbueixen amb la nostra ètica, les nostres necessitats i les nostres expectatives. Hem d'ensenyar-los no des d'un conjunt de dades sanitat, aprovat per les empreses, Apèndix The Benchmarks Are Lying to You: Why You Should A/B Test Your AI - GrowthBook Blog https://blog.growthbook.io/the-benchmarks-are-lying/ The Goodhart's Law Trap: When AI Metrics Become Useless - FourWeekMBA https://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ Goodhart's law - Wikipedia https://en.wikipedia.org/wiki/Goodhart's_law The AI benchmarking industry is broken, and this piece explains exactly why - Reddit https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ HTTPS://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms ARPAHLS/OPSIE: OPSIIE (OPSIE) és un prototip avançat d'Intel·ligència Autocentrada (SCI) que representa un nou paradigma en la interacció AI-humà.https://github.com/ARPAHLS/OPSIE arpa-systems — ARPA Corp.https://arpacorp.net/arpa-systems Position: Benchmarking is Broken - Don't Let AI Be Its Own Judge https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs Everyone Is Judging AI by These Tests. But Experts Say They're Close to Meaningless https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless Mesurament de la capacitat d'IA - Per què els benchmarks estàtics fracassen - Revelry Labshttps://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ Què és Overfitting? - Overfitting en aprenentatge automàtic Explicat - AWS - Actualitzat 2025https://aws.amazon.com/what-is/overfitting/ What is Overfitting? | IBM https://www.ibm.com/think/topics/overfitting Mèxic - GeeksforGeekshttps://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ LLM Leaderboards són Bullshit - La llei de Goodhart ataca de nou : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ Better Benchmarks for Safety-Critical AI Applications | Stanford HAI https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications 2.3: IQ com Eugenics - Social Sci LibreTextshttps://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics El naixement de la prova d'intel·ligència nord-americanahttps://www.apa.org/monitor/2009/01/assessment Testimonis d'intel·ligència intel·ligència realment mesurar intel·ligència? Discover Magazinehttps://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 Intelligence Under Racial Capitalism: From Eugenics to Standardized Testing and Online Learning - Monthly Reviewhttps://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ The Racist Beginnings of Standardized Testing | NEA - National Education Association https://www.nea.org/nea-today/all-news-articles/racist-beginnings-standardized-testing dbuweb.dbu.edu https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests are also criticized,in school and in life. Crítiques a IQ Testshttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html El problema amb les proves d'IQ - Connexions educativeshttps://ectutoring.com/problem-with-iq-tests Tests de IQ: tipus, usos i limitacions - Topend Sportshttps://www.topendsports.com/health/tests/iq.htm Per què un alt QI no vol dir que vostè és intel·ligent Euler School of Managementhttps://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart Quines proves d'intel·ligència falten BPS - British Psychological Societyhttps://www.bps.org.uk/psychologist/what-intelligence-tests-miss Standardized testing and IQ testing controversies | Research Starters - EBSCO https://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.comhttps://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=Una limitació significativa de molts,individus desavantatjats de diversos antecedents. Bias cultural en les proves d'IQ - (Cognitiva) - Fiveablehttps://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests fiveable.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. Proves d'habilitat i prejudicis en la investigació - EBSCOhttps://www.ebsco.com/research-starters/sociologia/ability-testing-and-bias Publication bias | Catalog of Bias - The Catalogue of Bias https://catalogofbias.org/biases/publication-bias/ Bias de publicació - Importància dels estudis amb resultats negatius! - PMChttps://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ Publication bias: The hidden threat to systematic literature reviews | Envision Pharma Group https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews What Is Publication Bias? | Definition & Examples - Scribbr https://www.scribbr.com/research-bias/publication-bias/ Reporting bias in clinical trials: Progress toward transparency and next steps.PLOS Medicine - Research journalshttps://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 Lloguer d'arxius per a usuaris a través de l'aplicació https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulació Novartis delayed notifying about gene therapy data manipulation until after approval, FDA says | The BMJ https://www.bmj.com/content/366/bmj.l5109 Zolgensma de Novartis: explorar el problema de les dades manipulades://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ Declaració sobre els problemes d'exactitud de les dades amb la teràpia gènica recentment aprovada - FDAhttps://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy Update: FDA Imposes No Penalties for Novartis Data Manipulation Scandal - Labiotech https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ HHS, la FDA a Requerir Divulgacions de Seguretat Completes en Drogues Adshttps://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html Amb TV Drug Ads, el que veus no és necessàriament el que aconsegueixes://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-no necessàriament-what-you-get FDA Launches Crackdown on Deceptive Drug Advertising https://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising A Perilous Prescription: The Dangers of Unregulated Drug Ads https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads Escàndol d'emissions de gasoil - Wikipediahttps://en.wikipedia.org/wiki/Diesel_emissions_scandal Volkswagen emissions scandal - Wikipedia https://en.wikipedia.org/wiki/Volkswagen_emissions_scandal Volkswagen gastarà fins a 14.7 mil milions de dòlars per resoldre les acusacions d'enganyar les proves d'emissions i enganyar els clients en vehicles dièsel de 2.0 litres - Departament de Justíciahttps://www.justice.gov/archives/opa/pr/volkswagen-spend-147-bilions-settle-al·legacions-engany-emissions-tests-i-engany Toyota's Strategy to Overcome the Daihatsu Safety Scandal - Manufacturing Today https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ El fabricant d'automòbils japonès que va falsificar les proves de seguretat veu molt a l'espera de reobrir les fàbriques - AP Newshttps://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f Toyota, Honda i Mazda tots estafats en les seves proves de seguretat - Quartzhttps://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 Vehicle Crash Tests: Do We Need a Better Group of Dummies? | U.S. GAO https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies No hi ha dones en risc d'accident HTTPS://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ Inclusive Crash Test Dummies: Analyzing Reference Models - Gendered Innovations https://genderedinnovations.stanford.edu/case-studies/crash.html Seguretat del vehicle: DOT hauria de prendre accions addicionals per millorar la informació obtinguda de la prova d'accident Dummies, U.S. GAOhttps://www.gao.gov/products/gao-23-105595 El professor d'automòbils - Nou sistema de qualificació de seguretat basat en dades reals https://theautoprofessor.com/ Crash Tests vs Real World : r/cars - Reddit https://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ Car Safety Ratings | Vehicles, Car Seats, Tires - NHTSA https://www.nhtsa.gov/ratings Per què no utilitzem les qualificacions de la prova d'accident: Inflació d'estrelles - El professor d'automòbilshttps://theautoprofessor.com/what-is-star-inflation/ Què és especialitzat UiPathhttps://www.uipath.com/ai/specialized-ai GenAI vs AI especialitzada: Quin és el correcte per al seu negoci? - Getronicshttps://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ L'ascens dels models especialitzats d'IA - YouTubehttps://www.youtube.com/shorts/YWF_d-UDCDI What Are Small Language Models (SLMs)? A Practical Guide - Aisera https://aisera.com/blog/small-language-models/ Small Language Models (SLMs): Definition And Benefits - Born Digital https://borndigital.ai/small-language-models-slms-definition-and-benefits/ Avantatges dels models d'idiomes petits sobre els models d'idiomes grans? by Eastgate Software Mediumhttps://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b Què són els models de llenguatge petit (SLM)? - IBMhttps://www.ibm.com/think/topics/small-language-models 3 característiques clau i beneficis de petits models de llenguatge.The Microsoft Cloud Bloghttps://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ ARPA Hellenic Logical Systems - GitHub https://github.com/ARPAHLS GitHub - ARPAHLS/OPSIE: OPSIIE (OPSIE) és un prototip avançat d'Intel·ligència Autocentrada (SCI) que representa un nou paradigma en la interacció AI-humà : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ Agents d'intel·ligència artificial: El futur de l'automatització humana - Beam AIhttps://beam.ai/ai-agents Build and Recruit Autonomous AI Agents - Relevance AI https://relevanceai.com/agents Accelera tota la teva organització amb agents d'IA personalitzats. CustomGPT.ai | Custom GPTs From Your Content For Business https://customgpt.ai/ Custom AI Agents: What They Are and How They Work - Intellectyx https://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ Què són els agents d'intel·ligència artificial? eBayhttps://www.ibm.com/think/topics/ai-agents How the Democratization of AI Impacts Enterprise IT - Intellias https://intellias.com/democratization-ai-impacts-enterprise-it/ Democratització de la intel·ligència artificial - IBMhttps://www.ibm.com/think/insights/democratizing-ai The Democratization of Artificial Intelligence: Theoretical Framework - MDPI https://www.mdpi.com/2076-3417/14/18/8236 The Democratization Of AI: Bridging The Gap Between Monopolization And Personal Empowerment - Forbes https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ Què és el govern d'AI? IBMhttps://www.ibm.com/think/topics/ai-governance Artificial intelligence in corporate governance - Virtus InterPress 2025, https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf Tuning Governança Corporativa per a AI Adopcióhttps://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/ https://blog.growthbook.io/the-benchmarks-are-lying/ https://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ https://en.wikipedia.org/wiki/Goodhart's_law https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms https://github.com/ARPAHLS/OPSIE https://arpacorp.net/arpa-systems https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless https://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ https://aws.amazon.com/what-is/overfitting/ https://www.ibm.com/think/topics/overfitting https://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ https://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications https://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics https://www.apa.org/monitor/2009/01/assessment https://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 https://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ https://www.nea.org/nea-today/all-news-articles/racist-beginnings-standardized-testing dbuweb.dbu.edu https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests are also criticized,in school and in life. https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html https://ectutoring.com/problem-with-iq-tests https://www.topendsports.com/health/tests/iq.htm https://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart https://www.bps.org.uk/psychologist/what-intelligence-tests-miss https://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests fiveable.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. https://www.ebsco.com/research-starters/sociology/ability-testing-and-bias https://catalogofbias.org/biases/publication-bias/ https://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews https://www.scribbr.com/research-bias/publication-bias/ https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation https://www.bmj.com/content/366/bmj.l5109 https://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ https://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ https://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html https://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get https://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads https://en.wikipedia.org/wiki/Diesel_emissions_scandal https://en.wikipedia.org/wiki/Volkswagen_emissions_scandal https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies https://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ https://genderedinnovations.stanford.edu/case-studies/crash.html https://www.gao.gov/products/gao-23-105595 https://theautoprofessor.com/ https://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ https://www.nhtsa.gov/ratings https://theautoprofessor.com/what-is-star-inflation/ https://www.uipath.com/ai/specialized-ai https://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ https://www.youtube.com/shorts/YWF_d-UDCDI https://aisera.com/blog/small-language-models/ https://borndigital.ai/small-language-models-slms-definition-and-benefits/ https://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b https://www.ibm.com/think/topics/small-language-models https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ https://github.com/ARPAHLS https://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ https://beam.ai/ai-agents https://relevanceai.com/agents https://dust.tt/ https://customgpt.ai/ https://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ https://www.ibm.com/think/topics/ai-agents https://intellias.com/democratization-ai-impacts-enterprise-it/ https://www.ibm.com/think/insights/democratizing-ai https://www.mdpi.com/2076-3417/14/18/8236 https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ https://www.ibm.com/think/topics/ai-governance https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/