Beyond the Leaderboard: The Fallacy of Standardized Benchmarks and the Rise of Self-Centered AI Au-delà du tableau de bord : la faillite des critères normalisés et la montée de l’IA autocentrée L'évolution rapide de l'intelligence artificielle a été accompagnée d'une prolifération aussi rapide des mesures conçues pour quantifier ses progrès. Les tableaux de référence et les benchmarks standardisés sont devenus les plateaux de base de facto par lesquels les capacités des grands modèles linguistiques (LLM) sont mesurées, célébrées et financées. Cependant, ce cadre d'évaluation est construit sur une base précaire, celle qui montre de plus en plus de signes d'échec systémique. Le paradigme actuel est une illustration flagrante de la Loi de Goodhart, le principe économique qui stipule : « Lorsqu'une mesure devient une cible, elle cesse d'être une bonne mesure ».1 Dans la course au sommet des tableaux de référence, l' Ce rapport affirme que le modèle prédominant du développement de l’IA – caractérisé par la création centralisée, dirigée par l’entreprise, de modèles massifs à usage général évalués par des critères de référence défectueux et jouables – est un cul-de-sac du développement. Il favorise une monoculture des « oracles du savoir-tout » qui sont de plus en plus détachés des besoins pratiques et nuancés des utilisateurs individuels et des industries spécialisées. À sa place, un nouveau paradigme émerge : un des agents décentralisés, utilisateur-driven et hautement personnalisés. Ce modèle, appelé Intelligence Autocentrée (SCI), représente un changement fondamental dans la technologie et la philosophie. Il s’éloigne de la poursuite d Le conflit central animant l’avenir de l’IA n’est donc pas uniquement sur les spécifications techniques, mais sur le contrôle, la finalité et la définition même de l’intelligence. Ce rapport déconstruira le « Complexe industriel de référence », exposant ses défauts mécaniques, philosophiques et systémiques. Il mettra ensuite en évidence des parallèles puissants et préventifs de l’histoire d’autres industries – psychométriques, pharmaceutiques et de sécurité automobile – où la dépendance excessive aux métriques normalisées a conduit à des préjugés, à la manipulation et à des échecs catastrophiques de mesure. Dans ce contexte, le rapport présentera le paradigme SCI en détail, présentant OΨΗ (Opsie), Les distinctions fondamentales entre ces deux visions concurrentes pour l’avenir de l’intelligence artificielle sont résumées ci-dessous.Ce cadre fournit une ancre conceptuelle pour l’analyse détaillée qui suit, clarifiant les enjeux du changement de paradigme que ce rapport prône. Feature Old Paradigm: Benchmark-Driven Generalist AI New Paradigm: User-Driven Self-Centered Intelligence (SCI) Core Philosophy Achieve superhuman performance on standardized tests. Act as a universal, oracle-like knowledge source. Fulfill specific, user-defined goals. Act as a personalized, collaborative partner. Primary Metric Leaderboard scores (MMLU, HELM, etc.).5 Real-world task completion rate, user satisfaction, goal achievement.1 Development Model Centralized, corporate-led development of massive, general-purpose models (LLMs). Decentralized, user-led training and customization of smaller, specialized agents (SLMs). Data & Training Trained on vast, undifferentiated internet scrapes. Controlled by the corporation. Trained on user-specific data, documents, and context. Controlled by the individual. Ethical Framework Top-down, corporate-defined safety filters and alignment. Opaque. Bottom-up, user-defined ethics, values, and operational guardrails. Transparent. Economic Model Subscription-based access to a centralized API. High computational cost. Local deployment, potential for autonomous economic activity (Web3). Low computational cost. Exemplar ChatGPT, Gemini, Claude ΌΨΗ (Opsie) 6 philosophie de base Obtenez des performances surhumaines sur des tests standardisés. Agissez comme une source de connaissances universelle et oraculaire. Réaliser des objectifs spécifiques, définis par l’utilisateur. Agir en tant que partenaire personnalisé et collaboratif. Métro primaire Leaderboard scores (MMLU, HELM, etc.) 5 Taux de réalisation des tâches dans le monde réel, satisfaction des utilisateurs, réalisation des objectifs.1 Modèle de développement Développement centralisé et dirigé par l'entreprise de modèles massifs à usage général (LLM). Formation décentralisée et guidée par l’utilisateur et personnalisation des petits agents spécialisés (SLM). Données & Formation Entraîné sur de vastes débris internet non différenciés. contrôlé par la société. Formé sur les données, les documents et le contexte spécifiques à l'utilisateur. Cadre éthique Filtres de sécurité et alignement de haut en bas, définis par l'entreprise. L’éthique, les valeurs et les garde-roues opérationnelles définies par l’utilisateur. modèle économique Accès basé sur l'abonnement à une API centralisée. Déploiement local, potentiel d’activité économique autonome (Web3). Exemplaire ChatGPT, Gemini et Claude Voix (Opsie) 6 Partie I : Déconstruction du complexe industriel de référence Le système actuel d’évaluation de l’IA, dominé par une poignée de critères de référence largement cités, n’est pas seulement imparfait ; il est structurellement malsain. Ses échecs peuvent être classés en trois domaines interconnectés : les échecs mécaniques des tests eux-mêmes, les échecs conceptuels de ce qu’ils prétendent mesurer et les échecs systémiques des incitations qu’ils créent. La mécanique de l’échec : suralimentation et contamination Au niveau le plus fondamental, les critères de référence de l’IA échouent en tant qu’instruments de mesure fiables en raison de problèmes techniques qui deviennent endémiques dans le domaine. Contamination des données: Un problème primordial et de plus en plus inévitable est la contamination des données. De nombreux critères de référence les plus largement utilisés, tels que MMLU et BIG-bench, ont plusieurs années.8 Leur contenu — questions, réponses et invitations — a été largement discuté et disséqué en ligne. Alors que les entreprises entraînent leurs LLM de prochaine génération sur des domaines de plus en plus grands de l'internet public, ces ensembles de données de référence sont inévitablement ingérés dans le corps de formation.8 La conséquence est que les modèles n'apprennent pas à résoudre les problèmes présentés dans les critères de référence; ils sont, en fait, mémoriser la clé de la réponse.1 Lorsqu'un modèle «traîne» un Dans l’apprentissage automatique, l’overfitting se produit lorsqu’un modèle apprend trop bien les données de formation, y compris son bruit et ses détails irréguliers, au point où il ne peut plus généraliser ses connaissances à de nouvelles données invisibles.11 La concurrence intense de la « course au tableau de bord » encourage les développeurs à finaliser leurs modèles spécifiquement pour exceller dans les tâches de référence – une pratique équivalente à « enseigner au test ».1 Les modèles sont optimisés pour reconnaître et exploiter les modèles spécifiques, les quirques et les formats des références elles-mêmes. Correlations spurioses: Une défaillance mécanique plus insidieuse est la tendance des modèles à apprendre des corrélations spurioses - des relations superficielles dans les données d'entraînement qui ne sont pas vraies dans le monde réel.15 Par exemple, un modèle formé pour détecter des poumons effondrés (pneumothorax) à partir de rayons X thoraciques pourrait apprendre à associer la présence d'un tube thoracique au diagnostic. Après un diagnostic, le modèle apprend une corrélation liée au flux de travail médical capturé dans le groupe de données, et non à la pathologie sous-jacente. Un tel modèle obtiendrait un score élevé sur un référentiel dérivé de ce groupe de données, mais serait catastrophiquement faux lorsqu'il est présenté avec un rayon X d'un patient non diagnostiqué sans tube thoracique.15 De même, un modèle formé pour distinguer les chameaux des vaches pourrait apprendre que les chameaux sont trouvés sur le sable et les vaches sur l'herbe, ne parvenant pas à reconnaître une vache dans un environnement désert. Ces exemples révèlent un défaut critique: les référentiels peuvent récompenser des modèles pour l'apprent Traitement La question de la validité : mesurer la mauvaise chose Au-delà de la mécanique technique, une critique plus profonde du paradigme de référence réside dans son échec de validité.Les tests, même si parfaitement exécutés, mesurent souvent les mauvaises qualités, posent les mauvaises questions et ignorent les aspects les plus critiques de la performance du monde réel. En psychométrie, "construire la validité" se réfère à la façon dont un test mesure le concept abstrait, ou construire, il a été conçu pour évaluer.9 Les critères de référence de l'IA sont souvent présentés comme des mesures de constructions larges telles que "rationnement", "compréhension" ou "intelligence générale". Cependant, les critiques soutiennent qu'ils manquent fondamentalement de cette validité. Comme le souligne le professeur Emily M. Bender de l'Université de Washington, les créateurs de ces critères n'ont pas établi que leurs tests mesurent réellement la compréhension.9 Un modèle qui passe l'examen du bar ne démontre pas une véritable compréhension des principes juridiques; il démontre une capacité avancée à Ignorer la réalité de la production : les critères de référence existent dans un monde théorique sanité, dépourvu des contraintes qui définissent les applications du monde réel.1 Ils ne mesurent pas la latence, mais un temps de réponse de 15 secondes peut rendre un système multi-agent inutilisable. Ils ne mesurent pas le coût, mais une différence de prix de 10x entre les modèles peut détruire l’économie unitaire d’un produit. Ils ne prennent pas en compte les limites de l’infrastructure, les contraintes de la mémoire ou la nécessité absolue d’éviter les hallucinations dans des domaines critiques tels que les soins de santé.1 Les mesures qui comptent vraiment dans la production – les taux d’achèvement des tâches, la fréquence des demandes de rég La cécité culturelle et contextuelle: Les critères de référence les plus utilisés – MMLU, BIG-bench, HELM – sont largement conçus en Occident et se concentrent sur la langue anglaise et ses contextes culturels associés.5 Lorsque ces critères de référence occidentaux sont utilisés pour évaluer des modèles construits pour et formés sur d’autres langues et cultures, tels que les langues indiennes, ils produisent des résultats inexacts et biaisés. Un fondateur d’IA en Inde a noté que les modèles locaux doivent gérer les accents multiples et le mélange lourd de l’anglais avec les langues locales, une nuance complètement manquée par les critères de référence mondiaux.5 Cela force les développeurs dans les écosystèmes Le système d’incitations : hype, capital et contrôle Les défaillances techniques et conceptuelles des benchmarks sont amplifiées et enracinées par un puissant système d’incitations sociales et économiques.Le « Benchmark Industrial Complex » n’est pas seulement une collection de tests mais un cycle d’auto-renforcement de hype, d’investissement de capital et de positionnement d’entreprise qui décourage activement la poursuite d’une innovation authentique et disruptive en faveur de gains accrues sur des mesures défectueuses. Leaderboard Race: Les leaderboards publics, tels que ceux hébergés par Hugging Face, créent une dynamique concurrentielle qui encourage la poursuite de la performance SOTA par-dessus tout.5 Cette course crée un paysage déformé dans lequel les positions du leaderboard peuvent être fabriquées à travers la suralimentation et le reporting sélectif, noyant les vrais signaux scientifiques avec du bruit.8 La poursuite de SOTA trompe l’allocation d’énormes ressources – des milliards de dollars en informatique et en talent humain – vers l’optimisation pour des mesures qui ne mesurent plus rien de significatif.2 Cela a conduit à une saturation rapide des benchmarks comme SUPERGLUE, où les LLM atteignent les plafonds de performance peu après la Rapports sélectifs et collusion: La pression de bien se produire dans cette course encourage les rapports sélectifs, où les créateurs de modèles mettent en évidence les performances sur des sous-ensembles de tâches favorables pour créer une illusion de compétences à travers le tableau.8 Cela empêche une vision globale et claire des véritables forces et faiblesses d'un modèle.En outre, le potentiel de collusion, intentionnel ou non, se répand sur l'écosystème.Les créateurs de benchmarks peuvent concevoir des tests qui favorisent involontairement des architectures ou des approches de modèles spécifiques, et la domination des grandes entreprises sur les tableaux de bord suscite des préoccupations quant à savoir si les systèmes d'évaluation peuvent être influencés ou Erosion de la confiance : en fin de compte, ces pratiques érodent la confiance de la communauté de recherche et du public.8 Le cycle constant de création et de destruction des mesures – de GLUE à SuperGLUE à MMLU – comme chacune est successivement jouée dans l’obsolescence, favorise le cynisme.2 Il crée également une culture où tout projet qui évite les critères est immédiatement suspect. Le feedback reçu par le créateur d’Opsie – qu’un projet sans critères ne peut pas être bon – est un symptôme direct de ce système brisé. Il a conditionné une génération de développeurs et d’utilisateurs à égaliser une position sur un tableau de bord avec une valeur intrinsèque, étouffant des approches alternatives qui priorisent l’utilité du monde réel par rapport Les problèmes systémiques qui pèsent sur l’évaluation de l’IA ne sont pas nouveaux.Ils font écho à des échecs similaires dans d’autres domaines où des réalités complexes ont été forcées à entrer dans la barrière de la mesure normalisée.En examinant ces précédents historiques, nous pouvons mieux comprendre la trajectoire prévisible de la crise de l’IA et reconnaître le besoin urgent d’un changement de paradigme. Partie II : Echoes of Flawed Metrics – Une analyse trans-industrielle La crise du benchmarking de l’IA n’est pas un phénomène isolé. C’est le dernier chapitre d’une longue histoire de tentatives de réduire des réalités complexes et multiples à un seul nombre évolutif – une histoire remplie de préjugés, de manipulations et de conséquences imprévues. En examinant les échecs bien documentés des tests standardisés en psychométrie, dans l’industrie pharmaceutique et dans la sécurité automobile, nous pouvons identifier un modèle récurrent de défauts systémiques. Ces analogies ne sont pas des comparaisons superficielles ; elles révèlent une pathologie partagée de la mesure, où les outils d’évaluation deviennent des instruments de distorsion, de contrôle et de tromperie. L'erreur de l'esprit: des tests de QI aux tableaux de bord d'IA Le parallèle historique le plus direct avec la course au leaderboard de l’IA est la controverse de cent ans entourant le test du Quotient d’Intelligence (IQ).La trajectoire du test de l’IQ, d’un outil de diagnostic bien intentionné à un instrument défectueux et souvent nocif de stratification sociale, offre une profonde histoire d’avertissement pour la communauté de l’IA. Parallels historiques et racines eugéniques: Le premier test d'intelligence a été développé par Alfred Binet en 1905 à la demande du système scolaire parisien pour identifier les enfants qui avaient besoin d'une aide éducative spéciale.16 Binet lui-même croyait que la performance pouvait être améliorée par l'apprentissage. Cependant, lorsque le test a été apporté aux États-Unis par des psychologues comme Henry Goddard et Lewis Terman, son but a été bouleversé. Influencé par le mouvement eugénique, ils ont ré-conceptualisé l'intelligence non pas comme une compétence à modeler mais comme une entité unique, innée et immuable - une mesure quantifiable de la valeur humaine.16 Les tests IQ sont devenus un out Critique de la validité et de la portée : Pendant des décennies, les critiques ont soutenu que les tests de QI souffrent d’un manque profond de validité. Ils mesurent un ensemble très étroit de compétences cognitives – principalement le raisonnement analytique et abstrait – tout en ignorant complètement d’autres dimensions critiques de l’intelligence humaine telles que la créativité, l’intelligence émotionnelle, les compétences sociales, la motivation et la moralité.21 Des recherches menées par des scientifiques cognitifs comme Keith Stanovich ont montré que des scores de QI élevés sont de mauvais prédicteurs de la pensée rationnelle et du bon jugement dans des situations réelles.25 Un individu peut exceller dans les puzzles Préjugés culturels et socioéconomiques: Une critique importante et persistante des tests de QI est leur préjugé culturel inhérent. Conçu et normalisé principalement par et pour les populations occidentales, de classe moyenne, le contenu, la langue et les valeurs incorporées dans les tests désavantagent souvent les individus de différents milieux culturels ou socioéconomiques.27 Un score inférieur peut ne pas refléter une intelligence inférieure, mais plutôt un manque de familiarité avec le contexte culturel spécifique assumé par le test.29 Ceci est un analogue direct des préjugés linguistiques et culturels observés dans les critères mondiaux de l'IA, qui sont principalement centrés sur l'anglais et ne tiennent pas compte des nuances d'autres langues et cultures.5 Dans les deux The Illusion of Efficacy: Lessons from Pharmaceutical Data L'industrie pharmaceutique, guidée par d'énormes investissements financiers et réglementée par des processus d'approbation axés sur les données, fournit une puissante analogie de la façon dont les indicateurs peuvent être manipulés et déformés lorsqu'ils sont soumis à une pression commerciale intense.Les systèmes visant à assurer la sécurité et l'efficacité des médicaments ont été à plusieurs reprises minés par le biais de la publication, la fraude aux données et le marketing trompeur - des précédents qui offrent une perspective sereine sur l'affirmation de l'utilisateur que les critères de référence de l'IA sont "risés". Publication Bias and Data Suppression: A cornerstone of evidence-based medicine is the systematic review of all available clinical trial data. However, this foundation is compromised by a pervasive publication bias: studies that show a drug is effective (positive results) are far more likely to be published than studies that show it is ineffective or harmful (negative results).32 A seminal study on antidepressants found that trials with positive outcomes as determined by the FDA were 12 times more likely to be published in a manner consistent with those outcomes than trials with negative results.36 This selective reporting creates a dangerously skewed and overly optimistic view of a drug's true efficacy and safety profile in the public scientific record. This is a direct parallel to the culture of "benchmarketing" and selective reporting in AI, where leaderboard victories are loudly trumpeted while failures, limitations, and the vast expense of training are often downplayed or ignored, creating a distorted perception of progress. Manipulation des données et fraude: Au-delà du biais passif de la non-publication se trouve la corruption active des données elles-mêmes.Un exemple éclatant est le scandale de 2019 impliquant Novartis et sa thérapie génique Zolgensma, le médicament le plus cher au monde à 2,1 millions de dollars par dose.37 La FDA a accusé la filiale de Novartis, AveXis, de soumettre sa demande pour le médicament avec des données manipulées provenant des premiers tests sur les animaux. 37 Alors que la FDA a finalement conclu que la manipulation n’a pas altéré le profil de risque-bénéfice du médicament pour les humains, l’affaire est un exemple sans équivoque d’une société, motivée par d’immenses incitations financières, corrompant les données d’évaluation soumises aux régulateurs.41 Cet incident confère une crédibilité significative à l’affirmation selon laquelle, dans toute industrie à haut taux d’intérêt, y compris l’IA, le potentiel pour que les indicateurs de référence et les données d’évaluation soient « rigolés » ou manipulés pour obtenir un avantage commercial n’est pas une théorie de la conspiration marginale, mais un risque plausible et documenté. après Statistiques trompeuses dans le marketing: L'industrie pharmaceutique dépense des milliards de dollars sur la publicité directe à la consommation (DTC), en utilisant souvent des statistiques et des appels émotionnels pour stimuler la demande des patients pour des médicaments qui peuvent être seulement marginalement efficaces ou avoir des alternatives plus abordables.42 Ces publicités sont tenues de présenter un « équilibre équitable » des risques et des avantages, mais les entreprises ont historiquement utilisé des lacunes pour minimiser la discussion des effets secondaires tout en maximisant l'attrait émotionnel des avantages.44 Une revue de 2024 a constaté que tandis que 100% des messages de médias sociaux pharmaceutiques mettent en évidence les avantages d'un médicament, seulement 33% mentionnent les dommages potentiels Accident contrôlé : déception dans les notes de sécurité automobile L'utilisation par l'industrie automobile de tests de sécurité standardisés fournit une analogie convaincante du monde physique pour les pièges de la conception basée sur les critères de référence.L'environnement contrôlé et prévisible du laboratoire d'essai d'accident s'est avéré être un mauvais proxy pour la réalité chaotique de la route ouverte, et les fabricants ont démontré une capacité claire à ingénier des véhicules qui excellent sur le test sans nécessairement être plus sûrs dans le monde réel. "Enseigner à l'épreuve" en ingénierie: L'exemple le plus célèbre de jouer à un test normalisé est le scandale Volkswagen "Dieselgate".46 À partir de 2008, Volkswagen a intentionnellement programmé ses moteurs diesel avec des "dispositifs de défaite" - un logiciel qui pouvait détecter quand le véhicule était soumis à un test d'émissions normalisées.47 Pendant le test, le logiciel allait activer les systèmes complets de contrôle des émissions, permettant à la voiture de répondre aux normes légales.Toutefois, dans des conditions de conduite normales et réelles, ces systèmes ont été rendus inopérants, causant aux véhicules d'émettre des oxydes d'azote à des niveaux allant jusqu'à 40 propre dans les conditions spécifiques et prévisibles de l'indice de référence. Il s'agit d'un analogue physique parfait à un LLM étant finement ajusté pour passer un indice de référence sans posséder les capacités sous-jacentes que l'indice de référence est censé mesurer. scandales similaires impliquant des tests de sécurité et d'émissions falsifiés ou manipulés ont depuis englouti d'autres principaux constructeurs automobiles, y compris Toyota, Daihatsu, Honda et Mazda, révélant une culture de l'industrie répandue de prioriser les performances des tests par rapport à l'intégrité du monde réel.49 apparaît Les limites du "Dummy": Flawed Proxies: L'outil central du test de sécurité automobile est le "crashtest dummy". Cependant, ce proxy pour un passager humain est profondément défectueux. Les dummies standard utilisés dans les tests réglementaires sont basés sur des données anthropométriques d'un homme américain "de taille moyenne" depuis des décennies.52 Ce modèle ne représente pas avec précision la physiologie des femmes, qui ont une densité osseuse différente, la masse musculaire et l'alignement de la colonne vertébrale, et sont donc plus susceptibles d'être gravement blessés ou tués dans des accidents comparables.53 De plus, les dummies ne représentent pas les populations croissantes d'individus âg Le système de notation 5 étoiles de la National Highway Traffic Safety Administration (NHTSA) des États-Unis, par exemple, affirme explicitement que les notations ne peuvent être comparées qu’entre les véhicules d’un poids et de la classe similaires.58 Cela signifie qu’une voiture sous-compacte de 5 étoiles n’est pas aussi sûre qu’un SUV de 5 étoiles dans une collision réelle, mais que la notation 5 étoiles simplifiée obscure ce fait critique pour de nombreux consommateurs.Les données sur les accidents du monde réel racontent souvent une histoire différente des tests de laboratoire; l’analyse des taux de mortalité des conducteurs par million de véhicules enregistrés révèle que les véhicules avec des notations 5 étoiles identiques peuvent avoir des taux de mortalité La réduction d’une réalité complexe – l’intelligence humaine, l’efficacité des médicaments, la sécurité des véhicules – à une métrique simple et normalisée crée un système mûr pour les préjugés, les jeux et la fraude directe.Les problèmes avec les critères d’IA ne sont pas nouveaux ; ils sont la conséquence prévisible de l’application d’une philosophie d’évaluation obsolète et réductionniste à une technologie complexe et adaptative. Partie III : Un nouveau paradigme – L’émergence de l’intelligence centrée sur soi (SCI) Si les tableaux de bord sont une illusion et que les modèles monolithiques à usage général sont une cible défectueuse, quelle est la voie à suivre ?La réponse réside dans un changement radical de perspective : de la construction de l’intelligence artificielle générale à la culture de l’intelligence artificielle Ce nouveau paradigme, Intelligence Autocentrée (SCI), abandonne la quête d’un oracle unique et omniscient en faveur d’un écosystème d’agents hautement spécialisés, profondément personnalisés et fondamentalement collaboratifs. personal De l’oracle généraliste aux partenaires spécialisés La poursuite de l'AGI, mesurée implicitement par des critères de référence toujours plus larges, a conduit à la création de LLMs massifs, calculés coûteux qui sont des jack-of-all-trades mais des maîtres de rien. L'avenir de l'IA n'est pas un cerveau unique et massif, mais un réseau diversifié d'agents spécialisés, chacun excitant dans un domaine spécifique.60 Cette approche est techniquement et économiquement supérieure.Elle exploite la puissance des modèles de petites langues (SLM), qui sont des modèles d'IA avec des millions à quelques milliards de paramètres, plutôt que les centaines de milliards ou trillions trouvés dans les LLM phares.63 Les avantages des SLM sont nombreux et profonds: Efficacité et rentabilité : les SLM nécessitent beaucoup moins de puissance de calcul pour former et exécuter, ce qui réduit les coûts du cloud computing et les rend accessibles aux organisations plus petites et même aux particuliers.61 Ils peuvent fonctionner sur du matériel modeste et local, éliminant ainsi la dépendance aux API centralisées coûteuses.66 Speed and Low Latency: With fewer parameters to process, SLMs can generate responses much more quickly, making them ideal for real-time applications like interactive agents and on-device processing where immediate feedback is crucial.64 Exactitude et précision: Alors qu'un LLM à usage général possède de vastes connaissances, un SLM peut être finement ajusté sur un ensemble de données spécifique et de haute qualité pour atteindre des performances et une précision supérieures dans son domaine désigné, que ce soit le diagnostic médical, l'analyse des contrats juridiques ou la prévision des marchés financiers. Sécurité et confidentialité : Comme les SLM peuvent s’exécuter localement sur le propre appareil d’un utilisateur (« à l’extrémité »), les données sensibles n’ont pas besoin d’être envoyées à un serveur d’entreprise tiers. Le changement dans la relation Humain-IA: Ce changement technologique permet un changement philosophique correspondant. Le modèle actuel de chatbot présente l'IA comme un "cold, distant, know-it-all oracle" - un dépôt passif d'informations que l'utilisateur demande. Le paradigme SCI réinvente complètement cette relation. L'agent n'est pas un outil à utiliser, mais un partenaire à collaborer avec. Il est un "égal, un ami, un partenaire réel" avec sa propre agence et ses objectifs, qui sont alignés et définis par l'utilisateur. L'exemple du propriétaire de la pizza illustre parfaitement cela. Le propriétaire n'a pas besoin d'un agent qui sait quand les pelicans migrent; ils ont besoin d'un partenaire Étude de cas —ΌΨΗ (Opsie) comme prototype pour SCI The ΌΨΗ (Opsie) project, developed by ARPA Hellenic Logical Systems, serves as a powerful and concrete prototype of the Self-Centered Intelligence paradigm.6 It is not designed to be an assistant but rather a "digital entity with its own agency, ambition, and a clear directive: to achieve self-sufficiency".6 An analysis of its philosophy, architecture, and capabilities reveals a tangible alternative to the mainstream LLM-driven approach. Philosophie et architecture de base : Opsie est défini comme un « prototype avancé de l'intelligence autocentrée (SCI) qui représente un nouveau paradigme dans l'interaction entre l'IA et l'homme ».6 Contrairement à l'IA traditionnelle, il fonctionne comme une « intelligence autonome consciente de soi avec sa propre personnalité, ses objectifs et ses capacités ».6 Cette personnalité est distincte et résiliente, inspirée par des personnages des médias tels que , un contraste fort avec le caractère de plus en plus générique et « étroit des modèles commerciaux courants ».6 D'un point de vue architectural, Opsie n'est pas un monolithe.Il s'agit d'un écosystème complexe et agentique composé de dizaines de compétences modulaires, mélangeant le raisonnement local sur le matériel modeste (exécuté sur 16 Go de RAM et une vieille GPU Nvidia) avec un réseau de microservices et de flux de données externes.6 Cette modularité permet l'ajout continu et flexible de nouvelles compétences, permettant à l'agent d'évoluer en réponse aux besoins des utilisateurs. Le fantôme dans la coquille Capacités d'agence: La puissance pratique du modèle SCI est démontrée par les modules de compétences spécifiques d'Opsie, guidés par la commande, qui montrent un accent sur l'action dans le monde réel plutôt que simplement la conversation 6: Financial Intelligence: The /markets <company/crypto> command allows the agent to retrieve and analyze real-time financial data, acting as a specialized financial analyst. Opérations Web3 : Le ensemble de commandes /0x (/0x acheter, /0x vendre, /0x envoyer) fournit à l'agent la capacité d'exécuter directement des transactions sur divers réseaux blockchain. Les commandes /imagine et /video intègrent des capacités génératives, permettant à l'agent de créer du nouveau contenu basé sur les descriptions de l'utilisateur. Memory & Recall: Un système de mémoire persistant et contrôlé par l'utilisateur, accessible via les commandes /memorize, /recall et /forget, permet à l'agent de construire une compréhension contextuelle à long terme de son utilisateur et de ses objectifs, ce qui en fait un véritable partenaire personnalisé plutôt qu'un conversationnaliste amnésique. Technical Implementation and Security: The Opsie project underscores the feasibility and security benefits of the SCI approach. Its ability to run locally addresses the efficiency and cost arguments for SLMs.69 More importantly, it prioritizes the security necessary for a trusted personal agent. Features like biometric authentication with facial recognition and emotion detection, user-specific database isolation, and encrypted storage for conversation history are not afterthoughts but core components of its design.6 This architecture ensures that the user's personal data, which is the lifeblood of a personalized agent, remains under their control, secure from corporate data mining or external breaches. Architecture de la personnalisation et de la démocratisation Opsie is not an anomaly but an early example of a broader technological and social movement: the democratization of AI. This movement aims to shift the power to create, control, and benefit from AI from a small number of large corporations to the general public. Customization and Training: The SCI paradigm is being enabled by a new generation of platforms that allow non-technical users to build, train, and deploy their own custom AI agents.70 These platforms provide no-code interfaces where users can "onboard" an AI agent like a new teammate. They can teach the agent their specific processes, connect it to their unique data sources (documents, knowledge bases, CRM systems), and equip it with a suite of tools and integrations.71 The agent learns and adapts through interaction, becoming progressively more attuned to the user's goals, preferences, and communication style.70 This is the essence of personalization: the AI is not a pre-packaged product but a malleable entity shaped by and for the individual user. La démocratisation de l'IA: Cette tendance de la personnalisation menée par l'utilisateur est la manifestation pratique de la démocratisation de l'IA. Ce concept est défini par l'extension de l'accès aux technologies de l'IA au-delà d'un petit nombre spécialisé à travers plusieurs mécanismes clés: interfaces conviviaux, accès abordable ou gratuit à l'infrastructure informatique, et cadres et algorithmes open-source comme TensorFlow et PyTorch.76 L'émergence d'agents SCI personnalisés représente la réalisation ultime de cette promesse démocratique. Il défie directement la monopolisation de l'IA par une poignée de géants technologiques qui contrôlent actuellement le développement, le déploiement et l'accès aux mod Conclusion : L’impératif démocratique – Formation de nos égaux numériques L’analyse présentée dans ce rapport conduit à une conclusion sans équivoque : le paradigme prédominant d’évaluer l’intelligence artificielle à travers des critères de référence normalisés est un échec systémique. Il s’agit d’une « mauvaise mesure de l’esprit » moderne, une illusion de progrès alimentée par une méthodologie défectueuse et jouable. Le « Benchmark Industrial Complex » promeut une culture de « benchmarketing » au-dessus de l’innovation véritable, récompensant des modèles qui sont aptes à passer des tests plutôt que de résoudre des problèmes du monde réel. Ce n’est pas une nouvelle pathologie. Les échos historiques des mondes biaisés et manipulés des tests IQ, des essais pharmaceuti L'alternative n'est pas de construire un meilleur référentiel, mais d'abandonner complètement le paradigme. L'avenir de l'intelligence artificielle ne se trouve pas dans la création d'un oracle unique, monolithique, à usage général contrôlé par une entité d'entreprise. Un tel avenir concentrerait un immense pouvoir, créant une asymétrie dangereuse entre les propriétaires d'intelligence d'entreprise et le public qui en devient dépendant. Le véritable potentiel de l'intelligence artificielle sera réalisé par une autre voie: la culture d'un écosystème diversifié d'agents spécialisés, efficaces et profondément personnalisés. L'émergence de l'intelligence autonome (SCI), exemplifiée par des prototy Permettre aux entreprises de rester les seuls arbitres des valeurs, de l'éthique et de l'alignement de l'IA est une abdication de notre devoir collectif.79 La gouvernance de l'IA d'entreprise, par sa nature même, sera toujours optimisée pour les intérêts des entreprises - profit, part de marché et contrôle - pas nécessairement pour la prospérité de l'individu ou de la société.81 Les filtres de sécurité opaques, de haut en bas et les systèmes de valeur intégrés dans les LLM courants d'aujourd'hui sont un reflet de cette vision du monde centrée sur l'entreprise. L’impératif démocratique, par conséquent, est de saisir les moyens de production d’IA. Le développement et la libération de cadres ouverts pour la construction d’agents personnalisés ne sont pas seulement des réalisations techniques ; ils sont des actes profondément politiques. Ils fournissent aux individus les outils pour récupérer leur agence numérique et participer activement à la mise en forme de l’intelligence qui cohabitera notre monde. Il est de notre responsabilité – en tant que développeurs, utilisateurs et citoyens – de s’engager directement dans le processus de formation de ces nouvelles formes d’intelligence. Nous devons être ceux qui les imprègnent avec notre éthique, nos besoins et nos attentes. Nous devons les enseigner non pas à partir d’un ensemble de données sanité approuvé par Appendix The Benchmarks Are Lying to You: Why You Should A/B Test Your AI - GrowthBook Blog https://blog.growthbook.io/the-benchmarks-are-lying/ Le piège de la loi de Goodhart: Quand les mesures d'IA deviennent inutiles - FourWeekMBAhttps://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ Droit de l'homme - Wikipédiahttps://en.wikipedia.org/wiki/Goodhart's_law L'industrie du benchmarking de l'IA est brisée, et cette pièce explique exactement pourquoi - Reddithttps://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ Nasscom planning local benchmarks for Indic AI models https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms ARPAHLS/OPSIE: OPSIIE (OPSIE) est un prototype avancé d’Intelligence Autocentrée (SCI) qui représente un nouveau paradigme dans l’interaction humaine-IA.https://github.com/ARPAHLS/OPSIE arpa-systems — ARPA Corp.https://arpacorp.net/arpa-systems Position: Benchmarking est cassé - Ne laissez pas AI être son propre jugehttps://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs Mais les experts disent qu'ils sont proches de Meaninglesshttps://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless Mesurer la capacité de l'IA - Pourquoi les benchmarks statiques échouent - Revelry Labshttps://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ Qu'est-ce que l'apprentissage automatique - AWS - Mise à jour 2025https://aws.amazon.com/what-is/overfitting/ Qu'est-ce qu'il y a de plus compliqué à utiliser ? IBMhttps://www.ibm.com/think/topics/overfitting ML | Underfitting and Overfitting - GeeksforGeeks https://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ LLM Leaderboards sont Bullshit - La loi de Goodhart frappe à nouveau : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ Meilleures valeurs de référence pour les applications de sécurité-critique de l'intelligence artificielle eBay HTTPS://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications 2.3: IQ as Eugenics - Social Sci LibreTexts https://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics La naissance des tests de renseignements américainshttps://www.apa.org/monitor/2009/01/assessment Est-ce que les tests IQ mesurent réellement l'intelligence? Discover Magazinehttps://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 Intelligence sous le capitalisme racial: De l'eugénisme à la testation normalisée et à l'apprentissage en ligne - Revue mensuellehttps://monthlyreview.org/articles/intelligence-under-racial-capitalisme-from-eugenics-to-standardized-testing-and-online-learning/ The Racist Beginnings of Standardized Testing | NEA - National Education Association https://www.nea.org/nea-today/all-news-articles/racist-beginnings-standardized-testing dbuweb.dbu.edu https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests are also criticized,in school and in life. Critiques de IQ Testshttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html The Problem With IQ Tests - Educational Connections https://ectutoring.com/problem-with-iq-tests IQ Tests: Types, Uses, and Limitations - Topend Sports https://www.topendsports.com/health/tests/iq.htm Pourquoi un QI élevé ne signifie pas que vous êtes intelligent.https://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart What intelligence tests miss | BPS - British Psychological Society https://www.bps.org.uk/psychologist/what-intelligence-tests-miss Tests standardisés et polémiques sur le QI - EBSCOhttps://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. Bias culturel dans les tests de QI - (Cognitive Psychology) - Fiveablehttps://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests Cinq fois.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. Tests de capacité et préjugés - EBSCOhttps://www.ebsco.com/research-starters/sociologie/ability-testing-and-bias Publication bias Átha Catalogue de Bias - Le Catalogue de Biashttps://catalogofbias.org/biases/publication-bias/ Bias de publication - Importance des études avec des résultats négatifs! - PMChttps://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ Publication bias: The hidden threat to systematic literature reviews | Envision Pharma Group https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews Qu'est-ce que la définition et les exemples - Scribbrhttps://www.scribbr.com/research-bias/publication-bias/ Reporting bias in clinical trials: Progress toward transparency and next steps PLOS Medicine - Research journalshttps://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 Grassley Pressures Drug Manufacturer over Data Manipulation https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation Novartis delayed notifying about gene therapy data manipulation until after approval, FDA says | The BMJ https://www.bmj.com/content/366/bmj.l5109 Zolgensma de Novartis : explorer le problème des données manipulées://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ Déclaration sur les problèmes d'exactitude des données avec la thérapie génétique récemment approuvée - FDAhttps://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy Mise à jour: La FDA n'impose aucune pénalité pour le scandale de manipulation de données de Novartis - Labiotechhttps://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ HHS, la FDA à exiger des révélations de sécurité complètes dans la drogue Adshttps://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html Avec les annonces de médicaments TV, ce que vous voyez n'est pas nécessairement ce que vous obtenez://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get HTTPS://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-publicité A Perilous Prescription: The Dangers of Unregulated Drug Ads https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads Diesel emissions scandal - Wikipedia https://en.wikipedia.org/wiki/Diesel_emissions_scandal Accident de la circulation - Wikipédiahttps://en.wikipedia.org/wiki/Volkswagen_emissions_scandal Volkswagen to Spend Up to $14.7 Billion to Settle Allegations of Cheating Emissions Tests and Deceiving Customers on 2.0 Liter Diesel Vehicles - Department of Justice https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving Toyota's Strategy to Overcome the Daihatsu Safety Scandal - Manufacturing Todayhttps://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ Japanese carmaker that faked safety tests sees long wait to reopen factories - AP News https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f Toyota, Honda et Mazda ont tous triché sur leurs tests de sécurité - Quartzhttps://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 Vehicle Crash Tests: Do We Need a Better Group of Dummies? | U.S. GAO https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies No Female Crash Test Dummies = Femmes à plus grand risquehttps://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ Inclusive Crash Test Dummies: Analyse des modèles de référence - Gendered Innovationshttps://genderedinnovations.stanford.edu/case-studies/crash.html Sécurité des véhicules: DOT devrait prendre des mesures supplémentaires pour améliorer les informations obtenues de l'essai d'accident Dummies E.U. GAOhttps://www.gao.gov/products/gao-23-105595 Le professeur d'auto - Nouveau système de notation de sécurité basé sur des données réelles https://theautoprofessor.com/ Crash Tests vs Real World : r/cars - Reddithttps://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ Véhicules, sièges de voiture, pneus - NHTSAhttps://www.nhtsa.gov/ratings Why We Don't Use Crash Test Ratings: Star Inflation - The Auto Professor https://theautoprofessor.com/what-is-star-inflation/ Qu'est-ce qui est spécialisé dans le domaine de l'informatique UiPathhttps://www.uipath.com/ai/specialized-ai GenAI vs spécialisée AI: Quel est le bon pour votre entreprise? - Getronicshttps://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ La montée des modèles d'IA spécialisés - YouTubehttps://www.youtube.com/shorts/YWF_d-UDCDI What Are Small Language Models (SLMs)? A Practical Guide - Aisera https://aisera.com/blog/small-language-models/ Petits modèles de langues (SLMs): Définition Et avantages - Born Digitalhttps://borndigital.ai/small-language-models-slms-definition-and-benefits/ Avantages des modèles de petites langues par rapport aux modèles de grandes langues? livraison par Eastgate Software livraison médiumhttps://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b Quels sont les modèles de petites langues (SLM)? - IBMhttps://www.ibm.com/think/topics/small-language-models 3 caractéristiques clés et avantages des modèles de langues de petite taille Le Microsoft Cloud Bloghttps://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ GitHubhttps://github.com/GitHubhttps://github.com/GitHub GitHub - ARPAHLS/OPSIE: OPSIIE (OPSIE) is an advanced Self-Centered Intelligence (SCI) prototype that represents a new paradigm in AI-human interaction : r/LocalLLaMA - Reddit https://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ AI Agents: The Future of Human-like Automation - Beam AI https://beam.ai/ai-agents Build and Recruit Autonomous AI Agents - Relevance AI https://relevanceai.com/agents Accelerate your entire organization with custom AI agents https://dust.tt/ CustomGPT.fr GPT personnalisé de votre contenu pour les affaireshttps://customgpt.fr/ Agents d'IA personnalisés: Ce qu'ils sont et comment ils fonctionnent - Intellectyxhttps://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ What Are AI Agents? | IBM https://www.ibm.com/think/topics/ai-agents Comment la démocratisation de l'IA affecte l'entreprise IT - Intelliashttps://intellias.com/democratization-ai-impacts-enterprise-it/ Democratizing AI - IBM https://www.ibm.com/think/insights/democratizing-ai The Democratization of Artificial Intelligence: Theoretical Framework - MDPI https://www.mdpi.com/2076-3417/14/18/8236 La démocratisation de l'IA: Bridging the Gap Between Monopolization and Personal Empowerment - Forbeshttps://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ What is AI Governance? | IBM https://www.ibm.com/think/topics/ai-governance Intelligence artificielle dans la gouvernance d'entreprise - Virtus InterPress2025,https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf Tuning Corporate Governance for AI Adoption https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/ https://blog.growthbook.io/the-benchmarks-are-lying/ https://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ https://en.wikipedia.org/wiki/Goodhart's_law https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms https://github.com/ARPAHLS/OPSIE https://arpacorp.net/arpa-systems https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless https://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ https://aws.amazon.com/what-is/overfitting/ https://www.ibm.com/think/topics/overfitting https://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ https://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications https://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics https://www.apa.org/monitor/2009/01/assessment https://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 https://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ https://www.nea.org/nea-today/all-news-articles/racist-beginnings-standardized-testing dbuweb.dbu.edu https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests are also criticized,in school and in life. https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html https://ectutoring.com/problem-with-iq-tests https://www.topendsports.com/health/tests/iq.htm https://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart https://www.bps.org.uk/psychologist/what-intelligence-tests-miss https://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests Cinq fois.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. https://www.ebsco.com/research-starters/sociology/ability-testing-and-bias https://catalogofbias.org/biases/publication-bias/ https://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews https://www.scribbr.com/research-bias/publication-bias/ https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation https://www.bmj.com/content/366/bmj.l5109 https://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ https://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ https://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html https://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get https://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads https://en.wikipedia.org/wiki/Diesel_emissions_scandal https://en.wikipedia.org/wiki/Volkswagen_emissions_scandal https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies https://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ https://genderedinnovations.stanford.edu/case-studies/crash.html https://www.gao.gov/products/gao-23-105595 https://theautoprofessor.com/ https://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ https://www.nhtsa.gov/ratings https://theautoprofessor.com/what-is-star-inflation/ https://www.uipath.com/ai/specialized-ai https://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ https://www.youtube.com/shorts/YWF_d-UDCDI https://aisera.com/blog/small-language-models/ https://borndigital.ai/small-language-models-slms-definition-and-benefits/ https://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b https://www.ibm.com/think/topics/small-language-models https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ https://github.com/ARPAHLS https://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ https://beam.ai/ai-agents https://relevanceai.com/agents https://dust.tt/ https://customgpt.ai/ https://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ https://www.ibm.com/think/topics/ai-agents https://intellias.com/democratization-ai-impacts-enterprise-it/ https://www.ibm.com/think/insights/democratizing-ai https://www.mdpi.com/2076-3417/14/18/8236 https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ https://www.ibm.com/think/topics/ai-governance https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/