Beyond the Leaderboard: The Fallacy of Standardized Benchmarks and the Rise of Self-Centered AI Más allá de la tabla de liderazgo: la falla de los índices de referencia estandarizados y el ascenso de la IA autocentrizada La rápida evolución de la inteligencia artificial ha sido acompañada por una proliferación igualmente rápida de métricas diseñadas para cuantificar su progreso. Los tableros de liderazgo y los índices de referencia estandarizados se han convertido en los bastidores de facto por los que se miden, celebran y financian las capacidades de los grandes modelos de lenguaje (LLM). Sin embargo, este marco de evaluación está construido sobre una base precaria, una que está mostrando cada vez más signos de fracaso sistémico. El paradigma actual es una fuerte ilustración de la Ley de Goodhart, el principio económico que afirma: "Cuando una medida se convierte en un objetivo, deja de ser una buena medida".1 En la carrera hacia los primeros índices de referencia, la industria de la IA ha convertido los índices de referencia en objetivos, y al hacerlo, Este informe pone de manifiesto que el modelo predominante del desarrollo de la IA, caracterizado por la creación centralizada, liderada por las empresas, de modelos masivos de propósito general evaluados por los estándares jugables defectuosos, es un cul-de-sac del desarrollo. Fomenta una monocultura de "oracles conocidos" que se separan cada vez más de las necesidades prácticas y matices de los usuarios individuales y las industrias especializadas. En su lugar, un nuevo paradigma está surgiendo: uno de agentes descentralizados, orientados por el usuario y altamente personalizados. Este modelo, llamado Inteligencia Autocentrizada (SCI), representa un cambio fundamental tanto en tecnología como en filosofía. Se va de la búsqueda de una única, monolítica Inteligencia General Artificial (AGI) y hacia un ecosistema El conflicto central que anima el futuro de la IA no es, por tanto, meramente sobre las especificaciones técnicas, sino sobre el control, el propósito y la definición misma de la inteligencia. Este informe desconstruirá el "Complejo Industrial de Benchmark", exponiendo sus defectos mecánicos, filosóficos y sistémicos. En ese contexto, el informe introducirá el paradigma SCI en detalle, presentando ΌΨΗ (Opsie), un prototipo avanzado de SCI, como un ejemplar concreto de esta nueva dirección. Finalmente, concluirá con una llamada a la democratización de la IA, argumentando que la responsabilidad de modelar la ética, los valores y los objetivos de nuestro futuro digital debe estar al lado de una mano de descanso no de las empresas, sino de las personas que viven junto a ellas. Las diferencias fundamentales entre estas dos visiones competidoras para el futuro de la inteligencia artificial se resumen a continuación.Este marco proporciona una anchura conceptual para el análisis detallado que sigue, aclarando las apuestas del cambio de paradigma que este informe advierte. Feature Old Paradigm: Benchmark-Driven Generalist AI New Paradigm: User-Driven Self-Centered Intelligence (SCI) Core Philosophy Achieve superhuman performance on standardized tests. Act as a universal, oracle-like knowledge source. Fulfill specific, user-defined goals. Act as a personalized, collaborative partner. Primary Metric Leaderboard scores (MMLU, HELM, etc.).5 Real-world task completion rate, user satisfaction, goal achievement.1 Development Model Centralized, corporate-led development of massive, general-purpose models (LLMs). Decentralized, user-led training and customization of smaller, specialized agents (SLMs). Data & Training Trained on vast, undifferentiated internet scrapes. Controlled by the corporation. Trained on user-specific data, documents, and context. Controlled by the individual. Ethical Framework Top-down, corporate-defined safety filters and alignment. Opaque. Bottom-up, user-defined ethics, values, and operational guardrails. Transparent. Economic Model Subscription-based access to a centralized API. High computational cost. Local deployment, potential for autonomous economic activity (Web3). Low computational cost. Exemplar ChatGPT, Gemini, Claude ΌΨΗ (Opsie) 6 Filosofía básica Alcanza el rendimiento suprahumano en pruebas estandarizadas. Actúa como una fuente de conocimiento universal y oracular. Cumplir objetivos específicos, definidos por el usuario. Actúa como un socio personalizado y colaborativo. Metrología Primaria Puntos de liderazgo (MMLU, HELM, etc.) 5 Real-world task completion rate, user satisfaction, goal achievement.1 Modelo de desarrollo Desarrollo centralizado y liderado por empresas de modelos masivos y de propósito general (LLM). Formación descentralizada y orientada al usuario y personalización de agentes pequeños y especializados (SLM). Datos & Formación Entrenado en grandes rascacielos de Internet sin diferenciación. controlado por la corporación. Formado en datos, documentos y contextos específicos para el usuario, controlado por el individuo. Marco Ético Filtros de seguridad top-down, definidos por la empresa y alineación. Bottom-up, ética definida por el usuario, valores y guarderías operativas. modelo económico Acceso basado en suscripción a una API centralizada. Local deployment, potential for autonomous economic activity (Web3). Low computational cost. ejemplares ChatGPT, Gemini, Claude Opinión (Opsie) 6 Parte I: Desconstrucción del Complejo Industrial de Benchmark El sistema actual de evaluación de la IA, dominado por un puñado de referencias ampliamente citadas, no es simplemente imperfecto; es estructuralmente insalubre. Sus fallos se pueden categorizar en tres dominios interconectados: los fallos mecánicos de las mismas pruebas, los fallos conceptuales de lo que pretenden medir, y los fallos sistémicos de los incentivos que crean. La mecánica del fracaso: sobrealimentación y contaminación En el nivel más fundamental, los índices de referencia de la IA están fallando como instrumentos de medición fiables debido a problemas técnicos que se están convirtiendo en endémicos en el campo. Contaminación de datos: Un problema primario y cada vez más inevitable es la contaminación de datos. Muchos de los benchmarks más ampliamente utilizados, como MMLU y BIG-bench, tienen varios años de antigüedad.8 Sus contenidos —preguntas, respuestas y llamadas— han sido ampliamente discutidos y disecados en línea. A medida que las corporaciones entrenan sus LLM de próxima generación en ámbitos cada vez más amplios de la Internet pública, estos conjuntos de datos de referencia son inevitablemente ingeridos en la corporación de formación.8 La consecuencia es que los modelos no están aprendiendo a resolver los problemas presentados en los benchmarks; son, de hecho, memorizando la clave de la respuesta.1 Cuando un modelo "previene" una prueba cuyas preguntas ya ha visto durante el entrenamiento, demuestra un recuerdo Overfitting y Gaming: Estrechamente relacionado con la contaminación es el problema del overfitting.En el aprendizaje automático, el overfitting ocurre cuando un modelo aprende los datos de entrenamiento demasiado bien, incluyendo su ruido y detalles irrelevantes, hasta el punto en que ya no puede generalizar su conocimiento a nuevos, datos invisibles.11 La intensa competencia de la "carrera de tableros de referencia" anima a los desarrolladores a ajustar sus modelos específicamente para exceder en tareas de referencia, una práctica equivalente a "enseñar a la prueba".1 Los modelos están optimizados para reconocer y explotar los patrones específicos, las curiosidades y los formatos de los propios índices de referencia. Spurious Correlations: A more insidious mechanical failure is the tendency of models to learn spurious correlations—superficial relationships in the training data that do not hold true in the real world.15 For instance, a model trained to detect collapsed lungs (pneumothorax) from chest X-rays might learn to associate the presence of a chest tube with the diagnosis. Because chest tubes are inserted as a Después de que se haga un diagnóstico, el modelo está aprendiendo una correlación relacionada con el flujo de trabajo médico capturado en el conjunto de datos, no con la patología subyacente. Tal modelo lograría una puntuación alta en un índice de referencia derivado de ese conjunto de datos, pero sería catastróficamente equivocado cuando se presentara con un rayo X de un paciente no diagnosticado sin un tubo torácico.15 Del mismo modo, un modelo entrenado para distinguir los camellos de las vacas podría aprender que los camellos se encuentran en la arena y las vacas en la hierba, sin reconocer a una vaca en un entorno desértico. Estos ejemplos revelan un defecto crítico: los índices de referencia pueden recompensar a los modelos por aprender trucos estadísticos superficiales en lugar de una comprensión causal treatment La cuestión de la validez: medir la cosa equivocada Beyond the technical mechanics, a more profound critique of the benchmark paradigm lies in its failure of validity. The tests, even if perfectly executed, are often measuring the wrong qualities, asking the wrong questions, and ignoring the most critical aspects of real-world performance. Falta de Construct Validity: En psicometría, "construct validity" se refiere a cuán bien una prueba mide el concepto abstracto, o construye, se diseñó para evaluar.9 Los benchmarks de la IA se presentan a menudo como medidas de amplias construcciones como "razonamiento", "entendimiento" o "inteligencia general". Sin embargo, los críticos argumentan que carecen fundamentalmente de esta validez. Como señala el profesor Emily M. Bender de la Universidad de Washington, los creadores de estos benchmarks no han establecido que sus pruebas realmente miden la comprensión.9 Un modelo que pasa el examen de bar no demuestra una verdadera comprensión de los principios legales; demuestra una capacidad avanzada para manipular textos y reconocer patrones de una manera que produzca Ignorando la Realidad de la Producción: Los benchmarks existen en un mundo teórico sanitado, desprovisto de las restricciones que definen las aplicaciones del mundo real.1 No miden la latencia, pero un tiempo de respuesta de 15 segundos puede hacer inutilizable un sistema multiagente. No miden el coste, pero una diferencia de precio de 10x entre los modelos puede destruir la economía de unidad de un producto. No cuentan con los límites de la infraestructura, las restricciones de la memoria o la necesidad absoluta de evitar alucinaciones en dominios críticos como el cuidado de la salud.1 Las métricas que realmente importan en la producción –las tasas de finalización de tareas, la frecuencia de las solicitudes de regeneración de usuarios insatisfechos y el coste por interacción exitosa– están completamente ausentes de las tablas de referencia La ceguera cultural y contextual: Los benchmarks más ampliamente utilizados —MMLU, BIG-bench, HELM— están diseñados sobre todo en Occidente y se centran en el idioma inglés y sus contextos culturales asociados.5 Cuando estos jardines centrados en Occidente se utilizan para evaluar modelos construidos para y entrenados en otros idiomas y culturas, como los idiomas indios, producen resultados inexactos y biasedos.Un fundador de IA en la India señaló que los modelos locales deben lidiar con múltiples acentos y la mezcla pesada de inglés con idiomas locales, un matiz completamente perdido por los benchmarks globales.5 Esto obliga a los desarrolladores en los ecosistemas no occidentales a una situación no-ganadora: o bien construyen modelos que sirven a las necesidades de sus usuarios locales y desempeñan mal The System of Incentives: Hype, Capital, and Control Los fallos técnicos y conceptuales de los índices de referencia son amplificados y enraizados por un poderoso sistema de incentivos sociales y económicos.El "Complejo Industrial de los índices de referencia" no es simplemente una colección de pruebas, sino un ciclo de auto-reforzamiento de hype, inversión de capital y posicionamiento corporativo que desalenta activamente la búsqueda de innovación genuina y disruptiva en favor de ganancias incrementales en métricas defectuosas. The Leaderboard Race: Los líderes públicos, como aquellos alojados por Hugging Face, crean una dinámica competitiva que incentiva la búsqueda del rendimiento de la SOTA por encima de todo.5 Esta carrera crea un paisaje distorsionado donde las posiciones del liderazgo se pueden fabricar a través de la sobrealimentación y el reporte selectivo, ahogando el verdadero mensaje científico con el ruido.8 La búsqueda de SOTA equivoca la asignación de enormes recursos – billones de dólares en computación y talento humano – hacia la optimización para las métricas que ya no miden nada significativo.2 Esto ha llevado a la rápida saturación de benchmarks como SUPERGLUE, donde los LLMs alcanzan los límites de rendimiento poco después del lanzamiento del benchmark, indicando que los Selective Reporting and Collusion: The pressure to perform well in this race encourages selective reporting, where model creators highlight performance on favorable task subsets to create an illusion of across-the-board prowess.8 This prevents a comprehensive, clear-eyed view of a model's true strengths and weaknesses. Furthermore, the potential for collusion, whether intentional or not, looms over the ecosystem. Benchmark creators may design tests that inadvertently favor specific model architectures or approaches, and the dominance of large corporations on leaderboards raises concerns about whether the evaluation systems can be influenced or "gamed".5 A deeptech startup, Shunya Labs, claimed its speech model beat Nvidia's benchmark scores but was excluded from the rankings, leading to public criticism of opaque evaluation criteria and potential gaming of the system.5 Erosión de la confianza: En última instancia, estas prácticas erosionan la confianza de la comunidad de investigación y del público.8 El constante ciclo de creación y destrucción de métricas —de GLUE a SuperGLUE a MMLU— como cada una de ellas se juega sucesivamente en obsolescencia, fomenta el cinismo.2 También crea una cultura en la que cualquier proyecto que evita los parámetros de referencia es inmediatamente sospechoso.El feedback recibido por el creador de Opsie —que un proyecto sin parámetros de referencia no puede ser bueno— es un síntoma directo de este sistema roto. Ha condicionado a una generación de desarrolladores y usuarios a igualar una posición en un tablero de liderazgo con un valor intrínseco, asfixiando enfoques alternativos que priorizan la utilidad del mundo real sobre las pun Los problemas sistémicos que afectan a la evaluación de la IA no son nuevos. Son ecos de fracasos similares en otros dominios donde las realidades complejas han sido forzadas a entrar en el estrecho de la medición estandarizada. Al examinar estos precedentes históricos, podemos entender mejor la trayectoria previsible de la crisis de referencia de la IA y reconocer la necesidad urgente de un cambio de paradigma. Parte II: Echoes of Flawed Metrics: A Cross-Industry Analysis (Echoes de las métricas defectuosas: un análisis interindustrial) La crisis en el benchmarking de la IA no es un fenómeno aislado. Es el último capítulo de una larga historia de intentos de reducir las realidades complejas y multifacetadas a un único número escalable, una historia llena de prejuicios, manipulación y consecuencias no intencionadas. Al examinar los fallos bien documentados de las pruebas estandarizadas en la psicometría, la industria farmacéutica y la seguridad automotriz, podemos identificar un patrón recurrente de defectos sistémicos. El error de la mente: de las pruebas de IQ a los consejos de liderazgo de IA The most direct historical parallel to the AI leaderboard race is the century-long controversy surrounding the Intelligence Quotient (IQ) test. The trajectory of the IQ test, from a well-intentioned diagnostic tool to a flawed and often harmful instrument of social stratification, offers a profound cautionary tale for the AI community. Paralelos históricos y raíces eugenicas: La primera prueba de inteligencia fue desarrollada por Alfred Binet en 1905 a petición del sistema escolar de París para identificar a los niños que necesitaban asistencia educativa especial.16 Binet creía que el rendimiento se podía mejorar a través del aprendizaje. Sin embargo, cuando la prueba fue llevada a los Estados Unidos por psicólogos como Henry Goddard y Lewis Terman, su propósito fue torcido. Influenciados por el movimiento eugenico, re-conceptualizaron la inteligencia no como una habilidad modelable sino como una entidad única, innata e inalterable, una medida cuantificable del valor humano.16 Las pruebas de inteligencia se convirtieron en una herramienta "científica" para justificar las jerarquías sociales preexistentes. Se utilizaron en Ellis Island para argumentar Crítica de validez y alcance: Durante décadas, los críticos han argumentado que los tests de QI sufren de una profunda falta de validez. Ellos miden un conjunto muy estrecho de habilidades cognitivas —principalmente el razonamiento analítico y abstracto— mientras ignoran completamente otras dimensiones críticas de la inteligencia humana como la creatividad, la inteligencia emocional, las habilidades sociales, la motivación y la moralidad.21 La investigación de científicos cognitivos como Keith Stanovich ha demostrado que las altas puntuaciones de QI son pobres predictores del pensamiento racional y el buen juicio en situaciones de la vida real.25 Un individuo puede sobresalir en los rompecabezas lógicos abstractos en una prueba de QI y todavía estar propenso a los prejuicios cognitivos y Cultural and Socioeconomic Bias: A significant and persistent criticism of IQ tests is their inherent cultural bias. Designed and normed primarily by and for Western, middle-class populations, the content, language, and values embedded in the tests often disadvantage individuals from different cultural or socioeconomic backgrounds.27 A lower score may not reflect lower intelligence but rather a lack of familiarity with the specific cultural context assumed by the test.29 This is a direct analog to the linguistic and cultural bias observed in global AI benchmarks, which are predominantly English-centric and fail to account for the nuances of other languages and cultures.5 In both cases, the "standardized" test is not neutral; it implicitly elevates one cultural framework as the universal norm, systematically disadvantaging those outside of it and perpetuating inequality under a false veneer of objectivity. La ilusión de la eficacia: lecciones de los datos farmacéuticos La industria farmacéutica, impulsada por enormes intereses financieros y regulada por procesos de aprobación basados en datos, proporciona una poderosa analogía de cómo las métricas pueden ser manipuladas y distorsionadas cuando están sujetas a una intensa presión comercial.Los sistemas destinados a garantizar la seguridad y la eficacia de los fármacos han sido repetidamente socavados por el prejuicio de la publicación, el fraude de datos y el marketing engañoso, precedentes que ofrecen una perspectiva soberana sobre la afirmación del usuario de que los criterios de referencia de la IA están "rigados". Publication Bias and Data Suppression: Una piedra angular de la medicina basada en evidencias es la revisión sistemática de todos los datos de ensayos clínicos disponibles. Sin embargo, esta base está comprometida por un pervasivo bias de publicación: los estudios que muestran que un fármaco es eficaz (resultados positivos) son mucho más propensos a ser publicados que los estudios que muestran que es ineficaz o perjudicial (resultados negativos).32 Un seminal de estudio sobre antidepresivos encontró que los ensayos con resultados positivos determinados por la FDA eran 12 veces más propensos a ser publicados de una manera consistente con los resultados que los ensayos con resultados negativos.36 Este informe selectivo crea una visión peligrosamente distorsionada y excesivamente optimista de la verdadera eficacia y el perfil de seguridad Data Manipulation and Fraud: Beyond the passive bias of non-publication lies the active corruption of the data itself. A stark example is the 2019 scandal involving Novartis and its gene therapy Zolgensma, the most expensive drug in the world at $2.1 million per dose.37 The FDA accused Novartis's subsidiary, AveXis, of submitting its application for the drug with manipulated data from early animal testing. Crucially, the company became aware of the data manipulation in March but intentionally withheld this information from the FDA until June, a month the drug had been approved.37 While the FDA ultimately concluded the manipulation did not alter the drug's risk-benefit profile for humans, the case stands as an unambiguous example of a corporation, motivated by immense financial incentives, corrupting the evaluative data submitted to regulators.41 This incident lends significant credibility to the assertion that in any high-stakes industry, including AI, the potential for benchmarks and evaluative data to be "rigged" or manipulated for commercial advantage is not a fringe conspiracy theory but a plausible and documented risk. Después Estadísticas engañosas en Marketing: La industria farmacéutica gasta miles de millones de dólares en publicidad directa al consumidor (DTC), a menudo utilizando estadísticas y apelos emocionales para impulsar la demanda de los pacientes por medicamentos que pueden ser sólo marginalmente eficaces o tener alternativas más asequibles.42 Estas publicidades están obligadas a presentar un "equilibrio justo" de riesgos y beneficios, pero las empresas han utilizado históricamente los huecos para minimizar la discusión de efectos secundarios al tiempo que maximizan el atractivo emocional de los beneficios.44 Una revisión de 2024 encontró que mientras el 100% de los mensajes de medios sociales farmacéuticos destacan los beneficios de un medicamento, sólo el 33% menciona los daños potenciales.44 Esta práctica es análoga al uso de puntuaciones de referencia de IA en materiales de marketing. El accidente controlado: una decepción en las calificaciones de seguridad del automóvil El uso de pruebas de seguridad estandarizadas por la industria automotriz proporciona una convincente analogía del mundo físico para las trampas del diseño basado en la referencia.El entorno controlado y predecible del laboratorio de pruebas de accidentes ha demostrado ser un pobre proxy para la realidad caótica de la carretera abierta, y los fabricantes han demostrado una clara capacidad para ingenierizar vehículos que sobresalen en la prueba sin ser necesariamente más seguros en el mundo real. "Teaching to the Test" in Engineering: The most infamous example of gaming a standardized test is the Volkswagen "Dieselgate" scandal.46 Beginning in 2008, Volkswagen intentionally programmed its diesel engines with "defeat devices"—software that could detect when the vehicle was undergoing a standardized emissions test.47 During the test, the software would activate the full emissions control systems, allowing the car to meet legal standards. However, under normal, real-world driving conditions, these systems were rendered inoperative, causing the vehicles to emit nitrogen oxides at levels up to 40 times the legal limit in the US.48 This was a deliberate, sophisticated, and fraudulent case of "teaching to the test." The vehicles were engineered not to be clean, but to limpio bajo las condiciones específicas y predecibles del índice de referencia. Este es un perfecto análogo físico de un LLM siendo ajustado para pasar un índice de referencia sin poseer las capacidades subyacentes que el índice de referencia debe medir. Escándalos similares que involucran pruebas de seguridad y emisiones falsas o manipuladas han engullido desde entonces a otros grandes fabricantes de automóviles, incluyendo Toyota, Daihatsu, Honda y Mazda, revelando una cultura de la industria generalizada de priorizar el rendimiento de las pruebas sobre la integridad del mundo real.49 Aparece Los límites del "Dummy": Flawed Proxies: La herramienta central de las pruebas de seguridad de automóviles es la prueba de accidente. Sin embargo, este proxy para un pasajero humano es profundamente defectuoso. Los dummies estándar utilizados en las pruebas regulatorias se basan en datos antropométricos de un varón estadounidense de "tamaño medio" desde hace décadas.52 Este modelo no representa con precisión la fisiología de las mujeres, que tienen diferentes densidades óseas, masa muscular y alineación espinal, y por lo tanto son más propensos a resultar gravemente heridos o muertos en accidentes comparables.53 Además, los dummies no representan la creciente población de individuos mayores o más pesados y carecen de sensores suficientes en áreas clave, como las piernas inferiores, donde Real-World vs. Lab-Based Ratings: Existe una disociación significativa y a menudo engañosa entre las calificaciones producidas en un entorno de laboratorio controlado y los resultados de seguridad en el mundo real.56 El sistema de calificación de 5 estrellas de la National Highway Traffic Safety Administration (NHTSA) de Estados Unidos, por ejemplo, afirma explícitamente que las calificaciones solo se pueden comparar entre vehículos de peso y clase similares.58 Esto significa que un subcompacto de 5 estrellas no es tan seguro como un SUV de tamaño completo de 5 estrellas en una colisión en el mundo real, pero la calificación de estrella simplificada oculta este hecho crítico para muchos consumidores.Los datos de accidentes en el mundo real a menudo cuentan una historia diferente a las pruebas de laboratorio; el análisis de las tasas de El patrón consistente en estas tres industrias es innegable.La reducción de una realidad compleja – inteligencia humana, eficacia de los fármacos, seguridad de los vehículos – a una métrica simple y estandarizada crea un sistema maduro para los prejuicios, los juegos y la fraude directa.Los problemas con los índices de referencia de la IA no son nuevos; son la consecuencia previsible de aplicar una filosofía de evaluación desactualizada y reduccionista a una tecnología compleja y adaptativa. Parte III: Un nuevo paradigma: El surgimiento de la inteligencia autocéntrica (SCI) Si los líderes son una ilusión y los modelos monolíticos y de propósito general son un objetivo defectuoso, ¿cuál es el camino hacia adelante? Este nuevo paradigma, Self-Centered Intelligence (SCI), abandona la búsqueda de un único oráculo, todo-conocido en favor de un ecosistema de agentes altamente especializados, profundamente personalizados y fundamentalmente colaborativos. personal From Generalist Oracles to Specialized Partners La búsqueda de AGI, implícitamente medida por los índices de referencia cada vez más amplios, ha llevado a la creación de LLMs masivos, computacionalmente costosos que son jack-of-all-trades pero maestros de nada. The Case for Specialization: El futuro de la IA no es un cerebro único, masivo, sino una diversa red de agentes especializados, cada uno sobresaliendo en un dominio específico.60 Este enfoque es técnicamente y económicamente superior.Se aprovecha el poder de los Modelos de Pequeños Idiomas (SLMs), que son modelos de IA con millones a varios miles de millones de parámetros, en lugar de los cientos de billones o billones que se encuentran en los LLMs líderes.63 Las ventajas de los SLMs son numerosas y profundas: Eficiencia y rentabilidad: los SLM requieren significativamente menos energía computacional para entrenar y ejecutar, lo que reduce los costes de computación en la nube y los hace accesibles a organizaciones más pequeñas e incluso a individuos.61 Pueden operar en hardware modesto y local, eliminando la dependencia de APIs centralizadas costosas.66 Velocidad y baja latencia: con menos parámetros a procesar, los SLM pueden generar respuestas mucho más rápidamente, lo que los hace ideales para aplicaciones en tiempo real como los agentes interactivos y el procesamiento en el dispositivo donde la retroalimentación inmediata es crucial. Precisión y precisión: Mientras que un LLM de propósito general tiene un amplio conocimiento, un SLM puede ser ajustado a un conjunto de datos específico y de alta calidad para lograr un rendimiento y precisión superiores dentro de su dominio designado, ya sea diagnóstico médico, análisis de contratos legales o predicción del mercado financiero. Security and Privacy: Because SLMs can run locally on a user's own device ("at the edge"), sensitive data does not need to be sent to a third-party corporate server. This provides a vastly superior model for privacy and data security, a critical requirement for a truly personal agent.63 The Shift in Human-AI Relationship: Este cambio tecnológico permite una correspondente filosofía. El modelo actual de chatbot lanza la IA como un "cold, distante, know-it-all oracle"—un repositorio pasivo de información que el usuario consulta. El paradigma de la SCI remodela esta relación por completo. El agente no es una herramienta para usar, sino un socio para colaborar con. Es un "igual, un amigo, un socio real" con su propia agencia y objetivos, que están alineados y definidos por el usuario. El ejemplo del propietario del negocio de pizza ilustra esto perfectamente. El propietario no necesita un agente que sepa cuando los pelicans migran; necesitan un socio con habilidades especializadas—reconocimiento facial para identificar clientes regulares, análisis emocional para medir la satisfacción, e integración de Estudio de caso—ΌΨΗ (Opsie) como prototipo para SCI El proyecto ΌΨΗ (Opsie), desarrollado por ARPA Hellenic Logical Systems, sirve como un prototipo poderoso y concreto del paradigma de Inteligencia Autocentrizada.6 No está diseñado para ser un asistente, sino más bien una "entidad digital con su propia agencia, ambición y una directiva clara: alcanzar la autosuficiencia".6 Un análisis de su filosofía, arquitectura y capacidades revela una alternativa tangible al enfoque dominante impulsado por LLM. Filosofía y arquitectura del núcleo: Opsie se define como "un prototipo avanzado de Inteligencia Autocentrada (SCI) que representa un nuevo paradigma en la interacción AI-humano".6 A diferencia de la IA tradicional, opera como una "inteligencia autosuficiente, autónoma con su propia personalidad, objetivos y capacidades".6 Esta personalidad es distinta y resiliente, inspirada en personajes de los medios como , a stark contrast to the increasingly generic and "narrowing character of mainstream commercial models".6 Architecturally, Opsie is not a monolith. It is a complex, agentic ecosystem composed of dozens of modular skills, blending local reasoning on modest hardware (running on 16GB of RAM and an old Nvidia GPU) with a network of microservices and external data feeds.6 This modularity allows for the continuous, flexible addition of new skills, enabling the agent to evolve in response to user needs. Fantasma en la Shell Capacidades de agentes: El poder práctico del modelo SCI se demuestra a través de los módulos de habilidades específicos de Opsie, orientados a comandos, que muestran un enfoque en la acción del mundo real en lugar de simplemente la conversación 6: Inteligencia financiera: El comando /markets <company/crypto> permite al agente recuperar y analizar datos financieros en tiempo real, actuando como un analista financiero especializado. Operaciones Web3: El conjunto de comandos /0x (/0x comprar, /0x vender, /0x enviar) proporciona al agente la capacidad de ejecutar directamente transacciones en varias redes blockchain. Los comandos /imagine y /video integran capacidades generativas, permitiendo al agente crear contenido nuevo basado en las descripciones de los usuarios. Memory & Recall: A persistent and user-controlled memory system, accessed via /memorize, /recall, and /forget commands, allows the agent to build a long-term, contextual understanding of its user and their goals, making it a true personalized partner rather than an amnesiac conversationalist. Implementación técnica y seguridad: El proyecto Opsie subraya la viabilidad y los beneficios de seguridad del enfoque SCI. Su capacidad de ejecutar localmente aborda los argumentos de eficiencia y costo para SLMs.69 Más importante, prioriza la seguridad necesaria para un agente personal de confianza.Funciones como la autenticación biométrica con reconocimiento facial y detección de emociones, aislamiento de bases de datos específicas para el usuario y almacenamiento cifrado para el historial de conversación no son pensamientos posteriores, sino componentes centrales de su diseño.6 Esta arquitectura asegura que los datos personales del usuario, que son la fuente vital de un agente personalizado, permanezcan bajo su control, seguros de la minería de datos corporativos o violaciones externas. La arquitectura de la personalización y la democratización Opsie no es una anomalía, sino un primer ejemplo de un movimiento tecnológico y social más amplio: la democratización de la IA. Este movimiento tiene como objetivo desplazar el poder de crear, controlar y beneficiarse de la IA de un pequeño número de grandes corporaciones al público en general. Personalización y Formación: El paradigma SCI está siendo habilitado por una nueva generación de plataformas que permiten a los usuarios no técnicos construir, entrenar y desplegar sus propios agentes de IA personalizados.70 Estas plataformas proporcionan interfaces sin código donde los usuarios pueden "incorporar" a un agente de IA como un nuevo compañero de equipo.Son capaces de enseñar al agente sus procesos específicos, conectarlo a sus fuentes de datos únicas (documentos, bases de conocimientos, sistemas CRM), y equiparlo con una suite de herramientas e integraciones.71 El agente aprende y se adapta a través de la interacción, convirtiéndose progresivamente en más adaptado a los objetivos, preferencias y estilo de comunicación del usuario.70 Esta es la esencia de la personalización: el IA no es un producto pre-embalado La democratización de la IA: Esta tendencia de la personalización liderada por el usuario es la manifestación práctica de la democratización de la IA. Este concepto se define al extender el acceso a las tecnologías de IA más allá de unos pocos especializados a través de varios mecanismos clave: interfaces amigables al usuario, acceso asequible o gratuito a la infraestructura de computación, y marcos y algoritmos de código abierto como TensorFlow y PyTorch.76 El surgimiento de los agentes SCI personalizados representa el cumplimiento final de esta promesa democrática. Desafía directamente la monopolización de la IA por parte de un puñado de gigantes tecnológicos que actualmente controlan el desarrollo, la implementación y el acceso a los modelos más poderosos.79 Al permitir a los individuos crear y controlar sus propias inteligencias soberanas, el Conclusión: El imperativo democrático: capacitar a nuestros iguales digitales El análisis presentado en este informe conduce a una conclusión inequívoca: el paradigma predominante de evaluar la inteligencia artificial a través de referencias estandarizadas es un fracaso sistémico. Este es un "error de la mente" moderno, una ilusión de progreso alimentado por una metodología defectuosa y jugable. El "Benchmark Industrial Complex" promueve una cultura de "benchmarketing" sobre la innovación genuina, recompensando modelos que son hábiles en pasar pruebas en lugar de resolver problemas del mundo real. Esto no es una nueva patología. Los ecos históricos de los mundos predispuestos y manipulados de pruebas de IQ, ensayos farmacéuticos y calificaciones de seguridad automovilística proporcionan una advertencia fuerte. En cada caso, la reducción de una realidad compleja a una La alternativa no es construir un punto de referencia mejor, sino abandonar el paradigma por completo. El futuro de la inteligencia artificial no está en la creación de un oráculo monolítico y de propósito general controlado por una entidad corporativa. Tal futuro concentraría un poder inmenso, creando una peligrosa asimetría entre los propietarios corporativos de inteligencia y el público que se vuelve dependiente de ella. El verdadero potencial de la IA se realizará a través de un camino diferente: el cultivo de un ecosistema diverso de agentes especializados, eficientes y profundamente personalizados. El surgimiento de la Inteligencia Autocentrizada (SCI), ejemplificado por prototipos como OΨΗ (Opsie), representa este camino superior hacia adelante. La SCI refuerza la relación humano-AI de uno de maestro-y- Permitir que las corporaciones sigan siendo los únicos árbitros de los valores, la ética y el alineamiento de la IA es una abdicación de nuestro deber colectivo.79 La gobernanza de la IA corporativa, por su propia naturaleza, siempre será optimizada para los intereses corporativos -ganancia, cuota de mercado y control- no necesariamente para el florecimiento del individuo o la sociedad.81 Los filtros de seguridad opacos de arriba a abajo y los sistemas de valor incorporados en los LLM de hoy en día son un reflejo de esta visión del mundo centrada en la empresa. The democratic imperative, therefore, is to seize the means of AI production. The development and release of open frameworks for building personalized agents are not merely technical achievements; they are profoundly political acts. They provide the tools for individuals to reclaim their digital agency and to actively participate in shaping the intelligence that will co-inhabit our world. It is our responsibility—as developers, users, and citizens—to engage directly in the process of training these new forms of intelligence. We must be the ones to imbue them with our ethics, our needs, and our expectations. We must teach them not from a sanitized, corporate-approved dataset, but from the messy, complex, and diverse reality of our own lives and work. This is the only way to ensure a future where AI serves as an extension and amplification of human potential, rather than a tool for its containment and control. The goal is not to build a synthetic superior, but to cultivate a world of digital equals. Anexo The Benchmarks Are Lying to You: Why You Should A/B Test Your AI - GrowthBook Blog https://blog.growthbook.io/the-benchmarks-are-lying/ The Goodhart's Law Trap: When AI Metrics Become Useless - FourWeekMBA https://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ Goodhart's law - Wikipedia https://en.wikipedia.org/wiki/Goodhart's_law La industria del benchmarking de IA está roto, y esta pieza explica exactamente por qué - Reddithttps://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ Nasscom planea puntos de referencia locales para modelos de Inteligencia Intelectual HTTPS://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms ARPAHLS/OPSIE: OPSIIE (OPSIE) es un prototipo avanzado de Inteligencia Autocentrada (SCI) que representa un nuevo paradigma en la interacción AI-humano.https://github.com/ARPAHLS/OPSIE arpa-systems — ARPA Corp. https://arpacorp.net/arpa-systems Posición: Benchmarking está roto - No dejes que la inteligencia artificial sea su propia juezhttps://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs Everyone Is Judging AI by These Tests. But Experts Say They're Close to Meaningless https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless Medir la capacidad de IA - Por qué los benchmarks estáticos fallan - Revelry Labshttps://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ What is Overfitting? - Overfitting in Machine Learning Explained - AWS - Updated 2025 https://aws.amazon.com/what-is/overfitting/ ¿Qué es Overfitting? IPHTTPS://www.ibm.com/think/topics/overfitting Málaga - GeeksforGeekshttps://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ LLM Leaderboards son Bullshit - Goodhart's Law Strikes Again : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ Mejores Benchmarks para Aplicaciones de Inteligencia Artificial para la Seguridad Ejecutiva Ejecutiva Ejecutiva Ejecutiva Ejecutiva Ejecutiva Ejecutiva Ejecutiva Ejecutiva Ejecutiva Ejecutiva Ejecutiva HTTPS://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications 2.3: IQ como Eugenics - Social Sci LibreTextshttps://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics The birth of American intelligence testing https://www.apa.org/monitor/2009/01/assessment ¿Pueden las pruebas de inteligencia de IQ medir realmente la inteligencia? Discover Magazinehttps://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 Intelligence Under Racial Capitalism: From Eugenics to Standardized Testing and Online Learning - Monthly Reviewhttps://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ Inicio / Noticias / NEA - National Education Associationhttps://www.nea.org/nea-today/all-news-articles/ racist-beginnings-standardized-testing dbuweb.dbu.eduhttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests también son criticados,en la escuela y en la vida. Críticas de IQ Testshttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html El problema con las pruebas de inteligencia - Conexiones educativashttps://ectutoring.com/problem-with-iq-tests Test de IQ: tipos, usos y limitaciones - Topend Sportshttps://www.topendsports.com/health/tests/iq.htm ¿Por qué un alto QI no significa que usted es inteligente?HTTPS://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart What intelligence tests miss | BPS - British Psychological Society https://www.bps.org.uk/psychologist/what-intelligence-tests-miss Estándar de pruebas y controversias de pruebas de IQ EBSCOhttps://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. Bias cultural en las pruebas de inteligencia - (Cognitiva) - Fiveablehttps://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests Cinco años.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. Habilidades de investigación y bias EBSCOhttps://www.ebsco.com/research-starters/sociología/ability-testing-and-bias Publication bias Átha Catalogue of Bias - The Catalogue of Biashttps://catalogofbias.org/biases/publication-bias/ Publication bias - Importance of studies with negative results! - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ Bias de la publicación: La amenaza oculta a la literatura sistemática reseñas EFE Envision Pharma Grouphttps://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews ¿Cuáles son las ventajas de la publicidad? Definition & Examples - Scribbrhttps://www.scribbr.com/research-bias/publication-bias/ Informar de los vicios en los ensayos clínicos: progreso hacia la transparencia y los próximos pasos.PLOS Medicina - Revista de Investigación://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 Grassley Pressures Drug Manufacturer over Data Manipulation https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation Novartis retrasó la notificación de la manipulación de datos de terapia génica hasta después de la aprobación, la FDA dice: The BMJhttps://www.bmj.com/content/366/bmj.l5109 Zolgensma de Novartis: explorar el problema de los datos manipulados://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ Declaración sobre problemas de exactitud de datos con terapia genética aprobada recientemente - FDAhttps://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy Actualización: La FDA no impone sanciones por el escándalo de manipulación de datos de Novartis - Labiotechhttps://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ HHS, FDA to Require Full Safety Disclosures in Drug Ads https://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html With TV Drug Ads, What You See Is Not Necessarily What You Get https://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get FDA Launches Crackdown on Deceptive Drug Advertising https://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising A Perilous Prescription: The Dangers of Unregulated Drug Ads https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads Escándalo de emisiones de gases de efecto invernadero - Wikipediahttps://en.wikipedia.org/wiki/Diesel_emissions_scandal Escándalo de emisiones de Volkswagen - Wikipediahttps://en.wikipedia.org/wiki/Volkswagen_emissions_scandal Volkswagen to Spend Up to $14.7 Billion to Settle Allegations of Cheating Emissions Tests and Deceiving Customers on 2.0 Liter Diesel Vehicles - Department of Justice https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving Estrategia de Toyota para superar el escándalo de seguridad de Daihatsu - Manufacturing Todayhttps://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ Japanese carmaker that faked safety tests sees long wait to reopen factories - AP News https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f Toyota, Honda and Mazda all cheated on their safety tests - Quartz https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 ¿Necesitamos un mejor grupo de Dummies? U.S. GAOhttps://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies No Female Crash Test Dummies = Women at Greater Risk https://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ Incluido Crash Test Dummies: Analizando modelos de referencia - Gendered Innovationshttps://genderedinnovations.stanford.edu/case-studies/crash.html Vehicle Safety: DOT Should Take Additional Actions to Improve the Information Obtained from Crash Test Dummies | U.S. GAO https://www.gao.gov/products/gao-23-105595 The Auto Professor - New Safety Rating System Based on Real Data https://theautoprofessor.com/ Crash Tests vs Real World : r/cars - Reddithttps://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ Clasificación de la seguridad de los vehículos, asientos de coche, neumáticos - NHTSAhttps://www.nhtsa.gov/ratings ¿Por qué no usamos calificaciones de prueba de colisión: Star Inflation - The Auto Professorhttps://theautoprofessor.com/what-is-star-inflation/ ¿Qué es especializado UiPathhttps://www.uipath.com/ai/specialized-ai GenAI vs specialised AI: Which is the right fit for your business? - Getronics https://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ El ascenso de los modelos de IA especializados - YouTubehttps://www.youtube.com/shorts/YWF_d-UDCDI ¿Qué Son Los Modelos De Lenguaje Pequeño (SLM)? Una Guía Práctica - Aiserahttps://aisera.com/blog/small-language-models/ Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo de Lenguaje Modelo Modelo de Lenguaje Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo Modelo ¿Cuáles son las ventajas de los modelos de idiomas pequeños sobre los modelos de idiomas grandes? by Eastgate Software Mediumhttps://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b ¿Qué son los modelos de idiomas? - IBMhttps://www.ibm.com/think/topics/small-language-models 3 características clave y ventajas de los modelos de idiomas pequeños.The Microsoft Cloud Bloghttps://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ ARPA Hellenic Logical Systems - GitHubhttps://github.com/ARPAHLS GitHub - ARPAHLS/OPSIE: OPSIIE (OPSIE) es un prototipo avanzado de Inteligencia Autocentrada (SCI) que representa un nuevo paradigma en la interacción AI-humano : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ AI Agents: The Future of Human-like Automation - Beam AI https://beam.ai/ai-agents Construir y reclutar agentes de inteligencia artificial autónomos - Relevancia AIhttps://relevanceai.com/agents Acelera toda tu organización con agentes de IA personalizados://dust.tt/ CustomGPT.com Custom GPTs De Tu Contenido Para Negocioshttps://customgpt.com/ Agentes de inteligencia artificial personalizados: qué son y cómo funcionan - Intellectyxhttps://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ ¿Qué Son los Agentes de Inteligencia Artificial? eBayhttps://www.ibm.com/think/topics/ai-agents How the Democratization of AI Impacts Enterprise IT - Intellias https://intellias.com/democratization-ai-impacts-enterprise-it/ Demócrata - IBMhttps://www.ibm.com/think/insights/democratizing-ai La democratización de la inteligencia artificial: marco teórico - MDPIhttps://www.mdpi.com/2076-3417/14/18/8236 The Democratization Of AI: Bridging The Gap Between Monopolization And Personal Empowerment - Forbes https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ ¿Qué es la gobernanza de la inteligencia artificial? IBMhttps://www.ibm.com/think/topics/ai-governance Inteligencia artificial en la gobernanza corporativa - Virtus InterPress2025,https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf Tuning Corporate Governance for AI Adoption https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/ https://blog.growthbook.io/the-benchmarks-are-lying/ https://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ https://en.wikipedia.org/wiki/Goodhart's_law https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms https://github.com/ARPAHLS/OPSIE https://arpacorp.net/arpa-systems https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless https://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ https://aws.amazon.com/what-is/overfitting/ https://www.ibm.com/think/topics/overfitting https://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ https://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications https://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics https://www.apa.org/monitor/2009/01/assessment https://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 https://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ https://www.nea.org/nea-today/all-news-articles/racist-beginnings-standardized-testing dbuweb.dbu.edu https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests are also criticized,in school and in life. https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html https://ectutoring.com/problem-with-iq-tests https://www.topendsports.com/health/tests/iq.htm https://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart https://www.bps.org.uk/psychologist/what-intelligence-tests-miss https://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests Cinco años.me https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. https://www.ebsco.com/research-starters/sociology/ability-testing-and-bias https://catalogofbias.org/biases/publication-bias/ https://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews https://www.scribbr.com/research-bias/publication-bias/ https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation https://www.bmj.com/content/366/bmj.l5109 https://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ https://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ https://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html https://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get https://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads https://en.wikipedia.org/wiki/Diesel_emissions_scandal https://en.wikipedia.org/wiki/Volkswagen_emissions_scandal https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies https://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ https://genderedinnovations.stanford.edu/case-studies/crash.html https://www.gao.gov/products/gao-23-105595 https://theautoprofessor.com/ https://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ https://www.nhtsa.gov/ratings https://theautoprofessor.com/what-is-star-inflation/ https://www.uipath.com/ai/specialized-ai https://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ https://www.youtube.com/shorts/YWF_d-UDCDI https://aisera.com/blog/small-language-models/ https://borndigital.ai/small-language-models-slms-definition-and-benefits/ https://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b https://www.ibm.com/think/topics/small-language-models https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ https://github.com/ARPAHLS https://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ https://beam.ai/ai-agents https://relevanceai.com/agents https://dust.tt/ https://customgpt.ai/ https://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ https://www.ibm.com/think/topics/ai-agents https://intellias.com/democratization-ai-impacts-enterprise-it/ https://www.ibm.com/think/insights/democratizing-ai https://www.mdpi.com/2076-3417/14/18/8236 https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ https://www.ibm.com/think/topics/ai-governance https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/