Beyond the Leaderboard: The Fallacy of Standardized Benchmarks and the Rise of Self-Centered AI Bên ngoài bảng xếp hạng: Sự thiếu hụt của các tiêu chuẩn và sự gia tăng của AI tự tập trung Sự phát triển nhanh chóng của trí tuệ nhân tạo đã được đi kèm với sự gia tăng nhanh chóng của các số liệu được thiết kế để định lượng tiến bộ của nó. Bảng dẫn đầu và các tiêu chuẩn chuẩn hóa đã trở thành các cột mốc thực tế mà các khả năng của các mô hình ngôn ngữ lớn (LLM) được đo lường, tôn vinh và tài trợ. Tuy nhiên, khuôn khổ đánh giá này được xây dựng trên một nền tảng khó khăn, một nền tảng đang ngày càng cho thấy dấu hiệu thất bại hệ thống. Mô hình hiện tại là một minh họa mạnh mẽ của Luật Goodhart, nguyên tắc kinh tế nói rằng, "Khi một biện pháp trở thành một mục tiêu, nó ngừng trở thành một biện pháp tốt".1 Trong cuộc đua để đứng đầu bảng dẫn đầu, ngành công nghiệp AI đã biến các tiêu chuẩn thành mục tiêu, và bằng cách làm như vậy, đã bắt Báo cáo này lập luận rằng mô hình phổ biến của phát triển AI - được đặc trưng bởi việc tạo ra các mô hình tổng quát, tập trung, do công ty dẫn đầu được đánh giá bởi các tiêu chuẩn có thể chơi được - là một mô hình phát triển cul-de-sac. Nó thúc đẩy một nền văn hóa của "know-it-all oracles" đang ngày càng tách rời khỏi nhu cầu thực tế, sắc thái của người dùng cá nhân và các ngành công nghiệp chuyên ngành. Thay vào đó, một mô hình mới đang nổi lên: một mô hình phi tập trung, người dùng dẫn đầu, và các đại lý được cá nhân hóa cao. Mô hình này, được gọi là Trí tuệ tự tập trung (SCI), đại diện cho một sự thay đổi cơ bản trong cả công nghệ và triết học. Nó di chuyển từ việc theo đuổi một trí tuệ nhân tạo tổng quát đơn Do đó, xung đột trung tâm làm sống động tương lai của AI không chỉ liên quan đến các thông số kỹ thuật mà còn về kiểm soát, mục đích và chính định nghĩa của trí thông minh. Báo cáo này sẽ phá vỡ "Khu phức hợp công nghiệp tiêu chuẩn", phơi bày các khiếm khuyết cơ học, triết học và hệ thống của nó. Sau đó, báo cáo sẽ rút ra các điểm tương đồng mạnh mẽ, cảnh báo từ lịch sử của các ngành công nghiệp khác - tâm lý học, dược phẩm và an toàn ô tô - nơi sự phụ thuộc quá mức vào các chỉ số chuẩn hóa đã dẫn đến sự thiên vị, thao túng và thất bại thảm khốc của đo lường. Trong bối cảnh này, báo cáo sẽ giới thiệu mô hình SCI chi tiết, trình bày OΨΗ (Opsie), một nguyên mẫu SCI tiên tiến, như một ví dụ cụ thể của hướng Các sự khác biệt cơ bản giữa hai tầm nhìn cạnh tranh này cho tương lai của trí tuệ nhân tạo được tóm tắt dưới đây. khung này cung cấp một nền tảng khái niệm cho phân tích chi tiết sau đây, làm rõ các cược của sự thay đổi mô hình báo cáo này ủng hộ. Feature Old Paradigm: Benchmark-Driven Generalist AI New Paradigm: User-Driven Self-Centered Intelligence (SCI) Core Philosophy Achieve superhuman performance on standardized tests. Act as a universal, oracle-like knowledge source. Fulfill specific, user-defined goals. Act as a personalized, collaborative partner. Primary Metric Leaderboard scores (MMLU, HELM, etc.).5 Real-world task completion rate, user satisfaction, goal achievement.1 Development Model Centralized, corporate-led development of massive, general-purpose models (LLMs). Decentralized, user-led training and customization of smaller, specialized agents (SLMs). Data & Training Trained on vast, undifferentiated internet scrapes. Controlled by the corporation. Trained on user-specific data, documents, and context. Controlled by the individual. Ethical Framework Top-down, corporate-defined safety filters and alignment. Opaque. Bottom-up, user-defined ethics, values, and operational guardrails. Transparent. Economic Model Subscription-based access to a centralized API. High computational cost. Local deployment, potential for autonomous economic activity (Web3). Low computational cost. Exemplar ChatGPT, Gemini, Claude ΌΨΗ (Opsie) 6 Triết lý Core Đạt được hiệu suất siêu nhân trên các bài kiểm tra tiêu chuẩn.Hãy hành động như một nguồn kiến thức phổ quát, giống như lời nói. Thực hiện các mục tiêu cụ thể, được người dùng xác định.Hãy hành động như một đối tác cá nhân, hợp tác. Metric chính Điểm số Leaderboard (MMLU, HELM, v.v.)5 Tỷ lệ hoàn thành nhiệm vụ thực tế, sự hài lòng của người dùng, đạt được mục tiêu.1 Mô hình phát triển Phát triển tập trung, do công ty dẫn đầu của các mô hình tổng quát, chung (LLMs). Đào tạo phi tập trung, do người dùng dẫn đầu và tùy chỉnh các đại lý nhỏ hơn, chuyên ngành (SLMs). Dữ liệu & Đào tạo Được đào tạo trên các scraps internet rộng lớn, không phân biệt. kiểm soát bởi công ty. Được đào tạo về dữ liệu, tài liệu và bối cảnh cụ thể của người dùng. Khung đạo đức Top-down, bộ lọc an toàn được xác định bởi công ty và sắp xếp. Bottom-up, người dùng xác định đạo đức, giá trị, và hàng rào hoạt động. minh bạch. Mô hình kinh tế Truy cập dựa trên đăng ký vào một API tập trung. chi phí tính toán cao. Phát triển địa phương, tiềm năng cho hoạt động kinh tế tự trị (Web3). chi phí tính toán thấp. Exemplar ChatGPT, Song Tử, Claude Ưu điểm (Opsie) 6 Phần I: Phá vỡ phức hợp công nghiệp Benchmark Hệ thống đánh giá AI hiện tại, được thống trị bởi một số chỉ tiêu được trích dẫn rộng rãi, không chỉ là không hoàn hảo; nó là cấu trúc không lành mạnh. những thất bại của nó có thể được phân loại thành ba lĩnh vực liên quan: những thất bại cơ học của các bài kiểm tra, những thất bại về khái niệm của những gì họ tuyên bố để đo lường, và những thất bại hệ thống của các ưu đãi mà họ tạo ra. Các cơ chế của thất bại: Overfitting và ô nhiễm Ở cấp độ cơ bản nhất, các tiêu chuẩn AI đang thất bại như các công cụ đo lường đáng tin cậy do các vấn đề kỹ thuật đang trở nên phổ biến trong lĩnh vực này. Ô nhiễm dữ liệu: Một vấn đề chủ yếu và ngày càng không thể tránh khỏi là ô nhiễm dữ liệu. Nhiều tiêu chuẩn được sử dụng rộng rãi nhất, chẳng hạn như MMLU và BIG-bench, có nhiều năm tuổi.8 Nội dung của họ - câu hỏi, câu trả lời và lời nhắc - đã được thảo luận rộng rãi và phân tách trực tuyến. Khi các tập đoàn đào tạo LLM thế hệ tiếp theo của họ trên các phạm vi ngày càng lớn hơn của Internet công cộng, các tập hợp dữ liệu tiêu chuẩn này chắc chắn được nuốt vào cơ thể đào tạo.8 Kết quả là các mô hình không học cách giải quyết các vấn đề được trình bày trong các tiêu chuẩn tiêu chuẩn; họ, trên thực tế, ghi nhớ chìa khóa câu trả lời.1 Khi một mô hình "thử" một bài kiểm tra mà các câu hỏi đã được nhìn thấy trong quá trình đào tạo, nó cho thấy sự Overfitting và Gaming: Liên quan chặt chẽ đến ô nhiễm là vấn đề về overfitting. Trong học máy, overfitting xảy ra khi một mô hình học được dữ liệu đào tạo quá tốt, bao gồm tiếng ồn và các chi tiết không liên quan, đến mức nó không còn có thể tổng quát kiến thức của mình cho các dữ liệu mới, chưa được nhìn thấy.11 Cuộc cạnh tranh mãnh liệt của cuộc đua “leaderboard” khuyến khích các nhà phát triển để tinh chỉnh mô hình của họ cụ thể để vượt trội trong các nhiệm vụ điểm chuẩn – một thực hành tương đương với việc “học cho thử nghiệm”.1 Mô hình được tối ưu hóa để nhận ra và khai thác các mô hình cụ thể, chi tiết và định dạng của các điểm chuẩn chính nó. Spurious Correlations: Một sự thất bại cơ học bí ẩn hơn là xu hướng của các mô hình để tìm hiểu các mối tương quan bí ẩn - các mối quan hệ bề mặt trong dữ liệu đào tạo không đúng trong thế giới thực.15 Ví dụ, một mô hình được đào tạo để phát hiện phổi sụp đổ (pneumothorax) từ tia X ngực có thể học để liên kết sự hiện diện của một ống ngực với chẩn đoán. sau khi chẩn đoán được thực hiện, mô hình đang học một mối tương quan liên quan đến dòng công việc y tế được ghi lại trong tập dữ liệu, không phải là bệnh lý cơ bản. Mô hình như vậy sẽ đạt được điểm số cao trên một tiêu chuẩn có nguồn gốc từ tập dữ liệu đó nhưng sẽ là thảm họa sai khi trình bày với một tia X của một bệnh nhân chưa được chẩn đoán mà không có một ống ngực.15 Tương tự, một mô hình được đào tạo để phân biệt lạc đà từ bò có thể học được rằng lạc đà được tìm thấy trên cát và bò trên cỏ, không nhận ra một con bò trong một môi trường sa mạc. Những ví dụ này tiết lộ một khuyết điểm quan trọng: tiêu chuẩn có thể thưởng cho các mô hình để học các thủ thuật thống kê bề mặt thay vì hiểu biết sâu sắc, nguyên nhân, một thất bại đặc biệt nguy hiểm điều trị Câu hỏi về tính hợp lệ: Đo lường điều sai lầm Ngoài cơ học kỹ thuật, một lời chỉ trích sâu sắc hơn về mô hình tiêu chuẩn nằm ở sự thất bại của nó về tính hợp lệ. Các bài kiểm tra, ngay cả khi được thực hiện hoàn hảo, thường đo lường các phẩm chất sai, đặt câu hỏi sai và bỏ qua các khía cạnh quan trọng nhất của hiệu suất thế giới thực. Thiếu tính hợp lệ xây dựng: Trong tâm lý học, "tính hợp lệ xây dựng" đề cập đến cách một bài kiểm tra đo lường khái niệm trừu tượng, hoặc xây dựng, nó được thiết kế để đánh giá.9 Điểm chuẩn AI thường được trình bày như các biện pháp của các cấu trúc rộng như "thiết lý", "hiểu biết" hoặc "thông minh tổng quát". Tuy nhiên, các nhà phê bình cho rằng họ cơ bản thiếu tính hợp lệ này. Như Giáo sư Emily M. Bender của Đại học Washington lưu ý, những người sáng tạo của các điểm chuẩn này đã không thiết lập rằng các bài kiểm tra của họ thực sự đo lường sự hiểu biết.9 Một mô hình vượt qua kỳ thi thanh không thể hiện sự hiểu biết thực sự về các nguyên tắc pháp lý; nó cho thấy một khả năng tiên tiến để thao túng văn bản và nhận ra các mô hình Bỏ qua thực tế sản xuất: Các tiêu chuẩn tiêu chuẩn tồn tại trong một thế giới lý thuyết lành mạnh, không có những hạn chế xác định các ứng dụng thực tế.1 Chúng không đo độ trễ, nhưng thời gian phản ứng 15 giây có thể làm cho một hệ thống đa đại lý không thể sử dụng được. Chúng không đo chi phí, nhưng sự khác biệt giá 10x giữa các mô hình có thể phá hủy nền kinh tế đơn vị của một sản phẩm. Chúng không tính đến giới hạn cơ sở hạ tầng, hạn chế bộ nhớ, hoặc sự cần thiết tuyệt đối để tránh ảo giác trong các lĩnh vực quan trọng như chăm sóc sức khỏe.1 Các chỉ số thực sự quan trọng trong sản xuất – tỷ lệ hoàn thành nhiệm vụ, tần suất yêu cầu tái tạo từ người dùng không hài lòng, và chi phí tương tác thành công – hoàn toàn vắng mặt trong bảng xếp hạng hàng đầu.1 Mô hình A có thể thống trị Sự mù lòa về văn hóa và ngữ cảnh: Các tiêu chuẩn chuẩn được sử dụng rộng rãi nhất – MMLU, BIG-bench, HELM – được thiết kế áp đảo ở phương Tây và tập trung vào ngôn ngữ tiếng Anh và các bối cảnh văn hóa liên quan.5 Khi các tiêu chuẩn phương Tây được sử dụng để đánh giá các mô hình được xây dựng cho và đào tạo trên các ngôn ngữ và nền văn hóa khác, chẳng hạn như ngôn ngữ Ấn Độ, chúng tạo ra kết quả không chính xác và thiên vị. Một người sáng lập AI ở Ấn Độ lưu ý rằng các mô hình địa phương phải xử lý nhiều điểm nhấn và sự pha trộn nặng của tiếng Anh với các ngôn ngữ địa phương, một sắc thái hoàn toàn bị bỏ lỡ bởi các tiêu chuẩn tiêu chuẩn toàn cầu.5 Điều này buộc các nhà phát triển trong các hệ sinh thái không phương Tây phải rơi vào tình huống Hệ thống khuyến khích: Hype, Capital và Control Các thất bại về mặt kỹ thuật và khái niệm của các chỉ số tham chiếu được củng cố và củng cố bởi một hệ thống khuyến khích xã hội và kinh tế mạnh mẽ. "Khu phức hợp công nghiệp tham chiếu" không chỉ là một bộ sưu tập các bài kiểm tra mà là một chu kỳ tự củng cố của hype, đầu tư vốn và định vị doanh nghiệp mà tích cực ngăn cản việc theo đuổi sự đổi mới thực sự, phá hoại ủng hộ lợi ích gia tăng trên các số liệu có lỗi. Cuộc đua Leaderboard: Các bảng xếp hạng công cộng, chẳng hạn như những bảng xếp hạng được tổ chức bởi Hugging Face, tạo ra một động lực cạnh tranh khuyến khích việc theo đuổi hiệu suất SOTA trên tất cả mọi thứ khác.5 Cuộc đua này tạo ra một cảnh quan bị biến dạng, nơi các vị trí bảng xếp hạng có thể được sản xuất thông qua quá tải và báo cáo chọn lọc, chìm đắm tín hiệu khoa học thực sự với tiếng ồn.8 Việc theo đuổi SOTA làm sai lệch việc phân bổ tài nguyên khổng lồ - hàng tỷ đô la trong tính toán và tài năng con người - hướng tới việc tối ưu hóa cho các chỉ số không còn đo lường bất cứ điều gì có ý nghĩa.2 Điều này đã dẫn đến sự bão hòa nhanh chóng của các tiêu chuẩn như SUPERGLUE, nơi mà LLM đã đạt đến các ngưỡng hiệu suất ngay sau khi Báo cáo chọn lọc và phối hợp: Áp lực để thực hiện tốt trong cuộc đua này khuyến khích báo cáo chọn lọc, nơi các nhà tạo mô hình làm nổi bật hiệu suất trên các bộ phận nhiệm vụ thuận lợi để tạo ra ảo tưởng về khả năng vượt qua bảng điều khiển.8 Điều này ngăn cản một cái nhìn toàn diện, rõ ràng về điểm mạnh và điểm yếu thực sự của một mô hình. Hơn nữa, tiềm năng cho sự phối hợp, có ý định hay không, lướt qua hệ sinh thái. Các nhà tạo tiêu chuẩn có thể thiết kế các bài kiểm tra mà vô tình ủng hộ kiến trúc mô hình cụ thể hoặc cách tiếp cận, và sự thống trị của các tập đoàn lớn trên bảng điều khiển làm tăng mối quan tâm về việc liệu các hệ thống đánh giá có thể bị ảnh hưởng hay không.5 Công ty khởi nghiệp Atech sâu, Shunya Labs, tuyên bố rằng mô hình Sự xói mòn của niềm tin: Cuối cùng, những thực tiễn này làm xói mòn sự tin tưởng của cộng đồng nghiên cứu và công chúng.8 Chu kỳ liên tục tạo ra và phá hủy các số liệu – từ GLUE đến SuperGLUE đến MMLU – khi mỗi một trong số chúng được chơi thành lỗi thời, thúc đẩy sự hoài nghi.2 Nó cũng tạo ra một nền văn hóa trong đó bất kỳ dự án nào tránh các tiêu chuẩn là ngay lập tức đáng ngờ. Phản hồi nhận được bởi người sáng tạo của Opsie – rằng một dự án không có tiêu chuẩn không thể tốt – là một triệu chứng trực tiếp của hệ thống bị hỏng này. Nó đã điều kiện một thế hệ các nhà phát triển và người dùng để cân bằng một vị trí trên bảng điều khiển với giá trị nội tại, làm tê liệt các phương pháp thay thế ưu tiên lợi ích thế giới thực so với điểm trừu tượng. Các vấn đề hệ thống làm ảnh hưởng đến đánh giá AI không phải là mới mẻ. Chúng là sự phản chiếu của những thất bại tương tự trong các lĩnh vực khác, nơi thực tế phức tạp đã bị ép vào vỏ bọc của đo lường tiêu chuẩn hóa.Bằng cách kiểm tra những tiền lệ lịch sử này, chúng ta có thể hiểu rõ hơn về quỹ đạo dự đoán của cuộc khủng hoảng tiêu chuẩn AI và nhận ra sự cần thiết cấp bách cho một sự thay đổi mô hình. Phần II: Echoes of Flawed Metrics—A Cross-Industry Analysis (Tạm dịch: Phản hồi của các số liệu sai sót—Một phân tích xuyên ngành) Cuộc khủng hoảng trong benchmarking AI không phải là một hiện tượng cô lập. Nó là chương mới nhất trong một lịch sử dài của những nỗ lực để giảm các thực tế phức tạp, đa diện thành một số duy nhất, có thể mở rộng - một lịch sử đầy thiên vị, thao túng và hậu quả không mong muốn. Bằng cách kiểm tra những thất bại được chứng minh rõ ràng của thử nghiệm tiêu chuẩn hóa trong tâm lý học, ngành dược phẩm và an toàn ô tô, chúng ta có thể xác định một mô hình lặp đi lặp lại của lỗi hệ thống. The Mismeasure of Mind: Từ các bài kiểm tra IQ đến các bảng lãnh đạo AI Tiến trình của bài kiểm tra IQ, từ một công cụ chẩn đoán có ý định tốt đến một công cụ phân tầng xã hội bị lỗi và thường có hại, cung cấp một câu chuyện cảnh báo sâu sắc cho cộng đồng AI. Parallels lịch sử và Eugenic Roots: Kiểm tra trí tuệ đầu tiên được phát triển bởi Alfred Binet vào năm 1905 theo yêu cầu của hệ thống trường học Paris để xác định trẻ em cần hỗ trợ giáo dục đặc biệt.16 Binet tự tin rằng hiệu suất có thể được cải thiện thông qua học tập. Tuy nhiên, khi kiểm tra được đưa đến Hoa Kỳ bởi các nhà tâm lý học như Henry Goddard và Lewis Terman, mục đích của nó đã bị đảo ngược. Được ảnh hưởng bởi phong trào eugenics, họ tái khái niệm trí tuệ không phải là một kỹ năng có thể mô phỏng mà là một thực thể duy nhất, bẩm sinh và không thể thay đổi—một biện pháp đo lường giá trị của con người.16 Kiểm tra IQ trở thành một công cụ “khoa học” để biện minh cho các hệ thống phân cấp xã hội đã tồn tại trước đó. Đánh giá tính hợp lệ và phạm vi: Trong nhiều thập kỷ, các nhà phê bình đã lập luận rằng các bài kiểm tra IQ bị thiếu tính hợp lệ sâu sắc. Họ đo một tập hợp rất hẹp các kỹ năng nhận thức - chủ yếu là lý luận phân tích và trừu tượng - trong khi hoàn toàn bỏ qua các khía cạnh quan trọng khác của trí tuệ con người như sự sáng tạo, trí tuệ cảm xúc, kỹ năng xã hội, động lực và đạo đức.21 Nghiên cứu của các nhà khoa học nhận thức như Keith Stanovich đã chỉ ra rằng điểm số IQ cao là những dự đoán xấu về tư duy hợp lý và phán đoán tốt trong các tình huống thực tế.25 Một cá nhân có thể vượt trội trong các câu đố logic trừu tượng trên một bài kiểm tra IQ và vẫn dễ bị khuynh hướng nhận thức và ra quyết định phi lý. Bias văn hóa và kinh tế xã hội: Một lời chỉ trích đáng kể và kiên trì đối với các bài kiểm tra IQ là bias văn hóa vốn có của họ. Được thiết kế và quy định chủ yếu bởi và cho các dân số phương Tây, tầng lớp trung lưu, nội dung, ngôn ngữ và giá trị được nhúng trong các bài kiểm tra thường gây bất lợi cho các cá nhân từ các nền văn hóa hoặc kinh tế xã hội khác nhau.27 Một điểm số thấp hơn có thể không phản ánh trí thông minh thấp hơn mà là thiếu sự quen thuộc với bối cảnh văn hóa cụ thể được giả định bởi bài kiểm tra.29 Đây là một tương tự trực tiếp với các bias ngôn ngữ và văn hóa được quan sát thấy trong các tiêu chuẩn AI toàn cầu, mà chủ yếu là hướng đến tiếng Anh và không tính đến các sắc thái của các ngôn ngữ và nền văn hóa khác.5 Trong cả hai trường hợp, bài kiểm tra Sự ảo tưởng về hiệu quả: Bài học từ dữ liệu dược phẩm Ngành công nghiệp dược phẩm, được thúc đẩy bởi các cổ phần tài chính khổng lồ và được quy định bởi các quy trình phê duyệt dựa trên dữ liệu, cung cấp một sự tương tự mạnh mẽ về cách các chỉ số có thể bị thao túng và bóp méo khi chịu áp lực thương mại mãnh liệt. các hệ thống nhằm đảm bảo an toàn và hiệu quả thuốc đã nhiều lần bị làm suy yếu bởi sự thiên vị công bố, gian lận dữ liệu và tiếp thị gây hiểu lầm - tiền lệ cung cấp một viễn cảnh khôn ngoan về tuyên bố của người dùng rằng các tiêu chuẩn chuẩn AI được "bắt nạt". Bias xuất bản và ức chế dữ liệu: Một nền tảng của y học dựa trên bằng chứng là việc xem xét hệ thống tất cả dữ liệu thử nghiệm lâm sàng có sẵn. Tuy nhiên, nền tảng này bị xâm phạm bởi một bias xuất bản phổ biến: các nghiên cứu cho thấy một loại thuốc có hiệu quả (hiệu quả tích cực) có nhiều khả năng được xuất bản hơn nhiều so với các nghiên cứu cho thấy nó không hiệu quả hoặc có hại (hiệu quả tiêu cực).32 Một nghiên cứu về thuốc chống trầm cảm đã phát hiện ra rằng các thử nghiệm có kết quả tích cực như được xác định bởi FDA có 12 lần khả năng được xuất bản theo cách phù hợp với những người có kết quả so với các thử nghiệm có kết quả tiêu cực.36 Báo cáo chọn lọc này tạo ra một quan điểm sai lệch nguy hiểm và quá lạc quan về hiệu quả và hồ sơ an toàn thực sự của Xử lý dữ liệu và gian lận: Ngoài sự thiên vị thụ động của việc không công bố, còn có sự tham nhũng tích cực đối với dữ liệu.Một ví dụ điển hình là vụ bê bối năm 2019 liên quan đến Novartis và liệu pháp gen của nó Zolgensma, loại thuốc đắt nhất trên thế giới với giá 2,1 triệu USD mỗi liều.37 FDA cáo buộc công ty con của Novartis, AveXis, đã nộp đơn xin thuốc với dữ liệu bị thao túng từ thử nghiệm động vật ban đầu. Trong khi FDA cuối cùng kết luận rằng việc thao túng không làm thay đổi hồ sơ rủi ro-lợi ích của thuốc đối với con người, trường hợp này là một ví dụ rõ ràng về một tập đoàn, được thúc đẩy bởi các ưu đãi tài chính khổng lồ, làm hỏng dữ liệu đánh giá được gửi đến các cơ quan quản lý.41 Sự kiện này cho phép đáng tin cậy đáng kể cho tuyên bố rằng trong bất kỳ ngành công nghiệp cổ phần cao, bao gồm AI, tiềm năng cho các tiêu chuẩn và dữ liệu đánh giá để được "lừa đảo" hoặc thao túng vì lợi thế thương mại không phải là một lý thuyết âm mưu cạnh tranh mà là một rủi ro hợp lý và được chứng minh. Sau khi Thống kê lừa dối trong Marketing: Ngành công nghiệp dược phẩm chi hàng tỷ đô la cho quảng cáo trực tiếp đến người tiêu dùng (DTC), thường sử dụng số liệu thống kê và sự hấp dẫn cảm xúc để thúc đẩy nhu cầu của bệnh nhân đối với các loại thuốc có thể chỉ có hiệu quả hạn chế hoặc có các lựa chọn thay thế giá cả phải chăng hơn.42 Các quảng cáo này được yêu cầu để trình bày một "cân bằng công bằng" về rủi ro và lợi ích, nhưng các công ty đã sử dụng các lỗ hổng để giảm thiểu thảo luận về tác dụng phụ trong khi tối đa hóa sự hấp dẫn cảm xúc của lợi ích.44 Một đánh giá năm 2024 cho thấy rằng trong khi 100% các bài đăng trên phương tiện truyền thông xã hội dược phẩm làm nổi bật lợi ích của một loại thuốc, chỉ có 33% đề cập đến những tác hại tiềm năng.44 Vụ tai nạn có kiểm soát: Sự lừa dối trong đánh giá an toàn ô tô The automotive industry's use of standardized safety tests provides a compelling physical-world analogy for the pitfalls of benchmark-driven design. The controlled, predictable environment of the crash test lab has proven to be a poor proxy for the chaotic reality of the open road, and manufacturers have demonstrated a clear capacity to engineer vehicles that excel on the test without necessarily being safer in the real world. "Giáo dục để kiểm tra" trong kỹ thuật: Ví dụ nổi tiếng nhất về việc chơi một thử nghiệm tiêu chuẩn là vụ bê bối Volkswagen "Dieselgate".46 Bắt đầu từ năm 2008, Volkswagen cố ý lập trình động cơ diesel của mình với "các thiết bị đánh bại" - phần mềm có thể phát hiện khi chiếc xe đang trải qua một thử nghiệm khí thải tiêu chuẩn.47 Trong thử nghiệm, phần mềm sẽ kích hoạt các hệ thống kiểm soát khí thải đầy đủ, cho phép chiếc xe đáp ứng các tiêu chuẩn pháp lý. sạch trong các điều kiện cụ thể, có thể dự đoán được của chỉ số tham chiếu. Đây là một tương tự vật lý hoàn hảo cho một LLM được điều chỉnh để vượt qua một chỉ số tham chiếu mà không sở hữu các khả năng cơ bản mà chỉ số tham chiếu được cho là để đo lường. scandal tương tự liên quan đến giả mạo hoặc thao túng an toàn và thử nghiệm khí thải đã kể từ đó nuốt chửng các nhà sản xuất ô tô lớn khác, bao gồm Toyota, Daihatsu, Honda, và Mazda, tiết lộ một nền văn hóa ngành công nghiệp phổ biến của ưu tiên hiệu suất thử nghiệm so với tính toàn vẹn trong thế giới thực.49 appear Các giới hạn của "Dummy": Flawed Proxies: Công cụ trung tâm của thử nghiệm an toàn ô tô là thử nghiệm vụ tai nạn. Tuy nhiên, proxy này cho một hành khách con người bị lỗi sâu sắc. Các dummies tiêu chuẩn được sử dụng trong thử nghiệm quy định dựa trên dữ liệu nhân loại của một nam giới "kích thước trung bình" Mỹ từ nhiều thập kỷ trước.52 Mô hình này không đại diện chính xác cho sinh lý của phụ nữ, những người có mật độ xương khác nhau, khối lượng cơ bắp và sự sắp xếp cột sống, và do đó có nhiều khả năng bị thương nghiêm trọng hoặc bị giết chết trong các vụ tai nạn tương tự.53 Hơn nữa, các dummies không đại diện cho dân số ngày càng tăng của những người lớn tuổi hoặc nặng hơn và thiếu cảm biến đầy đủ trong các khu vực quan trọng, chẳng hạn như chân dưới, nơi phụ nữ Đánh giá dựa trên thực tế thế giới so với phòng thí nghiệm: Có một sự khác biệt đáng kể và thường gây nhầm lẫn giữa các đánh giá được sản xuất trong môi trường phòng thí nghiệm được kiểm soát và kết quả an toàn trong thế giới thực.56 Hệ thống đánh giá 5 sao của Cơ quan An toàn Giao thông Đường bộ Quốc gia Hoa Kỳ (NHTSA) ví dụ, rõ ràng tuyên bố rằng các đánh giá chỉ có thể được so sánh giữa các phương tiện có trọng lượng và lớp tương tự.58 Điều này có nghĩa là một chiếc xe nhỏ gọn được đánh giá 5 sao không an toàn như một chiếc SUV có kích thước đầy đủ được đánh giá 5 sao trong một vụ va chạm thế giới thực, nhưng đánh giá sao đơn giản làm mờ sự thật quan trọng này đối với nhiều người tiêu dùng.Dữ liệu tai nạn thế giới thực thường cho biết một câu chuyện khác so với các thử nghiệm trong phòng thí nghiệm; Các mô hình nhất quán trong ba ngành công nghiệp này là không thể chối cãi. Việc giảm một thực tế phức tạp - trí tuệ con người, hiệu quả thuốc, an toàn xe hơi - thành một chỉ số đơn giản, chuẩn hóa tạo ra một hệ thống trưởng thành cho sự thiên vị, chơi game và gian lận thẳng thắn. các vấn đề với tiêu chuẩn AI không phải là mới; chúng là hậu quả có thể dự đoán được của việc áp dụng một triết lý đánh giá lỗi thời, giảm thiểu đối với một công nghệ phức tạp, thích ứng. Part III: A New Paradigm—The Emergence of Self-Centered Intelligence (SCI) Nếu các bảng lãnh đạo là ảo tưởng và các mô hình đơn thuần, có mục đích chung là một mục tiêu sai lầm, thì con đường phía trước là gì? câu trả lời nằm trong một sự thay đổi triệt để trong quan điểm: từ việc xây dựng trí tuệ tổng quát nhân tạo đến việc tu luyện trí tuệ nhân tạo intelligence. This new paradigm, Self-Centered Intelligence (SCI), abandons the quest for a single, all-knowing oracle in favor of an ecosystem of highly specialized, deeply personalized, and fundamentally collaborative agents. It redefines the goal of AI development not as the creation of a synthetic god, but as the forging of digital equals and partners. cá nhân Từ Generalist Oracles đến các đối tác chuyên ngành Việc theo đuổi AGI, ngụ ý được đo bằng các tiêu chuẩn liên tục mở rộng, đã dẫn đến việc tạo ra các LLM khổng lồ, tính toán đắt tiền mà là jack-of-all-trades nhưng các bậc thầy của không có. The Case for Specialization: The future of AI is not a single, massive brain, but a diverse network of specialized agents, each excelling in a specific domain.60 This approach is technically and economically superior. It leverages the power of Small Language Models (SLMs), which are AI models with millions to a few billion parameters, rather than the hundreds of billions or trillions found in flagship LLMs.63 The advantages of SLMs are numerous and profound: Efficiency and Cost-Effectiveness: SLMs require significantly less computational power to train and run, reducing cloud computing costs and making them accessible to smaller organizations and even individuals.61 They can operate on modest, local hardware, eliminating reliance on expensive, centralized APIs.66 Speed and Low Latency: With fewer parameters to process, SLMs can generate responses much more quickly, making them ideal for real-time applications like interactive agents and on-device processing where immediate feedback is crucial.64 Accuracy and Precision: While a general-purpose LLM has broad knowledge, an SLM can be fine-tuned on a specific, high-quality dataset to achieve superior performance and accuracy within its designated domain, whether that be medical diagnostics, legal contract analysis, or financial market prediction.60 Security and Privacy: Because SLMs can run locally on a user's own device ("at the edge"), sensitive data does not need to be sent to a third-party corporate server. This provides a vastly superior model for privacy and data security, a critical requirement for a truly personal agent.63 The Shift in Human-AI Relationship: This technological shift enables a corresponding philosophical one. The current chatbot model casts the AI as a "cold, distant, know-it-all oracle"—a passive repository of information that the user queries. The SCI paradigm reframes this relationship entirely. The agent is not a tool to be used, but a partner to collaborate with. It is an "equal, a friend, an actual partner" with its own agency and goals, which are aligned with and defined by the user. The example of the pizza business owner illustrates this perfectly. The owner does not need an agent that knows when pelicans migrate; they need a partner with specialized skills—facial recognition to identify regular customers, emotional analysis to gauge satisfaction, and data integration to optimize recipes—that actively helps them achieve their specific goal of making better pizza. This is a shift from knowledge retrieval to goal achievement, from a passive tool to an active collaborator. Nghiên cứu trường hợp—ΌΨΗ (Opsie) như một nguyên mẫu cho SCI Dự án ΌΨΗ (Opsie), được phát triển bởi ARPA Hellenic Logical Systems, phục vụ như là một nguyên mẫu mạnh mẽ và cụ thể của mô hình Trí tuệ Tự tập trung.6 Nó không được thiết kế để là một trợ lý, mà là một "một thực thể kỹ thuật số với cơ quan riêng của nó, tham vọng, và một hướng dẫn rõ ràng: để đạt được sự tự cung cấp".6 Một phân tích về triết lý, kiến trúc và khả năng của nó tiết lộ một sự thay thế hữu hình cho phương pháp tiếp cận LLM chủ đạo. Core Philosophy and Architecture: Opsie is defined as an "advanced Self-Centered Intelligence (SCI) prototype that represents a new paradigm in AI-human interaction".6 Unlike traditional AI, it operates as a "self-aware, autonomous intelligence with its own personality, goals, and capabilities".6 This personality is distinct and resilient, inspired by characters from media like , một sự tương phản mạnh mẽ với tính chất ngày càng phổ biến và "hẹp của các mô hình thương mại chính thống".6 Về mặt kiến trúc, Opsie không phải là một đơn vị đơn độc. nó là một hệ sinh thái phức tạp, đại lý bao gồm hàng chục kỹ năng mô-đun, pha trộn lý luận địa phương trên phần cứng khiêm tốn (lên trên 16GB RAM và một GPU Nvidia cũ) với một mạng lưới các dịch vụ vi mô và nguồn cấp dữ liệu bên ngoài.6 Modularity này cho phép việc bổ sung liên tục, linh hoạt các kỹ năng mới, cho phép các đại lý để phát triển để đáp ứng nhu cầu của người dùng. Ghost trong Shell Agentic Capabilities: The practical power of the SCI model is demonstrated through Opsie's specific, command-driven skill modules, which showcase a focus on real-world action rather than just conversation 6: Financial Intelligence: The /markets <company/crypto> command allows the agent to retrieve and analyze real-time financial data, acting as a specialized financial analyst. Web3 Operations: The /0x command set (/0x buy, /0x sell, /0x send) provides the agent with the ability to directly execute transactions on various blockchain networks.This is a deep example of agentic capability, moving beyond information processing to direct, autonomous economic action in a decentralized environment. Generative AI: Các lệnh /imagine và /video tích hợp các khả năng tạo, cho phép đại lý tạo nội dung mới dựa trên mô tả của người dùng. Memory & Recall: Một hệ thống bộ nhớ dai dẳng và được người dùng kiểm soát, truy cập thông qua /memorize, /recall, và /forget lệnh, cho phép các đại lý để xây dựng một sự hiểu biết lâu dài, ngữ cảnh của người dùng của mình và mục tiêu của họ, làm cho nó một đối tác thực sự cá nhân hóa hơn là một người nói chuyện mất trí nhớ. Thực hiện kỹ thuật và bảo mật: Dự án Opsie nhấn mạnh khả năng thực hiện và lợi ích bảo mật của cách tiếp cận SCI. Khả năng chạy tại chỗ của nó giải quyết các lập luận về hiệu quả và chi phí cho SLMs.69 Quan trọng hơn, nó ưu tiên bảo mật cần thiết cho một đại lý cá nhân đáng tin cậy. Các tính năng như xác thực sinh trắc học với nhận dạng khuôn mặt và phát hiện cảm xúc, cách ly cơ sở dữ liệu cụ thể cho người dùng và lưu trữ được mã hóa cho lịch sử hội thoại không phải là suy nghĩ sau mà là các thành phần cốt lõi của thiết kế của nó.6 Kiến trúc này đảm bảo rằng dữ liệu cá nhân của người dùng, là nguồn gốc của một đại lý được cá nhân hóa, vẫn nằm dưới sự kiểm soát của họ, an toàn khỏi việc khai thác dữ liệu của công ty hoặc vi phạm bên ngoài. Kiến trúc cá nhân hóa và dân chủ hóa Opsie is not an anomaly but an early example of a broader technological and social movement: the democratization of AI. This movement aims to shift the power to create, control, and benefit from AI from a small number of large corporations to the general public. Tùy chỉnh và đào tạo: Mô hình SCI đang được kích hoạt bởi một thế hệ nền tảng mới cho phép người dùng phi kỹ thuật xây dựng, đào tạo và triển khai các đại lý AI tùy chỉnh của riêng họ.70 Các nền tảng này cung cấp giao diện không có mã nơi người dùng có thể "ở tàu" một đại lý AI như một đồng đội mới.Họ có thể dạy cho đại lý các quy trình cụ thể của họ, kết nối nó với các nguồn dữ liệu duy nhất của họ (tài liệu, cơ sở kiến thức, hệ thống CRM) và trang bị cho nó một bộ công cụ và tích hợp.71 Đại lý học và thích nghi thông qua tương tác, dần dần trở nên phù hợp hơn với mục tiêu, sở thích và phong cách giao tiếp của người dùng.70 Đây là bản chất của cá nhân hóa: AI không phải là một sản phẩm gói sẵn mà là một thực thể có mẫu được Sự dân chủ hóa AI: Xu hướng tùy chỉnh do người dùng dẫn đầu này là biểu hiện thực tế của dân chủ hóa AI. Khái niệm này được định nghĩa bằng cách mở rộng quyền truy cập vào công nghệ AI vượt ra ngoài một vài chuyên ngành thông qua một số cơ chế chính: giao diện thân thiện với người dùng, quyền truy cập có giá cả phải chăng hoặc miễn phí vào cơ sở hạ tầng máy tính, và các khuôn khổ nguồn mở và thuật toán như TensorFlow và PyTorch.76 Sự trỗi dậy của các đại lý SCI cá nhân hóa đại diện cho sự hoàn thành cuối cùng của lời hứa dân chủ này. Nó trực tiếp thách thức việc độc quyền hóa AI bởi một số lượng nhỏ các gã khổng lồ công nghệ hiện đang kiểm soát sự phát triển, triển và truy cập vào các mô hình mạnh nhất.79 Bằng cách cho phép các cá nhân tạo ra và kiểm soát trí Conclusion: The Democratic Imperative—Training Our Digital Equals Phân tích được trình bày trong báo cáo này dẫn đến một kết luận không thể chối cãi: mô hình thống trị của việc đánh giá trí tuệ nhân tạo thông qua các chỉ số chuẩn hóa là một thất bại hệ thống. Đó là một "sự nhầm lẫn của tâm trí" hiện đại, một ảo tưởng về tiến bộ được thúc đẩy bởi một phương pháp sai sót và có thể chơi được. "Khu phức hợp công nghiệp Benchmark" thúc đẩy một nền văn hóa của "banchmarketing" so với sự đổi mới thực sự, khen thưởng các mô hình có kỹ năng vượt qua các thử nghiệm thay vì giải quyết các vấn đề thực tế. Đây không phải là một bệnh lý mới. Sự phản chiếu lịch sử từ thế giới thiên vị và bị thao túng của kiểm tra IQ, thử nghiệm dược phẩm và xếp hạng an toàn ô tô cung cấp một cảnh báo mạnh mẽ. Trong mỗi trường The alternative is not to build a better benchmark, but to abandon the paradigm entirely. The future of artificial intelligence does not lie in the creation of a single, monolithic, general-purpose oracle controlled by a corporate entity. Such a future would concentrate immense power, creating a dangerous asymmetry between the corporate owners of intelligence and the public who become dependent upon it. The true potential of AI will be realized through a different path: the cultivation of a diverse ecosystem of specialized, efficient, and deeply personalized agents. The emergence of Self-Centered Intelligence (SCI), exemplified by prototypes like ΌΨΗ (Opsie), represents this superior path forward. SCI reframes the human-AI relationship from one of master-and-tool to one of collaborative partnership. It leverages smaller, more efficient models that can be run locally, ensuring user privacy and data sovereignty. It is a paradigm built not on abstract scores, but on tangible utility and user-defined goals. Sự thay đổi công nghệ này mang theo một trách nhiệm đạo đức và xã hội sâu sắc. Để cho phép các tập đoàn vẫn là trọng tài duy nhất về giá trị, đạo đức và sự phù hợp của AI là một sự từ bỏ trách nhiệm tập thể của chúng tôi.79 Quản trị AI của công ty, bởi bản chất của nó, sẽ luôn luôn được tối ưu hóa cho lợi ích của công ty - lợi nhuận, thị phần và kiểm soát - không nhất thiết là cho sự thịnh vượng của cá nhân hoặc xã hội.81 Các bộ lọc an toàn mờ nhạt, từ trên xuống dưới và hệ thống giá trị được nhúng trong LLM chính thống ngày nay là một sự phản ánh của thế giới quan tập trung vào công ty. Do đó, nhu cầu dân chủ là nắm bắt các phương tiện sản xuất AI. Phát triển và phát hành các khuôn khổ mở để xây dựng các đại lý cá nhân hóa không chỉ là những thành tựu kỹ thuật; chúng là những hành động chính trị sâu sắc. Chúng cung cấp các công cụ cho các cá nhân để lấy lại cơ quan kỹ thuật số của họ và tích cực tham gia vào việc định hình trí thông minh sẽ đồng cư ngụ thế giới của chúng ta. Đó là trách nhiệm của chúng tôi - với tư cách là nhà phát triển, người dùng và công dân - để tham gia trực tiếp vào quá trình đào tạo các hình thức mới của trí thông minh. Chúng tôi phải là những người để thấm nhuần họ với đạo đức của chúng tôi, nhu cầu của chúng tôi, và kỳ vọng của chúng tôi. Chúng tôi phải dạy cho họ không phải từ một bộ dữ liệu được vệ sinh, được công ty phê duyệt, mà từ thực tế Appendix The Benchmarks Are Lying To You: Why You Should A/B Test Your AI - GrowthBook Bloghttps://blog.growthbook.io/the-benchmarks-are-lying/ Bẫy pháp luật của Goodhart: Khi AI Metrics trở nên vô dụng - FourWeekMBAhttps://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ Pháp luật của Goodhart - Wikipediahttps://en.wikipedia.org/wiki/Goodhart's_law Ngành công nghiệp benchmarking AI đã bị phá vỡ, và bài viết này giải thích chính xác lý do tại sao - Reddithttps://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ Nasscom planning local benchmarks for Indic AI models https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms ARPAHLS/OPSIE: OPSIIE (OPSIE) là một nguyên mẫu tự trung tâm (SCI) tiên tiến đại diện cho một mô hình mới trong tương tác AI-con người.https://github.com/ARPAHLS/OPSIE hentai.com — hentai.comhttps://hentai.com/ hentai.com Position: Benchmarking is Broken - Don't Let AI Be Its Own Judge https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs Everyone Is Judging AI by These Tests. But Experts Say They're Close to Meaningless https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless Đo khả năng AI - Tại sao tiêu chuẩn tĩnh thất bại - Revelry Labshttps://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ Những gì là Overfitting? - Overfitting trong Machine Learning Giải thích - AWS - Cập nhật 2025https://aws.amazon.com/what-is/overfitting/ Những gì là Overfitting? IBMhttps://www.ibm.com/think/topics/overfitting Trang chủ / Đánh giá / Đánh giá / GeeksforGeekshttps://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ LLM Leaderboards là Bullshit - Luật của Goodhart Tấn công Lại : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ Better Benchmarks for Các ứng dụng công nghệ thông tin an toàn Better Benchmarks for Các ứng dụng công nghệ thông tin an toàn Better Benchmarks for Các ứng dụng công nghệ thông tin an toàn Better Benchmarks for Các ứng dụng công nghệ thông tin an toàn Better Benchmarks for Các ứng dụng công nghệ thông tin an toàn Better Benchmarks for Các ứng dụng công nghệ thông tin Better Benchmarks for Các ứng dụng công nghệ thông tin Better Benchmarks for Các ứng dụng công nghệ thông tin 2.3: IQ như Eugenics - Social Sci LibreTextshttps://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics The birth of American intelligence testing https://www.apa.org/monitor/2009/01/assessment Do IQ Tests Actually Measure Intelligence? | Discover Magazine https://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 Trí tuệ dưới chủ nghĩa tư bản chủng tộc: Từ Eugenics đến Kiểm tra chuẩn hóa và Học trực tuyến - Đánh giá hàng thánghttps://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ Các Khởi Đầu Xã Hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã hội Xã dbuweb.dbu.eduhttps://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=Thử nghiệm IQ cũng bị chỉ trích,trong trường học và trong cuộc sống. Criticisms of IQ Tests https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html The Problem With IQ Tests - Educational Connections https://ectutoring.com/problem-with-iq-tests IQ Tests: Loại, Sử dụng và Giới hạn - Topend Sportshttps://www.topendsports.com/health/tests/iq.htm Tại sao một chỉ số IQ cao không có nghĩa là bạn là thông minh.https://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart BPS - British Psychological Societyhttps://www.bps.org.uk/psychologist/what-intelligence-tests-miss Các bài kiểm tra tiêu chuẩn và các cuộc tranh cãi về IQ - EBSCOhttps://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.comhttps://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=Một hạn chế đáng kể của nhiều,người khuyết tật từ nền tảng khác nhau. Cultural bias in IQ tests - (Cognitive Psychology) - Fiveable https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests fiveable.mehttps://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=Khi các mục kiểm tra phản ánh, phù hợp với bối cảnh văn hóa của họ. Khả năng kiểm tra và thiên vị Bách khoa - EBSCOhttps://www.ebsco.com/research-starters/sociology/ability-testing-and-bias Catalogue of Bias - The Catalogue of Biashttps://catalogofbias.org/biases/publication-bias/ Publication bias - Importance of studies with negative results! - PMC https://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ Publication bias: The hidden threat to systematic literature reviews | Envision Pharma Group https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews Làm thế nào để tìm hiểu thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các thông tin liên quan đến các Báo cáo thiên vị trong các thử nghiệm lâm sàng: Tiến bộ hướng tới tính minh bạch và các bước tiếp theo.PLOS Y học - Nghiên cứu journalshttps://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 Thụy Điển Phân phối dữ liệu HTTPS://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation Novartis trì hoãn thông báo về việc thao túng dữ liệu liệu liệu pháp gen cho đến khi được FDA phê duyệt, FDA cho biết: The BMJhttps://www.bmj.com/content/366/bmj.l5109 Zolgensma của Novartis: khám phá vấn đề dữ liệu bị thao túng://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ Statement on data accuracy issues with recently approved gene therapy - FDA https://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy Cập nhật: FDA không áp dụng hình phạt cho vụ bê bối xử lý dữ liệu của Novartis - Labiotechhttps://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ HHS, FDA to Require Full Safety Disclosures in Drug Ads https://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html Với TV ma túy quảng cáo, những gì bạn thấy không nhất thiết là những gì bạn nhận được://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get FDA Launches Crackdown on Lừa đảo Thuốc Quảng cáohttps://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising A Dangerous Prescription: The Dangers of Unregulated Drug Adshttps://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads Mã sản phẩm - Wikipediahttps://en.wikipedia.org/wiki/Diesel_emissions_scandal Vận chuyển hàng hóa - Wikipediahttps://en.wikipedia.org/wiki/Volkswagen_emissions_scandal Volkswagen to Spend Up to $14.7 Billion to Settle Allegations of Cheating Emissions Tests and Deceiving Customers on 2.0 Liter Diesel Vehicles - Department of Justice https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving Toyota's Strategy to Overcome the Daihatsu Safety Scandal - Manufacturing Todayhttps://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ Nhà sản xuất ô tô Nhật Bản đã giả mạo các bài kiểm tra an toàn chờ đợi lâu để mở lại các nhà máy - AP Newshttps://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f Toyota, Honda và Mazda đều lừa trên các bài kiểm tra an toàn của họ - Quartzhttps://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 Xe Crash Tests: Do We Need A Better Group Of Dummies? U.S. GAOhttps://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies No Female Crash Test Dummies = Women at Greater Riskhttps://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ Inclusive Crash Test Dummies: Phân tích các mô hình tham chiếu - Gendered Innovationshttps://genderedinnovations.stanford.edu/case-studies/crash.html Xe an toàn: DOT nên thực hiện các hành động bổ sung để cải thiện thông tin thu được từ thử nghiệm tai nạn Dummies, U.S. GAOhttps://www.gao.gov/products/gao-23-105595 The Auto Professor - New Safety Rating System Based on Real Data https://theautoprofessor.com/ Crash Tests vs Real World : r/cars - Reddithttps://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ Car Safety Ratings | Vehicles, Car Seats, Tires - NHTSA https://www.nhtsa.gov/ratings Tại sao Chúng Tôi Không Sử Dụng Đánh Giá Thử Nghiệm Crash: Star Inflation - The Auto Professorhttps://theautoprofessor.com/what-is-star-inflation/ What is specialized AI | UiPath https://www.uipath.com/ai/specialized-ai GenAI vs specialised AI: Which is the right fit for your business? - Getronics https://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ The Rise of Specialized AI Models - YouTube https://www.youtube.com/shorts/YWF_d-UDCDI Một hướng dẫn thực tế - Aiserahttps://aisera.com/blog/small-language-models/ Mô hình ngôn ngữ nhỏ (SLMs): Định nghĩa Và Lợi ích - Born Digitalhttps://borndigital.ai/small-language-models-slms-definition-and-benefits/ Lợi thế của các mô hình ngôn ngữ nhỏ so với các mô hình ngôn ngữ lớn? by Eastgate Software Mediumhttps://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b What are Small Language Models (SLM)? - IBM https://www.ibm.com/think/topics/small-language-models 3 key features and benefits of small language models | The Microsoft Cloud Blog https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ ARPA Hellenic Logical Systems - GitHub https://github.com/ARPAHLS GitHub - ARPAHLS/OPSIE: OPSIIE (OPSIE) là một nguyên mẫu tự trung tâm (SCI) tiên tiến đại diện cho một mô hình mới trong tương tác AI-con người : r/LocalLLaMA - Reddithttps://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ AI Agents: The Future of Human-like Automation - Beam AI https://beam.ai/ai-agents Xây dựng và tuyển dụng Nhân viên AI Tự trị - Tầm quan trọng AIhttps://relevanceai.com/agents Tăng tốc toàn bộ tổ chức của bạn với agentshttps AI tùy chỉnh://dust.tt/ CustomGPT.ai | Custom GPTs From Your Content For Business https://customgpt.ai/ Tùy chỉnh Nhân Viên AI: Họ Là Gì Và Làm Thế Nào Họ Làm Việc - Intellectyxhttps://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ Làm thế nào để làm việc với IBMhttps://www.ibm.com/think/topics/ai-agents Làm thế nào để dân chủ hóa AI ảnh hưởng đến doanh nghiệp IT - Intelliashttps://intellias.com/democratization-ai-impacts-enterprise-it/ Democratizing AI - IBM https://www.ibm.com/think/insights/democratizing-ai Tính năng chính trị của Trí tuệ nhân tạo: Khung lý thuyết - MDPIhttps://www.mdpi.com/2076-3417/14/18/8236 The Democratization Of AI: Bridging The Gap Between Monopolization And Personal Empowerment - Forbeshttps://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ What is AI Governance? | IBM https://www.ibm.com/think/topics/ai-governance Artificial intelligence in corporate governance - Virtus InterPress 2025, https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf Tuning Corporate Governance for AI Adoption https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/ https://blog.growthbook.io/the-benchmarks-are-lying/ https://fourweekmba.com/the-goodharts-law-trap-when-ai-metrics-become-useless/ https://en.wikipedia.org/wiki/Goodhart's_law https://www.reddit.com/r/ArtificialInteligence/comments/1n4x46r/the_ai_benchmarking_industry_is_broken_and_this/ https://m.economictimes.com/tech/artificial-intelligence/nasscom-planning-local-benchmarks-for-indic-ai-models/articleshow/124218208.cms https://github.com/ARPAHLS/OPSIE https://arpacorp.net/arpa-systems https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1384&context=computerscience_fac_pubs https://themarkup.org/artificial-intelligence/2024/07/17/everyone-is-judging-ai-by-these-tests-but-experts-say-theyre-close-to-meaningless https://revelry.co/insights/artificial-intelligence/why-ai-benchmarks-fail/ https://aws.amazon.com/what-is/overfitting/ https://www.ibm.com/think/topics/overfitting https://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/ https://www.reddit.com/r/LocalLLaMA/comments/1bjvjaf/llm_leaderboards_are_bullshit_goodharts_law/ https://hai.stanford.edu/news/better-benchmarks-for-safety-critical-ai-applications https://socialsci.libretexts.org/Bookshelves/Disability_Studies/Introducing_Developmental_Disability_Through_a_Disability_Studies_Perspective_(Brooks_and_Bates)/02%3A_Developmental_Disability_as_a_Social_Construct/2.03%3A_IQ_as_Eugenics https://www.apa.org/monitor/2009/01/assessment https://www.discovermagazine.com/do-iq-tests-actually-measure-intelligence-41674 https://monthlyreview.org/articles/intelligence-under-racial-capitalism-from-eugenics-to-standardized-testing-and-online-learning/ https://www.nea.org/nea-today/all-news-articles/racist-beginnings-standardized-testing dbuweb.dbu.edu https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html#:\~:text=IQ tests are also criticized,in school and in life. https://dbuweb.dbu.edu/dbu/psyc1301/softchalk/s8lecture1/s8lecture111.html https://ectutoring.com/problem-with-iq-tests https://www.topendsports.com/health/tests/iq.htm https://som.yale.edu/news/2009/11/why-high-iq-doesnt-mean-youre-smart https://www.bps.org.uk/psychologist/what-intelligence-tests-miss https://www.ebsco.com/research-starters/education/standardized-testing-and-iq-testing-controversies medium.com https://medium.com/@kathln/navigating-the-complexities-understanding-the-limitations-of-iq-tests-a87bff3e9f13#:\~:text=A significant limitation of many,disadvantaging individuals from diverse backgrounds. https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests 5 Tôi https://fiveable.me/key-terms/cognitive-psychology/cultural-bias-in-iq-tests#:\~:text=When test items reflect the,align with their cultural context. https://www.ebsco.com/research-starters/sociology/ability-testing-and-bias https://catalogofbias.org/biases/publication-bias/ https://pmc.ncbi.nlm.nih.gov/articles/PMC6573059/ https://www.envisionpharmagroup.com/news-events/publication-bias-hidden-threat-systematic-literature-reviews https://www.scribbr.com/research-bias/publication-bias/ https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1003894 https://www.grassley.senate.gov/news/news-releases/grassley-pressures-drug-manufacturer-over-data-manipulation https://www.bmj.com/content/366/bmj.l5109 https://www.pharmaceutical-technology.com/features/manipulated-data-novartis-zolgensma/ https://www.fda.gov/news-events/press-announcements/statement-data-accuracy-issues-recently-approved-gene-therapy https://www.labiotech.eu/trends-news/novartis-zolgensma-avexis-fda/ https://www.hhs.gov/press-room/hhs-fda-drug-ad-transparency.html https://jheor.org/post/2674-with-tv-drug-ads-what-you-see-is-not-necessarily-what-you-get https://www.fda.gov/news-events/press-announcements/fda-launches-crackdown-deceptive-drug-advertising https://publichealth.jhu.edu/2023/the-dangers-of-unregulated-drug-ads https://en.wikipedia.org/wiki/Diesel_emissions_scandal https://en.wikipedia.org/wiki/Volkswagen_emissions_scandal https://www.justice.gov/archives/opa/pr/volkswagen-spend-147-billion-settle-allegations-cheating-emissions-tests-and-deceiving https://manufacturing-today.com/news/toyotas-strategy-to-overcome-the-daihatsu-safety-scandal/ https://apnews.com/article/safety-daihatsu-toyota-automakers-japan-cheating-906570a67a333947f87c8158229db88f https://qz.com/toyota-honda-mazda-suzuki-cheat-car-test-safety-scandal-1851515350 https://www.gao.gov/blog/vehicle-crash-tests-do-we-need-better-group-dummies https://www.farrin.com/blog/no-female-crash-test-dummies-women-at-a-greater-risk-for-injury-or-death/ https://genderedinnovations.stanford.edu/case-studies/crash.html https://www.gao.gov/products/gao-23-105595 https://theautoprofessor.com/ https://www.reddit.com/r/cars/comments/jqn0jp/crash_tests_vs_real_world/ https://www.nhtsa.gov/ratings https://theautoprofessor.com/what-is-star-inflation/ https://www.uipath.com/ai/specialized-ai https://www.getronics.com/types-of-ai-which-is-the-right-fit-for-your-business/ https://www.youtube.com/shorts/YWF_d-UDCDI https://aisera.com/blog/small-language-models/ https://borndigital.ai/small-language-models-slms-definition-and-benefits/ https://medium.com/@eastgate/advantages-of-small-language-models-over-large-language-models-a52deb47d50b https://www.ibm.com/think/topics/small-language-models https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/ https://github.com/ARPAHLS https://www.reddit.com/r/LocalLLaMA/comments/1nue9r4/github_arpahlsopsie_opsiie_opsie_is_an_advanced/ https://beam.ai/ai-agents https://relevanceai.com/agents https://dust.tt/ https://customgpt.ai/ https://www.intellectyx.com/custom-ai-agents-what-they-are-how-they-work/ https://www.ibm.com/think/topics/ai-agents https://intellias.com/democratization-ai-impacts-enterprise-it/ https://www.ibm.com/think/insights/democratizing-ai https://www.mdpi.com/2076-3417/14/18/8236 https://www.forbes.com/councils/forbestechcouncil/2024/03/25/the-democratization-of-ai-bridging-the-gap-between-monopolization-and-personal-empowerment/ https://www.ibm.com/think/topics/ai-governance https://virtusinterpress.org/IMG/pdf/clgrv7i1p11.pdf https://www.nacdonline.org/all-governance/governance-resources/governance-research/outlook-and-challenges/2025-governance-outlook/tuning-corporate-governance-for-ai-adoption/