Tous les mois, quelqu’un déclare que « l’IA va nous remplacer tous ». Puisque je travaille en étroite collaboration, je reçois cette question tout le temps. Mais regardez de plus près: AI ne remplace pas Il est remplacé Et il y a une énorme différence. people tasks Les LLM sont des papillons avec des moteurs à jet De grands modèles linguistiques tels que ChatGPT, Claude et DeepSeek sont construits pour prédire le prochain jeton de manière si convaincante qu'il semble qu'une personne l'ait écrit, et ils sont brillants à ce sujet. Être bon en n'est pas la même que . sounding right being right Ces modèles apprennent à partir d'un mélange de livres, d'articles, de code repos, de Wikipédia, de publications sur les forums et de pages web déchirées. Certains d'entre eux sont évalués par des pairs. La plupart ne le sont pas. Aucune armée d'éditeurs ne vérifie la vérité de chaque ligne. Les données sont remplies de contradictions, de préjugés, de faits obsolètes et de fabrication directe. Pensez à cela comme à l'apprentissage de la médecine à partir de tous les manuels médicaux jamais écrits... et de tous les forums de santé, de tous les blogs d'horoscope et de quelques sites de recettes pour une bonne mesure. Ce sont des modèles qui reflètent la réalité.Il est juste très bon à imiter le langage du consensus. know J'ai vu de première main pourquoi ça compte. Quality Over Quantity Qualité sur quantité En 2016, j’ai travaillé sur un projet d’apprentissage automatique pour détecter les logiciels malveillants obstrués. Microsoft avait un ensemble de données public Kaggle (Microsoft Malware Classification Challenge) pour ce problème. Pendant plusieurs mois, j'ai téléchargé des logiciels malveillants tous les jours, j'ai exécuté des échantillons dans une boîte à sable, je les ai reversés et je les ai étiquetés moi-même.En fin de compte, j'avais un ensemble de données d'environ 120 000 logiciels malveillants et des échantillons bénins, qui sont beaucoup plus petits que ceux de Microsoft mais qui ont été construits à la main. Les résultats parlent à haute voix : Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Mise à jour Microsoft Kaggle 53 % de Mes propres données manuelles 80 % Mon ensemble de données + données synthétiques 64 % de Le même algorithme, le même pipeline, seules les données ont changé. Les données publiques contenaient des anomalies; les données synthétiques introduisaient leurs propres distorsions.Le seul moyen d'obtenir des signaux de haute qualité était d'investir du temps, de l'expertise et de l'argent dans la curation. C'est l'opposé de la façon dont les LLM sont formés: ils scrap tout et essayer d'en apprendre, les anomalies et tout. Une hallucination unique de ChatGPT, publiée sur les médias sociaux, est partagée, retweetée, repackée et finit par être nourrie dans le prochain ensemble de formation. . digital inbreeding L’Internet était déjà rempli de contenu de mauvaise qualité avant l’arrivée des LLM : fausses nouvelles, « how-tos » fictifs, code cassé, texte spammy. À l'heure actuelle, les filtres sont principalement automatisés, certaines équipes humaines rouges et des systèmes de notation internes. Il n'y a pas d'équivalent d'évaluation par les pairs à l'échelle, pas de conseil de licence, pas de responsabilité pour les mauvaises données. Où trouver des données « nouvelles » ? Ce qui conduit à la question évidente : Quand le web public est-il déjà surchargé, pollué et de plus en plus synthétique ? where do we find fresh, high-quality training data La première idée que presque tout le monde a est "Nous allons simplement nous entraîner sur nos propres données d'utilisateurs." En 2023, j'ai essayé exactement cela avec mon lancement gamedev - un outil d'IA pour aider les développeurs à construire des mondes de RPG.Nous pensions que les journaux de test bêta seraient le matériel de formation parfait: le bon format, des interactions réelles, directement pertinents pour notre domaine. Fortune Folly La capture ? Un seul testeur a produit plus de données que quinze utilisateurs normaux combinés, mais pas parce qu'ils construisaient des mondes plus riches.Ils essayaient sans relâche de diriger le système vers le contenu sexuel, les prompts à la bombe et les réponses racistes.Ils étaient beaucoup plus persistants et inventifs dans la rupture des frontières que n'importe quel utilisateur légitime. sans surveillance, ces données auraient été Il aurait appris à imiter l’attaquant, pas la communauté que nous essayions de servir. empoisonné C’est précisément le Sans évaluation et curation humaines actives, les "données d'utilisateurs réelles" peuvent coder les pires, pas les meilleures, de l'entrée humaine, et votre modèle la reproduira fidèlement. data-poisoning problem Le Takeaway ChatGPT n’est que la première étape sur le chemin de la « remplacement ».Il semble être un expert en tout, mais en réalité, c’est un spécialiste du langage naturel. Son avenir est comme un pour la conversation entre vous et des modèles plus profonds, spécifiques au domaine, formés sur des ensembles de données soigneusement curés. Même ces modèles, cependant, auront encore besoin de mises à jour constantes, de validation et d'expertise humaine derrière les coulisses. interface La véritable « menace de remplacement » ne viendrait que si nous réussissions à construire une : les scrapers qui recueillent des données en temps réel, les modèles de réviseurs qui les vérifient et les vérifient, et les modèles d'experts qui ingèrent ces connaissances nettoyées. fabric of machine learning systems Mais je ne pense pas que nous sommes nulle part près de cela.A’hui, nous brûlons déjà d’énormes quantités d’énergie pour générer des phrases semblables à celles d’un être humain.L’échelle jusqu’au niveau nécessaire pour obtenir des connaissances spécialisées en temps réel, complètement examinées, nécessiterait des ordres d’une magnitude supérieure à la puissance et à l’énergie de calcul que nous ne pouvons réellement fournir. J’ai vu des tentatives prometteuses en médecine, mais chacune d’entre elles s’appuyait sur des équipes de spécialistes travaillant d’innombrables heures pour construire, nettoyer et valider leurs données. En d’autres termes : AI may replace tasks, but it’s nowhere close to replacing people.