Каждые несколько месяцев кто-то заявляет, что «ИИ заменит всех нас». Поскольку я тесно работаю с ним, мне постоянно задают этот вопрос. Но взгляните поближе: AI не заменяет Это заменяет И есть огромная разница. people tasks LLMs являются папоротниками с реактивными двигателями Большие языковые модели, такие как ChatGPT, Claude и DeepSeek, построены, чтобы предсказать следующий токен настолько убедительно, что это похоже на то, что человек написал его, и они блестящие в этом. Но быть хорошим в Это не то же самое, что . sounding right being right Эти модели учатся из смеси книг, статей, кодовой репозиции, Википедии, постов на форумах и сканированных веб-страниц. Некоторые из них пересматриваются партнерами. Большинство из них нет. Ни одна армия редакторов не проверяет правду о каждом строке. Данные таинственны противоречиями, предрассудками, устаревшими фактами и прямыми вымышлениями. Подумайте об этом как об изучении медицины из любой медицинской учебницы, когда-либо написанной... и каждого медицинского форума, каждого блога гороскопа и нескольких сайтов рецептов для хорошей меры. «Какие шаблоны отражают реальность, просто очень хорошо имитируют язык консенсуса. know Я видел из первых рук, почему это важно. Quality Over Quantity Качество выше количества В 2016 году я работал над проектом машинного обучения для обнаружения запутанного вредоносного ПО. У Microsoft был публичный набор данных Kaggle (Microsoft Malware Classification Challenge) для этой проблемы. В течение нескольких месяцев я скачивал вредоносное программное обеспечение каждый день, запускал образцы в песочнице, обратно-инженерные бинарные файлы и сам их маркировал. Результаты говорили громко: Training Dataset Accuracy Microsoft Kaggle dataset 53% My own hand-built dataset 80% My dataset + synthetic data 64% Набор данных Microsoft Kaggle 53 процента Мой собственный ручной сбор данных 80 % Мой набор данных + синтетические данные 64 процента Тот же алгоритм, тот же трубопровод, изменились только данные. Дело в том, что лучшая производительность пришла от ручных, экспертно-курируемых данных.Публичные данные содержали аномалии; синтетические данные вводили свои собственные искажения.Единственный способ получить качественные сигналы — инвестировать время, опыт и деньги в курирование. Это противоположно тому, как обучаются LLM: они сокрушают все и пытаются извлечь из этого уроки, аномалии и все. Одна галлюцинация от ChatGPT, опубликованная в социальных сетях, делится, ретуируется, переупаковывается и в конечном итоге возвращается в следующий набор тренировок. . digital inbreeding Интернет уже был полон низкокачественного контента, прежде чем появились LLM: фейковые новости, вымышленные «как-то», сломанный код, спам-текст. В настоящее время в основном автоматизированные фильтры, некоторые человеческие красные команды и внутренние системы оценки. Нет эквивалента рецензирования по масштабу, нет лицензионной доски, нет ответственности за плохие данные. Откуда берутся «новые» данные? Что, естественно, приводит к очевидному вопросу: Когда общественная сеть уже перехвачена, загрязнена и становится все более синтетической? where do we find fresh, high-quality training data Первая мысль почти у каждого «Мы будем тренироваться только на наших собственных пользовательских данных». В 2023 году я попробовал именно это с моим стартапом gamedev Мы думали, что бета-тестовые журналы будут идеальным учебным материалом: правильный формат, реальные взаимодействия, непосредственно относящиеся к нашему домену. Fortune Folly Что такое catch? Один тестер произвел больше данных, чем пятнадцать обычных пользователей вместе взятых, но не потому, что они строили более богатые миры.Они неустанно пытались направить систему в сексуальный контент, бомботворные просьбы и расистские ответы.Они были гораздо более настойчивы и изобретательны в нарушении границ, чем любой законный пользователь. Оставшиеся без надзора, эти данные будут Он бы научился имитировать нападающего, а не сообщество, которому мы пытаемся служить. Отравление Это именно тот Без активного человеческого обзора и курации «реальные пользовательские данные» могут кодировать худшее, а не лучшее, человеческое введение, и ваша модель будет верно воспроизводить его. data-poisoning problem О Takeaway ChatGPT является лишь первым шагом на пути к «замене».Он выглядит как эксперт во всем, но на самом деле, это специалист по естественному языку. Его будущее – это как для разговора между вами и более глубокими, конкретными для домена моделями, обученными на тщательно подготовленных наборах данных. Даже эти модели, однако, все равно будут нуждаться в постоянном обновлении, валидации и человеческом опыте за кулисами. interface Настоящая «заместительная угроза» наступит только в том случае, если нам удастся построить целое. : сканеры, которые собирают данные в реальном времени, модели рецензентов, которые проверяют и проверяют факты, и экспертные модели, которые поглощают эти очищенные знания. fabric of machine learning systems Но я не думаю, что мы где-то рядом с этим.В настоящее время мы уже сжигаем огромные количества энергии, чтобы генерировать человекоподобные предложения.Развитие до уровня, необходимого для реального времени, полностью пересмотренных экспертных знаний, потребует порядка величины большей вычислительной мощности и энергии, чем мы можем реалистично обеспечить. Я видел многообещающие попытки в медицине, но каждая из них полагалась на команды специалистов, работающих бесчисленные часы над созданием, очищением и подтверждением своих данных. Другими словами: AI may replace tasks, but it’s nowhere close to replacing people.