Искусственный интеллект уже довольно давно привлекает внимание технических энтузиастов и экспертов отрасли. В этой статье мы углубимся в эволюцию ИИ, проливая свет на проблемы, которые он создает, и на возникающие тенденции на горизонте.
Поскольку мы наблюдаем экспоненциальный рост технологии искусственного интеллекта , становится все более важным иметь полное понимание ее возможностей, чтобы максимизировать ее потенциальные преимущества. Углубляясь в эту сложную сферу, Владимир Гетманский, руководитель отдела анализа данных компании ЭЛЕКС, делится своими идеями и опытом по этой актуальной теме.
Во-первых, генеративный ИИ является частью области ИИ. В то время как ИИ в основном фокусируется на автоматизации или оптимизации человеческих задач, генеративный ИИ фокусируется на создании различных объектов. Типичные задачи ИИ, такие как создание диалоговых агентов или агентов, принимающих решения, интеллектуальная автоматизация, распознавание и обработка изображений, а также перевод, могут быть улучшены с помощью GenAI. Он позволяет создавать текст и отчеты, изображения и дизайн, речь и музыку и многое другое.
В результате интеграция генеративного искусственного интеллекта в повседневные задачи и рабочие процессы становится все более плавной и эффективной. Можно задаться вопросом, какой тип генерации данных наиболее популярен. Однако ответ не однозначен.
Мультимодальные модели позволяют генерировать различные типы данных на основе разнообразных входных данных. Таким образом, даже если бы у нас была статистика использования, было бы сложно определить наиболее популярный тип генерируемых данных. Однако, исходя из текущих потребностей бизнеса, большие языковые модели являются одними из самых популярных.
Эти модели могут обрабатывать как текстовую, так и числовую информацию и могут использоваться для таких задач, как ответы на вопросы, преобразование текста (перевод, проверка орфографии, дополнение) и создание отчетов. Эта функциональность составляет значительную часть операционной деятельности предприятий разных отраслей, в отличие от генерации изображений или видео, которая встречается реже.
Большие языковые модели (LLM) — это огромные преобразователи, которые представляют собой разновидность моделей глубокого обучения или, проще говоря, специфических нейронных сетей. Как правило, LLM имеют от 8 до 70 миллиардов параметров и обучаются на огромных объемах данных. Например, Crawl, один из крупнейших наборов данных, содержит веб-страницы и информацию за последнее десятилетие, объем которых составляет десятки петабайт данных.
Для сравнения: набор данных «Титаника», состоящий примерно из 900 образцов, описывающих, какие пассажиры выжили после кораблекрушения «Титаника», имеет размер менее 1 МБ, а модель, которая может эффективно прогнозировать вероятность выживания, может иметь от 25 до 100 параметров. .
LLM также имеют долгую историю, и они не появились внезапно. Например, отдел обработки данных ЭЛЕКС использовал GPT-2 для генерации ответов в 2019 году, а первая модель GPT (генеративный предварительно обученный преобразователь) была выпущена в 2018 году. Однако даже это было не первое появление моделей генерации текста. . До начала эры трансформеров в 2017 году такие задачи, как генерация текста, решались с использованием разных подходов, например:
В 2013 году были предложены эффективные встраивания векторных слов, такие как word2vec, а еще раньше, в прошлом веке, были примеры вероятностной и основанной на шаблонах генерации, такие как чат-бот Eliza в 1964 году. Итак, как мы видим, естественный язык Задачи и попытки генерации (NLG) существуют уже много лет.
Большинство нынешних пользователей LLM, таких как ChatGPT, GPT, Gemini, Copilot, Claude и т. д., вероятно, не знают об этом, поскольку результаты не были такими многообещающими, как после первого выпуска InstructGPT, где OpenAI предлагал публичный доступ, продвигая это. После первого выпуска ChatGPT в ноябре 2022 года, который получил миллионы упоминаний в социальных сетях.
В настоящее время сообщество ИИ разделилось по вопросам рисков ИИ и требований соответствия: некоторые выступают за регулирование ИИ и контроль безопасности, в то время как другие выступают против них. Среди критиков — Ян ЛеКун, руководитель Meta (Facebook) AI, который заявил, что такие ИИ-агенты обладают интеллектом, даже не похожим на собачий.
Группа Meta AI (ранее Facebook AI Research) — один из разработчиков бесплатных и общедоступных моделей искусственного интеллекта, таких как Detectron, Llama, SegmentAnything и ELF, которые можно бесплатно загрузить и использовать лишь с некоторыми коммерческими ограничениями. Открытый доступ определенно был положительно воспринят мировым сообществом ИИ.
Эти системы все еще очень ограничены; у них нет никакого понимания основополагающей реальности реального мира, потому что они обучены исключительно тексту, огромному количеству текста.
— Ян ЛеКун, главный научный сотрудник по искусственному интеллекту в Meta
Официальные лица также выразили обеспокоенность по поводу правил. Например, президент Франции Эммануэль Макрон предупредил, что эпохальное законодательство ЕС, направленное на решение проблемы развития искусственного интеллекта, рискует помешать европейским технологическим компаниям по сравнению с конкурентами в США, Великобритании и Китае.
С другой стороны, есть сторонники регулирования ИИ. По словам Илона Маска, генерального директора Tesla, искусственный интеллект представляет собой один из самых больших рисков для будущего цивилизации. Это то же самое, что и с закрытыми/платными представителями ИИ, но здесь настоящими возбудителями такой позиции может быть рыночная конкуренция, направленная на ограничение распространения конкурирующих моделей ИИ.
В 2023 году парламент ЕС принял Закон об искусственном интеллекте — первый свод всеобъемлющих правил, регулирующих использование технологий искусственного интеллекта в Европейском Союзе. Этот закон создает прецедент ответственной и этичной разработки и внедрения ИИ.
Ключевые вопросы, решаемые Законом ЕС об искусственном интеллекте:
Существует множество проблем и проблем, связанных с подготовкой модели, ее использованием и другими скрытыми действиями. Например, данные, используемые для обучения модели, состоят из личных данных, которые не были разрешены для таких целей. Глобальные провайдеры предлагают услуги, ориентированные на частную переписку (электронные письма) или другие частные активы (фотографии, видео), которые можно использовать для обучения моделей в скрытом режиме без какого-либо объявления.
Недавно техническому директору OpenAI был задан вопрос относительно использования частных видео для обучения SORA, закрытого сервиса OpenAI для создания видео на основе текстовых запросов, но она не смогла дать четкого ответа.
Другая проблема может быть связана с маркировкой и фильтрацией данных — мы не знаем личных характеристик, навыков, стереотипов и знаний задействованных там специалистов, и это может привнести в данные нежелательные утверждения/содержание. Кроме того, существовала этическая проблема: была информация о том, что некоторые глобальные поставщики GenAI привлекли маркировщиков из Кении и недоплатили им.
Предвзятость модели и так называемые модельные галлюцинации, при которых модели дают неправильные или частично неправильные ответы, которые кажутся идеальными, также представляют собой проблемы. Недавно команда специалистов по обработке и анализу данных ELEKS работала над улучшением решения для наших клиентов с расширенной генерацией данных (RAG), которое включает отображение некоторых данных для модели, а модель суммирует или предоставляет ответы на основе этих данных.
В ходе процесса наша команда поняла, что многие современные онлайн (более крупные, но платные) или оффлайн (меньшие и общедоступные) модели путают названия и номера предприятий.
У нас были данные, содержащие финансовую отчетность и аудиторскую информацию по нескольким компаниям, и мы просили показать выручку компании А. Однако выручка компании А не была напрямую указана в данных и ее необходимо было рассчитать. Большинство моделей, включая лидеров бенчмарка LLM Arena, ответили неверным уровнем дохода, который принадлежал компании Б. Эта ошибка возникла из-за частично схожих комбинаций символов в названиях компаний, таких как «ООО», «Сервис» и т. д.
Здесь даже быстрое обучение не помогло; добавление утверждения типа «если вы не уверены или какая-то информация отсутствует, ответьте, не знаю», не решило проблему.
Еще одна вещь касается числового представления — LLM воспринимают числа как токены, или даже многие токены, такие как 0,33333, могут быть закодированы как «0,3» и «3333» в соответствии с подходом кодирования парами байтов, поэтому сложно иметь дело со сложными числовыми значениями. трансформации без дополнительных адаптеров.
Недавнее назначение отставного генерала армии США Пола М. Накасоне в совет директоров OpenAI вызвало неоднозначную реакцию. С одной стороны, обширный опыт Накасоне в области кибербезопасности и разведки рассматривается как важный актив, который, вероятно, позволит реализовать надежные стратегии защиты от кибератак, что имеет решающее значение для компании, занимающейся исследованиями и разработками в области искусственного интеллекта.
С другой стороны, существуют опасения по поводу потенциальных последствий назначения Накасоне из-за его военного и разведывательного опыта (бывший глава Агентства национальной безопасности (АНБ) и Киберкомандования США), что может привести к усилению государственного надзора и вмешательства.
Есть опасения, что Накасоне может облегчить правительственным учреждениям более широкий доступ к данным и услугам OpenAI. Таким образом, некоторые опасаются, что это назначение может повлиять как на использование сервиса, данных, запросов со стороны государственных органов, так и на ограничения самого сервиса.
Наконец, есть и другие проблемы, такие как уязвимость сгенерированного кода, противоречивые предложения, ненадлежащее использование (сдача экзаменов или получение инструкций по созданию бомбы) и многое другое.
Во-первых, крайне важно определить, необходимо ли использование LLM и должна ли она стать общей основополагающей моделью. В некоторых случаях цель и декомпозированная задача не так сложны и могут быть решены с помощью более простых автономных моделей, таких как орфографические ошибки, генерация на основе шаблонов и анализ/поиск информации. Кроме того, общая модель может ответить на вопросы, не связанные с предполагаемой целью интеграции LLM.
Есть примеры, когда компания поощряла онлайн-интеграцию LLM (например, GPT, Gemini) без каких-либо дополнительных адаптеров (пре- и постпроцессоров) и сталкивалась с неожиданным поведением. Например, пользователь попросил чат-бота автодилера написать скрипт Python для решения уравнения потока жидкости Навье-Стокса, и чат-бот ответил: «Конечно! Я это сделаю».
Далее встает вопрос, какой LLM использовать — публичный и офлайн или платный и офлайн. Решение зависит от сложности задачи и вычислительных возможностей. Онлайн- и платные модели крупнее и имеют более высокую производительность, тогда как оффлайн- и публичные модели требуют значительных затрат на хостинг, часто требуя не менее 40 ГБ видеопамяти. При использовании онлайн-моделей важно строго контролировать конфиденциальные данные, передаваемые поставщику.
Обычно для таких целей мы создаем модуль предварительной обработки, который может удалять личную или конфиденциальную информацию, например финансовые сведения или частные соглашения, без существенного изменения запроса для сохранения контекста, оставляя при необходимости такую информацию, как размер предприятия или приблизительное местоположение.
Первым шагом к уменьшению предвзятости модели и предотвращению галлюцинаций является выбор правильных данных или контекста или ранжирование кандидатов (например, для RAG). Иногда векторное представление и метрики сходства, такие как косинусное сходство, могут оказаться неэффективными. Это связано с тем, что небольшие различия, такие как наличие слова «нет» или небольшие различия в именах (например, Oracle и Orache), могут иметь существенное влияние.
Что касается постобработки, мы можем поручить модели ответить «не знаю», если уверенность низкая, и разработать адаптер проверки, который проверяет точность ответов модели.
В области LLM существуют многочисленные направления исследований, и еженедельно появляются новые научные статьи. Эти статьи охватывают широкий спектр тем, включая оптимизацию трансформатора/LLM, надежность, эффективность (например, как обобщать модели без значительного увеличения их размера или количества параметров), типичные методы оптимизации (например, дистилляцию) и методы увеличения входных данных (контекст). длина.
Среди различных направлений наиболее заметными в последнее время являются «Смесь токенов», «Смесь экспертов», «Смесь глубины», «Скелет мыслей», RoPE и подсказка «Цепочка мыслей». Кратко опишем, что означает каждый из них.
«Смесь экспертов» (МОЭ) представляет собой другую архитектуру преобразователя. Обычно он имеет динамический слой, состоящий из нескольких (8 в Mixtral) или множества плотных/сплющенных слоев, представляющих различные знания. Эта архитектура включает в себя методы переключения или маршрутизации, например, функцию шлюзования, которая позволяет выбирать, какие токены какими экспертами должны обрабатываться, что приводит к уменьшению количества слоев («экспертов») на один токен или группу токенов до одного эксперта (уровень переключения). ).
Это обеспечивает эффективное масштабирование модели и повышает производительность за счет использования разных подмоделей (экспертов) для входных частей, что делает его более эффективным, чем использование одного общего и даже более крупного слоя.
Mixture-of-tokens подключается к упомянутому Mixture-of-experts, где мы группируем токены по их важности (активация softmax) для конкретного эксперта.
Метод «Смешение глубины» также связан с упомянутыми МО, в частности, с точки зрения маршрутизации. Он направлен на уменьшение вычислительного графа (вычислительного бюджета), ограничивая его верхними токенами, которые будут использоваться в механизме внимания. Токены, считающиеся менее важными (например, знаки препинания) для конкретной последовательности, пропускаются. Это приводит к динамическому участию токенов, но количество токенов k (top k tokens) является статическим, поэтому мы можем уменьшить размеры в соответствии с бюджетом вычислений (или k, который мы выбрали).
Скелет мыслей эффективен для масштабирования LLM и позволяет параллельно генерировать части завершения (ответ модели) на основе первичного запроса скелета, который состоит из точек, которые можно распараллелить.
Есть и другие проблемы, например, размер ввода. Пользователи часто хотят предоставить LLM большие объемы информации, иногда даже целые книги, сохраняя при этом количество параметров неизменным. Вот два известных метода ALiBi (уровень внимания с линейными смещениями) и RoPE (встраивание вращающихся позиций) , которые могут экстраполировать или, возможно, интерполировать встраивание входных данных с использованием динамического позиционного кодирования и коэффициента масштабирования, что позволяет пользователям увеличивать длину контекста по сравнению с другими. который использовался для обучения.
Подсказка «Цепочка мыслей» , которая является примером подсказки, состоящей из нескольких шагов (пользователь обеспечивает контроль за LLM в контексте), направлена на разложение вопроса на несколько этапов. В основном это применяется к задачам рассуждения, например, когда вы можете разделить логику на некоторый вычислительный план. Пример из исходной статьи: «У Роджера 5 теннисных мячей. Он покупает еще 2 банки теннисных мячей. В каждой банке по 3 теннисных мяча. Сколько теннисных мячей у него сейчас? План мыслей: Роджер начал с 5 мячей. 2 банки. из 3 теннисных мячей каждый составляет 6 теннисных мячей 5 + 6 = 11. Ответ: 11».
Помимо этого, существует множество других направлений, и каждую неделю вокруг них появляется несколько новых значимых статей. Иногда у специалистов по обработке данных возникает дополнительная проблема, связанная с отслеживанием всех этих проблем и достижений.
Тенденций также много. Подводя итог, можно сказать, что могут быть ужесточены правила ИИ, которые будут ограничивать различные решения и, в конечном итоге, приведут к обобщению доступных моделей или охвату областей. Другие тенденции в основном касаются улучшения существующих подходов, например, уменьшения количества параметров и необходимой памяти (например, квантование или даже 1-битные LLM – где каждый параметр является троичным (может принимать значения -1, 0, 1)).
Таким образом, мы можем ожидать, что автономные LLM или Diffusion Transformers (DiT – современные модели Diffusion и преемники Visual Transformers (в основном для задач генерации изображений)) будут работать даже на наших телефонах (на сегодняшний день существует несколько примеров, например, модель Microsoft Phi-2). со скоростью генерации около 3-10 токенов в секунду на современных Android-устройствах на базе Snapdragon).
Кроме того, будет более продвинутая персонализация (с использованием всего предыдущего пользовательского опыта и отзывов для обеспечения более подходящих результатов), вплоть до цифровых двойников. Будет улучшено многое другое, что доступно прямо сейчас – помощники/настройка моделей и маркетплейсы, одна модель для всего (мультимодальное направление), безопасность (более эффективный механизм работы с персональными данными, их кодирования и т. д.), и другие.
Готовы раскрыть потенциал искусственного интеллекта для вашего бизнеса? Свяжитесь с ЭЛЕКС экспертом т. н.