Математическое рассуждение уже давно является сложной задачей для искусственного интеллекта. Хотя языковые модели, такие как GPT-3 и ChatGPT, достигли впечатляющих результатов при выполнении многих языковых задач, им все еще трудно точно решать сложные математические задачи университетского уровня. Освоение сложных математических рассуждений может открыть возможности применения ИИ в различных областях, таких как наука, инженерное дело, финансы и т. д.
Недавно исследователи из Университета Цинхуа и Microsoft добились значительного прогресса в укреплении навыков математического рассуждения при работе с большими языковыми моделями. Их ключевые технические инновации (
Давайте посмотрим, как это работает!
Такие задачи, как числовые вычисления и базовая алгебра, можно достаточно хорошо решать с помощью существующих моделей. Однако решение сложных математических задач, включающее многоэтапный вывод, символические манипуляции и абстрактные концепции, остается проблематичным.
Например, модели часто не могут решить задачи по алгебре со словами, которые требуют идентификации переменных, создания систем уравнений и математической формализации отношений, описанных устно в тексте. Геометрия создает проблемы из-за необходимости навыков пространственного мышления. Математические упражнения в средней школе и университете также знакомят с такими понятиями, как доказательства, интегралы, матрицы и т. д., которые запутывают существующие языковые модели.
Исследователи объясняют эти трудности двумя основными факторами:
Отсутствие способностей к абстрактному мышлению . Сегодня языковые модели обучаются в основном на текстовых корпусах Интернета. Хотя это обучает лингвистическим навыкам, оно не дает структурированных знаний и логики, необходимых для математических рассуждений.
Неспособность выполнять символьные вычисления : языку не хватает строгости и точности, необходимых для манипулирования математическими символами. Модели могут допускать небольшие ошибки на каждом этапе, которые накапливаются в результате многоэтапных задач.
Чтобы решить эти проблемы, исследователи предлагают обучать языковым моделям рассуждения в формате, который они называют инструментально-интегрированным рассуждением . Ключевым нововведением является чередование логических обоснований, генерируемых моделью, с кодом для вызова внешних математических инструментов.
Например, для сложной алгебраической задачи со словами модель может сначала описать подход словами, затем написать программу Python с использованием SymPy для символической настройки системы уравнений, выполнить ее для получения решения и, наконец, объяснить результат устно.
Это дополняет сильные стороны языковых моделей в рассуждениях и планировании высокого уровня с точностью и вычислительной мощью математических инструментов. Они ожидают, что это может значительно улучшить способность моделей решать проблемы, требующие как семантического понимания, так и символических манипуляций.
Чтобы реализовать это видение, исследователям сначала пришлось создать набор данных, демонстрирующий интегрированные инструменты решения математических задач. Они использовали возможности GPT-3 для автоматического создания 16 000 примеров того, как сам GPT-3 решает проблемы из наборов данных GSM8k и MATH, взаимодействуя с такими инструментами, как SymPy.
Используя этот набор траекторий взаимодействия инструментов, команда предварительно обучила версии модели LLaMA, используя имитационное обучение. То есть модели были обучены прогнозировать поведение использования инструмента и чередовать обоснования на естественном языке, продемонстрированные в наборе данных.
Этот подход позволил создать серию интегрированных аналитических агентов с открытым исходным кодом (TORA) с диапазоном от 7 до 70 миллиардов параметров.
Исследователи систематически оценивали модели TORA на 10 различных наборах данных математических рассуждений и сравнивали производительность с предыдущими современными методами.
Результаты показывают, что обучение рассуждению, интегрированное с инструментами, дает существенные преимущества при различных размерах моделей и задачах:
Модели TORA в среднем достигают точности на 13–19% выше по сравнению с лучшими существующими моделями с открытым исходным кодом.
В сложном математическом тесте соревновательного уровня (набор данных MATH) TORA-7B показал точность 40 % , превзойдя предыдущую лучшую модель на 22 процентных пункта.
TORA-34B достиг точности 51% по математике, превзойдя производительность GPT-4 на 43% при решении тех же задач.
Это говорит о том, что обучение использованию внешних инструментов может значительно улучшить математические рассуждения даже очень больших моделей, таких как GPT-4.
Интересно, что улучшения были одинаковыми для различных типов задач, охватывающих арифметику, алгебру, исчисление, геометрию, вероятность и т. д. Интеграция инструментов, по-видимому, дает широкие преимущества.
Чтобы лучше понять поведение модели, исследователи систематически анализировали модели использования инструментов в различных математических областях:
Они также оценили абляцию, устраняющую либо обоснование естественного языка, либо интеграцию инструментов:
Эти идеи проливают свет на взаимодополняющие сильные стороны как лингвистического, так и символического рассуждения.
Несмотря на преимущества от интеграции инструментов, остаются значительные возможности для улучшения. Исследователи определили геометрию и сложную алгебру как области, в которых модели все еще испытывают трудности.
Геометрия представляет собой проблему, поскольку современные инструменты, такие как SymPy, имеют ограниченные возможности пространственного мышления. В этом могут помочь достижения в области мультимодальных рассуждений и более тесная интеграция с графическими библиотеками.
Для абстрактной алгебры могут потребоваться методы, используемые математиками-людьми, такие как использование известных теорем и решение задач в обратном порядке от результата. Вероятно, также потребуются более сильные способности к символическому рассуждению.
В целом, это исследование предоставляет многообещающие доказательства того, что сочетание сильных сторон языковой модели со специализированными внешними инструментами может заметно улучшить математические рассуждения. Однако эффективная интеграция различных модальностей рассуждения и стратегий решения математических задач более высокого уровня остается открытой проблемой. Это важные направления будущей работы.
Представленная здесь парадигма обучения, интегрированного с инструментами, также может стимулировать исследование интеграции внешних возможностей для улучшения рассуждений в таких дисциплинах, как логика, здравое рассуждение и искусство. Это может стать важным шагом на пути к более функциональным и универсальным системам искусственного интеллекта.
Также опубликовано здесь.