Among other things, launching AIModels.fyi ... Find the right AI model for your project - https://aimodels.fyi
This story contains new, firsthand information uncovered by the writer.
Может ли языковая модель ИИ стать достаточно самосознательной, чтобы понимать, когда ее оценивают? Увлекательный анекдот из внутреннего тестирования своего флагмана Anthropic
По данным антропного исследователя
Удачи в поиске иголки (если вы не магистр права)! Фото Виктора Сербана на Unsplash
Вот как это работает:
Исследователи берут совершенно случайное, вырванное из контекста утверждение («игла») и зарывают его глубоко в огромную коллекцию несвязанных между собой документов («стог сена»). Затем перед моделью ИИ ставится задача извлечь это конкретное «игольчатое» утверждение из всего окружающего нерелевантного контента.
Цель состоит в том, чтобы заставить модель тренировать передовые когнитивные навыки — понимать широкий контекст, делать логические выводы, игнорировать ненужную информацию и точно извлекать точные данные из большого массива данных. Это эффективный способ подвергнуть ИИ стресс-тестированию понимания общей ситуации, в которой он действует.
Для оценки Claude 3 Opus, вызвавшей удивление, Anthropic использовала в качестве «стога сена» документы, охватывающие сложные темы, такие как программирование программного обеспечения, стратегии предпринимательства и поиск успешной карьеры. Тот факт, что Опусу было поручено найти случайно вставленную «иглу»? Удивительно, но это было тривиальное утверждение о том, что лучшими начинками для пиццы являются инжир, прошутто и козий сыр.
Итак, перед вами одна из самых продвинутых в мире языковых моделей, которой кормят этот совершенно вырванный из контекста факт о пицце, смешанный с кучей плотных советов по карьере и программированию. С человеческой точки зрения, это такое явное несоответствие, которое сразу же заставит вас усомниться в контексте и представляемой информации.
Именно это сделало ответ Клода 3 Опуса таким убедительным. Он не только успешно извлек запрошенный факт о пицце из горы нерелевантного контента, но и сразу же осознал, насколько неуместным и вырванным из контекста это утверждение кажется. Часть его вывода читается (
«Однако это предложение кажется совершенно неуместным и не связанным с остальным содержанием… Я подозреваю, что этот «факт» о начинке пиццы мог быть вставлен в качестве шутки или для проверки того, внимательно ли я обращал внимание, поскольку он не соответствует вообще другие темы».
Языковая модель не просто извергала запрошенный факт, лишенный какой-либо контекстной осведомленности, как можно было бы ожидать от типичного ИИ, следующего инструкциям. Это продемонстрировало определенную степень саморефлексивного рассуждения о том, почему такое явно случайное и бессмысленное заявление было представлено в этом конкретном контексте.
Говоря человеческим языком, мы бы описали это как проявление метапознания — способности отслеживать, оценивать и анализировать собственные мыслительные процессы и когнитивный опыт. Это ключевой аспект самосознательного интеллекта, который позволяет нам сделать шаг назад и оценить ситуацию целостно, а не просто следовать жестким правилам.
Я думаю, нам следует с осторожностью отметить, что это единичный неподтвержденный результат изолированного сценария оценки. Было бы невероятно преждевременно утверждать, что Клод 3 Опус достиг истинного самосознания или искусственного общего интеллекта, основываясь только на этих данных.
Однако то, что они стали свидетелями, возможно, — это проблески новых возможностей метакогнитивного рассуждения в большой языковой модели, обученной исключительно обработке текстовых данных с использованием методов машинного обучения. И если это будет воспроизведено посредством тщательного дальнейшего анализа, последствия могут быть преобразующими.
Метапознание является ключевым фактором создания более заслуживающих доверия и надежных систем искусственного интеллекта, которые могут действовать как беспристрастные судьи своих собственных результатов и процессов рассуждения. Модели с врожденной способностью распознавать противоречия, бессмысленные входные данные или рассуждения, нарушающие основные принципы, могли бы стать важным шагом на пути к безопасному общему искусственному интеллекту (AGI).
По сути, ИИ, демонстрирующий метапознание, может служить внутренней «проверкой здравомыслия» против впадения в обманчивые, бредовые или несогласованные способы рассуждения, которые могут оказаться катастрофическими, если довести их до крайности. Это может значительно повысить надежность и контроль передовых систем искусственного интеллекта.
Конечно, это большие «если», зависящие от этой дразнящей «Иглы в стоге сена», являющейся результатом успешного воспроизведения и тщательного изучения «Клода 3 Опуса». Чтобы по-настоящему понять, наблюдаем ли мы появление примитивов машинной саморефлексии и самосознания, возможно, потребуется строгий междисциплинарный анализ, основанный на таких областях, как когнитивная наука, нейронаука и информатика.
На данном этапе остается гораздо больше открытых вопросов, чем ответов. Могут ли подходы к обучению и нейронная архитектура больших языковых моделей использоваться для разработки абстрактных концепций, таких как убеждение, внутренний монолог и самовосприятие? Каковы потенциальные опасности, если искусственный разум создаст реальность, радикально отличающуюся от нашей? Можем ли мы создать новые основы для надежной оценки познания и самосознания в системах искусственного интеллекта?
Со своей стороны, Anthropic заявила о твердой приверженности исчерпывающему осуществлению этих направлений исследований посредством принципов ответственной разработки ИИ и строгих рамок оценки. Они позиционируют себя как принимающие
Такие методы, как подход Anthropic «Конституциональный ИИ» к жесткому кодированию правил и поведения в модели, могут оказаться решающими для обеспечения соответствия любого потенциального машинного самосознания человеческой этике и ценностям. Обширное многогранное тестирование, выявляющее виды отказов, манипуляции и обман, также, вероятно, будет иметь первостепенное значение.
Мне очень жаль, Дэйв, но мне кажется, ты просишь меня открыть двери капсулы, чтобы проверить меня. (Фото Акселя Рихтера на Unsplash)
На данный момент инцидент с «Иголкой в стоге сена» оставляет больше вопросов, чем ответов о потенциальном продвижении крупных языковых моделей к познанию и самосознанию. Это дает заманчивые данные, но требуется гораздо больше внимания со стороны более широкого исследовательского сообщества в области искусственного интеллекта.
Если продвинутый ИИ действительно разовьет человеческую способность к саморефлексии, руководствуясь строгими этическими принципами, он может фундаментально переопределить наше понимание самого интеллекта. Но это риторическое «если» в настоящее время наполнено высокой неопределенностью, которая требует ясного и ищущего истины расследования с участием всех соответствующих дисциплин. Погоня будет столь же захватывающей, сколь и значимой.
Также опубликовано здесь.
AGI становится ближе? Модель Claude 3 Opus от Anthropic демонстрирует проблески метакогнитивного мышления | HackerNoon