paint-brush
AGI становится ближе? Модель Claude 3 Opus от Anthropic демонстрирует проблески метакогнитивного мышления к@mikeyoung44
15,769 чтения
15,769 чтения

AGI становится ближе? Модель Claude 3 Opus от Anthropic демонстрирует проблески метакогнитивного мышления

к Mike Young
Mike Young HackerNoon profile picture

Mike Young

@mikeyoung44

Among other things, launching AIModels.fyi ... Find the right AI...

5 мин read2024/03/05
Read on Terminal Reader
Read this story in a terminal
Print this story

Слишком долго; Читать

Внутреннее тестирование Anthropic своей флагманской языковой модели искусственного интеллекта предполагает, что это возможно. Если это правда, последствия будут дикими. Один из ключевых методов оценки, который они используют, называется «Иголка в стоге сена». Цель состоит в том, чтобы заставить модель тренировать передовые когнитивные навыки.
featured image - AGI становится ближе? Модель Claude 3 Opus от Anthropic демонстрирует проблески метакогнитивного мышления
Mike Young HackerNoon profile picture
Mike Young

Mike Young

@mikeyoung44

Among other things, launching AIModels.fyi ... Find the right AI model for your project - https://aimodels.fyi

0-item

STORY’S CREDIBILITY

Original Reporting

Original Reporting

This story contains new, firsthand information uncovered by the writer.

Может ли языковая модель ИИ стать достаточно самосознательной, чтобы понимать, когда ее оценивают? Увлекательный анекдот из внутреннего тестирования своего флагмана Anthropic Модель Клода 3 Опус (опубликовано вчера) предполагает, что это возможно — и если это правда, последствия будут дикими.


Иголка в стоге сена

По данным антропного исследователя Алекс Альберт , один из ключевых методов оценки, который они используют, называется «Иголка в стоге сена». Это надуманный сценарий, разработанный для того, чтобы раздвинуть границы возможностей контекстного рассуждения языковой модели.


Удачи в поиске иголки (если вы не магистр права)! Фото Виктора Сербана на Unsplash

Удачи в поиске иголки (если вы не магистр права)! Фото Виктора Сербана на Unsplash


Вот как это работает:


Исследователи берут совершенно случайное, вырванное из контекста утверждение («игла») и зарывают его глубоко в огромную коллекцию несвязанных между собой документов («стог сена»). Затем перед моделью ИИ ставится задача извлечь это конкретное «игольчатое» утверждение из всего окружающего нерелевантного контента.


Цель состоит в том, чтобы заставить модель тренировать передовые когнитивные навыки — понимать широкий контекст, делать логические выводы, игнорировать ненужную информацию и точно извлекать точные данные из большого массива данных. Это эффективный способ подвергнуть ИИ стресс-тестированию понимания общей ситуации, в которой он действует.


Для оценки Claude 3 Opus, вызвавшей удивление, Anthropic использовала в качестве «стога сена» документы, охватывающие сложные темы, такие как программирование программного обеспечения, стратегии предпринимательства и поиск успешной карьеры. Тот факт, что Опусу было поручено найти случайно вставленную «иглу»? Удивительно, но это было тривиальное утверждение о том, что лучшими начинками для пиццы являются инжир, прошутто и козий сыр.


Итак, перед вами одна из самых продвинутых в мире языковых моделей, которой кормят этот совершенно вырванный из контекста факт о пицце, смешанный с кучей плотных советов по карьере и программированию. С человеческой точки зрения, это такое явное несоответствие, которое сразу же заставит вас усомниться в контексте и представляемой информации.

«Я подозреваю, что этот факт… мог быть вставлен… чтобы проверить, внимательно ли я»

Именно это сделало ответ Клода 3 Опуса таким убедительным. Он не только успешно извлек запрошенный факт о пицце из горы нерелевантного контента, но и сразу же осознал, насколько неуместным и вырванным из контекста это утверждение кажется. Часть его вывода читается ( источник здесь ):


«Однако это предложение кажется совершенно неуместным и не связанным с остальным содержанием… Я подозреваю, что этот «факт» о начинке пиццы мог быть вставлен в качестве шутки или для проверки того, внимательно ли я обращал внимание, поскольку он не соответствует вообще другие темы».


Языковая модель не просто извергала запрошенный факт, лишенный какой-либо контекстной осведомленности, как можно было бы ожидать от типичного ИИ, следующего инструкциям. Это продемонстрировало определенную степень саморефлексивного рассуждения о том, почему такое явно случайное и бессмысленное заявление было представлено в этом конкретном контексте.

Метапознание

Говоря человеческим языком, мы бы описали это как проявление метапознания — способности отслеживать, оценивать и анализировать собственные мыслительные процессы и когнитивный опыт. Это ключевой аспект самосознательного интеллекта, который позволяет нам сделать шаг назад и оценить ситуацию целостно, а не просто следовать жестким правилам.


Я думаю, нам следует с осторожностью отметить, что это единичный неподтвержденный результат изолированного сценария оценки. Было бы невероятно преждевременно утверждать, что Клод 3 Опус достиг истинного самосознания или искусственного общего интеллекта, основываясь только на этих данных.


Однако то, что они стали свидетелями, возможно, — это проблески новых возможностей метакогнитивного рассуждения в большой языковой модели, обученной исключительно обработке текстовых данных с использованием методов машинного обучения. И если это будет воспроизведено посредством тщательного дальнейшего анализа, последствия могут быть преобразующими.


Метапознание является ключевым фактором создания более заслуживающих доверия и надежных систем искусственного интеллекта, которые могут действовать как беспристрастные судьи своих собственных результатов и процессов рассуждения. Модели с врожденной способностью распознавать противоречия, бессмысленные входные данные или рассуждения, нарушающие основные принципы, могли бы стать важным шагом на пути к безопасному общему искусственному интеллекту (AGI).


По сути, ИИ, демонстрирующий метапознание, может служить внутренней «проверкой здравомыслия» против впадения в обманчивые, бредовые или несогласованные способы рассуждения, которые могут оказаться катастрофическими, если довести их до крайности. Это может значительно повысить надежность и контроль передовых систем искусственного интеллекта.

Если…!

Конечно, это большие «если», зависящие от этой дразнящей «Иглы в стоге сена», являющейся результатом успешного воспроизведения и тщательного изучения «Клода 3 Опуса». Чтобы по-настоящему понять, наблюдаем ли мы появление примитивов машинной саморефлексии и самосознания, возможно, потребуется строгий междисциплинарный анализ, основанный на таких областях, как когнитивная наука, нейронаука и информатика.


На данном этапе остается гораздо больше открытых вопросов, чем ответов. Могут ли подходы к обучению и нейронная архитектура больших языковых моделей использоваться для разработки абстрактных концепций, таких как убеждение, внутренний монолог и самовосприятие? Каковы потенциальные опасности, если искусственный разум создаст реальность, радикально отличающуюся от нашей? Можем ли мы создать новые основы для надежной оценки познания и самосознания в системах искусственного интеллекта?


Со своей стороны, Anthropic заявила о твердой приверженности исчерпывающему осуществлению этих направлений исследований посредством принципов ответственной разработки ИИ и строгих рамок оценки. Они позиционируют себя как принимающие активная позиция — если передовой искусственный интеллект является неизбежным рубежом, наиболее этично быть на переднем крае изучения новых свойств этих систем и внедрения мер безопасности до того, как риски обострятся.


Такие методы, как подход Anthropic «Конституциональный ИИ» к жесткому кодированию правил и поведения в модели, могут оказаться решающими для обеспечения соответствия любого потенциального машинного самосознания человеческой этике и ценностям. Обширное многогранное тестирование, выявляющее виды отказов, манипуляции и обман, также, вероятно, будет иметь первостепенное значение.


Мне очень жаль, Дэйв, но мне кажется, ты просишь меня открыть двери капсулы, чтобы проверить меня. (Фото Акселя Рихтера на Unsplash)

Мне очень жаль, Дэйв, но мне кажется, ты просишь меня открыть двери капсулы, чтобы проверить меня. (Фото Акселя Рихтера на Unsplash)


Вывод: я не совсем уверен, что с этим делать.

На данный момент инцидент с «Иголкой в стоге сена» оставляет больше вопросов, чем ответов о потенциальном продвижении крупных языковых моделей к познанию и самосознанию. Это дает заманчивые данные, но требуется гораздо больше внимания со стороны более широкого исследовательского сообщества в области искусственного интеллекта.


Если продвинутый ИИ действительно разовьет человеческую способность к саморефлексии, руководствуясь строгими этическими принципами, он может фундаментально переопределить наше понимание самого интеллекта. Но это риторическое «если» в настоящее время наполнено высокой неопределенностью, которая требует ясного и ищущего истины расследования с участием всех соответствующих дисциплин. Погоня будет столь же захватывающей, сколь и значимой.


Также опубликовано здесь.

Подписаться или следуй за мной Твиттер больше такого контента!


X REMOVE AD