Пластиковый инфлюенсер. Фанат ИИ. Эксперт по картону. Все термины, вошедшие в современный лексикон для описания волны «хайпа» вокруг ИИ. Я долгое время скептически относился к некоторым наиболее нелепым и грандиозным заявлениям в среде GenAI.
1/ Программисты исчезнут
2/ AGI появится в 2024 году
3/ Все рабочие места будут автоматизированы.
4/ Роботы станут сознательными (Скайнет)
Все это безосновательные гиперболы, даже не вникая в более экстремистские взгляды (есть форум Reddit, насчитывающий 3,4 миллиона участников)
Меня особенно смущает проекция эмоций и фантазий на компьютерные алгоритмы, способные делать крутые вещи. Вы не найдете меня в приложении-компаньоне, и я считаю, что многие блестящие люди, которые подписываются на это восприятие сознания ИИ от Skynet, рискуют потерять рассудок.
Мои последние блоги противоречат общепринятому и несколько фантастическому взгляду на мир ИИ 👇
Все эти API делают только то, что преобразуют аудио в текст, обрабатывают его через языковую модель, а затем преобразуют обратно в аудио. На первый взгляд это может показаться сложным, но на самом деле это просто базовая генерация текста голосом робота. Каждая отдельная система является всеобъемлющей и достаточно зрелой, но склейте их все вместе на нашей пресловутой свинье, и вы не поймете всех тонкостей аудиовзаимодействий.
Если это выглядит как свинья, визжит как свинья и ходит как свинья. Это свинья. Даже если она носит помаду.
Порог совершенства никогда не был столь низким, поскольку конкуренция все больше ведется с алгоритмом и его невовлеченным и неопытным хозяином.
Робот никогда не достигнет настоящего мастерства, потому что никогда не будет достаточного набора данных настоящих экспертов для краудсорсинга. А краудсорсинг берет средний результат, а не лучший. Робот не думает. Он повторяется.
Проблема с предоставлением инструмента или фреймворка, позволяющего абстрагировать функциональность, заключается в том, что он поставляется с набором предположений. Когда я покупаю молоток, я предполагаю, что он будет работать. Когда я покупаю очиститель высокого давления, я предполагаю, что он будет работать.
Проблема в том, что когда я использую фреймворк, я предполагаю, что он будет работать. Но это буквально невозможно, учитывая зрелость базовой технологии. Агентные фреймворки не только не увеличивают принятие, но и продают иллюзию поверх тщательно контролируемых демонстраций и конечных вариантов использования, которые никогда не будут работать в руках типичного пользователя (а их миллионы…).
Это предисловие призвано подчеркнуть одну мысль.
Поверьте, я говорю это не просто так.
То, что Google только что сделала с Gemini 2.0 Flash, изменило абсолютно всё. Всё.
И никто этого не предвидел.
Одна из любимых историй моих родителей — как мне, когда мне было 5 лет, дали роль в местной рождественской постановке. Моя роль, как дерева, заключалась в том, чтобы молча украшать декорации, пока дети постарше и поспособнее исполняли интерпретацию рождения Иисуса Христа.
Я не был особенно доволен этой второстепенной ролью.
В течение следующих 10–15 минут, прежде чем меня увели со сцены, я следовал за актерами по сцене, подражая их репликам и громогласно выдвигая свою собственную интерпретацию пьесы.
Вмешиваться в идеальные моменты, выступать в другие. Это был мастер-класс по разрушению, и каждый смешок и слезящийся взгляд наблюдающей толпы подталкивал меня к большему. Это было безжалостное разрушение.
Представление превратилось в фарс, зрители плакали от смеха, актеры были ошеломлены и сбиты с толку.
Смех воодушевил меня, он перешел в крещендо.
Пьеса была преобразована в пантомиму, работа завершена. По сей день это остается историей, рассказываемой на званых обедах новым и молодым членам семьи.
Конечно, эта конкретная пьеса — «12 дней Рождества от Open AI» и то, как Google не просто украл их славу, но и завладел повествованием, украл всеобщее внимание и превратил рождественское празднование от OpenAI в зимний кошмар.
Я (как и большинство рациональных людей) отнесся к 12 дням Рождества от OpenAI со здоровой долей скептицизма и наблюдал, как они демонстрировали телефонные звонки и астрономически дорогие и медленные вызовы API для незначительно улучшенной модели LLM, и убедился, что мое циничное мировоззрение подтвердилось.
А потом что-то произошло.
Это произошло на заднем плане, с идеальной театральной синхронизацией; последствия приближаются, как землетрясение, и их почувствует каждый и увидит в каждом продукте.
Я думал, что Google облажался с ИИ, мы все так думали. Они были просто неактуальны во всех практических применениях. Качество было плохим, функциональность была ограниченной.
Оказывается, они не сдали мяч и не спали на работе. Они просто оставили конкурентов (теперь детей по сравнению с ними) бороться с бета-релизами, едва работающими API и проблемами масштабирования, тихо создавая инструменты, необходимые для эффективного использования GenAI в производстве.
Еще неделю назад у меня даже не было действующего ключа Google API.
На этой неделе я занимаюсь миграцией всех своих сервисов.
Это может показаться опрометчивым, но позвольте мне объяснить.
В настоящее время в мире ИИ существуют две разные фракции: ученые и строители.
Пионеры и ученые ищут AGI и новые варианты использования; это важная работа, например, новые подходы к лечению рака или поиск академических прорывов в квантовой физике. Это может быть теоретическое или даже в некоторых случаях некоторые зеленые ростки практических вариантов использования, особенно в области робототехники, например.
Эти люди заинтересованы в достижении AGI и адаптации GenAI к более гибридной форме интеллекта, которая экспоненциально увеличит полезность по сравнению с текущими LLM. Это может занять годы, это может занять поколения (вероятно!).
Я твердо и бесстыдно принадлежу ко второй фракции: мы — строители.
GenAI уже способен на невероятные вещи. То, что год или два назад было бы невозможным. Я хочу создавать то, что работает, прямо сейчас.
Текущая задача и ремесло заключаются в работе с доступными LLM и API, а также в поиске вариантов использования, которые мы можем реализовать.
Разработчику нужны инструменты, и мой стек был создан в результате бесчисленных часов, потраченных на тестирование полезности всех доступных API и моделей.
1/ Клод 3.5 Сонет для кодирования (Код)
2/ API OpenAI для структурированного анализа данных (агенты)
3/ API Groq / Fireworks AI для дешевого и мгновенного вывода (индивидуальные вызовы)
4/ Llama для локального/на устройстве (периферийные вычисления)
Я думал, что большинство моих баз будет обеспечено на ближайшие 3–5 лет.
Потенциально в какой-то момент я мог бы заменить модели OpenAI на более дешевую альтернативу, но стоимость вывода в любом случае не является проблемой для меня в моем масштабе. Честно говоря, я не был заинтересован ни в одной модели GenAI, которая не была указана выше, я даже не обращал внимания на Gemini Flash v2.0.
Теперь я обращаю внимание.
Мы все знаем, что 2025 год — год Агентов, и социальные сети не перестают нам об этом твердить.
Я ненавижу шумиху, но основная правда в том, что системы ИИ теперь в основном способны «полунадежно» предпринимать действия от нашего имени. Таким образом, справедливо будет сказать, что в 2025 году будет выпущено множество популярного программного обеспечения, которое будет использовать эту парадигму.
Типичный агентский поток выглядит примерно так.
Мы получаем инструкцию (Забронировать рейс, позвонить маме, приготовить завтрак), которая интерпретируется Prompt. Обычно Prompt выполняется через API, отсюда ваш OpenAI или Groq или Fireworks AI API). Эта подсказка вызывает инструмент (Skyscanner, веб-поиск), который получает результат и вызывает некоторую настройку кода разработчиком и делает «что-то». Результат этой «что-то» затем возвращается в другую Prompt, и цикл продолжается (nJumps), пока мы не выполним действие. Ура.
Не похоже на самую чистую архитектуру, не правда ли?
Если какой-либо из этих вызовов API терпит неудачу или возвращает неожиданный результат, вся цепочка прерывается. Появились десятки фреймворков Python, чтобы абстрагировать эту проблему, но они не могут ее решить. Инструментарий улучшается, теперь мы можем видеть ошибки в выполнении, проверять структурированные данные и строить цепочки с чем-то, приближающимся к надежности, отсюда и шумиха вокруг Agent 2025.
Но вышеприведенная архитектура остается запутанной, сложной и ненадежной. Несмотря на это, это также единственный способ, которым мы могли раскрыть потенциал GenAI в потоках Agentic.
В декабре 2024 года Google объявила вышеуказанную агентскую модель устаревшей, прежде чем она успела стать повсеместной.
Основные причины следующие:
1/ Собственный поиск
2/ Интегрированная оркестровка
3/ Мультимодальный (который работает!)
https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool
Ознакомьтесь с документацией API Gemini и помните, что это не предложение или фантазия, а API, который работает и может предоставить результаты за миллисекунды.
Интегрированный поиск Google надежен и также работает быстро. У таких конкурентов, как Perplexity, есть текстовый поисковик на основе ИИ, он занимает свое место в более широком ландшафте, но имейте в виду, что основное ценностное предложение теперь интегрировано как «функция» Gemini Flash v2.0.
Цель и причина существования искусственного интеллекта Perplexity были предположены в рамках реальной модели искусственного интеллекта, способной обеспечить такое же качество и скорость результата, а также обладающей огромной полезностью в других областях.
Тот факт, что Google владеет собственным API поиска, здесь имеет решающее значение. У них есть «Native Tool», встроенный в тот же API, обслуживающий модель вывода, которая может осуществлять поиск в Интернете, просто добавляя текст в вызов API. Ах, но OpenAI тоже может это делать, я слышу, как вы говорите?
OpenAI не может конкурировать. Их поиск не является нативным (или незрелым), и это важно. Это действительно видно. У них есть «Realtime API», но он работает не так хорошо и заметно медленнее и глючнее, чем реализация Gemini Flash v2.0 от Google. В реальном времени больше, чем в любой другой области, задержка — это все. Результаты даже близко не стоят.
Google буквально запускает поисковый запрос, ПОКА модель отвечает, и имеет инфраструктуру, чтобы предоставить ответ до того, как вы его прочтете. Эта маленькая деталь охватывает критические миллисекунды, которые меняют опыт взаимодействия с «Помада на свинье» на «реальное е**ное дело».
Интегрированный поиск Google работает, и работает очень-очень быстро.
В мире искусственного интеллекта много разговоров о том, что ни у кого нет рва.
Ну, Google только что заполнил огромный ров рождественской радостью и опустил разводной мост.
Цена, Скорость, Качество... Выбрать два? Хм-м-м...
Google побеждает по трем пунктам.
Счастливого Рождества, OpenAI.
Но это еще не все. Google изменил правила игры в отношении потоков Agentic. Поищите в интернете «AI Tools», и вы найдете горы фреймворков, репозиториев кода и проектов, которые по сути делают одно и то же.
Поиск в Интернете; Проверить.
Сайт Scape; проверить
Конвертировать в уценку; проверить.
Запустить код, проверить.
Получите некоторые личные данные; проверьте.
Все эти инструменты автоматизируют поиск, извлечение и выполнение кода. https://python.langchain.com/docs/integrations/tools/
Дело в том, что Google только что интегрировал это в свой API, единую конечную точку для обработки всего вышеперечисленного. Теперь это, по сути, решенная проблема.
Нам больше не нужны сложные агентные потоки для множества вариантов использования.
На приведенной ниже схеме OpenAI показано, как работает вызов функций для агентов.
До сих пор у нас была среда исполнения за пределами GenAI API.
Google только что встроил большую часть этой функциональности в основной API, который могут использовать разработчики.
Например, если я хочу использовать Llama 3.3 для поиска в Интернете, я могу вызвать инструмент следующим образом.
Тот же процесс с Gemini Flash v2.0:
Возвращаемся к предыдущему пункту: Скорость, Качество, Стоимость…
Google просто выбрал все 3.
Почти все инструменты — это вариации поиска, извлечения (конвертация в markdown и внедрение в prompt) и выполнения произвольного кода с добавлением приватных данных. За исключением данных (почти наверняка скоро появятся…), это теперь основные проблемы, из-за которых многие системы Agentic устарели еще до их запуска.
Пройдет совсем немного времени, и у нас появятся собственные плагины для источников данных Google (логичный следующий шаг), и к этому моменту, за исключением нескольких редких масштабируемых и очень сложных систем искусственного интеллекта, все текущие фреймворки и процессы по сути будут просто замысловатыми реализациями того, чего можно добиться лучше, быстрее и дешевле с помощью одного вызова API.
Актуальность этого с архитектурной точки зрения заключается в том, что вместо построения цепочечных и сложных потоков я могу усовершенствовать одну простую модель. Все стало намного проще.
Прощайте, фреймворки Python. (не оставайтесь на связи).
Даже если мы не можем сделать все, что нам нужно прямо сейчас, черта на песке уже проведена, и «инструменты» станут основными проблемами, интегрированными в API поставщиками. Нам больше не нужно делать собственных агентов, у нас есть надежные, масштабируемые и быстрые API для работы.
Как и я, вы, вероятно, немного обожглись от всей этой многомодальной «демонстрационной» интеграции использования аудио/видео. Я помню, как был так взволнован, когда попробовал потоковую передачу аудио (я много лет занимался разработкой на WebRTC и в прошлой жизни основал инструмент потоковой передачи видео для электронной коммерции).
Потенциал очевиден, но все это просто не кажется правильным. Например, зайдите на площадку OpenAI и попробуйте их API реального времени. Он показывает потенциал, но далек от того, чтобы быть приятным пользовательским опытом. Большинство пользователей (а я говорил с сотнями) просто хотят опыт, который «работает». Эти миллисекунды и естественные интонации — не детали, они — сама суть продукта.
Gemini Flash v2.0 — первая модель, которая дала мне момент «вау», который я испытал, когда впервые начал использовать Claude для кодирования. Это то же самое чувство, что и в первый раз, когда вы скептически задали вопрос ChatGPT, а «машина» дала вам человеческий ответ.
Задержка, паузы, интонация голоса. Google УДАЛИЛА это. Это все еще, очевидно, система ИИ, но это никогда не было проблемой. Проблема всегда была в паузах, прерываниях, в том, как модель взаимодействовала с людьми.
Я не против поговорить с машиной, если эта машина обладает знаниями, способна взаимодействовать и делать то, что мне нужно. Это на 100% первый раз, когда я действительно увидел модель, способную предоставить такой опыт, и последствия колоссальны.
Если вас воодушевляли аудио- или видеовзаимодействия и вы немного скептически относитесь к моделям. Попробуйте Gemini Flash v2.0. Google, очевидно, вложила время, усилия и ресурсы в решение проблем с задержкой и стоимостью. Ни одна другая модель ИИ, которую я пробовал, даже близко не подходит.
И это дёшево…
И это масштабируемо…
Я так же взволнован, как и в первый раз, когда я попросил ChatGPT написать пост на LinkedIn много лет назад. На этом этапе моей жизни и участия в GenAI это не так уж и легко.
Я не ожидал, что этот момент наступит так скоро.
Теперь у нас есть реальность с дешевой, быстрой и высокопроизводительной моделью, с которой мы можем взаимодействовать в режиме реального времени.
Это буквально первый раз в моей жизни, когда я могу поговорить с компьютером и почувствовать, что он меня понимает, может мне отвечать и предпринимать действия от моего имени. Это не сложный агент, это один вызов API.
Это техническое достижение найдет отклик в мире искусственного интеллекта, даже если многие этого еще не осознали.
Помимо естественного интерфейса и взаимодействия, модель способна осуществлять поиск в Интернете, выполнять код и выдавать мне ответ за то время, которое требуется для формирования предложения.
Была мечта о пользовательском опыте генеративного искусственного интеллекта.
В декабре 2024 года это стало реальностью.
А теперь, если вы меня извините, я пойду строить что-нибудь.