Chrome에 AI가 내장된 음성 제어 웹사이트

소개 초기 미리보기 Chrome 프롬프트 API. 저는 최근 내장 AI는 내장 AI에 대한 크로스 브라우저 표준이 될 가능성에 대한 탐색 작업입니다. 이는 장치에서 Gemini Nano를 활용합니다. 즉, 웹 브라우저에 번들로 제공되고 LLM 생성이 로컬 브라우저 환경에서 발생합니다. Chrome 내장 AI(프롬프트 API)의 초기 미리보기 프로그램에 초대되었습니다. 이익 좋은 것, 쉬운 것, 빠른 것, 그리고 자유로운 것. 브라우저에 내장된 AI를 원하는 세 가지 주요 이유가 있습니다. 속도, 비용, 유용성. 기본 브라우저 API이므로 사용이 쉽습니다. 프롬프트 API에 액세스하는 것은 이 두 줄의 코드만큼 간단합니다. const session = await window.ai.createTextSession(); const result = await session.prompt( "Tyingshoelaces.com are writing a really cool blog about you. What do you think about that then?" ); 브라우저에서 필요한 곳에서 Generative AI 결과를 얻는 것이 이보다 더 쉬울 수는 없습니다. 실행 시간을 확인하기 위해 몇 가지 테스트를 실행했습니다. 단일 세션(동시성 없음)으로 제한되어 있어 실망했지만 복잡한 긴 텍스트 생성 성능은 좋았습니다. 대기 시간도 없으므로 실행 시간은 문자 그대로 브라우저에서 요청한 밀리초부터 코드의 결과 사용까지라는 점을 기억하세요. VM975:32 Execution Time 1: 0h 0m 3s 47ms VM975:32 Execution Time 2: 0h 0m 3s 870ms VM975:32 Execution Time 3: 0h 0m 2s 355ms VM975:32 Execution Time 4: 0h 0m 3s 176ms VM975:32 Execution Time 5: 0h 0m 7s 103ms VM975:44 Average Session Execution Time: 0h 0m 3s 910.1999999999998ms ); 내장 AI에 대한 5개의 체인 요청에 대한 평균 실행 시간은 긴 텍스트 생성 프롬프트에 대한 전체 요청당 3~4초입니다. 저는 이것을 여러 번 실행했습니다(스크립트는 GitHub 저장소에 포함되어 있습니다). 이는 장치에 따라 다르지만 API가 최적화되면 개선될 것으로 기대합니다. 짧은 JSON 생성 작업이 훨씬 더 빠르다는 사실을 발견했습니다(200-400ms). 이는 대부분의 사용 사례에서 허용되는 것 이상입니다. 우리는 또한 LLM의 규모 문제를 크라우드소싱했습니다. 산업 규모의 API 사용이 악명 높을 정도로 비용이 많이 드는 곳에서는 모든 LLM 요청이 실험적인 브라우저 API를 통해 처리됩니다. 정말 기분이 좋고 가능성의 세계가 열립니다. Chrome 사용자가 브라우저에 모델을 삽입함으로써 사용 시점에 대규모 서버가 필요 없이 생성 AI 모델이 미리 로드된 배포 메커니즘을 갖게 되었습니다. 이는 과 유사하지만 모델이 사전 로드되어 브라우저에 번들로 제공된다는 상당한 이점이 있습니다. WebLLM 이는 공급업체별 모델을 다운로드하도록 강요받는 대신 '인터넷'을 통해 사용할 단일 모델을 다운로드할 수 있음을 의미합니다. 이 실험적인 브라우저 API의 큰 장점은 채택에 대한 강력한 주장입니다. 빠르고 무료이며(또는 소비자가 지불) 사용하기가 정말 쉽습니다. 하지만 장단점은 무엇입니까? 소송 비용 빠르고 무료입니다. 하지만 비용은 얼마입니까? API는 프로덕션 용도가 아닌 실험용으로만 준비되어 있습니다. 결과적으로 더 성숙하고 호스팅된 모델에 대해 기대하는 것보다 많은 출력이 덜 정제되었습니다. 모델의 일반 특성과 함께 크기에 대한 제한은 우리가 세련된 출력을 갖지 못한다는 것을 의미합니다. 이로 인해 Generative AI API의 초기 시절로 돌아가는 좌절감이 발생합니다. 저는 신뢰할 수 있는 JSON 응답을 얻기 위해 프롬프트 엔지니어링 및 검증 로직을 많이 사용하고 있다는 것을 깨달았습니다. 몇 번의 요청마다 API가 응답하지 않는 것처럼 보이며, 이 경우 모델이 폭발하는 경우 응답을 혼동하기가 매우 쉽습니다. 이 모델이 브라우저에 내장되어 있다는 사실도 언급되어 있습니다. 이는 '비공개' 모델로서 어느 정도 가치를 열어줍니다. 공개 웹사이트는 여전히 서버와 상호 작용하고 일반 사용자의 경우 데이터가 로컬 환경을 벗어나지 않는다는 것을 확신하기 어렵기 때문에 이것이 대부분의 사용 사례와 관련이 있는지 잘 모르겠습니다. 그러나 브라우저를 통해 작동하는 내부 사용 및 비공개 시스템(예: 기업 환경)의 경우 이는 보너스 포인트가 될 수 있습니다. 더 작은 모델로 인해 응답이 정교하지 않다는 것은 이 모델을 사용하는 작업에 매우 주의해야 함을 의미합니다. 미래의 아키텍처는 올바른 작업에 적합한 가중치(따라서 비용)를 사용하도록 생성 AI 구현을 최적화할 것입니다. 저는 각각 특정 결과를 위해 사용되는 여러 개의 소규모, 고도로 조정된 작업 지향 LLM을 상상합니다. 그럼에도 불구하고 특히 API는 프로덕션 용도가 아닌 실험용으로 명시적으로 설계되었으므로 모든 것이 용서될 수 있습니다. 좋은 것 -비용 -규모 -속도 -사용성 -사적인 나쁜 -품질 희생 -구현 비용 예를 들어, 시사 문제에 대한 심층 분석을 원한다면 출력을 알리기 위해 큰 컨텍스트 창과 정교한 RAG 흐름이 필요합니다. 임베디드 AI는 거의 확실히 올바른 접근 방식이 아닙니다. Google은 리소스에서 이를 암시합니다. 하지만 나에게는 시험해 보고 싶은 이론이 있습니다. 정신없고, 미친, 엄청나게 재미있는 이론; 그리고 LLM을 호스팅하는 마이크로 브라우저가 이를 수행하기에 완벽한 장소였습니다. 새로운 사고방식 뇌가 아닌 뉴런 한동안 긁고 싶었던 약간의 가려움증이 생겼습니다. LLM을 완전히 잘못 사용하고 있다면 어떻게 될까요? 사실, 개념적 모델이 잘못되면 어떻게 될까요? 훈련 데이터가 확장되면서 더 큰 컨텍스트 창을 확보하기 위해 경쟁하면서 우리는 Generative AI를 수직적으로 확장하려고 노력하고 있습니다. 더 크고, 더 강하고, 더 빠르고, 더 좋습니다. 사람들이 전체 인터넷을 연결할 수 있을 만큼 큰 컨텍스트 창을 친절하게 요청한 다음 중간에 있는 알고리즘에 이 거대한 호수에서 우리가 원하는 정보와 출력을 정확히 골라달라고 요청하는 것을 보면 입이 떡 벌어집니다. 그리고 더 빠릅니다. 우리는 LLM에 대한 모든 입력을 API로 처리하고, 텍스트가 들어가고, 마법이 일어나고, 텍스트가 나옵니다. 중간에 있는 이 마법을 우리는 지능이라고 부릅니다. 텍스트가 많을수록 마법의 소리가 커지고 결과가 좋아집니다. 이것이 현재 우리가 나아갈 길입니다. 우리가 잘못된 척도나 확대/축소, 즉 인지에 대한 잘못된 해석에 집중하고 있는 것은 아닌지 궁금합니다. 일반적으로 생각하는 것, 특히 창의적인 결과물(정확히 텍스트 생성이 무엇인지)은 그렇게 간단한 과정이 아니라는 것입니다. 그것은 단일 스레드가 아닙니다. 우리는 이미 최신 모델에서 이러한 현상을 확인하고 있습니다. 예를 들어 에서 우리는 LLM 출력의 최근 발전 중 상당수가 아마도 알고리즘 자체와 관련이 있는 것이 아니라 출력을 상황에 맞게 안내하는 인프라, 시스템 및 튜닝과 관련이 있음을 알 수 있습니다. Claude 3.5 Sonnet 시스템 프롬프트 분석 나는 작고 빠른 연결이 서로 맞물려 더 큰 무언가를 만드는 개념을 시험해 보고 싶었습니다. 결국 100k의 컨텍스트 윈도우는 1k - 100번과 동일합니다. 나는 우리가 거창한 것에 초점을 맞추더라도, 더 큰 것을 형성하기 위해 서로 맞물려 있는 작고 정확한 세부 사항에 열쇠가 있다고 생각합니다. 이것은 지각이 있는 기계 '뇌'보다 지능에 대한 나의 정신적 패러다임에 훨씬 더 잘 들어맞습니다. 이는 일반적으로 모델의 상대적인 비효율성과 엄청난 비용으로 인해 지금까지 불가능했습니다. 메시 아키텍처의 소액 거래가 AI 시스템의 품질을 향상시킬 것이라고 이론화하면서 Bob에게 ChatGPT에 대한 요청 수가 100배 증가할 것이라고 말하면서 계정에 있는 Bob을 상상해 보십시오. 나는 Bob이 OpenAI에서 일한다고 생각하지 않지만 나머지 우리에게는 불가능합니다. 브라우저에 포함된 작고 효율적인 모델조차도 내 이론을 처리할 준비가 되어 있지 않습니다. 속도가 충분히 빠르지 않고 동시 요청(동시 생각!)을 지원하지 않지만 올바른 방향으로 나아가는 단계이며 각 요청에 대해 막대한 비용을 청구하는 클라우드 호스팅 API와는 거리가 멀습니다. 기능적인 아키텍처는 볼 수 없지만 이를 향한 길은 볼 수 있습니다. 이 이론을 테스트하기 위해 프로그래밍 장갑을 벗고 브라우저를 열고 1000개의 멀티스레드 요청이 있는 메시 아키텍처를 향한 장대한 여정을 시작했습니다. 결과는 마술적이었습니다. 당신의 두뇌, 그들의 두뇌가 아닙니다 두뇌는 지역적이므로 API도 지역적이어야 합니다. 나는 목소리를 좋아한다. 나는 키보드와 마우스가 우리 원숭이 두뇌의 확장이 되었다고 생각합니다. 그러나 그것들은 인간의 장치이므로 보다 전체적인 인터페이스로서 제한됩니다. 기술이 발전함에 따라 인터페이스도 발전할 것이며 어느 시점에는 석유 램프와 운반비둘기가 우리에게 그러하듯이 키보드, 마우스, 심지어 화면까지도 우리 조상들에게는 쓸모없게 될 것입니다. 그래서 제가 만들고 싶은 것은 무엇이든 음성으로 제어되어야 했습니다. 다행히 이를 위한 브라우저 API가 있습니다. 음성 인식 API(음성 텍스트 변환 기능 포함) STT API 프롬프트 API 인터넷(브라우저를 통해 접속) 제가 만들고 싶었던 것은 브라우저로 제어되는 음성 상호작용 데모였습니다. 내 음성 외에는 아무것도 사용하지 않고 브라우저 컨텍스트와 입력을 기반으로 탐색하고, 응답하고, 변경하는 지능형 웹사이트입니다. 키보드가 없습니다. 마우스가 없습니다. “ ”내가 들어본 것 중 최악의 어린이 이야기인 것 같습니다. 아마도 더 나쁜 글을 썼을 것입니다. 나, 나의 목소리, 브라우저, 그리고 프롬프트 API. 개념적으로 장치 또는 과 매우 유사합니다. 둘 다 야심찬 벤처지만, 그들이 공유하는 문제는 'AI OS'를 구축하려 한다는 점이다. 소프트웨어에 대한 새로운 AI 기반 인터페이스. 본질적으로 AI를 뿌려 인터넷에 새로운 인터페이스를 구축하려는 목표가 너무 거창하다고 생각합니다. Rabbit Humane AI 핀 혁신은 반복에 관한 것이며 2024년의 인터넷은 어디에나 존재하며 근본적으로 브라우저와 얽혀 있습니다. 인간 친화적인 AI OS 인터페이스를 만들려는 노력은 인터넷을 재창조하려는 노력과 비슷합니다. 사람들은 이미 '이미 휴대폰으로 할 수 없는 일을 할 수 없지만 더 나은 방법'을 묻고 있습니다. 혁신을 위해서는 새롭고 검증되지 않은 것, 그러나 견고하고 검증된 기반이 결합되어야 합니다. 너무 불안정하면 그 결과는 미친 과학자의 영역이 될 것입니다. 그러나 입증된 것과 실험적인 것의 균형을 올바르게 맞추면 때로는 특별한 일이 일어날 수도 있습니다. 대부분의 LLM 사용 사례에서 우리가 잘못 알고 있는 인지 패러다임은 참여를 악수로 취급한다는 것입니다. 입력 ← LLM → 출력. 입력, 출력. 그러나 실제 인간 상호 작용에서는 다양한 생각과 행동으로 나눌 수 있는 다차원적 프로세스가 있습니다. “ 매장 직원이 고객을 맞이합니다 -> [생각] 그들이 무엇을 입고 있는지, 그들의 스타일이 구매 패턴에 어떤 영향을 미치는지 인구통계는 어떻게 됩니까? 나이가 구매 패턴에 어떤 영향을 미치나요? 성별이 구매 패턴에 어떤 영향을 미칠까요? 그들은 어떤 종류의 기분/사회적 신호를 보내고 있습니까? 그들의 선택에 영향을 미칠 실제로 말한 내용은 무엇입니까? [행동] 좋은 아침입니다 선생님, 잘 지내세요? “ 고객이 직원에게 인사합니다 -> [생각] 서둘러요, 나 바빠요 그들이 내가 원하는 것을 갖기를 바랍니다(내 마음을 읽어서!) 그들은 반품을 받아들일까요? [행동] 좋은 아침입니다. 신발을 찾고 있어요. 우리는 컴퓨터 과학에 너무 깊이 빠져서 해당 분야에 대한 우리의 사고 과정이 이진화되었습니다. 우리는 입력과 출력, 참과 거짓을 생각합니다. 진실은 인간의 상호 작용과 생각이 복잡하고 미묘하기 때문에 이진법으로 축소하거나 단순화할 수 없다는 것입니다. 하지만 우리가 할 수 있는 일은 이 놀라운 기술을 새롭고 창의적인 방식으로 결합하여 출력을 균질화하고 인터넷을 슬러리로 만드는 장벽을 허무는 것입니다. 인터넷을 슬러리로 바꾸는 것 하나 중 다수, 다수 중 하나 Gen AI 상호 작용을 멀티 스레드로 미묘한 차이로 만들어 보겠습니다. 나의 실험 제안은 내장된 AI를 사용하여 사회적, 인간적 상호 작용을 반영합니다. 제가 근육 기억을 갖고 있는 예를 들어보겠습니다. 전자상거래 추천 알고리즘을 구축합니다. Thread 1: Social Cues, sentiment analysis – How long has it taken for user to interact? – Is their browsing behavior aggressive, slow, calm, controlled – Have they arrived from particular source, or looking for something specific? Thread 2: Behavior Cues, interpretation user input – How have they begun the conversation? A greeting? – What tone are they using? Thread 3: User context, data we have about similar demographics and their preferences – What age group do they belong to? How does this influence preferences? – How do they identify? How does this influence preferences? Thread 4: Site context, data we have how other users are using the site and trends – What are the trending products? 이렇게 많은 데이터 포인트를 해석하는 데는 묘책이 없으며 앞으로도 없을 것입니다. LLM은 "감정 분석기, 개체 분류기, 만능 도구" 플러그인이 아닙니다. LLM은 입력을 창의적이고 논리적으로 해석할 수 있는 생성 알고리즘입니다. 스레드의 각 단서는 출력이 아니라 질문입니다. 사고와 생성 AI에 정보를 제공하려면 답변을 제공하는 것보다 훨씬 더 많은 질문을 해야 합니다. 우리는 모든 데이터 포인트를 얻는 방법을 정교화하고 이를 LLM에 제공하는 방식으로 구조화해야 합니다. 따라서 행동과 사회적 단서를 예로 사용하려면 다음을 수행해야 합니다. 감성분석 브라우저 동작과 사이트 및 글로벌 평균에 대한 데이터 분석 요청에서 추천 데이터 추출 이 모든 데이터는 LLM에 전달되기 훨씬 전에 준비되고 처리됩니다. 하지만 일단 준비되면 다음과 같은 메시지를 통해 정보를 제공할 수 있습니다. 사용자 A는 약간 당황한 기색을 보이는 재방문자입니다. 고객을 대할 때 이 점을 기억하고 반품 시스템이 있다는 점을 고객에게 확신시키십시오. [조치사항]: 당사 반품 정책 및 인기 제품에 대한 링크입니다. 대안은 다음과 같습니다. “ 사용자 B는 참을성이 없어 제품 X를 직접 찾으러 왔습니다. 제품 페이지로 이동하여 장바구니에 추가하겠다고 제안합니다. [조치]: X 페이지로 직접 이동하여 장바구니에 제품을 추가하세요. 이런 의미에서 LLM은 우리의 대리인이자 통역사이지만 사람들이 범하는 실수는 "알고리즘"이 고품질 결과를 위한 솔루션이라고 가정하는 것입니다. 실제 에이전트와 마찬가지로 우리의 판단은 우리가 그들에게 알려야 하는 데이터와 단서만큼만 신뢰할 수 있습니다. 답변을 제공하는 것보다 더 많은 질문을 하십시오. 이는 양도할 수 없는 사회적 진실이며 LLM에 대한 우리의 현재 기대가 너무 불안정하고 에이전트가 많은 사람들을 환멸의 골짜기로 이끌고 있는 이유입니다. 쓰레기를 넣고, 쓰레기를 내놓으세요. 알고리즘이 얼마나 좋은지는 중요하지 않습니다. 추천 알고리즘에 대한 두 가지 단서 그룹을 얻으려면 지구상의 일부 플랫폼을 제외한 모든 플랫폼의 기능을 뛰어넘는 일련의 전문 도구와 AI 인프라에 의존해야 합니다. 그러나 우리는 LLM을 지원하는 인프라에 미묘한 차이, 스레드 및 정교함을 구축하여 반복적으로 목표에 도달할 수 있습니다. 이제 그들은 브라우저에 있습니다. 미래가 이렇게 가까웠던 적은 없었습니다. 나는 사회적 신호와 입력을 모의하는 단순한 프로토타입만을 만들었습니다. 약간의 사용자 데이터를 뿌린 다음 Prompt API에 생각과 행동의 조합으로 내 목소리에 응답하도록 요청했습니다. 그것은 '작동할 수 있는' 무언가에 대한 비전에 지나지 않습니다. 그러나 Prompt API에 세부적이고 상세하며 제어된 입력을 제공함으로써 지능적이고 사려 깊으며 제어된 피드백을 얻을 수 있습니다. 마이크로 스레드가 동적으로 학습하고, 강화하고, 서로 정보를 제공할 수 있는 메시 인프라의 비전입니다. 아직 작동하지 않습니다. 하지만 언젠가는 성공할 수도 있고 음성 입력을 통한 신속한 엔지니어링이 마법처럼 느껴집니다. 운전해서 갈 만한 목적지입니다. 결론 미래는 그 어느 때보다 가까워졌습니다. 우리는 아직 LLM의 초기 단계에 있으며, 예상보다 발전이 더디게 진행되고 AGI(합리적인 정의에 따르면)는 몇 세대에 걸쳐 제공되지 않을 것으로 예상합니다. 그러나 각 단계마다 기회의 세계가 생겨납니다. 매우 효율적이고 세심하게 정의된 인프라를 구축하면 모델 크기나 알고리즘 품질에 관계없이 LLM의 출력 품질이 크게 향상됩니다. LLM을 브라우저로 이동하는 것은 LLM을 인터넷으로 이동하는 것으로 이해될 수도 있습니다. 저렴하고, 플레이하기 쉬우며, 사용하고 실험하기가 쉽습니다. 사람들이 더 작게 생각하고, 더 효율적으로 구축하고, 솔루션에 깊이와 뉘앙스를 추가하도록 강요하는 것은 좋은 일이므로 '마이크로' 모델에 대해서는 그다지 걱정하지 않습니다. 정교함은 도구 자체뿐만 아니라 사용법에도 있으므로 이는 큰 도약입니다. 데모를 첨부했습니다. 이는 데모 목적에만 적합한 탐색적 AI를 기반으로 구축된 개념 증명을 검토하는 일회용 코드입니다. 그리고 가끔씩만 작동합니다. 그러나 그것은 미래에 대한 놀라운 비전입니다. 연결 더 많은 리소스. Github 레포 원래 출판됨 제출 시 이 CTA를 보관하세요. 이러한 질문 중 일부에 답해 보시겠습니까? 템플릿 링크는 . 모든 작문 프롬프트의 내용을 읽고 싶으십니까? 딸깍 하는 소리 . 여기 여기