paint-brush
Chrome'a Yerleştirilmiş Yapay Zeka ile Sesle Kontrol Edilen Bir Web Sitesiile@tyingshoelaces
331 okumalar
331 okumalar

Chrome'a Yerleştirilmiş Yapay Zeka ile Sesle Kontrol Edilen Bir Web Sitesi

ile tyingshoelaces.com12m2024/06/30
Read on Terminal Reader

Çok uzun; Okumak

Yakın zamanda Chrome Yerleşik Yapay Zeka (Prompt API) için erken önizleme programına davet edildim. Yerleşik yapay zeka, potansiyel olarak gömülü yapay zeka için tarayıcılar arası standart haline gelecek olana yönelik keşif amaçlı bir çalışmadır. Cihazda Gemini Nano'dan yararlanıyor; bu, web tarayıcınıza paketlendiği ve LLM oluşturmanın yerel tarayıcı ortamınızda gerçekleştiği anlamına gelir.
featured image - Chrome'a Yerleştirilmiş Yapay Zeka ile Sesle Kontrol Edilen Bir Web Sitesi
tyingshoelaces.com HackerNoon profile picture
0-item

giriiş

Chrome İstemi API'sinin erken önizlemesi.


Yakın zamanda Chrome Yerleşik Yapay Zeka (Prompt API) için erken önizleme programına davet edildim. Yerleşik yapay zeka, potansiyel olarak gömülü yapay zeka için tarayıcılar arası standart haline gelecek olana yönelik keşif amaçlı bir çalışmadır. Cihazda Gemini Nano'dan yararlanır; bu, web tarayıcınıza paketlendiği ve LLM oluşturmanın yerel tarayıcı ortamınızda gerçekleştiği anlamına gelir.

Faydalar

İyi, Kolay, Hızlı ve Ücretsiz.


Tarayıcılarımız için yerleşik yapay zeka istememizin üç temel nedeni var. Hız, maliyet ve kullanılabilirlik. Yerel bir tarayıcı API'si olduğundan kullanımı kolaydır. Prompt API'ye erişim bu iki kod satırı kadar basittir.


 const session = await window.ai.createTextSession(); const result = await session.prompt( "Tyingshoelaces.com are writing a really cool blog about you. What do you think about that then?" );


Tarayıcıda ihtiyaç duyduğumuz yerde Üretken Yapay Zeka sonuçlarına ulaşmak daha kolay olamazdı. Yürütme süresini kontrol etmek için birkaç test yaptım. Tek bir oturumla (eşzamanlılık yok) sınırlı olduğumuz için hayal kırıklığına uğramış olsam da, karmaşık uzun metin oluşturma performansı iyiydi.


Unutmayın, gecikme de yoktur; bu nedenle yürütme süresi, tam anlamıyla tarayıcımızda istekte bulunduğumuz milisaniyeden, sonucun kodumuzda kullanılmasına kadar geçen süredir.


 VM975:32 Execution Time 1: 0h 0m 3s 47ms VM975:32 Execution Time 2: 0h 0m 3s 870ms VM975:32 Execution Time 3: 0h 0m 2s 355ms VM975:32 Execution Time 4: 0h 0m 3s 176ms VM975:32 Execution Time 5: 0h 0m 7s 103ms VM975:44 Average Session Execution Time: 0h 0m 3s 910.1999999999998ms );


Yerleşik yapay zekaya yapılan 5 zincirleme isteğin ortalama yürütme süresi, uzun metin oluşturma istemleri için tam istek başına 3-4 saniye arasındadır. Bunu birkaç kez çalıştırdım (komut dosyası GitHub deposunda yer alıyor) ve bu cihaza göre değişse de, API optimize edildiğinde bunun da iyileşmesini beklerdim. Daha kısa JSON oluşturma görevlerinin çok daha hızlı (200-400 ms) olduğunu fark ettim.


Bu, çoğu kullanım durumu için kabul edilebilir olandan daha fazlasıdır. Ayrıca Yüksek Lisans'larımız için ölçek sorununu da kitle kaynaklarından sağladık. Endüstriyel ölçekte API kullanımının çok pahalı olduğu yerlerde, her LLM talebi deneysel bir tarayıcı API'si aracılığıyla gerçekleştirilir. Gerçekten hoş bir his veriyor ve bir olasılıklar dünyasının kapılarını açıyor.


Chrome kullanıcılarının modeli tarayıcılarına yerleştirmesini sağlayarak, kullanım noktasında önceden yüklenmiş üretken yapay zeka modellerine sahip ve büyük sunuculara ihtiyaç duymayan bir dağıtım mekanizmasına sahip oluyoruz. Bu, WebLLM'ye benzer ancak modellerin önceden yüklenmiş ve tarayıcılarımıza paketlenmiş olması gibi önemli bir avantaja sahiptir.


Bu, satıcıya özel bir model indirmek zorunda kalmak yerine 'internet'te kullanmak üzere tek bir modeli indirebileceğimiz anlamına gelir.


Bu deneysel tarayıcı API'sinin büyük olumlu yönleri, benimsenmesi için güçlü argümanlardır; hızlıdır, ücretsizdir (ya da tüketici tarafından ödenir) ve kullanımı gerçekten kolaydır.


Peki takaslar nelerdir?

Maliyetler

Hızlı ve ücretsiz. Ama maliyeti ne?


API, özür dilemeden yalnızca deneme amaçlıdır, üretim kullanımı için değildir. Sonuç olarak çıktının büyük bir kısmı, daha olgun ve barındırılan modellerden beklediğimizden daha az rafine edilir. Modelin genel doğasının yanı sıra boyut üzerindeki sınırlamalar, parlak çıktılara sahip olmadığımız anlamına geliyor.


Bu, bizi Üretken Yapay Zeka API'lerinin ilk günlerine götüren hayal kırıklıklarına yol açıyor. Güvenilir JSON yanıtları almak için kendimi çok sayıda hızlı mühendislik ve doğrulama mantığı kullanırken buldum. Her birkaç istekte API yanıt vermiyor gibi görünüyor, yanıtı karıştırmak oldukça kolaydır, bu durumda model bombalanır.


Bu modelin tarayıcıya gömülü olduğu gerçeğinden de bahsediliyor; 'özel' bir model olarak bazı değerlerin önünü açıyor. Bunun çoğu kullanım durumuyla alakalı olduğundan emin değilim, çünkü halka açık web siteleri sunucularıyla hâlâ etkileşimde olacak ve ortalama bir kullanıcı için verilerin yerel ortamdan hiçbir zaman ayrılmadığından emin olmak zor. Bununla birlikte, dahili kullanım ve bir tarayıcı aracılığıyla çalışan halka açık olmayan sistemler (örneğin kurumsal ortamlar) için bu bir bonus puan olabilir.


Daha küçük model nedeniyle yanıtlardaki karmaşıklığın olmaması, bunu kullandığımız görevler konusunda çok dikkatli olmamız gerektiği anlamına geliyor. Geleceğin mimarileri, üretken yapay zeka uygulamalarını, doğru görev için doğru ağırlığı (ve dolayısıyla maliyeti) kullanacak şekilde optimize edecek. Her biri belirli bir çıktı için kullanılan çok sayıda küçük, yüksek düzeyde ayarlanmış ve görev odaklı LLM'ler öngörüyorum.


Bununla birlikte, özellikle API'nin üretim kullanımı için değil, açıkça deneme amaçlı tasarlandığı için her şey affedilebilir.


İyi
-Maliyet
-Ölçek
-Hız
-Kullanılabilirlik
-Özel

Kötü
-Kaliteden ödün vermek
-Uygulama maliyeti

Örnek olarak, güncel olayların derinlemesine bir analizini istiyorsak, çıktıyı bilgilendirmek için geniş bir bağlam penceresine ve karmaşık RAG akışına ihtiyacımız olacaktır; gömülü yapay zeka neredeyse kesinlikle doğru yaklaşım değildir. Google kaynaklarında buna değiniyor.


Ama test etmek istediğim bir teorim var; kuş beyinli, çılgın ve son derece eğlenceli bir teori; ve LLM'nin barındırıldığı bir mikro tarayıcı bunu yapmak için mükemmel bir yerdi.

Yeni Bir Düşünme Yolu

Beyin değil nöronlar


Bir süredir kaşımak istediğim küçük bir kaşıntı vardı. Ya Yüksek Lisans'ları tamamen yanlış kullanıyorsak? Aslında, ya kavramsal modeli yanlış anladıysak?


Genişleyen eğitim verileriyle daha geniş bağlam pencereleri için yarışırken, Üretken Yapay Zekayı dikey olarak ölçeklendirmeye çalışıyoruz. Daha büyük, daha güçlü, daha hızlı, daha iyi. İnsanların tüm interneti bağlayacak kadar büyük bağlam pencereleri istediklerini ve ardından ortadaki algoritmadan bu devasa gölden tam olarak istediğimiz bilgiyi ve çıktıyı seçmesini istediklerini görünce ağzım açık kalıyor. Ve daha hızlı.


Bir LLM'ye yapılan her girişi bir API olarak ele alırız, metin girer, sihir gerçekleşir ve metin çıkar. Ortadaki bu büyüye zeka diyoruz. Ne kadar çok metin girerse, büyünün sesi o kadar yüksek olur ve sonuç o kadar iyi olur. Bu bizim şu anki ilerleme yolumuzdur.


Yanlış ölçeğe veya yakınlaştırmaya, bilişin hatalı bir yorumuna mı odaklandığımızı merak etmeden duramıyorum.


Genel olarak düşünmenin, özellikle de yaratıcı çıktının (metin üretmenin tam olarak ne olduğu) konusu, bunun o kadar basit bir süreç olmamasıdır. Tek bir konu değil. Zaten bunu yeni modellerde de görüyoruz; örneğin Claude 3.5 Sonnet sistem isteminin analizinde , LLM çıktısındaki son gelişmelerin çoğunun muhtemelen algoritmanın kendisiyle değil, çıktıyı bağlamsal olarak yönlendiren altyapı, sistemler ve ayarlarla ilgili olduğunu görüyoruz.


Daha büyük bir şey oluşturmak için bir araya getirilmiş küçük, hızlı bağlantılardan oluşan bir konsepti denemek istiyordum. Sonunda, 100k'lik bir bağlam penceresi 1k - 100 kez ile aynıdır. Görkemli olana odaklanmış olsak bile, anahtarın daha büyük bir şey oluşturmak için bir araya getirilen küçük ve kesin ayrıntılarda olduğundan şüpheleniyorum. Bu, duyarlı bir makine 'beyninden' çok daha fazla benim zihinsel zeka paradigmama uyuyor.


Bu, genel olarak modellerin göreli verimsizliği ve fahiş maliyet nedeniyle şimdiye kadar mümkün olmamıştı. Hesaplardaki Bob'a, örgü mimarisindeki mikro dönüşümlerin yapay zeka sistemlerimizin kalitesini artıracağını teorileştirirken ChatGPT'ye gelen istek sayısını 100 kat artıracağımızı söylediğimizi hayal edin. Bob'un OpenAI'de çalıştığını sanmıyorum ama geri kalanımız için bu mümkün değil.


Tarayıcıdaki küçük ve etkili bir gömülü model bile benim teorilerimi gerçekleştirmeye gerçekten hazır değil. Yeterince hızlı değil ve eşzamanlı istekleri (eşzamanlı düşünceler!) etkinleştirmiyor, ancak doğru yönde atılmış bir adım ve her istek için büyük ücretler talep eden bulutta barındırılan API'lerden çok uzaktayız. İşlevsel mimariyi göremiyorum ama ona giden yolu görebiliyorum.


Bu teoriyi test etmek için programlama eldivenlerimin tozunu aldım, bir tarayıcı açtım ve 1000 çok iş parçacıklı istek içeren ağ mimarisine doğru destansı yolculuğuma başladım.


Sonuçlar büyülüydü.

Sizin Beyniniz, Onların Değil

Beyin yereldir, API'lerimiz de yerel olmalıdır.


Sesini seviyorum. Bence klavyeler ve fareler maymun beynimizin uzantıları haline geldi, ancak bunlar insan yapımıdır ve bu nedenle daha bütünsel bir arayüz olarak sınırlıdır. Teknoloji ilerledikçe arayüzler de gelişecek ve bir noktada klavyeler, fareler ve hatta ekranlar atalarımız için gaz lambaları ve taşıyıcı güvercinler kadar modası geçmiş olacak.


Yani inşa etmek istediğim her şeyin ses kontrollü olması gerekiyordu. Neyse ki bunun için bir tarayıcı API'si var.


  1. Konuşma Tanıma API'si (Konuşmayı Metne Dönüştürme ile)
  2. STT API'si
  3. İstem API'si
  4. İnternet (Tarayıcı aracılığıyla erişilir)


Oluşturmak istediğim tarayıcı kontrollü bir sesli etkileşim demosuydu. Benim sesimden başka hiçbir şey kullanmadan tarayıcı bağlamına ve girdiye göre gezinen, yanıt veren ve değişen akıllı bir web sitesi. Klavye yok. Fare yok. “ Ben, sesim, bir tarayıcı ve istem API'si. ” Şimdiye kadar duyduğum en kötü çocuk hikayesine benziyor. Muhtemelen daha kötülerini yazdım.


Kavramsal olarak Tavşan cihazına veya Humane AI pinine çok benzer. Her ikisi de iddialı girişimler ancak paylaştıkları sorun, bir 'Yapay Zeka İşletim Sistemi' oluşturmaya çalışmalarıdır. Yazılıma yapay zeka destekli yeni bir arayüz. Amacın çok büyük olduğunu düşünüyorum; aslında bir tutam yapay zekayla internete yeni bir arayüz oluşturmaya çalışıyorum.


Yenilik yinelemeyle ilgilidir ve 2024'te internet her yerde mevcuttur ve temel olarak tarayıcıyla iç içe geçmiş durumdadır. İnsan dostu bir AI işletim sistemi arayüzü icat etmeye çalışmak, interneti yeniden keşfetmeye benzer bir çabadır. Zaten millet 'Cep telefonumla yapamadığım ne yapabilirim ama daha iyisi' diye soruyor...


İnovasyon, yeni ve test edilmemiş olanın sağlam ve kanıtlanmış temellerle harmanlanmasını gerektirir. Çok fazla istikrarsızlık ve sonuçlar çılgın bilim adamlarının alanına girecektir, ancak kanıtlanmış ile deneysel arasındaki dengeyi tam olarak sağlayın ve bazen, sadece bazen, özel bir şey olur.


Tarayıcı AI istemi API'sinin çalışırken ekran görüntüsü

Çoğu LLM kullanım örneğinde yanlış anladığımız bilişsel paradigma, bir etkileşimi bir el sıkışma olarak ele almamızdır. Giriş ← Yüksek Lisans → Çıkış. Girdi, çıktı çıktı. Ancak gerçek insan etkileşimlerinde farklı düşünce ve eylemlere bölünebilen çok boyutlu süreçlere sahibiz.



Mağaza Görevlisi müşteriyi karşılıyor ->

[Düşünceler]

Ne giyiyorlar, tarzları satın alma kalıplarını nasıl etkiliyor?

Demografik özellikleri nedir, yaşları satın alma kalıplarını nasıl etkiler?

Cinsiyet satın alma kalıplarını nasıl etkileyecek?

Ne tür bir ruh hali/sosyal sinyaller yayıyorlar?

Aslında seçimlerini etkileyecek ne söylediler?

[Aksiyon]

Günaydın efendim nasılsınız



Müşteri görevliyi selamlıyor ->

[Düşünceler]

Acele et, meşgulüm

Umarım istediklerime sahip olurlar (aklımı okuyarak!)

İade kabul edecekler mi?

[Aksiyon]

Günaydın, bir çift ayakkabı arıyorum.


Bilgisayar biliminin o kadar derinlerine indik ki disiplin etrafındaki düşünce süreçlerimiz ikili hale geldi. Girdileri ve çıktıları, doğru ve yanlışı düşünüyoruz. Gerçek şu ki, insan etkileşimi ve düşünceleri karmaşık ve incelikli; ikiliye indirgeyemeyiz veya basitleştiremeyiz.


Ancak yapabileceğimiz şey, çıktıyı homojenleştiren ve interneti çamura çeviren engelleri yıkmak için bu harika teknolojiyi yeni ve yaratıcı yöntemlerle birleştirmek. interneti çamura dönüştürmek

Birin Çoğu, Çoğunluğun Biri

Nesil Yapay Zeka etkileşimlerini çok iş parçacıklı ve incelikli hale getirelim


Deney önerim, sosyal ve insan etkileşimlerini yansıtmak için yerleşik yapay zekayı kullanıyor. Kas hafızamın olduğu bir örnek verelim; E-ticaret için bir öneri algoritması oluşturmak.


 Thread 1: Social Cues, sentiment analysis – How long has it taken for user to interact? – Is their browsing behavior aggressive, slow, calm, controlled – Have they arrived from particular source, or looking for something specific? Thread 2: Behavior Cues, interpretation user input – How have they begun the conversation? A greeting? – What tone are they using? Thread 3: User context, data we have about similar demographics and their preferences – What age group do they belong to? How does this influence preferences? – How do they identify? How does this influence preferences? Thread 4: Site context, data we have how other users are using the site and trends – What are the trending products?


Bu kadar çok veri noktasını yorumlamak için sihirli bir çözüm yok ve hiçbir zaman da olmayacak. Yüksek Lisans'lar bir eklenti "duyarlılık analizörü, varlık sınıflandırıcı, her işin üstesinden gelen" değildir. Yüksek Lisans'lar, girdileri yaratıcı ve mantıksal olarak yorumlayabilen üretken algoritmalardır. Konu dizilerindeki ipuçlarının her birinin çıktı değil, sorular olduğuna dikkat edin.


Düşünceyi ve üretken yapay zekayı bilgilendirmek için yanıt vermekten çok daha fazla soru sormamız gerekiyor. Tüm veri noktalarımızı nasıl elde edeceğimiz konusunda çok yönlü olmamız ve bunları LLM'lerimize besleyecek şekilde yapılandırmamız gerekiyor. Dolayısıyla, davranış ve sosyal ipuçlarını örnek olarak kullanmak için aşağıdakileri yapmamız gerekir:


  1. Duygu analizi
  2. Tarayıcı davranışına ilişkin site ve küresel ortalamalara ilişkin veri analizi
  3. İsteklerden yönlendirme verilerini çıkarın


Tüm bu veriler Yüksek Lisansımıza gitmeden çok önce hazırlanacak ve işlenecektir. Ancak hazırlandıktan sonra aşağıdaki gibi bir bilgi istemiyle bilgilendirmeye yardımcı olabiliriz:



A Kullanıcısı, biraz üzgün olduğuna dair işaretler gösteren, tekrar gelen bir ziyaretçidir. Onlarla ilgilenirken bunu unutmayın ve onlara bir iade sistemimiz olduğundan emin olun. [Eylem]: İade politikamıza ve popüler ürünlerimize bağlantı.


Bir alternatif şöyle olabilir:



B Kullanıcısı sabırsız olduğuna dair işaretler gösteriyor ve doğrudan Ürün X'i aramaya geldi. Kullanıcıyı ürün sayfasına götürün ve sepete eklemeyi teklif edin. [Eylem]: Doğrudan X sayfasına gidin ve ürünü sepete ekleyin.


Yüksek Lisans'lar bu anlamda bizim temsilcilerimiz ve tercümanlarımızdır, ancak insanların yaptığı hata, kaliteli çıktının çözümünün "algoritmanın" olduğunu varsaymaktır. Tıpkı gerçek temsilciler gibi, bizim kararlarımız da ancak onları bilgilendirmemiz gereken veriler ve ipuçları kadar güvenilirdir. Cevap verdiğinizden daha fazla soru sorun.


Bu, reddedilemez bir sosyal gerçektir ve yüksek lisans eğitimlerine yönelik mevcut beklentilerimizin neden bu kadar dengesiz olduğu ve acentelerin birçok kişiyi hayal kırıklığı çukuruna sürüklediğidir. Çöp içeri, çöp dışarı. Algoritmanın ne kadar iyi olduğu önemli değil.


Öneri algoritmamız için sadece iki grup ipucu elde etmek için, gezegendeki birkaç platform dışında tüm platformların yeteneklerinin ötesinde bir dizi uzman araca ve yapay zeka altyapısına güvenmemiz gerekir. Ancak Yüksek Lisans'larımızı besleyen altyapıya nüanslar, konular ve gelişmişlik ekleyerek bu noktaya tekrar tekrar ulaşabiliriz.


Ve şimdi tarayıcıdalar; gelecek hiç bu kadar yakın olmamıştı.


Tarayıcı AI istemi API'sinin ikinci eylem bölümündeki ekran görüntüsü

Sosyal ipuçları ve girdilerle alay eden basit bir prototipten başka bir şey yapmadım. Biraz kullanıcı verisi serptim ve ardından Prompt API'sinden düşüncelerimin ve eylemlerimin bir kombinasyonuyla sesime yanıt vermesini istedim. İşe yarayabilecek bir şeyin vizyonundan başka bir şey değil. Ancak Prompt API'mize ayrıntılı, ayrıntılı ve kontrollü girdiler sağlayarak akıllı, düşünceli ve kontrollü geri bildirim alırız. Mikro iş parçacıklarının dinamik olarak öğrenebildiği, güçlendirebildiği ve birbirini bilgilendirebildiği bir ağ altyapısı vizyonudur.


Henüz işe yaramayacak. Ancak bir gün işe yarayabilir ve ses girişiyle hızlı mühendislik büyülü hissettirir. Bu, arabayla gitmeye değer bir hedef.

Çözüm

Gelecek her zamankinden daha yakın.


Hâlâ Yüksek Lisans'ın ilk aşamalarındayız ve ilerlemelerin beklenenden daha yavaş olacağını ve YGZ'nin (makul bir tanım gereği) nesiller boyu gelmeyeceğini tahmin ediyorum. Ancak yolda atılan her adımda bir fırsatlar dünyası ortaya çıkar. Yüksek verimli, iyi düşünülmüş ve tanımlanmış bir altyapı oluşturmak, model boyutundan veya algoritma kalitesinden bağımsız olarak Yüksek Lisans'larımızdan elde edilen çıktının kalitesini büyük ölçüde artırır.


Yüksek Lisans'ların tarayıcıya taşınması aynı zamanda Yüksek Lisans'ların internete taşınması olarak da anlaşılabilir. Ucuz, oynaması kolay, kullanımı ve denemesi kolay olacak. İnsanları daha küçük düşünmeye, daha verimli bir şekilde inşa etmeye ve çözümlerine derinlik ve nüans eklemeye zorlamak iyi bir şey, bu yüzden 'Mikro' modeller konusunda fazla endişelenmiyorum bile. Gelişmişlik yalnızca aracın kendisinde değil kullanımında da yatmaktadır; dolayısıyla bu, ileriye doğru dev bir adımdır.


Demomu ekledim; yalnızca demo amaçlarına uygun, keşif amaçlı bir yapay zeka üzerine inşa edilmiş, kavram kanıtını inceleyen tek kullanımlık koddur.


Ve sadece bazen işe yarıyor.


Yine de geleceğe dair harika bir vizyon.

Bağlantılar

Daha fazla kaynak.


Github deposu

Orijinal olarak yayınlandı


Lütfen aşağıdakileri gönderirken bu CTA'yı saklayın:

Bu soruların bazılarına yanıt vermek ister misiniz? Şablonun linki aşağıdadır BURADA . Tüm yazma istemlerimizin içeriğini okumak ister misiniz? Tıklamak BURADA .


L O A D I N G
. . . comments & more!

About Author

tyingshoelaces.com HackerNoon profile picture
tyingshoelaces.com@tyingshoelaces
If you have used the internet in the last 15 years then there is a good chance that you’ve bought, searched or browsed on software that I’ve helped to build. I’ve worked on official government websites in the UK, helped run Shopify’s checkout, scaled a unicorn and everything in between. I’ve created startups that have failed, I’ve created startups that have been successful and I’ve built interesting things both big and small.

ETİKETLERİ ASIN