paint-brush
Googled menipu OpenAI dengan berpikir bahwa ia unggul (padahal tidak)oleh@hacker661972
Sejarah baru

Googled menipu OpenAI dengan berpikir bahwa ia unggul (padahal tidak)

oleh 11m2024/12/25
Read on Terminal Reader

Terlalu panjang; Untuk membaca

Google telah merilis model yang murah, cepat, dan sangat mumpuni untuk membangun alur agen.
featured image - Googled menipu OpenAI dengan berpikir bahwa ia unggul (padahal tidak)
undefined HackerNoon profile picture
0-item


Influencer plastik. Penggemar berat AI. Pakar kardus. Semua istilah memasuki leksikon modern untuk menggambarkan gelombang 'hype' seputar AI. Saya sudah lama menjadi skeptis terhadap beberapa klaim yang lebih aneh dan muluk-muluk dalam kancah GenAI.


1/ Programmer akan menghilang

2/ AGI akan hadir pada tahun 2024

3/ Semua pekerjaan akan diotomatisasi

4/ Robot akan menjadi sadar (Skynet)


Semua hiperbola tak berdasar ini tanpa menyelidiki pandangan yang lebih ekstrem (ada forum Reddit singularitas yang memiliki 3,4 juta anggota)


Saya khususnya terkesima dengan proyeksi emosi dan fantasi ke dalam algoritma komputer yang mampu melakukan hal-hal keren. Anda tidak akan menemukan saya di aplikasi pendamping, dan saya yakin bahwa banyak orang brilian yang menganut persepsi Skynet tentang kesadaran AI ini berisiko kehilangan kewarasan mereka.


Blog saya baru-baru ini bertentangan dengan pandangan dunia AI yang umum dan agak fantastis 👇

Obrolan suara bertenaga AI: Lipstik pada babi (Juni 2024)

Semua API ini hanya mengonversi audio menjadi teks, memprosesnya melalui model bahasa, lalu mengonversinya kembali menjadi audio. Mungkin tampak canggih di permukaan, tetapi di balik itu semua hanyalah pembuatan teks dasar dalam suara robot. Setiap sistem individual bersifat komprehensif dan cukup matang, tetapi jika semuanya disatukan pada sistem yang kita sebut babi, tidak akan ada pemahaman nyata tentang nuansa interaksi audio.


Jika ia terlihat seperti babi, menjerit seperti babi dan berjalan seperti babi. Ia adalah babi. Bahkan jika ia memakai lipstik.

AI Generatif: Memecah kacang dengan palu godam (Juli 2024)

Hambatan untuk mencapai keunggulan tidak pernah serendah ini, karena persaingan semakin ketat dengan algoritma dan pengendalinya yang kurang terlibat dan kurang ahli.


Robot tidak akan pernah mencapai keahlian sejati, karena tidak akan pernah ada kumpulan data pakar sejati yang cukup untuk dijadikan sumber daya bersama. Dan sumber daya bersama mengambil hasil rata-rata, bukan yang terbaik. Robot tidak berpikir. Ia mengulang.

Kebohongan Agentic Frameworks (Desember 2024)

Masalah dengan menyediakan alat atau kerangka kerja yang memungkinkan Anda mengabstraksikan fungsionalitas adalah alat atau kerangka kerja tersebut disertai dengan serangkaian asumsi. Ketika saya membeli palu, saya berasumsi alat itu akan berfungsi. Ketika saya membeli pembersih bertekanan, saya berasumsi alat itu akan berfungsi.


Masalahnya adalah ketika saya menggunakan sebuah framework, saya berasumsi framework itu akan berfungsi. Namun, hal ini secara harfiah mustahil mengingat kematangan teknologi yang mendasarinya. Jauh dari peningkatan adopsi, Agentic Frameworks menjual ilusi di atas demo yang sangat terkontrol dan kasus penggunaan terbatas yang tidak akan pernah benar-benar berfungsi di tangan pengguna biasa (dan jumlahnya ada jutaan…).


Kata pengantar ini dimaksudkan untuk menyampaikan suatu maksud.


Percayalah ketika saya mengatakan bahwa saya tidak mengatakan ini dengan enteng.


Apa yang baru saja dilakukan Google dengan flash Gemini 2.0 telah mengubah segalanya. Semuanya.


Dan tidak seorang pun menyangka hal itu terjadi.

Lanskap

Salah satu cerita favorit orang tua saya adalah ketika saya berusia 5 tahun, saya diberi peran dalam drama kelahiran Yesus Kristus. Berperan sebagai pohon, peran saya adalah menghiasi panggung dengan diam-diam sementara anak-anak yang lebih tua dan lebih cakap memainkan peran mereka dalam menafsirkan kelahiran Yesus Kristus.


Saya tidak terlalu senang dengan peran kecil ini.


Selama 10-15 menit berikutnya sebelum saya diseret turun dari panggung, saya mengikuti para pemain di panggung, mencuri dialog mereka dan melantunkan interpretasi saya sendiri tentang lakon itu.


Menyela di saat yang tepat, tampil di saat yang lain. Itu adalah kelas master dalam hal gangguan, dan setiap tawa dan air mata dari penonton mendorong saya untuk melakukan lebih banyak lagi. Itu adalah kehancuran yang kejam.


Pertunjukan berubah menjadi lelucon, penonton tertawa terbahak-bahak; para aktor tercengang dan bingung.


Tawa itu memberiku semangat, itu menjadi klimaks.


Drama itu diubah menjadi sandiwara, dan tugasnya selesai. Hingga hari ini, sandiwara itu tetap menjadi kisah yang diceritakan di pesta makan malam kepada anggota keluarga yang baru dan lebih muda.


Tentu saja, lakon khusus ini adalah 12 hari Natal Open AI dan bagaimana Google tidak hanya mencuri perhatian mereka, tetapi juga menguasai narasi, mencuri perhatian dan mengubah perayaan Natal dari OpenAI menjadi mimpi buruk musim dingin.


Saya (seperti kebanyakan orang yang rasional) mengikuti 12 hari Natal oleh OpenAI dengan tingkat skeptisisme yang sehat, dan menyaksikan mereka mendemonstrasikan panggilan telepon dan panggilan API yang sangat mahal dan lambat ke model LLM yang sedikit lebih baik, dan merasa yakin bahwa pandangan dunia saya yang sinis tervalidasi.


Lalu sesuatu terjadi.


Itu terjadi di latar belakang, dengan waktu teatrikal yang sempurna; seperti gempa bumi, dampaknya akan datang dan akan dirasakan oleh semua orang dan terlihat pada setiap produk.


Saya pikir Google telah gagal dalam pengembangan AI, kita semua juga begitu. AI tidak relevan dalam semua penggunaan praktis. Kualitasnya buruk, fungsionalitasnya terbatas.


Ternyata mereka tidak mengabaikan tugas dan tidak lengah saat bekerja. Mereka hanya membiarkan pesaing (yang sekarang masih anak-anak) bergulat dengan rilis Beta, API yang hampir tidak berfungsi, dan masalah skala sambil diam-diam membangun perkakas yang diperlukan untuk menggunakan GenAI secara efektif dalam produksi.


Sampai seminggu lalu saya bahkan tidak memiliki Kunci API Google yang aktif.


Minggu ini, saya sedang dalam proses migrasi setiap layanan saya.


Ini mungkin tampak gegabah, tetapi izinkan saya menjelaskannya.

Ilmuwan & Pembangun

Ada dua faksi berbeda dalam dunia AI saat ini; ilmuwan dan pembangun.


Para pelopor dan ilmuwan tengah mencari AGI dan kasus penggunaan baru; ini adalah pekerjaan penting seperti pendekatan baru untuk pengobatan kanker atau mencari terobosan akademis dalam fisika Kuantum. Ini bisa berupa teori atau bahkan dalam beberapa kasus beberapa tunas hijau dari kasus penggunaan praktis, khususnya dalam domain robotika misalnya.


Orang-orang ini tertarik untuk mengembangkan AGI dan mengadaptasi GenAI ke bentuk kecerdasan yang lebih hibrida yang akan meningkatkan utilitas secara eksponensial dibandingkan LLM saat ini. Ini mungkin memakan waktu bertahun-tahun, mungkin butuh beberapa generasi (mungkin!).


Saya dengan tegas dan tanpa malu-malu berada di golongan kedua; kami adalah pembangun.


GenAI sudah mampu melakukan hal-hal yang luar biasa. Hal-hal yang satu atau dua tahun lalu tidak mungkin dilakukan. Saya ingin membangun hal-hal yang berhasil, sekarang juga.


Keahlian dan pekerjaan yang ada adalah bekerja dengan LLM dan API yang tersedia dan melihat kasus penggunaan apa yang dapat kami terapkan.


Seorang pembangun membutuhkan peralatan dan tumpukan peralatan saya berasal dari jam-jam yang tak terhitung jumlahnya yang dihabiskan untuk menguji kegunaan semua API dan model yang tersedia.


1/ Claude 3.5 Soneta untuk Pengkodean (Kode)

2/ API OpenAI untuk penalaran data terstruktur (Agen)

3/ Groq / Fireworks AI API untuk inferensi murah dan instan (Panggilan individual)

4/ Llama untuk lokal/pada perangkat (komputasi Edge)


Saya pikir sebagian besar kebutuhan saya akan terpenuhi dalam 3-5 tahun ke depan.


Mungkin suatu saat nanti saya bisa mengganti model OpenAI dengan alternatif yang lebih murah, tetapi biaya inferensi tidak menjadi masalah bagi saya dalam skala saya. Sejujurnya, saya tidak begitu tertarik dengan model GenAI yang tidak tercantum di atas, saya bahkan tidak memperhatikan Gemini Flash v2.0.


Saya memperhatikannya sekarang.

Cara Kerja Agen

Kita semua tahu bahwa 2025 adalah tahun Agen, media sosial tidak berhenti memberi tahu kita.


Saya benci promosi berlebihan, tetapi kebenaran yang mendasarinya adalah bahwa sistem AI sekarang pada dasarnya mampu mengambil tindakan atas nama kita secara 'semi-andal'. Jadi, wajar saja jika dikatakan bahwa akan ada banyak perangkat lunak populer yang dirilis pada tahun 2025 yang akan menggunakan paradigma ini.


Alur agen yang umum berjalan seperti ini.

Aliran agen pada tahun 2024


Kita menerima instruksi (Pesan tiket pesawat, telepon ibuku, buatkan sarapan) yang ditafsirkan oleh Prompt. Prompt biasanya dijalankan melalui API, oleh karena itu API OpenAI atau Groq atau Fireworks AI Anda). Prompt itu memanggil alat (Skyscanner, pencarian Web) yang mendapatkan hasil dan memanggil beberapa kode yang disiapkan oleh pengembang dan melakukan "sesuatu". Hasil dari "sesuatu" ini kemudian dikembalikan ke Prompt lain dan siklus berlanjut (nJumps) hingga kita melakukan tindakan tersebut. Hore.


Kelihatannya bukan arsitektur yang paling bersih ya?


Jika salah satu dari panggilan API ini gagal atau mengembalikan hasil yang tidak diharapkan, seluruh rantai akan rusak. Puluhan Kerangka Kerja Python telah muncul untuk mengabstraksikan masalah ini, tetapi tidak dapat menyelesaikannya. Perkakas semakin baik, kita sekarang dapat melihat kesalahan dalam eksekusi, memvalidasi data terstruktur, dan membangun rantai dengan sesuatu yang mendekati keandalan, oleh karena itu muncul kehebohan untuk Agent 2025.


Namun, arsitektur di atas masih berbelit-belit, kompleks, dan tidak dapat diandalkan. Meskipun demikian, ini juga merupakan satu-satunya cara yang kami miliki untuk membuka potensi GenAI dalam alur Agentic.


Pada bulan Desember 2024, Google baru saja membuat model agen di atas menjadi usang bahkan sebelum menjadi hal yang umum.


Alasan utamanya adalah sebagai berikut:


1/ Pencarian asli

2/ Orkestrasi terintegrasi

3/ Multimoda (yang berhasil!)

1. Google vs OpenAI & Perplexity (Perkakas asli)


https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool


Bacalah dokumen API Gemini, dan ingatlah bahwa ini bukanlah proposal atau fantasi, tetapi API yang berfungsi dan dapat memberikan hasil dalam hitungan milidetik.


Pencarian terpadu Google dapat diandalkan dan juga bekerja dengan cepat. Para pesaing seperti Perplexity memiliki mesin pencari AI berbasis teks, yang memiliki tempat di lanskap yang lebih luas, tetapi perlu diingat bahwa proposisi nilai inti kini telah diintegrasikan sebagai 'fitur' Gemini Flash v2.0.


Tujuan dan alasan keberadaan Perplexity AI telah diasumsikan dalam model AI sesungguhnya yang mampu memberikan kualitas dan kecepatan hasil yang sama dengan utilitas besar di area lain juga.


Fakta bahwa Google memiliki API Penelusuran milik sendiri sangat penting di sini. Mereka memiliki "Alat Asli", yang dibundel ke dalam API yang sama yang melayani model inferensi yang dapat menelusuri internet yang tersedia hanya dengan menambahkan beberapa teks ke panggilan API. Ah, tetapi OpenAI juga dapat melakukan itu, begitukah yang Anda katakan?


OpenAI tidak dapat bersaing. Pencarian mereka tidak asli (atau belum matang) dan itu penting. Itu benar-benar terlihat. Mereka memiliki "API Realtime", tetapi tidak berfungsi dengan baik dan terasa lebih lambat dan lebih banyak bug daripada implementasi Google Gemini Flash v2.0. Dalam waktu nyata, lebih dari domain lainnya, latensi adalah segalanya. Hasilnya bahkan tidak mendekati.

API OpenAI Realtime



Google benar-benar menjalankan permintaan pencarian SAAT model merespons dan memiliki infrastruktur untuk memberikan jawaban sebelum Anda membaca respons tersebut. Detail kecil ini mencakup milidetik penting yang mengubah pengalaman interaksi dari "Lipstik pada Babi" menjadi "kesepakatan yang sebenarnya".


Pencarian terpadu Google berfungsi, dan bekerja sangat sangat cepat.


Banyak sekali pembicaraan di dunia AI tentang tidak adanya satu orang pun yang memiliki parit.


Nah, Google baru saja mengisi parit raksasa dengan kegembiraan Natal dan menarik jembatan angkat.


Harga, Kecepatan, Kualitas… Pilih dua? Hmmmm…


Google menang dalam tiga hal.


Selamat Natal OpenAI.

2. Google vs Python Frameworks (Alur Agentik)

Namun, hal itu tidak berhenti di situ. Google telah mengubah permainan dalam hal alur Agentic. Carilah “AI Tools” di internet dan Anda akan menemukan banyak sekali kerangka kerja, repositori kode, dan proyek yang pada dasarnya melakukan hal yang sama.


Cari di Internet; Periksa.

Situs web Scape; periksa

Ubah ke penurunan harga; periksa.

Jalankan kode; periksa.

Ambil beberapa data pribadi; periksa.


Semua alat ini mengotomatiskan pencarian, pengambilan, dan eksekusi kode. https://python.langchain.com/docs/integrations/tools/


Masalahnya, Google baru saja mengintegrasikan ini ke dalam API mereka, satu titik akhir untuk menangani semua hal di atas. Sekarang, masalah ini pada dasarnya sudah terpecahkan.


Kita tidak lagi memerlukan alur agen yang rumit untuk banyak kasus penggunaan.


Diagram di bawah dari OpenAI menunjukkan cara kerja pemanggilan fungsi untuk Agen.


Pemanggilan fungsi OpenAI


Sampai saat ini, kami memiliki lingkungan eksekusi di luar GenAI API.


Google baru saja membangun sebagian besar fungsi itu ke dalam API inti yang dapat digunakan oleh pengembang.


Misalnya, jika saya ingin menggunakan Llama 3.3 untuk mencari di internet, saya dapat melakukan pemanggilan alat sebagai berikut.

Alur yang sama dengan Gemini Flash v2.0:



Kembali ke poin sebelumnya, Kecepatan, Kualitas, Biaya…


Google baru saja memilih ketiganya.


Hampir semua alat merupakan variasi dari pencarian, pengambilan (konversi ke markdown dan masukkan ke prompt) dan eksekusi kode arbitrer dengan sedikit data pribadi. Kecuali data (hampir pasti akan segera hadir…), ini sekarang menjadi perhatian utama, yang telah membuat banyak sistem Agentic menjadi usang sebelum diluncurkan.


Tidak akan lama lagi sebelum kita juga memiliki plugin asli untuk sumber data Google Anda (langkah logis berikutnya), di mana pada titik tersebut kecuali beberapa sistem AI berskala dan sangat kompleks yang langka, pada dasarnya semua kerangka kerja dan proses saat ini hanyalah implementasi berbelit-belit dari apa yang dapat dicapai dengan lebih baik, lebih cepat, dan lebih murah dalam satu panggilan API.


Relevansinya dari sudut pandang arsitektur adalah bahwa alih-alih membangun alur yang berantai dan rumit, saya dapat menyempurnakan satu model sederhana. Semuanya menjadi jauh lebih sederhana.


Selamat tinggal kerangka kerja Python. (jangan tetap berhubungan)


Meskipun saat ini kami tidak dapat melakukan semua yang kami butuhkan, batasannya telah ditetapkan dan "alat" akan menjadi perhatian utama, yang diintegrasikan ke dalam API oleh penyedia. Kami tidak perlu lagi membuat Agen sendiri, kami memiliki API yang andal, berskala, dan cepat untuk digunakan.

3. Pekerjaan Multi-Modal

Seperti saya, Anda mungkin sedikit kecewa dengan semua integrasi 'demo' multi-moda penggunaan Audio/Video. Saya ingat begitu bersemangat mencoba streaming audio (saya telah mengembangkan WebRTC selama bertahun-tahun dan di kehidupan sebelumnya mendirikan alat streaming video eCommerce).


Potensinya jelas, tetapi semuanya terasa tidak tepat. Sebagai contoh, kunjungi OpenAI playground dan cobalah API realtime mereka. API tersebut menunjukkan potensi, tetapi masih jauh dari pengalaman pengguna yang menyenangkan. Sebagian besar pengguna (dan saya telah berbicara dengan ratusan pengguna), hanya menginginkan pengalaman yang "berfungsi". Milidetik dan intonasi alami tersebut bukanlah detail, melainkan esensi produk itu sendiri.


Gemini Flash v2.0 adalah model pertama yang memberi saya momen "wow" yang saya alami saat pertama kali menggunakan Claude untuk membuat kode. Perasaan ini sama seperti saat pertama kali Anda bertanya kepada ChatGPT dengan skeptis dan "mesin" memberi Anda respons manusia.


Latensi, jeda, intonasi suara. Google telah MENYELESAIKANNYA. Ini jelas masih merupakan sistem AI, tetapi itu tidak pernah menjadi masalah. Masalahnya selalu pada jeda, interupsi, cara model berinteraksi dengan manusia.


Saya tidak keberatan berbicara dengan mesin, dengan asumsi mesin tersebut berpengetahuan, mampu berinteraksi, dan mampu melakukan hal-hal yang saya perlukan. Ini adalah 100% pertama kalinya saya benar-benar melihat model yang mampu memberikan pengalaman ini, dan konsekuensinya luar biasa.

Jika Anda tertarik dengan interaksi audio atau video dan sedikit skeptis terhadap model-model tersebut, cobalah Gemini Flash v2.0. Google jelas telah menginvestasikan waktu, upaya, dan sumber daya untuk memecahkan masalah tentang latensi dan biaya. Tidak ada model AI lain yang pernah saya coba yang mendekati itu.


Dan itu murah…


Dan itu bisa ditingkatkan skalanya…

Kesimpulan

Saya sama bersemangatnya seperti saat pertama kali saya meminta ChatGPT untuk menulis postingan di LinkedIn bertahun-tahun lalu. Pada tahap kehidupan dan keterlibatan saya dengan GenAI saat ini, hal itu tidak mudah.


Saya tidak menyangka momen ini akan datang secepat ini.


Kini kita memiliki realitas dengan model yang murah, cepat, dan berkemampuan tinggi yang dapat kita gunakan untuk berinteraksi secara real time.


Ini benar-benar pertama kalinya dalam hidup saya bahwa saya dapat berbicara dengan komputer, dan merasa bahwa komputer memahami saya, dapat menanggapi saya, dan mengambil tindakan atas nama saya. Ini bukan agen yang rumit, ini adalah panggilan API tunggal.


Ini adalah pencapaian teknis yang akan bergema di dunia AI, meskipun banyak yang belum menyadarinya.


Selain antarmuka dan interaksi alami, model tersebut mampu mencari di internet secara asli, mengeksekusi kode, dan memberi saya respons dalam waktu yang dibutuhkan untuk membentuk kalimat.


Ada mimpi yaitu UX dari Generative AI.


Pada bulan Desember 2024, hal itu menjadi kenyataan.


Baiklah, permisi, saya akan pergi membuat sesuatu.