Saya pikir OpenAI tidak jujur tentang berkurangnya keuntungan dari penskalaan AI dengan data dan komputasi saja. Saya pikir mereka juga membahayakan banyak hal dalam perekonomian, dunia, dan seluruh industri ini dengan tidak membicarakan topik ini secara lebih terbuka.
Awalnya, saya percaya apa yang mereka katakan kepada kami, bahwa yang perlu Anda lakukan hanyalah menambah daya komputasi dan data, dan LLM serta model lainnya akan menjadi lebih baik. Bahwa hubungan antara model, komputasi, dan data dapat tumbuh secara linear hingga akhir zaman. Lompatan dari GPT-3 dan GPT-3.5 sangat besar. Lompatan dari GPT-3.5 ke GPT-4 tampak seperti bukti nyata bahwa anggapan ini benar. Namun kemudian keadaan menjadi aneh.
Alih-alih merilis model yang disebut GPT-5 atau bahkan GPT-4.5, mereka merilis GPT-4-turbo. GPT-4-turbo tidak secerdas GPT-4 tetapi jauh lebih cepat dan lebih murah. Itu semua masuk akal. Namun, tren ini terus berlanjut.
Setelah GPT-4-turbo, rilis OpenAI berikutnya adalah GPT-4o (strawberry). GPt-4o kurang lebih sama cerdasnya dengan GPT-4-turbo, tetapi lebih cepat dan lebih murah. Namun, fungsionalitas yang benar-benar menarik bagi kami adalah kemampuannya untuk berbicara dan memahami berbagai hal melalui audio dan kecepatannya. Namun, perlu dicatat, pada titik ini dalam cerita kita, GPT-4-turbo tidak lebih cerdas daripada GPT-4 dan GPT-4o tidak lebih cerdas daripada GPT-4-turbo. Dan tidak ada satu pun dari keduanya yang lebih cerdas daripada GPT-4.
Rilisan terbaru mereka berikutnya adalah GPT-o1. GPT-o1 dapat bekerja lebih baik daripada GPT-4 pada beberapa tugas. Namun, hal itu karena o1 sebenarnya bukan model tunggal. GPT-o1 sebenarnya adalah kotak hitam dari beberapa model LLM ringan yang bekerja bersama. Mungkin o1 lebih tepat digambarkan sebagai perangkat lunak atau middleware daripada model yang sebenarnya. Anda memberinya pertanyaan, ia akan memberikan jawaban, lalu ia berulang kali menggunakan model lain yang bertugas memeriksa jawaban untuk memastikan jawabannya benar, dan ia menyamarkan semua operasi ini. Ia melakukan semua ini dengan sangat, sangat cepat.
Mengapa tidak membuat LLM yang lebih canggih dari GPT-4? Mengapa menggunakan teknik-teknik rahasia seperti itu untuk mendapatkan rilis baru? GPT-4 keluar 2 tahun yang lalu, kita seharusnya sudah jauh melampaui kemampuannya sekarang. Nah, Noam Brown, seorang peneliti di OpenAI, menyampaikan sesuatu tentang mengapa mereka menempuh rute ini dengan o1 di TED AI. Ia berkata, "Ternyata membuat bot berpikir hanya selama 20 detik dalam permainan poker menghasilkan peningkatan kinerja yang sama dengan meningkatkan model sebanyak 100.000 kali lipat dan melatihnya selama 100.000 kali lebih lama,"
Sekarang berhentilah sejenak dan pikirkan baik-baik apa yang dikatakan di sana. Bot yang berpikir selama 20 detik sama bagusnya dengan bot yang dilatih 100.000 kali lebih lama dengan daya komputasi 100.000 kali lebih banyak. Jika hukum penskalaan tidak terbatas, perhitungan itu tidak mungkin. Ada yang salah di sini atau seseorang berbohong.
Mengapa semua ini penting? OpenAI bernilai 150 miliar dolar dan mayoritas kapitalisasi pasar tersebut didasarkan pada proyeksi yang bergantung pada peningkatan model dari waktu ke waktu. Jika AI hanya sebagus saat ini, itu masih merupakan masa depan yang menarik, tetapi bukan itu yang dijual kepada investor oleh perusahaan AI yang seluruh IP-nya adalah model mereka. Itu juga mengubah peta jalan produk dari banyak perusahaan lain yang bergantung pada kemajuan berkelanjutan LLM mereka untuk membangun produk mereka sendiri. Sasaran dan ambisi OpenAI untuk AGI akan sangat tertunda jika semua ini benar.
Alasan mengapa LLM begitu menakjubkan adalah karena fenomena filosofis tingkat tinggi yang tidak pernah kita pertimbangkan, yaitu bahwa bahasa secara inheren memiliki konteks dan data yang sangat banyak tentang dunia bahkan dalam bagian teks yang kecil. Tidak seperti piksel dalam gambar atau video, kata-kata dalam kalimat secara implisit menggambarkan satu sama lain. Kalimat yang sepenuhnya kohesif menurut definisinya adalah "rasional". Benar atau tidaknya itu adalah cerita yang sangat berbeda dan masalah yang melampaui bahasa saja. Tidak peduli seberapa banyak teks yang Anda konsumsi, "kebenaran" dan "kepalsuan" bukanlah sekadar konsep linguistik. Anda dapat mengatakan sesuatu sepenuhnya rasional tetapi sama sekali tidak "benar". Pada titik inilah LLM akan secara konsisten menabrak tembok batu. Selama 12 bulan terakhir, saya ingin secara formal berspekulasi bahwa di balik pintu tertutup tidak ada lompatan besar dalam LLM di OpenAI, GrokAI, atau di Google. Untuk lebih spesifik, saya tidak berpikir siapa pun, di mana pun telah membuat LLM yang bahkan 1,5X lebih baik daripada GPT-4.
Di OpenAI, tampaknya staf tingkat tinggi mengundurkan diri. Saat ini mereka mengatakan hal itu karena alasan keselamatan, tetapi saya akan mengemukakan ide saya sekarang. Mereka menyadari masalah ini dan mereka akan segera mengundurkan diri sebelum terlambat.
Saya mulai mendiskusikan masalah ini dengan teman-teman 3 bulan yang lalu. Saya dimaki banyak orang haha.
Namun dalam 3 minggu terakhir, banyak pers mulai mencium sesuatu yang mencurigakan:
OpenAI tidak lagi merilis Orion (GPT-5) karena tidak memenuhi tolok ukur kinerja yang diharapkan dan hasilnya semakin berkurang. ( https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows )
Bloomberg melaporkan bahwa OpenAI, Google, dan Anthropic semuanya mengalami kesulitan dalam membuat AI yang lebih canggih. ( https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai )
Sulit untuk merekomendasikan satu solusi. Teknologi di balik o1 adalah bukti bahwa bahkan model berkinerja rendah dapat digunakan kembali untuk melakukan operasi yang rumit. Namun, itu bukanlah solusi untuk masalah penskalaan AI. Saya pikir perlu ada investasi besar dan pengujian cepat arsitektur model baru. Kami juga kehabisan data dan membutuhkan cara baru untuk mengekstrapolasi data yang dapat digunakan untuk pelatihan LLM. Mungkin menggunakan pelabelan multidimensi yang membantu memandu referensinya untuk informasi yang benar secara langsung. Ide bagus lainnya adalah dengan terus menyempurnakan LLM untuk kasus penggunaan tertentu seperti matematika, sains, dan perawatan kesehatan yang menjalankan dan menggunakan alur kerja agen AI, mirip dengan o1. Ini mungkin memberi banyak perusahaan ruang gerak hingga arsitektur baru muncul. Masalah ini benar-benar buruk, tetapi saya pikir kreativitas dalam pembelajaran mesin dan pengembangan perangkat lunak yang akan diilhaminya akan sangat besar. Setelah kita mengatasi rintangan ini, kita pasti akan tepat waktu untuk AGI dan mungkin ASI.