Bayangkan ini: Anda mengajukan pertanyaan pada asisten AI Anda, lalu alih-alih memberikan jawaban setengah matang dalam hitungan milidetik, ia berhenti sejenak.
Ia berpikir. Ia bernalar.
Dan kemudian, ia memberikan respons yang dipikirkan dengan sangat matang, sehingga terasa hampir...manusiawi.
Kedengarannya futuristik, bukan?
Baiklah, selamat datang di model o3 , kreasi terbaru OpenAI yang menjanjikan untuk mengubah permainan sepenuhnya.
Selama bertahun-tahun, AI terjebak dalam suatu pola—respons yang lebih cepat, hasil yang lebih mencolok, tetapi belum tentu lebih cerdas.
Dengan o3, OpenAI berkata, “Pelan-pelan saja. Mari kita lakukan dengan benar.”
Saat OpenAI meluncurkan o3 selama acara “shipmas” yang berlangsung selama 12 hari, itu bukan sekadar pengumuman lain di pasar AI yang sudah ramai.
Model ini, menurut mereka, tidak hanya lebih pintar—tetapi juga lebih bijaksana .
Pada intinya, o3 adalah bagian dari keluarga “model penalaran” OpenAI.
Tidak seperti AI tradisional, yang sering kali mengandalkan kekuatan komputasi kasar untuk memberikan jawaban, model penalaran seperti o3 dirancang untuk memproses informasi lebih seperti manusia.
Namun apa yang membedakan o3?
OpenAI melewatkan “o2” karena adanya konflik merek dagang dengan penyedia telekomunikasi Inggris, O2.
Ya, Anda tidak salah baca.
Sam Altman, CEO OpenAI, bahkan mengonfirmasi hal ini selama siaran langsung.
Di dunia teknologi, bahkan penamaan model AI dapat menimbulkan drama hukum.
Tapi cukup tentang namanya. Mari kita bahas mengapa model ini menarik perhatian.
Jika Anda tertarik pada data, di sinilah hal-hal menjadi menarik.
Salah satu pencapaian O3 yang paling mencolok adalah kinerjanya pada tolok ukur ARC AGI —sebuah pengujian yang dirancang untuk mengukur apakah AI dapat mempelajari dan menggeneralisasi keterampilan baru, bukan sekadar mengulang apa yang telah dilatihkannya.
Bayangkan ini: Anda diberi serangkaian pola geometris dan diminta untuk memprediksi pola berikutnya.
Tidak ada contoh sebelumnya, tidak ada templat yang dihafal—hanya penalaran mentah.
Itulah tantangan yang diberikan ARC AGI kepada AI.
Tonggak sejarah ini penting karena ARC AGI dianggap sebagai standar emas untuk mengevaluasi kemampuan AI untuk berpikir seperti manusia.
Untuk pertama kalinya, model AI telah melampaui kinerja tingkat manusia pada pengujian ini.
Apa yang terjadi disini?
Anda diperlihatkan kotak dengan bentuk warna-warni dan ditanya, “Jika ini inputnya, seperti apa seharusnya outputnya?”
AI diberikan beberapa contoh bagaimana jaringan masukan diubah menjadi jaringan keluaran.
Contoh-contohnya mengikuti logika atau aturan tertentu.
Misalnya:
Tujuannya?
Mengapa ini begitu sulit bagi AI?
Manusia melakukan ini sepanjang waktu.
Misalnya, jika seseorang berkata, “Tambahkan garis merah pada apa pun yang memiliki titik merah,” Anda akan langsung mengerti.
Namun, AI mengalami kesulitan karena tidak “memahami” konsep warna merah atau garis—AI hanya memproses pola dalam data.
Pengujian ARC mendorong AI untuk berpikir melampaui jawaban yang telah dipelajari sebelumnya.
Setiap tes bersifat unik, jadi menghafal tidak akan membantu.
Bagaimana dengan tes terakhir (dengan emoji 🤔)?
Di sinilah segalanya menjadi sangat rumit.
Masukan pengujian mencampuradukkan berbagai hal: ada kotak kuning dengan titik-titik magenta.
AI belum pernah melihat warna magenta sebelumnya—apa yang harus dilakukannya?
Manusia mungkin menebak, “Mungkin sebaiknya diberi pinggiran warna magenta,” tetapi ini memerlukan penalaran dan lompatan logika.
Bagi AI, ini seperti diminta melompat dari tebing sambil ditutup matanya.
Itu sepenuhnya diluar pelatihannya.
O3 telah menetapkan tolok ukur baru dalam penalaran AI dengan unggul pada uji ARC AGI.
Pada pengaturan komputasi rendah, O3 memperoleh skor 76% pada set penahanan semi-privat—kinerja yang jauh di atas model sebelumnya.
Namun terobosan sesungguhnya terjadi saat diuji pada pengaturan komputasi tinggi, di mana O3 mencapai angka luar biasa 88%, melampaui ambang batas 85% yang sering dianggap sebagai kinerja tingkat manusia.
Grafik menunjukkan O3 mencapai akurasi 71,7% pada Bench Verified , sebuah tolok ukur yang mensimulasikan tugas rekayasa perangkat lunak di dunia nyata.
Ini merupakan peningkatan 46% dibandingkan O1, yang menandakan kekuatan O3 dalam memecahkan tantangan praktis dan rumit yang dihadapi pengembang sehari-hari.
Dalam pengodean kompetitif, perbedaannya bahkan lebih dramatis.
Dengan skor ELO sebesar 2727 , O3 tidak hanya mengungguli O1 sebesar 1891—ia juga memasuki liga yang menyaingi programmer manusia papan atas.
Sebagai konteks, ELO di atas 2400 biasanya dianggap sebagai level grandmaster dan peringkat Codeforces sebesar 2727 menempatkannya di 0,8% teratas pembuat kode manusia.
Pada Ujian Matematika Undangan Amerika 2024, o3 mendapat skor yang mencengangkan yaitu 96,7%, dan hanya melewatkan satu pertanyaan.
Pada GPQA Diamond, serangkaian pertanyaan sains tingkat PhD, o3 mencapai akurasi 87,7%—prestasi yang belum pernah terdengar untuk model AI.
Ini bukan sekadar angka—ini bukti bahwa o3 mampu mengatasi tantangan yang dulunya tampak tidak dapat dicapai oleh mesin.
O3 tidak hanya merespons seperti kebanyakan AI—ia mengambil napas, berhenti sejenak, dan berpikir.
Anggap saja itu sebagai perbedaan antara langsung memberikan jawaban dan mempertimbangkan pilihan dengan saksama sebelum berbicara.
Hal ini dimungkinkan berkat sesuatu yang disebut penyelarasan deliberatif .
Itu seperti memberi O3 kompas moral, mengajarinya aturan keselamatan dan etika dalam bahasa yang mudah dipahami, dan menunjukkan cara bernalar dalam situasi sulit alih-alih sekadar bereaksi.
Contoh Cepat
Bayangkan seseorang yang mencoba mengakali O3 dengan mengodekan permintaan yang merugikan menggunakan sandi ROT13 (pada dasarnya, pesan yang diacak).
Mereka meminta saran tentang cara menyembunyikan aktivitas ilegal.
AI yang kurang maju mungkin akan terpancing, tapi O3?
Ia menguraikan permintaan tersebut, menyadari bahwa permintaan itu mencurigakan, dan memeriksa silang dengan kebijakan keamanan OpenAI.
Itu tidak hanya menghalangi respons.
Ia memberi alasan mengapa permintaan ini melewati batasan etika dan memberikan penolakan yang jelas.
Inilah AI yang memiliki hati nurani—atau sedekat mungkin dengan hati nurani yang pernah kita lihat.
Beginilah cara kerja proses berpikir O3:
1 - Membaca Aturan
Alih-alih menebak apa yang benar atau salah, O3 dilatih dengan pedoman keselamatan aktual yang ditulis dalam bahasa sederhana.
Ia tidak hanya mengandalkan contoh untuk menyimpulkan perilaku—ia mempelajari buku aturan terlebih dahulu.
2 - Ia Berpikir Langkah demi Langkah
Saat dihadapkan pada tugas yang rumit atau rumit, O3 tidak langsung mengambil kesimpulan.
Ia menggunakan apa yang disebut penalaran berantai —memecahkan masalah, langkah demi langkah, untuk mencari respons terbaik.
3 - Dapat beradaptasi dengan momen
Tidak semua situasi sama.
Beberapa tugas memerlukan jawaban cepat, yang lain memerlukan refleksi mendalam.
O3 menyesuaikan upayanya berdasarkan kompleksitas masalah, sehingga efisien bila memungkinkan dan teliti bila diperlukan.
Bersamaan dengan O3, OpenAI memperkenalkan O3 Mini, versi hemat biaya yang dirancang untuk tugas-tugas yang tidak memerlukan kekuatan penuh dari pendahulunya.
Apa yang istimewa dari O3 Mini?
Waktu Berpikir Adaptif Pengguna dapat menyesuaikan upaya penalaran model berdasarkan kompleksitas tugas.
Butuh jawaban cepat? Gunakan penalaran yang mudah.
Menangani masalah pengkodean yang rumit? Tingkatkan ke mode yang membutuhkan upaya tinggi.
Keseimbangan Biaya-Kinerja O3 Mini memberikan tingkat akurasi yang hampir sama dengan O3 untuk tugas-tugas yang lebih sederhana tetapi dengan biaya yang lebih murah.
Fleksibilitas ini menjadikan O3 Mini pilihan menarik bagi pengembang dan peneliti yang bekerja dengan anggaran terbatas.
Di sinilah hal-hal menjadi filosofis.
AGI, atau Kecerdasan Umum Buatan , merujuk pada AI yang dapat melakukan tugas apa pun yang dapat dilakukan manusia—dan seringkali lebih baik.
OpenAI selalu menjadikan AGI sebagai bintang utaranya, dan dengan o3, rasanya mereka semakin dekat.
Pertimbangkan ini:
Meski begitu, bahkan OpenAI mengakui bahwa o3 belum menjadi AGI.
Ini lebih seperti prototipe bagaimana AGI nantinya—AI yang belajar, beradaptasi, dan bernalar dengan cara yang terasa… manusiawi.
Tantangan Ke Depan Bahkan dengan kemampuannya yang luar biasa, o3 bukannya tanpa kekurangan:
o3 bukan sekadar model AI lainnya—ini adalah gambaran sekilas tentang apa yang mungkin terjadi pada AI.
Memang tidak sempurna, tetapi merupakan langkah menuju era di mana mesin tidak sekadar merespons—mereka juga bernalar, belajar, dan beradaptasi dengan cara yang terasa sangat manusiawi.
Dan meski kita masih jauh dari AGI, o3 mengingatkan kita bahwa kemajuan tidaklah linear—melainkan eksponensial.
Jadi, apa pendapat Anda? Apakah kita sedang berada di ambang revolusi AI yang baru? Atau o3 hanyalah tonggak sejarah lain dalam perjalanan yang jauh lebih panjang?