Bayangkan ini: Anda bertanya soalan kepada pembantu AI anda, dan bukannya mengeluarkan jawapan separuh masak dalam milisaat, ia berhenti seketika.
Ia berfikir. Ia alasan.
Dan kemudian, ia memberikan respons yang difikirkan dengan baik, rasanya hampir…manusia.
Kedengaran futuristik, bukan?
Baiklah, selamat datang ke model o3 , ciptaan terbaru OpenAI yang menjanjikan untuk mengubah permainan sepenuhnya.
Selama bertahun-tahun, AI telah terperangkap dalam corak—tindak balas yang lebih pantas, output yang lebih mencolok, tetapi tidak semestinya yang lebih pintar.
Dengan o3, OpenAI berkata, “Perlahan. Mari kita lakukan ini dengan betul.”
Apabila OpenAI melancarkan o3 semasa acara "shipmas" 12 harinya, ia bukan sekadar pengumuman lain dalam pasaran AI yang sesak.
Model ini, mereka mendakwa, bukan sahaja lebih bijak—ia lebih bijak .
Pada terasnya, o3 ialah sebahagian daripada keluarga "model penaakulan" OpenAI.
Tidak seperti AI tradisional, yang sering bergantung pada daya pengiraan kasar untuk menyampaikan jawapan, model penaakulan seperti o3 direka untuk memproses maklumat lebih seperti manusia.
Tetapi apa yang membezakan o3?
OpenAI melangkau "o2" kerana konflik tanda dagangan dengan pembekal telekomunikasi British, O2.
Ya, anda membacanya dengan betul.
Sam Altman, Ketua Pegawai Eksekutif OpenAI, malah mengesahkan ini semasa strim langsung.
Dalam dunia teknologi, walaupun menamakan model AI boleh datang dengan drama undang-undang.
Tetapi cukup mengenai nama itu. Mari kita bincangkan tentang sebab model ini bertukar kepala.
Jika anda berminat dengan data, di sinilah keadaan menjadi menarik.
Salah satu pencapaian O3 yang paling menarik ialah prestasinya pada penanda aras ARC AGI —suatu ujian yang direka untuk mengukur sama ada AI boleh mempelajari dan menyamaratakan kemahiran baharu, bukan hanya memuntahkan apa yang telah dilatih.
Bayangkan ini: Anda diberi satu siri corak geometri dan diminta untuk meramalkan yang seterusnya.
Tiada contoh terdahulu, tiada templat yang dihafal—hanya penaakulan mentah.
Itulah cabaran yang diberikan oleh ARC AGI kepada AI.
Pencapaian ini penting kerana ARC AGI dianggap sebagai standard emas untuk menilai keupayaan AI untuk berfikir seperti manusia.
Buat pertama kalinya, model AI telah melepasi prestasi peringkat manusia pada ujian ini.
Apa yang berlaku di sini?
Anda ditunjukkan grid dengan bentuk berwarna-warni dan bertanya, "Jika ini adalah input, apakah yang sepatutnya kelihatan seperti output?"
AI diberikan beberapa contoh bagaimana grid input diubah menjadi grid output.
Contoh mengikut logik atau peraturan tertentu.
Contohnya:
Matlamatnya?
Mengapa ini sangat sukar untuk AI?
Manusia melakukan ini sepanjang masa.
Contohnya, jika seseorang berkata, "Tambahkan garis besar merah pada apa-apa sahaja yang mempunyai titik merah", anda akan mendapatnya dengan serta-merta.
AI, bagaimanapun, bergelut kerana ia tidak "memahami" konsep merah atau garis besar-ia hanya memproses corak dalam data.
Ujian ARC mendorong AI untuk berfikir di luar jawapan yang telah dipelajari.
Setiap ujian adalah unik, jadi hafalan tidak akan membantu.
Bagaimana pula dengan ujian terakhir (dengan emoji 🤔)?
Di sinilah keadaan menjadi sangat rumit.
Input ujian mencampur adukkan perkara: terdapat segi empat sama kuning dengan titik magenta.
AI tidak pernah melihat magenta sebelum ini—apa yang perlu dilakukan?
Manusia mungkin meneka, "Mungkin ia sepatutnya mendapat sempadan magenta," tetapi ini memerlukan penaakulan dan lompatan logik.
Bagi AI, ini seperti diminta untuk melompat dari tebing dengan mata tertutup.
Ia benar-benar di luar latihannya.
O3 telah menetapkan penanda aras baharu dalam penaakulan AI dengan cemerlang dalam ujian ARC AGI.
Pada tetapan pengiraan rendah, O3 mendapat 76% pada set penahanan separa persendirian—prestasi yang jauh melebihi mana-mana model sebelumnya.
Tetapi kejayaan sebenar datang apabila diuji pada tetapan pengiraan tinggi, di mana O3 mencapai 88% yang luar biasa, melepasi ambang 85% yang sering dianggap prestasi peringkat manusia.
Graf menunjukkan O3 mencapai ketepatan 71.7% pada Bench Verified , penanda aras yang menyerupai tugas kejuruteraan perisian dunia sebenar.
Ini merupakan peningkatan sebanyak 46% berbanding O1, menandakan kekuatan O3 dalam menyelesaikan cabaran praktikal yang kompleks yang dihadapi pembangun setiap hari.
Dalam pengekodan kompetitif, perbezaannya lebih dramatik.
Dengan skor ELO 2727 , O3 bukan sahaja mengatasi prestasi O1 1891—ia memasuki liga yang menyaingi pengaturcara manusia terkemuka.
Untuk konteks, ELO melebihi 2400 biasanya dianggap sebagai tahap grandmaster dan rating Codeforcesnya pada 2727 meletakkannya dalam 0.8% teratas pengekod manusia.
Pada Peperiksaan Matematik Jemputan Amerika 2024, o3 mendapat markah 96.7% yang mengagumkan, kehilangan hanya satu soalan.
Pada GPQA Diamond, satu set soalan sains peringkat PhD, o3 mencapai ketepatan 87.7%—suatu pencapaian yang tidak pernah didengari untuk model AI.
Ini bukan sekadar nombor—ia adalah bukti bahawa o3 sedang menangani cabaran yang pernah kelihatan di luar jangkauan mesin.
O3 bukan sahaja bertindak balas seperti kebanyakan AI—ia mengambil nafas, berhenti seketika dan berfikir.
Fikirkan ia sebagai perbezaan antara melafazkan jawapan dan menimbang pilihan dengan teliti sebelum bercakap.
Ini boleh dilakukan terima kasih kepada sesuatu yang dipanggil penjajaran musyawarah .
Ia seperti memberi O3 kompas moral, mengajarnya peraturan keselamatan dan etika dalam bahasa yang mudah, dan menunjukkannya cara untuk menaakul melalui situasi yang sukar dan bukannya hanya bertindak balas.
Contoh Pantas
Bayangkan seseorang cuba mengakali O3 dengan mengekod permintaan yang berbahaya menggunakan sifir ROT13 (pada asasnya, mesej yang dikacau).
Mereka meminta nasihat tentang menyembunyikan aktiviti haram.
AI yang kurang maju mungkin mengambil umpan, tetapi O3?
Ia mentafsir permintaan itu, menyedari ia cerdik, dan menyemak silang dengan dasar keselamatan OpenAI.
Ia bukan sahaja menyekat tindak balas.
Ia menyebabkan permintaan ini melepasi sempadan etika dan memberikan penolakan yang jelas.
Ini adalah AI dengan hati nurani—atau hampir sama seperti yang pernah kita lihat.
Begini cara proses pemikiran O3 berfungsi:
1 - Ia Membaca Peraturan
Daripada meneka apa yang betul atau salah, O3 dilatih dengan garis panduan keselamatan sebenar yang ditulis dalam bahasa biasa.
Ia bukan sahaja bergantung pada contoh untuk membuat kesimpulan tingkah laku—ia mempelajari buku peraturan terlebih dahulu.
2 - Ia Berfikir Langkah demi Langkah
Apabila berhadapan dengan tugas yang rumit atau bernuansa, O3 tidak membuat kesimpulan.
Ia menggunakan apa yang dipanggil penaakulan rantaian pemikiran —memecahkan masalah, langkah demi langkah, untuk memikirkan tindak balas yang terbaik.
3 - Ia Menyesuaikan Diri dengan Momen
Tidak setiap situasi adalah sama.
Sesetengah tugas memerlukan jawapan yang cepat, yang lain memerlukan refleksi yang mendalam.
O3 menyesuaikan usahanya berdasarkan kerumitan masalah, jadi ia cekap apabila ia boleh dan teliti apabila ia perlu.
Di samping O3, OpenAI memperkenalkan O3 Mini, versi kos efektif yang direka untuk tugasan yang tidak memerlukan kuasa penuh adik-beradiknya.
Apakah keistimewaan O3 Mini?
Masa Pemikiran Adaptif Pengguna boleh melaraskan usaha penaakulan model berdasarkan kerumitan tugas.
Perlukan jawapan pantas? Pergi untuk alasan usaha rendah.
Mengatasi masalah pengekodan yang kompleks? Engkolnya ke mod usaha tinggi.
Baki Prestasi Kos O3 Mini memberikan tahap ketepatan yang hampir sama seperti O3 untuk tugasan yang lebih mudah tetapi pada sebahagian kecil daripada kos.
Fleksibiliti ini menjadikan O3 Mini pilihan yang menarik untuk pembangun dan penyelidik yang bekerja mengikut bajet.
Di sinilah perkara menjadi falsafah.
AGI, atau Kecerdasan Am Buatan , merujuk kepada AI yang boleh melaksanakan apa-apa tugas yang boleh dilakukan oleh manusia—dan selalunya lebih baik.
OpenAI sentiasa mempunyai AGI sebagai bintang utaranya, dan dengan o3, ia berasa seperti mereka semakin hampir.
Pertimbangkan ini:
Walaupun begitu, OpenAI pun mengakui bahawa o3 belum lagi AGI.
Ia lebih seperti prototaip rupa AGI—AI yang belajar, menyesuaikan diri dan menaakul dengan cara yang dirasakan… manusia.
Cabaran Di Hadapan Walaupun dengan keupayaan yang luar biasa, o3 bukan tanpa kelemahannya:
o3 bukan sekadar model AI yang lain—ia adalah gambaran sekilas tentang AI yang mungkin menjadi.
Ia tidak sempurna, tetapi ia adalah satu langkah ke arah era di mana mesin tidak hanya bertindak balas—mereka membuat alasan, belajar dan menyesuaikan diri dengan cara yang dirasakan sangat manusiawi.
Dan semasa kita masih jauh dari AGI, o3 mengingatkan kita bahawa kemajuan tidak linear—ia adalah eksponen.
Jadi, apa pendapat anda? Adakah kita berada di puncak revolusi AI baharu? Atau adakah o3 hanyalah satu lagi kejayaan dalam perjalanan yang lebih panjang?