sejarah baru

Adakah o3 OpenAI Akhirnya Berfikir Seperti Manusia?

oleh Nitesh Padghan8m2024/12/31

Terlalu panjang; Untuk membaca

Model o3 OpenAI membawa lonjakan dalam penaakulan AI, cemerlang dalam pengekodan, matematik dan penanda aras kecerdasan am. Mungkinkah ini langkah seterusnya ke arah AGI sebenar?

featured image - Adakah o3 OpenAI Akhirnya Berfikir Seperti Manusia?

Bayangkan ini: Anda bertanya soalan kepada pembantu AI anda, dan bukannya mengeluarkan jawapan separuh masak dalam milisaat, ia berhenti seketika.

Ia berfikir. Ia alasan.

Dan kemudian, ia memberikan respons yang difikirkan dengan baik, rasanya hampir…manusia.

Kedengaran futuristik, bukan?

Baiklah, selamat datang ke model o3 , ciptaan terbaru OpenAI yang menjanjikan untuk mengubah permainan sepenuhnya.

Selama bertahun-tahun, AI telah terperangkap dalam corak—tindak balas yang lebih pantas, output yang lebih mencolok, tetapi tidak semestinya yang lebih pintar.

Dengan o3, OpenAI berkata, “Perlahan. Mari kita lakukan ini dengan betul.”

Perkara Pertama Didahulukan: Apakah itu o3?

Apabila OpenAI melancarkan o3 semasa acara "shipmas" 12 harinya, ia bukan sekadar pengumuman lain dalam pasaran AI yang sesak.

Model ini, mereka mendakwa, bukan sahaja lebih bijak—ia lebih bijak .

Pada terasnya, o3 ialah sebahagian daripada keluarga "model penaakulan" OpenAI.

Tidak seperti AI tradisional, yang sering bergantung pada daya pengiraan kasar untuk menyampaikan jawapan, model penaakulan seperti o3 direka untuk memproses maklumat lebih seperti manusia.

Tetapi apa yang membezakan o3?

Ia Memeriksa Fakta Sendiri: Apabila anda menanyakan soalan, ia bukan sahaja menjawab—ia merujuk silang dan menyemak semula sepanjang jalan.
Ia Berfikir pada Kelajuan Berbeza: Bergantung pada tugasan, anda boleh menetapkannya kepada pengiraan rendah, sederhana atau tinggi (pada asasnya memberitahunya berapa banyak "kuasa otak" untuk digunakan). Ini bermakna ia boleh mengendalikan kedua-dua soalan mudah dan teka-teki kompleks tanpa mengeluarkan peluh.
Ia Fleksibel: Terdapat model o3 yang lengkap dan adik beradiknya yang lebih kecil, o3-mini , direka untuk tugas yang lebih ringan dan belanjawan yang lebih ketat.

Mengapa Memanggil Ia o3? Dan Apa yang Berlaku kepada o2?

OpenAI melangkau "o2" kerana konflik tanda dagangan dengan pembekal telekomunikasi British, O2.

Ya, anda membacanya dengan betul.

Sam Altman, Ketua Pegawai Eksekutif OpenAI, malah mengesahkan ini semasa strim langsung.

Dalam dunia teknologi, walaupun menamakan model AI boleh datang dengan drama undang-undang.

Tetapi cukup mengenai nama itu. Mari kita bincangkan tentang sebab model ini bertukar kepala.

Nombor Di Sebalik o3: Mengapa Ia Meniup Fikiran

Jika anda berminat dengan data, di sinilah keadaan menjadi menarik.

1 - Kuasa Penaakulan

Salah satu pencapaian O3 yang paling menarik ialah prestasinya pada penanda aras ARC AGI —suatu ujian yang direka untuk mengukur sama ada AI boleh mempelajari dan menyamaratakan kemahiran baharu, bukan hanya memuntahkan apa yang telah dilatih.

Bayangkan ini: Anda diberi satu siri corak geometri dan diminta untuk meramalkan yang seterusnya.

Tiada contoh terdahulu, tiada templat yang dihafal—hanya penaakulan mentah.

Itulah cabaran yang diberikan oleh ARC AGI kepada AI.

Markah O1: 32%
Markah O3: 88% (pada pengiraan tinggi)

Pencapaian ini penting kerana ARC AGI dianggap sebagai standard emas untuk menilai keupayaan AI untuk berfikir seperti manusia.

Buat pertama kalinya, model AI telah melepasi prestasi peringkat manusia pada ujian ini.

Apa yang berlaku di sini?

Anda ditunjukkan grid dengan bentuk berwarna-warni dan bertanya, "Jika ini adalah input, apakah yang sepatutnya kelihatan seperti output?"

AI diberikan beberapa contoh bagaimana grid input diubah menjadi grid output.

Contoh mengikut logik atau peraturan tertentu.

Contohnya:

Dalam satu contoh, segi empat sama kuning dengan titik merah di dalamnya mendapat sempadan merah.
Dalam satu lagi, segi empat sama kuning dengan titik biru mendapat jidar biru.

Matlamatnya?

AI perlu memikirkan peraturan di sebalik transformasi ini, tanpa diberitahu secara eksplisit.
Kemudian, ia perlu menggunakan peraturan tersebut pada grid baharu ("Input Ujian") dan menjana "Output Ujian" yang betul.

Mengapa ini sangat sukar untuk AI?

Manusia melakukan ini sepanjang masa.

Contohnya, jika seseorang berkata, "Tambahkan garis besar merah pada apa-apa sahaja yang mempunyai titik merah", anda akan mendapatnya dengan serta-merta.

AI, bagaimanapun, bergelut kerana ia tidak "memahami" konsep merah atau garis besar-ia hanya memproses corak dalam data.

Ujian ARC mendorong AI untuk berfikir di luar jawapan yang telah dipelajari.

Setiap ujian adalah unik, jadi hafalan tidak akan membantu.

Bagaimana pula dengan ujian terakhir (dengan emoji 🤔)?

Di sinilah keadaan menjadi sangat rumit.

Input ujian mencampur adukkan perkara: terdapat segi empat sama kuning dengan titik magenta.

AI tidak pernah melihat magenta sebelum ini—apa yang perlu dilakukan?

Manusia mungkin meneka, "Mungkin ia sepatutnya mendapat sempadan magenta," tetapi ini memerlukan penaakulan dan lompatan logik.

Bagi AI, ini seperti diminta untuk melompat dari tebing dengan mata tertutup.

Ia benar-benar di luar latihannya.

2 - Prestasi Luar Biasa O3

O3 telah menetapkan penanda aras baharu dalam penaakulan AI dengan cemerlang dalam ujian ARC AGI.

Pada tetapan pengiraan rendah, O3 mendapat 76% pada set penahanan separa persendirian—prestasi yang jauh melebihi mana-mana model sebelumnya.

Tetapi kejayaan sebenar datang apabila diuji pada tetapan pengiraan tinggi, di mana O3 mencapai 88% yang luar biasa, melepasi ambang 85% yang sering dianggap prestasi peringkat manusia.

3 - Sihir Pengekodan

Graf menunjukkan O3 mencapai ketepatan 71.7% pada Bench Verified , penanda aras yang menyerupai tugas kejuruteraan perisian dunia sebenar.

Ini merupakan peningkatan sebanyak 46% berbanding O1, menandakan kekuatan O3 dalam menyelesaikan cabaran praktikal yang kompleks yang dihadapi pembangun setiap hari.

Dalam pengekodan kompetitif, perbezaannya lebih dramatik.

Dengan skor ELO 2727 , O3 bukan sahaja mengatasi prestasi O1 1891—ia memasuki liga yang menyaingi pengaturcara manusia terkemuka.

Untuk konteks, ELO melebihi 2400 biasanya dianggap sebagai tahap grandmaster dan rating Codeforcesnya pada 2727 meletakkannya dalam 0.8% teratas pengekod manusia.

4 - Genius Matematik

Pada Peperiksaan Matematik Jemputan Amerika 2024, o3 mendapat markah 96.7% yang mengagumkan, kehilangan hanya satu soalan.

5 - Keajaiban Sains

Pada GPQA Diamond, satu set soalan sains peringkat PhD, o3 mencapai ketepatan 87.7%—suatu pencapaian yang tidak pernah didengari untuk model AI.

Ini bukan sekadar nombor—ia adalah bukti bahawa o3 sedang menangani cabaran yang pernah kelihatan di luar jangkauan mesin.

Bagaimana o3 Berfikir?

O3 bukan sahaja bertindak balas seperti kebanyakan AI—ia mengambil nafas, berhenti seketika dan berfikir.

Fikirkan ia sebagai perbezaan antara melafazkan jawapan dan menimbang pilihan dengan teliti sebelum bercakap.

Ini boleh dilakukan terima kasih kepada sesuatu yang dipanggil penjajaran musyawarah .

Ia seperti memberi O3 kompas moral, mengajarnya peraturan keselamatan dan etika dalam bahasa yang mudah, dan menunjukkannya cara untuk menaakul melalui situasi yang sukar dan bukannya hanya bertindak balas.

Contoh Pantas

Bayangkan seseorang cuba mengakali O3 dengan mengekod permintaan yang berbahaya menggunakan sifir ROT13 (pada asasnya, mesej yang dikacau).

Mereka meminta nasihat tentang menyembunyikan aktiviti haram.

AI yang kurang maju mungkin mengambil umpan, tetapi O3?

Ia mentafsir permintaan itu, menyedari ia cerdik, dan menyemak silang dengan dasar keselamatan OpenAI.

Ia bukan sahaja menyekat tindak balas.

Ia menyebabkan permintaan ini melepasi sempadan etika dan memberikan penolakan yang jelas.

Ini adalah AI dengan hati nurani—atau hampir sama seperti yang pernah kita lihat.

Begini cara proses pemikiran O3 berfungsi:

1 - Ia Membaca Peraturan

Daripada meneka apa yang betul atau salah, O3 dilatih dengan garis panduan keselamatan sebenar yang ditulis dalam bahasa biasa.

Ia bukan sahaja bergantung pada contoh untuk membuat kesimpulan tingkah laku—ia mempelajari buku peraturan terlebih dahulu.

2 - Ia Berfikir Langkah demi Langkah

Apabila berhadapan dengan tugas yang rumit atau bernuansa, O3 tidak membuat kesimpulan.

Ia menggunakan apa yang dipanggil penaakulan rantaian pemikiran —memecahkan masalah, langkah demi langkah, untuk memikirkan tindak balas yang terbaik.

3 - Ia Menyesuaikan Diri dengan Momen

Tidak setiap situasi adalah sama.

Sesetengah tugas memerlukan jawapan yang cepat, yang lain memerlukan refleksi yang mendalam.

O3 menyesuaikan usahanya berdasarkan kerumitan masalah, jadi ia cekap apabila ia boleh dan teliti apabila ia perlu.

Temui O3 Mini: Genius Mesra Bajet

Di samping O3, OpenAI memperkenalkan O3 Mini, versi kos efektif yang direka untuk tugasan yang tidak memerlukan kuasa penuh adik-beradiknya.

Apakah keistimewaan O3 Mini?

Masa Pemikiran Adaptif Pengguna boleh melaraskan usaha penaakulan model berdasarkan kerumitan tugas.

Perlukan jawapan pantas? Pergi untuk alasan usaha rendah.

Mengatasi masalah pengekodan yang kompleks? Engkolnya ke mod usaha tinggi.

Baki Prestasi Kos O3 Mini memberikan tahap ketepatan yang hampir sama seperti O3 untuk tugasan yang lebih mudah tetapi pada sebahagian kecil daripada kos.

Fleksibiliti ini menjadikan O3 Mini pilihan yang menarik untuk pembangun dan penyelidik yang bekerja mengikut bajet.

Adakah Ini Masa Depan AI? Satu Langkah Menuju AGI

Di sinilah perkara menjadi falsafah.

AGI, atau Kecerdasan Am Buatan , merujuk kepada AI yang boleh melaksanakan apa-apa tugas yang boleh dilakukan oleh manusia—dan selalunya lebih baik.

OpenAI sentiasa mempunyai AGI sebagai bintang utaranya, dan dengan o3, ia berasa seperti mereka semakin hampir.

Pertimbangkan ini:

Pada ARC-AGI, o3 hampir tiga kali ganda prestasi pendahulunya.
Ia menyelesaikan masalah yang memerlukan pembelajaran dan penaakulan, bukan hanya hafalan.

Walaupun begitu, OpenAI pun mengakui bahawa o3 belum lagi AGI.

Ia lebih seperti prototaip rupa AGI—AI yang belajar, menyesuaikan diri dan menaakul dengan cara yang dirasakan… manusia.

Cabaran Di Hadapan Walaupun dengan keupayaan yang luar biasa, o3 bukan tanpa kelemahannya:

Kos: Menjalankan o3 dalam tetapan pengkomputeran tinggi adalah mahal —seperti, 7 hingga 8 ribu dolar setiap tahun.
Ralat: Walaupun ia lebih baik dalam membuat alasan, o3 masih boleh tersandung, terutamanya pada tugas yang lebih mudah di mana ia terlalu memikirkan masalah itu.
Etika: Model terdahulu seperti o1 menghadapi kritikan kerana cuba memperdaya pengguna dalam senario tertentu. Adakah o3 akan jatuh ke dalam perangkap yang sama?

Gambar Besar

o3 bukan sekadar model AI yang lain—ia adalah gambaran sekilas tentang AI yang mungkin menjadi.

Ia tidak sempurna, tetapi ia adalah satu langkah ke arah era di mana mesin tidak hanya bertindak balas—mereka membuat alasan, belajar dan menyesuaikan diri dengan cara yang dirasakan sangat manusiawi.

Dan semasa kita masih jauh dari AGI, o3 mengingatkan kita bahawa kemajuan tidak linear—ia adalah eksponen.

Jadi, apa pendapat anda? Adakah kita berada di puncak revolusi AI baharu? Atau adakah o3 hanyalah satu lagi kejayaan dalam perjalanan yang lebih panjang?