Buka AI membuat terobosan besar terakhir dalam kecerdasan buatan dengan meningkatkan ukuran modelnya ke proporsi yang memusingkan, ketika memperkenalkan GPT-4 tahun lalu. Perusahaan hari ini mengumumkan kemajuan baru yang menandakan perubahan pendekatan—sebuah model yang dapat “bernalar” secara logis melalui banyak masalah sulit dan secara signifikan lebih cerdas daripada AI yang ada tanpa peningkatan skala besar.
Model baru yang dijuluki OpenAI o1 ini dapat memecahkan masalah yang membingungkan model AI yang ada, termasuk model OpenAI yang paling canggih saat ini, GPT-4o. Daripada memunculkan jawaban dalam satu langkah, seperti yang biasanya dilakukan model bahasa besar, model ini menalar masalah tersebut, berpikir lantang seperti yang dilakukan manusia, sebelum sampai pada hasil yang tepat.
“Inilah yang kami anggap sebagai paradigma baru dalam model-model ini,” Mira Murati, kepala bagian teknologi OpenAI, memberi tahu WIRED. “Model ini jauh lebih baik dalam menangani tugas-tugas penalaran yang sangat rumit.”
Model baru itu diberi nama kode Strawberry dalam OpenAI, dan bukan penerus GPT-4o melainkan pelengkapnya, kata perusahaan itu.
Murati mengatakan bahwa OpenAI saat ini tengah membangun model induk berikutnya, GPT-5, yang akan jauh lebih besar dari pendahulunya. Namun, meskipun perusahaan tersebut masih yakin bahwa skala akan membantu menghasilkan kemampuan baru dari AI, GPT-5 kemungkinan juga akan menyertakan teknologi penalaran yang diperkenalkan saat ini. “Ada dua paradigma,” kata Murati. “Paradigma penskalaan dan paradigma baru ini. Kami berharap dapat menyatukan keduanya.”
LLM biasanya memunculkan jawaban dari jaringan saraf besar yang diberi data pelatihan dalam jumlah besar. Mereka dapat menunjukkan kemampuan linguistik dan logika yang luar biasa, tetapi biasanya kesulitan dengan masalah yang sangat sederhana seperti soal matematika dasar yang melibatkan penalaran.
Murati mengatakan OpenAI o1 menggunakan pembelajaran penguatan, yang melibatkan pemberian umpan balik positif kepada model saat menjawab dengan benar dan umpan balik negatif saat tidak menjawab, untuk meningkatkan proses penalarannya. “Model tersebut mempertajam pemikirannya dan menyempurnakan strategi yang digunakannya untuk mendapatkan jawaban,” katanya. Pembelajaran penguatan telah memungkinkan komputer untuk memainkan permainan dengan keterampilan super dan melakukan tugas-tugas yang berguna seperti merancang chip komputer. Teknik ini juga merupakan bahan utama untuk mengubah LLM menjadi chatbot yang berguna dan berperilaku baik.
Mark Chen, wakil presiden penelitian di OpenAI, mendemonstrasikan model baru tersebut kepada WIRED, menggunakannya untuk memecahkan beberapa masalah yang tidak dapat dipecahkan oleh model sebelumnya, GPT-4o. Masalah tersebut meliputi pertanyaan kimia tingkat lanjut dan teka-teki matematika yang membingungkan berikut ini: “Seorang putri akan setua pangeran ketika sang putri dua kali lebih tua dari pangeran ketika usia sang putri adalah setengah dari jumlah usia mereka saat ini. Berapa usia pangeran dan putri?” (Jawaban yang benar adalah bahwa pangeran berusia 30 tahun, dan sang putri berusia 40 tahun).
“Itu [new] Model ini belajar untuk berpikir sendiri, bukannya mencoba meniru cara berpikir manusia,” seperti yang dilakukan LLM konvensional, kata Chen.
OpenAI mengatakan model barunya berkinerja jauh lebih baik pada sejumlah rangkaian soal, termasuk yang difokuskan pada pengodean, matematika, fisika, biologi, dan kimia. Pada American Invitational Mathematics Examination (AIME), sebuah ujian untuk siswa matematika, GPT-4o memecahkan rata-rata 12 persen soal sementara o1 menjawab 83 persen dengan benar, menurut perusahaan tersebut.