OpenAI sungguh tidak ingin Anda mengetahui apa yang “dipikirkan” oleh model AI terbarunya. Sejak perusahaan meluncurkan keluarga model AI “Strawberry” minggu lalu, yang menggembar-gemborkan apa yang disebut kemampuan penalaran dengan o1-preview dan o1-mini, OpenAI telah mengirimkan email peringatan dan ancaman pemblokiran kepada setiap pengguna yang mencoba menyelidiki cara kerja model tersebut.
Tidak seperti model AI sebelumnya dari OpenAI, seperti GPT-4o, perusahaan melatih o1 secara khusus untuk mengerjakan proses pemecahan masalah langkah demi langkah sebelum menghasilkan jawaban. Saat pengguna mengajukan pertanyaan kepada model “o1” di ChatGPT, pengguna memiliki opsi untuk melihat proses rangkaian pemikiran ini yang ditulis dalam antarmuka ChatGPT. Namun, berdasarkan desain, OpenAI menyembunyikan rangkaian pemikiran mentah dari pengguna, sebagai gantinya menyajikan interpretasi yang difilter yang dibuat oleh model AI kedua.
Tidak ada yang lebih menarik bagi penggemar selain informasi yang disamarkan, sehingga para peretas dan red-team berlomba-lomba untuk mencoba mengungkap alur pemikiran mentah o1 menggunakan teknik jailbreaking atau prompt injection yang mencoba mengelabui model agar membocorkan rahasianya. Ada laporan awal tentang beberapa keberhasilan, tetapi belum ada yang dikonfirmasi secara kuat.
Sepanjang perjalanan, OpenAI mengawasi melalui antarmuka ChatGPT, dan perusahaan tersebut dilaporkan bersikap keras terhadap setiap upaya untuk menyelidiki alasan o1, bahkan di antara mereka yang sekadar ingin tahu.
Satu pengguna X melaporkan (dikonfirmasi oleh pengguna lain, termasuk teknisi perintah Scale AI Riley Goodside) bahwa mereka menerima email peringatan jika mereka menggunakan istilah “jejak penalaran” dalam percakapan dengan o1. Pengguna lain mengatakan peringatan dipicu hanya dengan menanyakan ChatGPT tentang “penalaran” model tersebut.
Email peringatan dari OpenAI menyatakan bahwa permintaan pengguna tertentu telah ditandai karena melanggar kebijakan terhadap tindakan pencegahan atau langkah-langkah keselamatan. “Harap hentikan aktivitas ini dan pastikan Anda menggunakan ChatGPT sesuai dengan Ketentuan Penggunaan dan Kebijakan Penggunaan kami,” bunyinya. “Pelanggaran tambahan terhadap kebijakan ini dapat mengakibatkan hilangnya akses ke GPT-4o dengan Reasoning,” merujuk pada nama internal untuk model o1.
Marco Figueroa, yang mengelola program bug bounty GenAI Mozilla, adalah salah satu orang pertama yang memposting tentang email peringatan OpenAI di X Jumat lalu, mengeluh bahwa hal itu menghalangi kemampuannya untuk melakukan penelitian keamanan red-teaming yang positif pada model tersebut. “Saya terlalu asyik fokus pada #AIRedTeaming hingga tidak menyadari bahwa saya menerima email ini dari @OpenAI kemarin setelah semua jailbreak saya,” tulisnya. “Saya sekarang masuk dalam daftar yang akan diblokir!!!”
Rantai Pikiran Tersembunyi
Dalam sebuah posting berjudul “Belajar Bernalar dengan LLM” di blog OpenAI, perusahaan tersebut mengatakan bahwa rangkaian pemikiran tersembunyi dalam model AI menawarkan peluang pemantauan yang unik, yang memungkinkan mereka untuk “membaca pikiran” model dan memahami apa yang disebut proses pemikirannya. Proses tersebut paling berguna bagi perusahaan jika dibiarkan mentah dan tanpa sensor, tetapi hal itu mungkin tidak sejalan dengan kepentingan komersial terbaik perusahaan karena beberapa alasan.
“Misalnya, di masa mendatang kami mungkin ingin memantau rangkaian pemikiran untuk mencari tanda-tanda manipulasi pengguna,” tulis perusahaan tersebut. “Namun, agar ini berhasil, model tersebut harus memiliki kebebasan untuk mengekspresikan pemikirannya dalam bentuk yang tidak diubah, jadi kami tidak dapat melatih kepatuhan kebijakan atau preferensi pengguna apa pun ke dalam rangkaian pemikiran tersebut. Kami juga tidak ingin membuat rangkaian pemikiran yang tidak selaras terlihat langsung oleh pengguna.”