Demo agen AI mungkin tampak menakjubkan, namun membuat teknologi bekerja dengan andal dan tanpa kesalahan yang mengganggu (atau merugikan) dalam kehidupan nyata dapat menjadi sebuah tantangan. Model saat ini dapat menjawab pertanyaan dan berkomunikasi dengan keterampilan yang hampir mirip manusia, dan merupakan tulang punggung chatbot seperti ChatGPT OpenAI dan Gemini Google. Mereka juga dapat melakukan tugas di komputer ketika diberi perintah sederhana dengan mengakses layar komputer serta perangkat input seperti keyboard dan trackpad, atau melalui antarmuka perangkat lunak tingkat rendah.
Anthropic mengatakan bahwa Claude mengungguli agen AI lainnya pada beberapa tolok ukur utama termasuk SWE-bench, yang mengukur keterampilan pengembangan perangkat lunak seorang agen, dan OSWorld, yang mengukur kapasitas agen dalam menggunakan sistem operasi komputer. Klaim tersebut belum diverifikasi secara independen. Anthropic mengatakan Claude melakukan tugas di OSWorld dengan benar 14,9 persen. Angka ini jauh di bawah manusia, yang umumnya mendapat skor sekitar 75 persen, namun jauh lebih tinggi dibandingkan agen terbaik saat ini—termasuk GPT-4 OpenAI—yang berhasil mencapai angka sekitar 7,7 persen.
Anthropic mengklaim bahwa beberapa perusahaan sudah menguji Claude versi agen. Ini termasuk Canva, yang menggunakannya untuk mengotomatiskan tugas desain dan pengeditan, dan Replit, yang menggunakan model untuk mengkodekan tugas-tugas. Pengguna awal lainnya termasuk The Browser Company, Asana, dan Notion.
Ofir Press, peneliti postdoctoral di Universitas Princeton yang membantu mengembangkan SWE-bench, mengatakan bahwa AI agen cenderung kurang memiliki kemampuan untuk membuat rencana jauh ke depan dan sering kesulitan untuk pulih dari kesalahan. “Untuk menunjukkan manfaatnya, kita harus memperoleh kinerja yang kuat berdasarkan tolok ukur yang kuat dan realistis,” katanya, seperti merencanakan berbagai perjalanan dengan andal bagi pengguna dan memesan semua tiket yang diperlukan.
Kaplan mencatat bahwa Claude sudah dapat memecahkan beberapa kesalahan dengan sangat baik. Ketika dihadapkan pada kesalahan terminal saat mencoba memulai server web, misalnya, model mengetahui cara merevisi perintahnya untuk memperbaikinya. Ternyata ia harus mengaktifkan popup ketika menemui jalan buntu saat menjelajahi web.
Banyak perusahaan teknologi kini berlomba mengembangkan agen AI untuk mengejar pangsa pasar dan keunggulan. Faktanya, mungkin tidak lama lagi banyak pengguna akan memiliki agen di ujung jari mereka. Microsoft, yang telah menggelontorkan lebih dari $13 miliar untuk OpenAI, mengatakan pihaknya sedang menguji agen yang dapat menggunakan komputer Windows. Amazon, yang telah banyak berinvestasi di Anthropic, sedang menjajaki bagaimana agen dapat merekomendasikan dan akhirnya membeli barang untuk pelanggannya.
Sonya Huang, partner di perusahaan ventura Sequoia yang berfokus pada perusahaan AI, mengatakan meskipun banyak kegembiraan seputar agen AI, sebagian besar perusahaan sebenarnya hanya melakukan rebranding pada alat yang didukung AI. Berbicara kepada WIRED sebelum berita Anthropic, dia mengatakan bahwa teknologi saat ini bekerja paling baik ketika diterapkan dalam domain sempit seperti pekerjaan yang berhubungan dengan pengkodean. “Anda perlu memilih ruang masalah dimana jika modelnya gagal, tidak apa-apa,” katanya. “Itu adalah ruang masalah di mana perusahaan agen asli akan muncul.”
Tantangan utama AI agen adalah bahwa kesalahan bisa jauh lebih bermasalah dibandingkan balasan chatbot yang kacau. Anthropic telah menerapkan batasan tertentu pada apa yang dapat dilakukan Claude—misalnya, membatasi kemampuannya menggunakan kartu kredit seseorang untuk membeli barang.
Jika kesalahan dapat dihindari dengan baik, kata Press dari Universitas Princeton, pengguna mungkin akan belajar melihat AI—dan komputer—dengan cara yang benar-benar baru. “Saya sangat gembira dengan era baru ini,” katanya.