Bulan lalu, Google Model AI GameNGen menunjukkan bahwa teknik difusi gambar umum dapat digunakan untuk menghasilkan versi yang dapat dimainkan dan dapat diterima. MalapetakaKini, para peneliti menggunakan beberapa teknik serupa dengan model yang disebut MarioVGG untuk melihat apakah AI dapat menghasilkan video yang masuk akal Super Mario Bros. sebagai tanggapan terhadap masukan pengguna.
Hasil model MarioVGG—tersedia sebagai makalah pracetak yang diterbitkan oleh perusahaan AI yang terkait dengan kripto, Virtuals Protocol—masih menunjukkan banyak gangguan yang nyata, dan terlalu lambat untuk apa pun yang mendekati permainan waktu nyata. Namun, hasilnya menunjukkan bagaimana bahkan model yang terbatas dapat menyimpulkan beberapa fisika dan dinamika permainan yang mengesankan hanya dari mempelajari sedikit video dan data masukan.
Para peneliti berharap ini merupakan langkah awal menuju “produksi dan demonstrasi generator permainan video yang andal dan terkendali” atau bahkan “penggantian pengembangan permainan dan mesin permainan sepenuhnya menggunakan model pembangkitan video” di masa mendatang.
Menonton 737.000 Frame Mario
Untuk melatih model mereka, para peneliti MarioVGG (pengguna GitHub erniechew dan Brian Lim terdaftar sebagai kontributor) memulai dengan kumpulan data publik Super Mario Bros. permainan yang berisi 280 “level” yang berisi data masukan dan gambar yang disusun untuk tujuan pembelajaran mesin (level 1-1 dihapus dari data pelatihan sehingga gambar dari level tersebut dapat digunakan dalam evaluasi). Lebih dari 737.000 bingkai individual dalam kumpulan data tersebut “diproses terlebih dahulu” menjadi potongan-potongan 35 bingkai sehingga model dapat mulai mempelajari seperti apa hasil langsung dari berbagai masukan secara umum.
Untuk “menyederhanakan situasi permainan,” para peneliti memutuskan untuk hanya berfokus pada dua masukan potensial dalam kumpulan data: “lari ke kanan” dan “lari ke kanan dan lompat.” Namun, rangkaian gerakan terbatas ini pun menghadirkan beberapa kesulitan bagi sistem pembelajaran mesin, karena praprosesor harus melihat ke belakang selama beberapa bingkai sebelum melompat untuk mengetahui apakah dan kapan “lari” dimulai. Setiap lompatan yang mencakup penyesuaian di udara (misalnya, tombol “kiri”) juga harus dibuang karena “ini akan menimbulkan gangguan pada kumpulan data pelatihan,” tulis para peneliti.
Setelah praproses (dan sekitar 48 jam pelatihan pada satu kartu grafis RTX 4090), para peneliti menggunakan proses konvolusi dan penghilangan derau standar untuk menghasilkan bingkai video baru dari gambar permainan awal yang statis dan input teks (baik “lari” atau “lompat” dalam kasus terbatas ini). Sementara rangkaian yang dihasilkan ini hanya berlangsung selama beberapa bingkai, bingkai terakhir dari satu rangkaian dapat digunakan sebagai bingkai pertama dari rangkaian baru, yang memungkinkan pembuatan video permainan dengan durasi berapa pun yang masih menunjukkan “permainan yang koheren dan konsisten,” menurut para peneliti.
Super Mario 0.5
Bahkan dengan semua pengaturan ini, MarioVGG tidak benar-benar menghasilkan video yang halus dan lembut yang tidak dapat dibedakan dari gim NES yang sebenarnya. Demi efisiensi, para peneliti menurunkan skala bingkai keluaran dari resolusi NES 256×240 ke 64×48 yang jauh lebih suram. Mereka juga memadatkan waktu video yang berisi 35 bingkai menjadi hanya tujuh bingkai yang dihasilkan yang didistribusikan “pada interval yang seragam,” menciptakan video “permainan” yang tampak jauh lebih kasar daripada keluaran gim yang sebenarnya.
Meskipun ada keterbatasan tersebut, model MarioVGG masih kesulitan untuk mendekati pembuatan video real-time, pada titik ini. RTX 4090 tunggal yang digunakan oleh para peneliti membutuhkan waktu enam detik penuh untuk menghasilkan rangkaian video enam bingkai, yang mewakili lebih dari setengah detik video, bahkan pada kecepatan bingkai yang sangat terbatas. Para peneliti mengakui bahwa ini “tidak praktis dan ramah untuk gim video interaktif” tetapi berharap bahwa pengoptimalan di masa mendatang dalam kuantisasi bobot (dan mungkin penggunaan lebih banyak sumber daya komputasi) dapat meningkatkan kecepatan ini.
Namun, dengan batasan tersebut, MarioVGG dapat membuat video Mario yang berlari dan melompat dari gambar awal yang statis, mirip dengan pembuat gim Genie milik Google. Model tersebut bahkan dapat “mempelajari fisika gim hanya dari bingkai video dalam data pelatihan tanpa aturan eksplisit yang dikodekan dengan keras,” tulis para peneliti. Ini termasuk menyimpulkan perilaku seperti Mario yang jatuh saat ia berlari dari tepi tebing (dengan gravitasi yang masuk akal) dan (biasanya) menghentikan gerakan maju Mario saat ia berada di dekat rintangan, tulis para peneliti.
Sementara MarioVGG difokuskan pada simulasi gerakan Mario, para peneliti menemukan bahwa sistem tersebut dapat secara efektif berhalusinasi tentang rintangan baru bagi Mario saat video bergulir melalui level yang dibayangkan. Rintangan-rintangan ini “koheren dengan bahasa grafis permainan,” tulis para peneliti, tetapi saat ini tidak dapat dipengaruhi oleh perintah pengguna (misalnya, menaruh sebuah lubang di depan Mario dan membuatnya melompati lubang tersebut).
Buatlah Saja
Namun, seperti semua model AI probabilistik, MarioVGG memiliki kecenderungan yang membuat frustrasi untuk terkadang memberikan hasil yang sama sekali tidak berguna. Terkadang itu berarti mengabaikan perintah masukan pengguna (“kami mengamati bahwa teks tindakan masukan tidak selalu dipatuhi,” tulis para peneliti). Di waktu lain, itu berarti berhalusinasi gangguan visual yang jelas: Mario terkadang mendarat di dalam rintangan, berlari melewati rintangan dan musuh, memancarkan warna yang berbeda, mengecil/membesar dari bingkai ke bingkai, atau menghilang sepenuhnya selama beberapa bingkai sebelum muncul kembali.
Salah satu video yang sangat tidak masuk akal yang dibagikan oleh para peneliti menunjukkan Mario jatuh melalui jembatan, menjadi Cheep-Cheep, lalu terbang kembali melalui jembatan dan berubah menjadi Mario lagi. Itulah hal yang kita harapkan dari Wonder Flower, bukan video AI dari yang asli. Super Mario Bros.
Para peneliti menduga bahwa berlatih lebih lama pada “data permainan yang lebih beragam” dapat membantu mengatasi masalah-masalah penting ini dan membantu model mereka mensimulasikan lebih dari sekadar berlari dan melompat tanpa henti ke kanan. Namun, MarioVGG tetap menjadi bukti konsep yang menyenangkan bahwa bahkan data pelatihan dan algoritme yang terbatas dapat menciptakan beberapa model awal permainan dasar yang layak.
Cerita ini awalnya muncul di Ars Technica.