Google Gemini 3 Tunjukkan Performa Mengagumkan, Mampu Menciptakan Game dalam Satu Prompt

Google resmi merilis Gemini 3, dan hasil awalnya menunjukkan lompatan besar dalam kemampuan model AI, terutama dalam tugas-tugas kompleks seperti pembuatan game sederhana hanya dengan satu prompt. Model Gemini 3 Pro tampil impresif di berbagai benchmark dan pengujian dunia nyata, menunjukkan bahwa hype seputarnya bukan sekadar janji marketing.
Mendominasi Benchmark dan Uji Kemampuan
Gemini 3 Pro langsung mencatatkan skor tinggi pada beberapa tolok ukur utama:
- LMArena Leaderboard: 1501 Elo
- Humanity’s Last Exam: 37,5% (tanpa alat bantu)
- GPQA Diamond: 91,9%
- MMMU-Pro: 81%
- Video-MMMU: 87,6%
- SimpleQA Verified: 72,1% (rekor baru akurasi fakta)
Dengan skor-skor tersebut, Google mengklaim Gemini 3 Pro mampu menyelesaikan persoalan ilmiah dan matematis tingkat tinggi dengan keandalan yang jauh lebih baik dibanding generasi sebelumnya.
Demonstrasi Dunia Nyata: Game Selesai dalam Satu Prompt
Pietro Schirano, kreator MagicPath, ikut menguji kemampuan Gemini 3 Pro dalam pembuatan game. Hasilnya mengejutkan: model ini berhasil membangun editor 3D berbasis LEGO dalam satu prompt, lengkap dengan fungsi dasar yang diperlukan.
Biasanya, model bahasa besar kesulitan menangani struktur kode rumit atau lingkungan game, tetapi Gemini 3 menunjukkan peningkatan signifikan dalam:
- Pemahaman struktur game
- Penulisan kode berkelanjutan
- Konsistensi eksekusi perintah
- Pemrosesan multimodal (visual + tekstual)
Inilah yang membuat komunitas developer menyebut Gemini 3 sebagai awal era baru dalam AI-assisted coding.
Kinerja Multimodal Semakin Mapan
Kemampuan Gemini 3 tidak hanya bertumpu pada pembuatan kode. Model ini menunjukkan performa kuat pada pemahaman visual dan video, diperlihatkan lewat pencapaian tinggi pada benchmark multimodal. Google menyebut bahwa Gemini 3 kini menghadirkan reasoning yang jauh lebih konsisten dan stabil untuk tugas lintas format.
Kekurangan: Adherence Masih Jadi Tantangan
Meski unggul di banyak sisi, Gemini 3 masih kalah dalam hal adherence—kemampuan mengikuti instruksi secara ketat—dibanding Claude Code Sonnet 4.5, model yang dikenal stabil untuk CLI dan coding yang presisi.
Dalam pengujian praktis:
- Claude Code lebih unggul dalam mengikuti perintah secara presisi
- Gemini 3 lebih baik untuk tugas kompleks, analisis, simulasi, multimodal, dan eksplorasi ide
- Untuk tugas sehari-hari atau coding detail, Sonnet 4.5 tetap pilihan lebih aman
Artinya, kedua model memiliki keunggulan masing-masing, dan pengguna bisa memilih berdasarkan kebutuhan.
Rekomendasi untuk Pengguna LLM
- Gunakan Claude Sonnet 4.5 untuk tugas reguler, CLI, atau coding yang sangat presisi
- Gunakan Gemini 3 Pro untuk persoalan teknis berat, eksperimen kreatif, game prototyping, sains, matematika, atau multimodal tingkat lanjut
- Jika Anda naik dari Gemini 2.5 Pro, peningkatan Gemini 3 sangat terasa



