Apakah Celah Prompt Injection di Copilot Termasuk Kerentanan Keamanan atau Sekadar Batasan AI?

Microsoft menepis anggapan bahwa sejumlah temuan terkait prompt injection dan mekanisme sandbox pada asisten AI Copilot miliknya dapat dikategorikan sebagai kerentanan keamanan. Sikap ini memicu perdebatan di kalangan komunitas keamanan siber mengenai batas antara risiko keamanan nyata dan keterbatasan bawaan sistem kecerdasan buatan generatif.
Perbedaan pandangan tersebut mencerminkan jurang yang kian melebar antara cara vendor teknologi dan peneliti keamanan menilai serta mendefinisikan risiko pada sistem AI modern.
Temuan yang Diperdebatkan
Kontroversi bermula ketika seorang insinyur keamanan siber, John Russell, mengungkapkan bahwa ia menemukan empat celah pada Microsoft Copilot. Namun, laporan tersebut ditutup oleh Microsoft dengan alasan tidak memenuhi kriteria kerentanan yang dapat ditindaklanjuti.
Adapun isu-isu yang diangkat meliputi teknik prompt injection langsung maupun tidak langsung yang berujung pada kebocoran system prompt, pengelabuan kebijakan tipe unggahan file melalui encoding base64, serta kemungkinan eksekusi perintah di dalam lingkungan Linux terisolasi milik Copilot.
Salah satu temuan yang paling menarik perhatian adalah metode bypass pembatasan unggahan file. Dalam praktiknya, Copilot membatasi format file tertentu yang dianggap berisiko. Namun, pembatasan tersebut dapat dilewati dengan mengonversi file ke dalam bentuk teks base64, mengunggahnya sebagai file teks biasa, lalu mendekodekannya kembali di dalam sesi Copilot. Dengan cara ini, file hasil rekonstruksi tetap dapat dianalisis sistem meski secara teknis melanggar kebijakan awal.
Respons dan Pandangan Komunitas Keamanan
Unggahan Russell memicu diskusi panjang di komunitas keamanan. Sejumlah profesional mengakui bahwa temuan tersebut relevan dan mencerminkan risiko nyata. Salah satu praktisi bahkan menyebut pernah menyaksikan demonstrasi prompt injection yang disembunyikan di dalam dokumen Word, menyebabkan Copilot berperilaku tidak semestinya hingga mengunci akses pengguna.
Namun, tidak sedikit pula yang menilai bahwa kebocoran system prompt bukanlah sebuah kerentanan keamanan. Menurut pandangan ini, jalur eksploitasi tersebut sudah relatif dikenal dan sulit dihilangkan tanpa mengorbankan kegunaan sistem. Kelemahan tersebut dianggap sebagai cerminan keterbatasan model bahasa besar yang belum mampu memisahkan secara konsisten antara data dan instruksi.
Dalam konteks ini, prompt injection dipandang sebagai konsekuensi alami dari desain LLM, di mana instruksi tersembunyi masih dapat dimanipulasi melalui input tertentu. Dampaknya dapat berupa kebocoran informasi atau perilaku tak terduga, tetapi tidak selalu memenuhi definisi kerentanan keamanan tradisional.
Perbedaan Pendekatan dan Definisi Risiko
Russell berpendapat sebaliknya. Ia menilai bahwa masalah tersebut seharusnya dapat dicegah melalui validasi input yang lebih ketat, terlebih jika dibandingkan dengan asisten AI lain yang disebut mampu menolak metode serupa. Menurutnya, keberhasilan prompt injection menunjukkan adanya celah desain yang berpotensi dimanfaatkan.
System prompt sendiri merupakan instruksi tersembunyi yang mengatur perilaku AI. Jika dirancang secara kurang hati-hati dan memuat logika internal atau aturan sensitif, kebocorannya dapat membantu pihak tidak bertanggung jawab memahami dan mengeksploitasi sistem.
Proyek OWASP untuk GenAI mengambil posisi yang lebih moderat. Mereka menilai kebocoran system prompt hanya menjadi risiko keamanan apabila prompt tersebut mengandung data sensitif atau digunakan sebagai mekanisme kontrol keamanan. Dengan kata lain, risikonya bukan terletak pada terbongkarnya teks prompt semata, melainkan pada dampak lanjutan seperti pengungkapan informasi sensitif, pengelabuan guardrail, atau kegagalan pemisahan hak akses.
Sikap Resmi Microsoft
Microsoft menegaskan bahwa setiap laporan terkait AI dievaluasi berdasarkan kriteria penanganan kerentanan yang telah dipublikasikan. Menurut pernyataan resmi perusahaan, temuan-temuan tersebut dinilai berada di luar ruang lingkup karena tidak melintasi batas keamanan yang jelas, berdampak terbatas pada lingkungan eksekusi pengguna, atau hanya mengungkap informasi dengan hak rendah yang tidak dikategorikan sebagai kerentanan.
Bagi Microsoft, prompt injection dan perilaku sandbox seperti yang dilaporkan dianggap sebagai keterbatasan yang sudah diketahui, kecuali jika terbukti memungkinkan akses tidak sah atau eksfiltrasi data.
Kesimpulan
Perbedaan sudut pandang ini pada akhirnya berakar pada definisi dan perspektif risiko. Di satu sisi, peneliti melihat potensi bahaya yang dapat berkembang seiring adopsi AI di lingkungan enterprise. Di sisi lain, vendor menilai risiko tersebut sebagai bagian dari karakteristik sistem AI saat ini, selama tidak melanggar batas keamanan fundamental.
Seiring semakin luasnya penggunaan AI generatif di dunia korporasi, perdebatan mengenai apa yang layak disebut sebagai kerentanan keamanan kemungkinan besar akan terus berulang.








