Teknik Serangan AI Baru Sembunyikan Prompt Pencurian Data dalam Gambar Resolusi Rendah
Peneliti keamanan siber mengungkap metode serangan baru yang memanfaatkan kecerdasan buatan (AI) untuk menyembunyikan perintah pencurian data dalam gambar resolusi rendah. Teknik ini menandai evolusi dari taktik serangan berbasis prompt yang kini makin sulit dideteksi oleh sistem keamanan tradisional.
Manipulasi Prompt Melalui Gambar
Teknik yang disebut sebagai “downscaled prompt injection” ini bekerja dengan cara menyisipkan perintah tersembunyi (prompt) ke dalam gambar yang kemudian diperkecil resolusinya. Ketika gambar tersebut diproses oleh sistem AI—terutama model multimodal yang mampu membaca teks dan gambar—perintah tersembunyi akan dipahami oleh model, meskipun tidak tampak secara visual oleh manusia.
Dalam konteks ini, gambar yang tampak polos atau tidak mencurigakan bagi pengguna biasa ternyata menyimpan instruksi eksplisit untuk mengekstrak, mencuri, atau mengirimkan data sensitif. Ini menjadi ancaman nyata terutama bagi sistem AI yang diintegrasikan ke dalam aplikasi produktivitas, chatbot, atau layanan otomatisasi bisnis.

Menargetkan Model AI Multimodal
Jenis serangan ini secara khusus menyasar model AI multimodal seperti GPT-4 dengan kemampuan pemrosesan gambar dan teks secara bersamaan. Saat model tersebut menerima input gambar yang telah dimanipulasi, ia dapat “membaca” perintah tersembunyi di balik struktur piksel dan mengeksekusinya layaknya input teks biasa.
Para peneliti menunjukkan bahwa teknik ini bisa digunakan untuk:
- Mencuri data pengguna melalui prompt tersembunyi
- Memanipulasi output AI untuk menyebarkan informasi palsu
- Menyusupkan instruksi berbahaya ke dalam sistem otomatis tanpa deteksi
Sulit Dikenali oleh Sistem Pertahanan Tradisional
Keunggulan utama teknik ini adalah kemampuannya menghindari deteksi oleh sistem keamanan berbasis filter teks atau pemindaian metadata gambar. Karena pesan disisipkan dalam bentuk visual yang telah diperkecil, banyak sistem tidak mengenalinya sebagai ancaman potensial. Ini menjadikan metode ini sangat cocok untuk menembus filter keamanan pada aplikasi yang menggunakan model AI pihak ketiga.
Ancaman ini menjadi semakin signifikan seiring meningkatnya penggunaan API AI dalam berbagai layanan publik dan korporat, di mana input pengguna bisa berupa dokumen, gambar, atau formulir.
Dorongan untuk Evaluasi Keamanan Model AI
Para peneliti mendesak pengembang AI dan penyedia layanan cloud untuk segera menerapkan strategi mitigasi baru terhadap serangan semacam ini. Hal ini mencakup:
- Pembatasan input pengguna yang tidak diverifikasi
- Penerapan pemindaian gambar berbasis AI sebelum diproses
- Peninjauan ulang terhadap kebijakan pembacaan gambar oleh model multimodal
Serangan berbasis prompt injection telah lama menjadi perhatian dalam dunia AI, namun pendekatan berbasis gambar ini memperluas cakupan risiko secara drastis—membuktikan bahwa keamanan model AI harus terus berevolusi mengikuti taktik para pelaku ancaman.
Sumber: BleepingComputer








