
GeForce RTX 5090 dan RTX 6000 PRO, dua GPU kelas atas NVIDIA, dilaporkan mengalami bug serius saat digunakan dalam skenario virtualisasi. Menurut pengembang CloudRift, yang sedang membangun GPU cloud untuk developer AI, bug ini membuat GPU benar-benar tidak responsif setelah beberapa hari atau minggu penggunaan intensif.
Masalah ini tidak muncul di GPU lain seperti H100, B200, atau bahkan RTX 4090—hanya SKU consumer high-end (RTX 5090) dan ProViz (RTX 6000 PRO) yang terdampak.
Detail Teknis Bug
Bug ini berkaitan dengan proses PCIe Function-Level Reset (FLR) yang dilakukan saat GPU dilepas atau dipindahkan antar virtual machine dengan KVM + VFIO.
Alih-alih kembali online setelah reset, GPU menjadi tidak responsif dan kernel menampilkan pesan error:
not ready 65535ms after FLR; giving up
Dengan kata lain, satu-satunya titik kegagalan berasal dari GPU itu sendiri.
CloudRift bahkan menawarkan bug bounty sebesar $1.000 bagi siapa pun yang bisa menemukan solusi permanen.
Respons NVIDIA & Mitigasi Sementara
Kasus ini juga dilaporkan di forum Level1Tech, dengan banyak pengguna melaporkan masalah serupa.
NVIDIA telah mengakui bug ini dan saat ini menyarankan mitigasi sementara dengan perintah berikut:
apt install proxmox-kernel-6.14.8-2-bpo12-pve/stable
Namun, langkah ini hanya mitigasi parsial. VM layering tetap rentan, sehingga diperlukan patch resmi—baik melalui update driver, kernel Linux, atau kombinasi keduanya.
Implikasi
- Lingkungan cloud & AI: Bug ini sangat mengganggu bagi penyedia GPU cloud, karena bisa menyebabkan downtime tanpa peringatan.
- Perbedaan konsumen vs server: Fakta bahwa B200 dan H100 tidak terdampak menegaskan perbedaan optimisasi antara GPU server-class dan SKU consumer/ProViz.
- Urgensi patch resmi: Tanpa perbaikan permanen, RTX 5090 dan RTX 6000 PRO berisiko dianggap tidak layak untuk virtualisasi jangka panjang.








