Cloudflare Jelaskan Penyebab Gangguan Global Terburuk dalam Enam Tahun

Cloudflare mengalami gangguan terparah sejak 2019 pada Selasa lalu, ketika pembaruan kontrol akses basis data memicu kegagalan berantai yang membuat banyak situs dan layanan daring tidak dapat diakses selama hampir enam jam. Insiden ini berdampak pada layanan inti perusahaan yang menopang ribuan platform internet di seluruh dunia.
Sebagai penyedia jaringan global dengan infrastruktur server dan pusat data di lebih dari 120 negara, Cloudflare menghubungkan lebih dari 13.000 jaringan, termasuk ISP besar, penyedia cloud, dan perusahaan global. Karena perannya yang krusial dalam ekosistem internet, gangguan sekecil apa pun dapat menyebabkan efek domino secara luas.
Bukan Serangan Siber, Melainkan Kesalahan Internal
CEO Cloudflare, Matthew Prince, menegaskan bahwa gangguan ini tidak terkait dengan serangan siber. Ia menjelaskan bahwa akar masalah berasal dari perubahan izin pada salah satu sistem basis data. Perubahan tersebut menyebabkan basis data menghasilkan entri ganda pada feature file yang digunakan oleh sistem Bot Management.
Peristiwa dimulai pukul 11:28 UTC ketika pembaruan rutin pada izin basis data membuat sistem Bot Management menghasilkan file konfigurasi berukuran jauh lebih besar dari biasanya. File tersebut memuat lebih dari 200 entri—melebihi batas bawaan sebesar 200 fitur yang dirancang untuk mencegah konsumsi memori tidak terkontrol. Akibatnya, perangkat lunak yang menangani lalu lintas jaringan mengalami crash di berbagai titik.
Dalam interval lima menit, query basis data menghasilkan file konfigurasi yang benar atau keliru, bergantung pada node klaster mana yang telah diperbarui. Kondisi ini menyebabkan jaringan berulang kali berada pada keadaan normal dan gagal secara bergantian.
Efek Berantai di Seluruh Infrastruktur
Saat file bermasalah menyebar ke mesin lain, modul Bot Management yang ditulis dengan Rust memicu panic, menghasilkan error 5xx, dan akhirnya menyebabkan sistem proxy inti—komponen penting yang memproses lalu lintas—menghentikan operasinya. Dampaknya terasa pada layanan CDN, keamanan jaringan, Turnstile, Workers KV, akses dashboard, email security, hingga sistem autentikasi akses.
Lalu lintas inti kembali stabil sekitar pukul 14:30 UTC setelah tim rekayasa Cloudflare menemukan sumber masalah dan mengganti file yang bermasalah dengan versi sebelumnya. Seluruh layanan kembali beroperasi normal pada 17:06 UTC.
Prince menyampaikan permintaan maaf dan menegaskan bahwa gangguan sebesar ini tidak dapat diterima mengingat posisi Cloudflare sebagai pilar penting internet modern. Ia juga menyebut bahwa gangguan ini menjadi yang paling signifikan sejak 2019, melampaui beberapa insiden sebelumnya yang hanya memengaruhi fitur tertentu atau dashboard internal.
Gangguan Besar Lain dalam Tahun Ini
Tahun ini Cloudflare sudah dua kali menghadapi gangguan besar. Pada Juni, perusahaan harus menanggulangi masalah konektivitas Zero Trust WARP dan kegagalan autentikasi Access yang memengaruhi berbagai wilayah serta infrastruktur Google Cloud. Pada Oktober, Amazon juga melaporkan pemadaman luas akibat kegagalan DNS yang mengganggu jutaan situs berbasis AWS.








