Amazon Jelaskan Penyebab Gangguan AWS: Kegagalan DNS Besar pada DynamoDB

Amazon akhirnya mengungkap penyebab utama di balik gangguan besar yang melumpuhkan layanan Amazon Web Services (AWS) pada awal pekan ini. Dalam laporan post-mortem yang dirilis Kamis, perusahaan menyebut bahwa insiden tersebut disebabkan oleh kegagalan besar pada sistem DNS di infrastruktur Amazon DynamoDB, yang berdampak luas ke berbagai layanan dan pengguna di seluruh dunia.
Gangguan terjadi pada pusat data wilayah Northern Virginia (US-EAST-1) dan berlangsung lebih dari 14 jam, memengaruhi pelanggan di Amerika Serikat hingga Eropa. Menurut Amazon, masalah bermula dari kondisi race condition laten pada sistem manajemen DNS milik DynamoDB, yang mengakibatkan terhapusnya seluruh alamat IP untuk regional endpoint layanan tersebut.
“Penyebab utama masalah ini adalah race condition pada sistem manajemen DNS DynamoDB yang menghasilkan catatan DNS kosong untuk endpoint regional (dynamodb.us-east-1.amazonaws.com) dan tidak berhasil diperbaiki oleh sistem otomatisasi,” jelas Amazon dalam laporannya.
Kegagalan DNS tersebut membuat seluruh sistem yang bergantung pada koneksi ke DynamoDB di wilayah N. Virginia langsung mengalami gangguan koneksi, termasuk lalu lintas dari pelanggan maupun layanan internal AWS lainnya yang menggunakan DynamoDB sebagai komponen backend.
Masalah ini kemudian menimbulkan efek berantai di infrastruktur AWS, menyebabkan sistem DNS DynamoDB berada dalam kondisi tidak konsisten yang tidak dapat dipulihkan secara otomatis, sehingga memerlukan intervensi manual oleh tim teknis Amazon.
Sebagai langkah mitigasi, Amazon telah menonaktifkan sistem otomatisasi DNS yang bermasalah di seluruh dunia dan menerapkan sejumlah pembaruan pencegahan, termasuk penambahan mekanisme pemeriksaan protektif, peningkatan sistem pembatasan (throttling), serta pembuatan test suite baru untuk mendeteksi bug serupa di masa depan.
“Kami meminta maaf atas dampak besar yang ditimbulkan kepada pelanggan kami. Kami memahami betapa pentingnya keandalan layanan AWS bagi bisnis dan pengguna akhir. Insiden ini menjadi pelajaran penting untuk terus meningkatkan ketersediaan layanan kami,” tulis Amazon.
Gangguan berskala besar seperti ini menunjukkan betapa kritisnya peran DNS dalam infrastruktur cloud modern. Meskipun AWS dikenal memiliki rekam jejak tinggi dalam ketersediaan layanan, insiden kali ini kembali menegaskan bahwa satu kesalahan di tingkat DNS dapat berimbas luas pada ekosistem digital global.
Sumber: BleepingComputer








