Mengapa Sebagian Internet 'Mati' Saat Raksasa CDN Down? | S1 Teknik Informatika

education

Mengapa Sebagian Internet ‘Mati’ Saat Raksasa CDN Down?

20 November 2025

Pada sore hari tanggal 18 November 2025, dunia digital seolah menahan napas. Selama kurang lebih 42 menit, jutaan pekerja, mahasiswa, dan pengembang di seluruh dunia mendapati layar mereka menampilkan pesan error yang seragam: “502 Bad Gateway”.

Bukan hanya satu situs yang bermasalah. ChatGPT berhenti menjawab pertanyaan, diskusi di Discord terputus, dan jutaan desain di Canva gagal disimpan. Fenomena ini bukan karena kabel bawah laut putus atau serangan siber canggih, melainkan karena satu entitas infrastruktur mengalami gangguan yaitu Cloudflare. Kejadian ini memaksa kita untuk kembali bertanya, Seberapa rapuh sebenarnya arsitektur internet kita saat ini?

Apa yang Sebenarnya Terjadi?

Insiden 18 November kemarin bukanlah anomali tunggal di tahun 2025. Data menunjukkan pola berulang gangguan pada level Control Plane di penyedia layanan CDN (Content Delivery Network) terbesar di dunia.

Pada kasus ini, masalah bermula dari kesalahan konfigurasi routing BGP (Border Gateway Protocol) internal saat pembaruan rutin. Cloudflare, yang bertindak sebagai “polisi lalu lintas” bagi hampir 20% web global, secara tidak sengaja mengarahkan trafik ke “jurang digital” (blackhole). Akibatnya, situs-situs yang berlindung di belakangnya menjadi tidak dapat diakses, meskipun server asli situs tersebut sebenarnya sehat walafiat.

Mengapa Dampaknya Global?

Untuk memahami skala insiden ini, kita perlu membedah tiga konsep akademis utama yang menjadi pondasi (sekaligus kelemahan) internet modern:

1. Concentration Risk (Risiko Konsentrasi)

Internet seharusnya terdesentralisasi. Namun, demi efisiensi dan keamanan, industri teknologi cenderung melakukan sentralisasi. Saat ini, pasar Reverse Proxy dan CDN didominasi oleh segelintir pemain besar (Cloudflare, Akamai, Fastly).

Ketika satu vendor menguasai pangsa pasar yang begitu masif, kita menghadapi Concentration Risk. Jika vendor tersebut “bersin”, seluruh internet “flu”. Ini adalah paradoks efisiensi: semakin mudah kita menggunakan satu layanan terpusat, semakin besar risiko sistemik yang kita ciptakan.

2. SPOF (Single Point of Failure)

Dalam arsitektur sistem, SPOF adalah komponen yang jika gagal, akan menghentikan seluruh sistem. Bagi banyak perusahaan rintisan hingga enterprise, CDN adalah SPOF mereka. Mereka mungkin memiliki server database yang redundan di tiga benua, tetapi jika pintu gerbangnya (CDN) tertutup, tidak ada pengguna yang bisa masuk.

3. Cloud Resilience vs. Uptime

Banyak orang menyamakan Uptime (waktu nyala) dengan Resilience (ketangguhan).

Uptime adalah tentang seberapa lama server menyala tanpa henti.
Resilience adalah tentang seberapa cepat sistem pulih saat kegagalan pasti terjadi.

Insiden 18 November menunjukkan bahwa banyak sistem modern memiliki Uptime tinggi di atas kertas, namun rendah dalam Resilience. Mereka tidak memiliki mekanisme failover (pengalihan otomatis) ke penyedia CDN cadangan saat jalur utama mati.

Solusi

Belajar dari insiden ini, engineer masa depan tidak boleh lagi naif. Beberapa solusi untuk mencegah “internet mati” total meliputi:

Strategi Multi-CDN: Jangan bergantung pada satu vendor. Gunakan DNS cerdas yang bisa mengalihkan trafik ke vendor B jika vendor A mati.
Chaos Engineering: Secara sengaja “mematikan” sebagian server saat jam kerja untuk melatih sistem (dan tim engineer) agar terbiasa menghadapi kegagalan.
Desain “Graceful Degradation”: Jika CDN mati, aplikasi seharusnya tidak blank putih, melainkan menampilkan versi statis sederhana (HTML only) agar informasi tetap tersampaikan.

Penasaran bagaimana raksasa teknologi menjaga server tetap hidup dan ingin belajar lebih lanjut mengenai Sistem Terdistribusi? Yuk, gabung ke S1 Teknik Informatika Telkom University Purwokerto!

Referensi

Google Site Reliability Engineering (SRE) Books: Khususnya pada bab “Embracing Risk” dan “Service Level Objectives” untuk definisi Resilience vs Uptime.
Downdetector Global Reports: Data dampak pada layanan pihak ketiga (ChatGPT, Discord, Canva).
Tanenbaum, A. S., & van Steen, M. (2017). Distributed Systems: Principles and Paradigms. Buku teks wajib (textbook) akademis untuk konsep sistem terdistribusi.