Pilar keandalan dalam Google Cloud Framework yang Dapat Dibaca dengan Baik memberikan prinsip dan rekomendasi untuk membantu Anda mendesain, men-deploy, dan mengelola workload yang andal di Google Cloud.
Dokumen ini ditujukan untuk arsitek cloud, developer, engineer platform, administrator, dan engineer keandalan situs.
Keandalan adalah kemampuan sistem untuk secara konsisten menjalankan fungsi yang dimaksudkan dalam kondisi yang ditentukan dan mempertahankan layanan tanpa gangguan. Praktik terbaik untuk keandalan mencakup redundansi, desain fault-tolerant, pemantauan, dan proses pemulihan otomatis.
Sebagai bagian dari keandalan, ketahanan adalah kemampuan sistem untuk bertahan dan pulih dari kegagalan atau gangguan tak terduga, sekaligus mempertahankan performa. Google Cloud berbagai fitur, seperti deployment multi-regional, pencadangan otomatis, dan solusi pemulihan dari bencana, dapat membantu Anda meningkatkan ketahanan sistem.
Keandalan penting untuk strategi cloud Anda karena berbagai alasan, termasuk:
- Periode nonaktif minimal: Periode nonaktif dapat menyebabkan hilangnya pendapatan, penurunan produktivitas, dan kerusakan reputasi. Arsitektur yang tangguh dapat membantu memastikan bahwa sistem dapat terus berfungsi selama kegagalan atau pulih secara efisien dari kegagalan.
- Pengalaman pengguna yang lebih baik: Pengguna mengharapkan interaksi yang lancar dengan teknologi. Sistem yang tangguh dapat membantu mempertahankan performa dan ketersediaan yang konsisten, serta memberikan layanan yang andal bahkan saat terjadi permintaan yang tinggi atau masalah yang tidak terduga.
- Integritas data: Kegagalan dapat menyebabkan kehilangan data atau kerusakan data. Sistem yang tangguh menerapkan mekanisme seperti pencadangan, redundansi, dan replikasi untuk melindungi data serta memastikan data tersebut tetap akurat dan dapat diakses.
- Kelangsungan bisnis: Bisnis Anda mengandalkan teknologi untuk operasi penting. Arsitektur yang tangguh dapat membantu memastikan kontinuitas setelah terjadinya kegagalan besar, yang memungkinkan fungsi bisnis berlanjut tanpa gangguan signifikan dan mendukung pemulihan yang cepat.
- Kepatuhan: Banyak industri memiliki persyaratan peraturan untuk ketersediaan sistem dan perlindungan data. Arsitektur yang tangguh dapat membantu Anda memenuhi standar ini dengan memastikan sistem tetap beroperasi dan aman.
- Biaya jangka panjang yang lebih rendah: Arsitektur yang tangguh memerlukan investasi di awal, tetapi ketahanan dapat membantu mengurangi biaya seiring waktu dengan mencegah periode nonaktif yang mahal, menghindari perbaikan reaktif, dan memungkinkan penggunaan resource yang lebih efisien.
Pola pikir organisasi
Untuk membuat sistem yang andal, Anda memerlukan rencana dan strategi yang matang. Strategi ini harus mencakup edukasi dan otoritas untuk memprioritaskan keandalan bersama inisiatif lainnya.
Menetapkan ekspektasi yang jelas bahwa seluruh organisasi bertanggung jawab atas keandalan, termasuk pengembangan, pengelolaan produk, operasi, rekayasa platform, dan site reliability engineering (SRE). Bahkan grup yang berfokus pada bisnis, seperti pemasaran dan penjualan, dapat memengaruhi keandalan.
Setiap tim harus memahami target keandalan dan risiko aplikasi mereka. Tim harus bertanggung jawab atas persyaratan ini. Konflik antara keandalan dan pengembangan fitur produk reguler harus diprioritaskan dan dieskalasikan sebagaimana mestinya.
Rencanakan dan kelola keandalan secara menyeluruh, di seluruh fungsi dan tim Anda. Pertimbangkan untuk menyiapkan Cloud Centre of Excellence (CCoE) yang menyertakan pilar keandalan. Untuk mengetahui informasi selengkapnya, lihat Mengoptimalkan perjalanan cloud organisasi dengan Cloud Center of Excellence.
Area fokus keandalan
Aktivitas yang Anda lakukan untuk mendesain, men-deploy, dan mengelola sistem yang andal dapat dikategorikan dalam area fokus berikut. Setiap prinsip dan rekomendasi keandalan dalam pilar ini relevan dengan salah satu area fokus tersebut.
- Cakupan: Untuk memahami sistem Anda, lakukan analisis mendetail tentang arsitekturnya. Anda perlu memahami komponen, cara kerjanya dan berinteraksi, bagaimana data dan tindakan mengalir melalui sistem, dan apa yang bisa terjadi. Identifikasi potensi kegagalan, bottleneck, dan risiko, yang membantu Anda mengambil tindakan untuk memitigasi masalah tersebut.
- Pengamatan: Untuk membantu mencegah kegagalan sistem, terapkan observasi dan pemantauan yang komprehensif dan berkelanjutan. Melalui pengamatan ini, Anda dapat memahami tren dan mengidentifikasi potensi masalah secara proaktif.
- Respons: Untuk mengurangi dampak kegagalan, berikan respons dengan tepat dan pulihkan secara efisien. Respons otomatis juga dapat membantu mengurangi dampak kegagalan. Bahkan dengan perencanaan dan kontrol, kegagalan masih bisa terjadi.
- Pembelajaran: Untuk membantu mencegah kegagalan berulang, pelajari setiap pengalaman, dan ambil tindakan yang sesuai.
Prinsip inti
Rekomendasi dalam pilar keandalan Framework Arsitektur yang Baik dipetakan ke prinsip inti berikut:
- Menentukan keandalan berdasarkan sasaran pengalaman pengguna
- Tetapkan target keandalan yang realistis
- Membangun sistem yang sangat tersedia melalui redundansi resource
- Memanfaatkan skalabilitas horizontal
- Mendeteksi potensi kegagalan menggunakan kemampuan observasi
- Mendesain untuk degradasi halus
- Melakukan pengujian untuk pemulihan dari kegagalan
- Melakukan pengujian untuk pemulihan dari kehilangan data
- Melakukan postmortem secara menyeluruh
Kontributor
Penulis:
- Laura Hyatt | Enterprise Cloud Architect
- Jose Andrade | Enterprise Infrastructure Customer Engineer
- Gino Pelliccia | Principal Architect
Kontributor lainnya:
- Andrés-Leonardo Martínez-Ortiz | Manajer Program Teknis
- Brian Kudzia | Enterprise Infrastructure Customer Engineer
- Daniel Lees | Arsitek Keamanan Cloud
- Filipe Gracio, PhD | Customer Engineer
- Gary Harmson | Principal Architect
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Marwan Al Shawi | Partner Customer Engineer
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Radhika Kanakam | Senior Program Manager, Cloud GTM
- Ryan Cox | Principal Architect
- Samantha He | Technical Writer
- Wade Holmes | Direktur Solusi Global
- Zach Seils | Spesialis Jaringan