Pilar keandalan dalam Google Cloud Framework Berarsitektur Baik memberikan prinsip dan rekomendasi untuk membantu Anda mendesain, men-deploy, dan mengelola workload yang andal di Google Cloud.
Dokumen ini ditujukan untuk arsitek cloud, developer, engineer platform, administrator, dan site reliability engineer.
Keandalan adalah kemampuan sistem untuk secara konsisten menjalankan fungsi yang dimaksudkan dalam kondisi yang ditentukan dan mempertahankan layanan tanpa gangguan. Praktik terbaik untuk keandalan mencakup redundansi, desain yang toleran terhadap kesalahan, pemantauan, dan proses pemulihan otomatis.
Sebagai bagian dari keandalan, ketahanan adalah kemampuan sistem untuk menahan dan memulihkan diri dari kegagalan atau gangguan yang tidak terduga, sekaligus mempertahankan performa. FiturGoogle Cloud , seperti deployment multi-regional, pencadangan otomatis, dan solusi pemulihan dari bencana, dapat membantu Anda meningkatkan ketahanan sistem.
Keandalan penting untuk strategi cloud Anda karena banyak alasan, termasuk berikut ini:
- Periode nonaktif minimal: Periode nonaktif dapat menyebabkan hilangnya pendapatan, penurunan produktivitas, dan kerusakan reputasi. Arsitektur yang tangguh dapat membantu memastikan sistem dapat terus berfungsi selama terjadi kegagalan atau pulih secara efisien dari kegagalan.
- Pengalaman pengguna yang ditingkatkan: Pengguna mengharapkan interaksi yang lancar dengan teknologi. Sistem yang tangguh dapat membantu mempertahankan performa dan ketersediaan yang konsisten, serta memberikan layanan yang andal meskipun saat permintaan tinggi atau terjadi masalah yang tidak terduga.
- Integritas data: Kegagalan dapat menyebabkan kehilangan data atau kerusakan data. Sistem yang tangguh menerapkan mekanisme seperti pencadangan, redundansi, dan replikasi untuk melindungi data serta memastikan data tetap akurat dan dapat diakses.
- Kelangsungan bisnis: Bisnis Anda mengandalkan teknologi untuk operasi penting. Arsitektur yang tangguh dapat membantu memastikan kelangsungan setelah terjadi kegagalan parah, yang memungkinkan fungsi bisnis berlanjut tanpa gangguan yang signifikan dan mendukung pemulihan yang cepat.
- Kepatuhan: Banyak industri memiliki persyaratan peraturan untuk ketersediaan sistem dan perlindungan data. Arsitektur yang tangguh dapat membantu Anda memenuhi standar ini dengan memastikan sistem tetap beroperasi dan aman.
- Biaya jangka panjang yang lebih rendah: Arsitektur yang tangguh memerlukan investasi di awal, tetapi ketahanan dapat membantu mengurangi biaya dari waktu ke waktu dengan mencegah periode nonaktif yang mahal, menghindari perbaikan reaktif, dan memungkinkan penggunaan resource yang lebih efisien.
Pola pikir organisasi
Untuk membuat sistem Anda andal, Anda memerlukan rencana dan strategi yang sudah ditetapkan. Strategi ini harus mencakup edukasi dan otoritas untuk memprioritaskan keandalan bersama dengan inisiatif lainnya.
Tetapkan ekspektasi yang jelas bahwa seluruh organisasi bertanggung jawab atas keandalan, termasuk pengembangan, pengelolaan produk, operasi, rekayasa platform, dan rekayasa keandalan situs (SRE). Bahkan grup yang berfokus pada bisnis, seperti pemasaran dan penjualan, dapat memengaruhi keandalan.
Setiap tim harus memahami target keandalan dan risiko aplikasi mereka. Tim harus bertanggung jawab terhadap persyaratan ini. Konflik antara keandalan dan pengembangan fitur produk reguler harus diprioritaskan dan diselesaikan sesuai dengan eskalasinya.
Rencanakan dan kelola keandalan secara holistik, di semua fungsi dan tim Anda. Pertimbangkan untuk menyiapkan Cloud Centre of Excellence (CCoE) yang mencakup pilar keandalan. Untuk mengetahui informasi selengkapnya, lihat Mengoptimalkan perjalanan cloud organisasi Anda dengan Pusat Keunggulan Cloud.
Area fokus untuk keandalan
Aktivitas yang Anda lakukan untuk mendesain, men-deploy, dan mengelola sistem yang andal dapat dikategorikan dalam area fokus berikut. Setiap prinsip dan rekomendasi keandalan dalam pilar ini relevan dengan salah satu area fokus tersebut.
- Penetapan cakupan: Untuk memahami sistem Anda, lakukan analisis mendetail terhadap arsitekturnya. Anda perlu memahami komponen, cara kerja dan interaksinya, cara data dan tindakan mengalir melalui sistem, dan apa yang bisa salah. Mengidentifikasi potensi kegagalan, hambatan, dan risiko, yang membantu Anda mengambil tindakan untuk memitigasi masalah tersebut.
- Pengamatan: Untuk membantu mencegah kegagalan sistem, terapkan pengamatan dan pemantauan yang komprehensif dan berkelanjutan. Melalui pengamatan ini, Anda dapat memahami tren dan mengidentifikasi potensi masalah secara proaktif.
- Respons: Untuk mengurangi dampak kegagalan, respons dengan tepat dan pulihkan secara efisien. Respons otomatis juga dapat membantu mengurangi dampak kegagalan. Bahkan dengan perencanaan dan kontrol, kegagalan masih dapat terjadi.
- Pembelajaran: Untuk membantu mencegah kegagalan berulang, pelajari setiap pengalaman dan ambil tindakan yang sesuai.
Prinsip inti
Rekomendasi dalam pilar keandalan Framework yang Dirancang dengan Baik dipetakan ke prinsip inti berikut:
- Menentukan keandalan berdasarkan sasaran pengalaman pengguna
- Menetapkan target keandalan yang realistis
- Membangun sistem yang selalu tersedia melalui redundansi resource
- Manfaatkan skalabilitas horizontal
- Mendeteksi potensi kegagalan dengan menggunakan kemampuan pengamatan
- Mendesain untuk degradasi yang lancar
- Lakukan pengujian untuk pemulihan dari kegagalan
- Lakukan pengujian untuk pemulihan dari kehilangan data
- Melakukan postmortem secara menyeluruh
Kontributor
Penulis:
- Laura Hyatt | Enterprise Cloud Architect
- Jose Andrade | Enterprise Infrastructure Customer Engineer
- Gino Pelliccia | Principal Architect
Kontributor lainnya:
- Andrés-Leonardo Martínez-Ortiz | Technical Program Manager
- Brian Kudzia | Enterprise Infrastructure Customer Engineer
- Daniel Lees | Cloud Security Architect
- Filipe Gracio, PhD | Customer Engineer
- Gary Harmson | Principal Architect
- Kumar Dhanagopal | Cross-Product Solution Developer
- Marwan Al Shawi | Partner Customer Engineer
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Radhika Kanakam | Senior Program Manager, Cloud GTM
- Ryan Cox | Principal Architect
- Samantha He | Technical Writer
- Wade Holmes | Global Solutions Director
- Zach Seils | Networking Specialist