Pilar keunggulan operasional dalam Google Cloud Framework yang Dirancang dengan Baik memberikan rekomendasi untuk mengoperasikan workload secara efisien di Google Cloud. Keunggulan operasional di cloud mencakup perancangan, penerapan, dan pengelolaan solusi cloud yang memberikan nilai, performa, keamanan, dan keandalan. Rekomendasi dalam pilar ini membantu Anda terus meningkatkan dan menyesuaikan workload untuk memenuhi kebutuhan yang dinamis dan terus berkembang di cloud.
Pilar keunggulan operasional relevan bagi audiens berikut:
- Manajer dan pemimpin: Framework untuk menetapkan dan mempertahankan keunggulan operasional di cloud serta memastikan bahwa investasi cloud memberikan nilai dan mendukung tujuan bisnis.
- Tim operasi cloud: Panduan untuk mengelola insiden dan masalah, merencanakan kapasitas, mengoptimalkan performa, dan mengelola perubahan.
- Site Reliability Engineer (SRE): Praktik terbaik yang membantu Anda mencapai tingkat keandalan layanan yang tinggi, termasuk pemantauan, respons insiden, dan otomatisasi.
- Arsitek dan engineer cloud: Persyaratan operasional dan praktik terbaik untuk fase desain dan penerapan, guna membantu memastikan bahwa solusi dirancang untuk efisiensi dan skalabilitas operasional.
- Tim DevOps: Panduan tentang otomatisasi, pipeline CI/CD, dan pengelolaan perubahan, untuk membantu pengiriman software yang lebih cepat dan andal.
Untuk mencapai keunggulan operasional, Anda harus menerapkan otomatisasi, orkestrasi, dan insight berbasis data. Otomatisasi membantu menghilangkan toil. Fitur ini juga menyederhanakan dan membangun batasan di sekitar tugas berulang. Orkestrasi membantu mengoordinasikan proses yang kompleks. Insight berbasis data memungkinkan pengambilan keputusan berbasis bukti. Dengan menggunakan praktik ini, Anda dapat mengoptimalkan operasi cloud, mengurangi biaya, meningkatkan ketersediaan layanan, dan meningkatkan keamanan.
Keunggulan operasional di cloud tidak hanya mencakup kecakapan teknis dalam operasi cloud. Hal ini mencakup perubahan budaya yang mendorong pembelajaran dan eksperimen berkelanjutan. Tim harus diberdayakan untuk berinovasi, melakukan iterasi, dan mengadopsi pola pikir pertumbuhan. Budaya keunggulan operasional mendorong lingkungan kolaboratif tempat individu didorong untuk berbagi ide, menantang asumsi, dan mendorong peningkatan.
Untuk prinsip dan rekomendasi keunggulan operasional yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keunggulan operasional dalam Framework yang Dirancang dengan Baik.
Prinsip inti
Rekomendasi dalam pilar keunggulan operasional Well-Architected Framework dipetakan ke prinsip inti berikut:
- Memastikan kesiapan dan performa operasional menggunakan CloudOps: Pastikan solusi cloud memenuhi persyaratan operasional dan performa dengan menentukan tujuan tingkat layanan (SLO) dan dengan melakukan pemantauan komprehensif, pengujian performa, dan perencanaan kapasitas.
- Mengelola insiden dan masalah: Minimalkan dampak insiden cloud dan cegah terulangnya insiden melalui kemampuan pengamatan yang komprehensif, prosedur respons insiden yang jelas, retrospektif yang menyeluruh, dan langkah-langkah pencegahan.
- Mengelola dan mengoptimalkan resource cloud: Mengoptimalkan dan mengelola resource cloud melalui strategi seperti penyesuaian ukuran, penskalaan otomatis, dan dengan menggunakan alat pemantauan biaya yang efektif.
- Mengotomatiskan dan mengelola perubahan: Mengotomatiskan proses, menyederhanakan pengelolaan perubahan, dan mengurangi beban tenaga kerja manual.
- Terus meningkatkan dan berinovasi: Berfokus pada peningkatan berkelanjutan dan pengenalan solusi baru agar tetap kompetitif.
Kontributor
Penulis:
- Ryan Cox | Principal Architect
- Hadrian Knotz | Enterprise Architect
Kontributor lainnya:
- Daniel Lees | Cloud Security Architect
- Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
- Gary Harmson | Principal Architect
- Jose Andrade | Customer Engineer, SRE Specialist
- Kumar Dhanagopal | Cross-Product Solution Developer
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Radhika Kanakam | Program Lead, Google Cloud Well-Architected Framework
- Samantha He | Technical Writer
- Zach Seils | Networking Specialist
- Wade Holmes | Global Solutions Director
Memastikan kesiapan dan performa operasional menggunakan CloudOps
Prinsip dalam pilar keunggulan operasional di Google Cloud Framework yang Dirancang dengan Baik ini membantu Anda memastikan kesiapan dan performa operasional workload cloud Anda. SRE menekankan penetapan ekspektasi dan komitmen yang jelas untuk performa layanan, penerapan pemantauan dan pemberitahuan yang andal, melakukan pengujian performa, dan secara proaktif merencanakan kebutuhan kapasitas.
Ringkasan prinsip
Organisasi yang berbeda mungkin menafsirkan kesiapan operasional secara berbeda. Kesiapan operasional adalah cara organisasi Anda bersiap untuk berhasil mengoperasikan workload di Google Cloud. Mempersiapkan pengoperasian workload cloud multitingkat yang kompleks memerlukan perencanaan yang cermat untuk peluncuran dan operasi day-2. Operasi ini sering disebut CloudOps.
Area fokus kesiapan operasional
Kesiapan operasional terdiri dari empat area fokus. Setiap area fokus terdiri dari serangkaian aktivitas dan komponen yang diperlukan untuk bersiap mengoperasikan aplikasi atau lingkungan yang kompleks di Google Cloud. Tabel berikut mencantumkan komponen dan aktivitas setiap area fokus:
Area fokus kesiapan operasional | Aktivitas dan komponen |
---|---|
Tenaga Kerja |
|
Proses |
|
Alat | Alat yang diperlukan untuk mendukung proses CloudOps. |
Tata kelola |
|
Rekomendasi
Untuk memastikan kesiapan dan performa operasional menggunakan CloudOps, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Menentukan SLO dan SLA
Tanggung jawab utama tim operasi cloud adalah menentukan tujuan tingkat layanan (SLO) dan perjanjian tingkat layanan (SLA) untuk semua beban kerja penting. Rekomendasi ini relevan dengan area fokus kesiapan operasional tata kelola.
SLO harus spesifik, terukur, dapat dicapai, relevan, dan terikat waktu (SMART), serta harus mencerminkan tingkat layanan dan performa yang Anda inginkan.
- Spesifik: Mengartikulasikan dengan jelas tingkat layanan dan performa yang diperlukan.
- Terukur (Measurable): Dapat diukur dan dilacak.
- Dapat dicapai (Achievable): Dapat dicapai dalam batas kemampuan dan sumber daya organisasi Anda.
- Relevan: Selaras dengan sasaran dan prioritas bisnis.
- Terikat waktu: Memiliki jangka waktu yang ditentukan untuk pengukuran dan evaluasi.
Misalnya, SLO untuk aplikasi web mungkin adalah "ketersediaan 99,9%" atau "waktu respons rata-rata kurang dari 200 md". SLO tersebut dengan jelas menentukan tingkat layanan dan performa yang diperlukan untuk aplikasi web, dan SLO dapat diukur dan dilacak dari waktu ke waktu.
SLA menguraikan komitmen kepada pelanggan terkait ketersediaan, performa, dan dukungan layanan, termasuk penalti atau upaya perbaikan jika terjadi ketidakpatuhan. SLA harus mencakup detail spesifik tentang layanan yang diberikan, tingkat layanan yang dapat diharapkan, tanggung jawab penyedia layanan dan pelanggan, serta penalti atau upaya perbaikan jika terjadi ketidakpatuhan. SLA berfungsi sebagai perjanjian kontraktual antara kedua belah pihak, yang memastikan bahwa keduanya memiliki pemahaman yang jelas tentang ekspektasi dan kewajiban yang terkait dengan layanan cloud.
Google Cloud menyediakan alat seperti Cloud Monitoring dan indikator tingkat layanan (SLI) untuk membantu Anda menentukan dan melacak SLO. Cloud Monitoring menyediakan kemampuan pemantauan dan observabilitas yang komprehensif yang memungkinkan organisasi Anda mengumpulkan dan menganalisis metrik yang terkait dengan ketersediaan, performa, dan latensi aplikasi dan layanan berbasis cloud. SLI adalah metrik spesifik yang dapat Anda gunakan untuk mengukur dan melacak SLO dari waktu ke waktu. Dengan memanfaatkan alat ini, Anda dapat memantau dan mengelola layanan cloud secara efektif, serta memastikan bahwa layanan tersebut memenuhi SLO dan SLA.
Menentukan dan mengomunikasikan SLO dan SLA untuk semua layanan cloud penting Anda secara jelas akan membantu memastikan keandalan dan performa aplikasi serta layanan yang di-deploy.
Menerapkan observabilitas komprehensif
Untuk mendapatkan visibilitas real-time terkait kondisi dan performa lingkungan cloud Anda, sebaiknya gunakan kombinasi alat Google Cloud Observability dan solusi pihak ketiga. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Menerapkan kombinasi solusi observabilitas memberi Anda strategi observabilitas yang komprehensif yang mencakup berbagai aspek infrastruktur dan aplikasi cloud Anda. Google Cloud Observability adalah platform terpadu untuk mengumpulkan, menganalisis, dan memvisualisasikan metrik, log, dan rekaman aktivitas dari berbagaiGoogle Cloud layanan, aplikasi, dan sumber eksternal. Dengan menggunakan Cloud Monitoring, Anda dapat memperoleh insight tentang pemakaian resource, karakteristik performa, dan kondisi keseluruhan resource Anda.
Untuk memastikan pemantauan yang komprehensif, pantau metrik penting yang selaras dengan indikator kesehatan sistem seperti pemakaian CPU, penggunaan memori, traffic jaringan, I/O disk, dan waktu respons aplikasi. Anda juga harus mempertimbangkan metrik khusus bisnis. Dengan melacak metrik ini, Anda dapat mengidentifikasi potensi hambatan, masalah performa, dan batasan resource. Selain itu, Anda dapat menyiapkan pemberitahuan untuk memberi tahu tim yang relevan secara proaktif tentang potensi masalah atau anomali.
Untuk meningkatkan kemampuan pemantauan Anda lebih lanjut, Anda dapat mengintegrasikan solusi pihak ketiga dengan Google Cloud Observability. Solusi ini dapat memberikan fungsi tambahan, seperti analisis lanjutan, deteksi anomali yang didukung machine learning, dan kemampuan pengelolaan insiden. Kombinasi alat Observability Google Cloud dan solusi pihak ketiga ini memungkinkan Anda membuat ekosistem pemantauan yang andal dan dapat disesuaikan dengan kebutuhan spesifik Anda. Dengan menggunakan pendekatan kombinasi ini, Anda dapat secara proaktif mengidentifikasi dan mengatasi masalah, mengoptimalkan pemanfaatan resource, serta memastikan keandalan dan ketersediaan aplikasi dan layanan cloud Anda secara keseluruhan.
Menerapkan pengujian performa dan beban
Melakukan pengujian performa secara rutin membantu Anda memastikan bahwa aplikasi dan infrastruktur berbasis cloud Anda dapat menangani beban puncak dan mempertahankan performa yang optimal. Pengujian beban menyimulasikan pola traffic yang realistis. Uji tekanan mendorong sistem hingga batasnya untuk mengidentifikasi potensi hambatan dan batasan performa. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Alat seperti Cloud Load Balancing dan layanan pengujian beban dapat membantu Anda menyimulasikan pola traffic dunia nyata dan menguji aplikasi Anda secara intensif. Alat ini memberikan insight berharga tentang perilaku sistem Anda dalam berbagai kondisi beban, dan dapat membantu Anda mengidentifikasi area yang memerlukan pengoptimalan.
Berdasarkan hasil pengujian performa, Anda dapat membuat keputusan untuk mengoptimalkan infrastruktur dan aplikasi cloud Anda agar performa dan skalabilitasnya optimal. Pengoptimalan ini mungkin melibatkan penyesuaian alokasi resource, penyesuaian konfigurasi, atau penerapan mekanisme caching.
Misalnya, jika Anda mendapati bahwa aplikasi Anda mengalami perlambatan selama periode traffic tinggi, Anda mungkin perlu meningkatkan jumlah mesin virtual atau penampung yang dialokasikan untuk aplikasi. Atau, Anda mungkin perlu menyesuaikan konfigurasi server web atau database untuk meningkatkan performa.
Dengan melakukan pengujian performa secara rutin dan menerapkan pengoptimalan yang diperlukan, Anda dapat memastikan bahwa aplikasi dan infrastruktur berbasis cloud Anda selalu berjalan dengan performa puncak, serta memberikan pengalaman yang lancar dan responsif bagi pengguna Anda. Dengan begitu, Anda dapat mempertahankan keunggulan kompetitif dan membangun kepercayaan dengan pelanggan.
Merencanakan dan mengelola kapasitas
Merencanakan kebutuhan kapasitas di masa mendatang secara proaktif—baik organik maupun anorganik—membantu Anda memastikan kelancaran operasi dan skalabilitas sistem berbasis cloud Anda. Rekomendasi ini relevan dengan proses area fokus kesiapan operasional.
Perencanaan kapasitas di masa mendatang mencakup pemahaman dan pengelolaan kuota untuk berbagai resource seperti instance komputasi, penyimpanan, dan permintaan API. Dengan menganalisis pola penggunaan historis, proyeksi pertumbuhan, dan persyaratan bisnis, Anda dapat secara akurat mengantisipasi persyaratan kapasitas di masa mendatang. Anda dapat menggunakan alat seperti Cloud Monitoring dan BigQuery untuk mengumpulkan dan menganalisis data penggunaan, mengidentifikasi tren, dan memperkirakan permintaan di masa mendatang.
Pola penggunaan historis memberikan insight berharga tentang pemanfaatan resource dari waktu ke waktu. Dengan memeriksa metrik seperti pemakaian CPU, penggunaan memori, dan traffic jaringan, Anda dapat mengidentifikasi periode permintaan tinggi dan potensi bottleneck. Selain itu, Anda dapat membantu memperkirakan kebutuhan kapasitas di masa mendatang dengan membuat proyeksi pertumbuhan berdasarkan faktor-faktor seperti pertumbuhan basis pengguna, produk dan fitur baru, serta kampanye pemasaran. Saat menilai kebutuhan kapasitas, Anda juga harus mempertimbangkan persyaratan bisnis seperti SLA dan target performa.
Saat Anda menentukan ukuran resource untuk workload, pertimbangkan faktor-faktor yang dapat memengaruhi penggunaan resource. Variasi musiman seperti periode belanja liburan atau penjualan akhir kuartal dapat menyebabkan lonjakan permintaan sementara. Acara yang direncanakan seperti peluncuran produk atau kampanye pemasaran juga dapat meningkatkan traffic secara signifikan. Untuk memastikan sistem utama dan pemulihan dari bencana (DR) Anda dapat menangani lonjakan permintaan yang tidak terduga, rencanakan kapasitas yang dapat mendukung failover yang lancar selama gangguan seperti bencana alam dan serangan siber.
Penskalaan otomatis adalah strategi penting untuk menyesuaikan resource cloud Anda secara dinamis berdasarkan fluktuasi workload. Dengan menggunakan kebijakan penskalaan otomatis, Anda dapat menskalakan instance komputasi, penyimpanan, dan resource lainnya secara otomatis sebagai respons terhadap perubahan permintaan. Hal ini memastikan performa yang optimal selama periode puncak sekaligus meminimalkan biaya saat penggunaan resource rendah. Algoritma penskalaan otomatis menggunakan metrik seperti pemakaian CPU, penggunaan memori, dan kedalaman antrean untuk menentukan kapan harus menskalakan resource.
Memantau dan mengoptimalkan secara berkelanjutan
Untuk mengelola dan mengoptimalkan workload cloud, Anda harus membuat proses untuk terus memantau dan menganalisis metrik performa. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Untuk membuat proses pemantauan dan analisis berkelanjutan, Anda melacak, mengumpulkan, dan mengevaluasi data yang terkait dengan berbagai aspek lingkungan cloud Anda. Dengan menggunakan data ini, Anda dapat secara proaktif mengidentifikasi area yang perlu ditingkatkan, mengoptimalkan penggunaan resource, dan memastikan infrastruktur cloud Anda secara konsisten memenuhi atau melampaui ekspektasi performa Anda.
Aspek penting dari pemantauan performa adalah meninjau log dan rekaman aktivitas secara rutin. Log memberikan insight berharga tentang peristiwa, error, dan peringatan sistem. Trace memberikan informasi mendetail tentang alur permintaan melalui aplikasi Anda. Dengan menganalisis log dan rekaman aktivitas, Anda dapat mengidentifikasi potensi masalah, mengidentifikasi penyebab utama masalah, dan lebih memahami perilaku aplikasi Anda dalam berbagai kondisi. Metrik seperti waktu perjalanan pulang pergi antar-layanan dapat membantu Anda mengidentifikasi dan memahami hambatan yang ada di workload Anda.
Selain itu, Anda dapat menggunakan teknik penyesuaian performa untuk meningkatkan waktu respons aplikasi dan efisiensi secara keseluruhan secara signifikan. Berikut adalah contoh teknik yang dapat Anda gunakan:
- Penyimpanan cache: Simpan data yang sering diakses dalam memori untuk mengurangi kebutuhan akan kueri database atau panggilan API yang berulang.
- Pengoptimalan database: Gunakan teknik seperti pengindeksan dan pengoptimalan kueri untuk meningkatkan performa operasi database.
- Pembuatan profil kode: Identifikasi area kode yang menggunakan resource secara berlebihan atau menyebabkan masalah performa.
Dengan menerapkan teknik ini, Anda dapat mengoptimalkan aplikasi dan memastikan aplikasi berjalan secara efisien di cloud.
Mengelola insiden dan masalah
Prinsip dalam pilar keunggulan operasional di Google Cloud Well-Architected Framework ini memberikan rekomendasi untuk membantu Anda mengelola insiden dan masalah terkait workload cloud Anda. Hal ini mencakup penerapan pemantauan dan kemampuan pengamatan yang komprehensif, penetapan prosedur respons insiden yang jelas, pelaksanaan analisis akar masalah yang menyeluruh, dan penerapan tindakan pencegahan. Banyak topik yang dibahas dalam prinsip ini tercakup secara mendetail dalam pilar Keandalan.
Ringkasan prinsip
Pengelolaan insiden dan pengelolaan masalah adalah komponen penting dari lingkungan operasi yang fungsional. Cara Anda merespons, mengategorikan, dan menyelesaikan insiden dengan tingkat keparahan yang berbeda dapat memengaruhi operasi Anda secara signifikan. Anda juga harus secara proaktif dan terus-menerus melakukan penyesuaian untuk mengoptimalkan keandalan dan performa. Proses yang efisien untuk pengelolaan insiden dan masalah bergantung pada elemen dasar berikut:
- Pemantauan berkelanjutan: Identifikasi dan selesaikan masalah dengan cepat.
- Otomatisasi: Menyederhanakan tugas dan meningkatkan efisiensi.
- Orkestrasi: Mengoordinasikan dan mengelola resource cloud secara efektif.
- Insight berbasis data: Mengoptimalkan operasi cloud dan mengambil keputusan yang tepat.
Elemen ini membantu Anda membangun lingkungan cloud yang tangguh yang dapat menangani berbagai tantangan dan gangguan. Elemen ini juga dapat membantu mengurangi risiko insiden dan periode nonaktif yang merugikan, serta membantu Anda mencapai kesuksesan dan ketangkasan bisnis yang lebih besar. Elemen dasar ini tersebar di empat area fokus kesiapan operasional: Tenaga Kerja, Proses, Alat, dan Tata Kelola.
Rekomendasi
Untuk mengelola insiden dan masalah secara efektif, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Menetapkan prosedur respons insiden yang jelas
Peran dan tanggung jawab yang jelas sangat penting untuk memastikan respons yang efektif dan terkoordinasi terhadap insiden. Selain itu, protokol komunikasi yang jelas dan jalur eskalasi membantu memastikan bahwa informasi dibagikan dengan cepat dan efektif selama insiden. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tenaga kerja, proses, dan alat.
Untuk menetapkan prosedur respons insiden, Anda perlu menentukan peran dan ekspektasi setiap anggota tim, seperti komandan insiden, penyelidik, komunikator, dan pakar teknis. Menetapkan jalur komunikasi dan eskalasi mencakup mengidentifikasi kontak penting, menyiapkan saluran komunikasi, dan menentukan proses untuk meningkatkan eskalasi insiden ke tingkat manajemen yang lebih tinggi jika diperlukan. Pelatihan dan persiapan rutin membantu memastikan tim memiliki pengetahuan dan keterampilan untuk merespons insiden secara efektif.
Dengan mendokumentasikan prosedur respons insiden dalam runbook atau playbook, Anda dapat memberikan panduan referensi standar bagi tim untuk diikuti selama insiden. Runbook harus menguraikan langkah-langkah yang harus dilakukan di setiap tahap proses respons insiden, termasuk komunikasi, triase, penyelidikan, dan penyelesaian. Dokumen ini juga harus menyertakan informasi tentang alat dan sumber daya yang relevan serta informasi kontak untuk personel penting. Anda harus meninjau dan memperbarui runbook secara rutin untuk memastikan runbook tersebut tetap terbaru dan efektif.
Memusatkan pengelolaan insiden
Untuk pelacakan dan pengelolaan yang efektif di seluruh siklus proses insiden, pertimbangkan untuk menggunakan sistem pengelolaan insiden terpusat. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Sistem manajemen insiden terpusat memberikan keuntungan berikut:
- Visibilitas yang lebih baik: Dengan menggabungkan semua data terkait insiden di satu lokasi, Anda tidak perlu lagi membuat tim mencari konteks di berbagai saluran atau sistem. Pendekatan ini menghemat waktu dan mengurangi kebingungan, serta memberikan gambaran komprehensif tentang insiden kepada pemangku kepentingan, termasuk status, dampak, dan progresnya.
- Koordinasi dan kolaborasi yang lebih baik: Sistem terpusat menyediakan platform terpadu untuk komunikasi dan pengelolaan tugas. Fitur ini mendorong kolaborasi yang lancar antara berbagai departemen dan fungsi yang terlibat dalam respons insiden. Pendekatan ini memastikan bahwa semua orang memiliki akses ke informasi terbaru dan mengurangi risiko miskomunikasi dan ketidakselarasan.
- Peningkatan akuntabilitas dan kepemilikan: Sistem pengelolaan insiden terpusat memungkinkan organisasi Anda mengalokasikan tugas kepada individu atau tim tertentu dan memastikan bahwa tanggung jawab ditentukan dan dilacak dengan jelas. Pendekatan ini meningkatkan akuntabilitas dan mendorong pemecahan masalah secara proaktif karena anggota tim dapat dengan mudah memantau progres dan kontribusi mereka.
Sistem pengelolaan insiden terpusat harus menawarkan fitur yang andal untuk pelacakan insiden, penetapan tugas, dan pengelolaan komunikasi. Fitur ini memungkinkan Anda menyesuaikan alur kerja, menetapkan prioritas, dan berintegrasi dengan sistem lain, seperti alat pemantauan dan sistem tiket.
Dengan menerapkan sistem manajemen insiden terpusat, Anda dapat mengoptimalkan proses respons insiden organisasi, meningkatkan kolaborasi, dan meningkatkan visibilitas. Dengan begitu, waktu penyelesaian insiden akan lebih cepat, periode nonaktif akan berkurang, dan kepuasan pelanggan akan meningkat. Fitur ini juga membantu menumbuhkan budaya peningkatan berkelanjutan karena Anda dapat belajar dari insiden sebelumnya dan mengidentifikasi area yang perlu ditingkatkan.
Lakukan peninjauan pasca-insiden secara menyeluruh
Setelah terjadi insiden, Anda harus melakukan peninjauan pasca-insiden (PIR) yang mendetail, yang juga dikenal sebagai postmortem, untuk mengidentifikasi akar penyebab, faktor-faktor yang berkontribusi, dan pelajaran yang didapat. Peninjauan menyeluruh ini membantu Anda mencegah insiden serupa di masa mendatang. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan tata kelola.
Proses PIR harus melibatkan tim multidisiplin yang memiliki keahlian dalam berbagai aspek insiden. Tim harus mengumpulkan semua informasi yang relevan melalui wawancara, peninjauan dokumentasi, dan inspeksi situs. Linimasa peristiwa harus dibuat untuk menetapkan urutan tindakan yang menyebabkan terjadinya insiden.
Setelah tim mengumpulkan informasi yang diperlukan, mereka harus melakukan analisis akar masalah untuk menentukan faktor-faktor yang menyebabkan insiden tersebut. Analisis ini harus mengidentifikasi penyebab langsung dan masalah sistemik yang berkontribusi terhadap insiden tersebut.
Selain mengidentifikasi penyebab utama, tim PIR harus mengidentifikasi faktor-faktor lain yang mungkin menyebabkan insiden tersebut. Faktor-faktor ini dapat mencakup kesalahan manusia, kegagalan peralatan, atau faktor organisasi seperti gangguan komunikasi dan kurangnya pelatihan.
Laporan PIR harus mendokumentasikan temuan penyelidikan, termasuk linimasa peristiwa, analisis akar penyebab, dan tindakan yang direkomendasikan. Laporan ini merupakan sumber daya yang berharga untuk menerapkan tindakan korektif dan mencegah terulangnya masalah. Laporan harus dibagikan kepada semua pemangku kepentingan yang relevan dan harus digunakan untuk mengembangkan pelatihan dan prosedur keselamatan.
Untuk memastikan keberhasilan proses PIR, organisasi Anda harus menumbuhkan budaya tanpa menyalahkan yang berfokus pada pembelajaran dan peningkatan, bukan menyalahkan. Budaya ini mendorong individu untuk melaporkan insiden tanpa takut akan pembalasan, dan memungkinkan Anda mengatasi masalah sistemik serta melakukan peningkatan yang berarti.
Dengan melakukan PIR secara menyeluruh dan menerapkan tindakan korektif berdasarkan temuan, Anda dapat mengurangi risiko terjadinya insiden serupa di masa mendatang secara signifikan. Pendekatan proaktif terhadap investigasi dan pencegahan insiden ini membantu menciptakan lingkungan kerja yang lebih aman dan efisien bagi semua orang yang terlibat.
Memelihara pusat informasi
Pusat informasi tentang masalah umum, solusi, dan panduan pemecahan masalah sangat penting untuk pengelolaan dan penyelesaian insiden. Anggota tim dapat menggunakan pusat informasi untuk mengidentifikasi dan mengatasi masalah umum dengan cepat. Menerapkan pusat informasi membantu mengurangi kebutuhan untuk eskalasi dan meningkatkan efisiensi secara keseluruhan. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tenaga kerja dan proses.
Manfaat utama pusat informasi adalah memungkinkan tim belajar dari pengalaman masa lalu dan menghindari pengulangan kesalahan. Dengan mencatat dan membagikan solusi untuk masalah umum, tim dapat membangun pemahaman kolektif tentang cara menyelesaikan masalah umum dan praktik terbaik untuk pengelolaan insiden. Penggunaan pusat informasi menghemat waktu dan tenaga, serta membantu menstandardisasi proses dan memastikan konsistensi dalam penyelesaian insiden.
Selain membantu meningkatkan waktu penyelesaian insiden, pusat informasi mendorong berbagi pengetahuan dan kolaborasi antar-tim. Dengan repositori informasi terpusat, tim dapat dengan mudah mengakses dan berkontribusi pada basis pengetahuan, yang mendorong budaya pembelajaran dan peningkatan berkelanjutan. Budaya ini mendorong tim untuk berbagi keahlian dan pengalaman mereka, sehingga menghasilkan basis pengetahuan yang lebih komprehensif dan berharga.
Untuk membuat dan mengelola pusat informasi secara efektif, gunakan alat dan teknologi yang sesuai. Platform kolaborasi seperti Google Workspace sangat cocok untuk tujuan ini karena memungkinkan Anda membuat, mengedit, dan membagikan dokumen secara kolaboratif dengan mudah. Alat ini juga mendukung kontrol versi dan pelacakan perubahan, yang memastikan bahwa pusat informasi tetap terbaru dan akurat.
Pastikan pusat informasi mudah diakses oleh semua tim yang relevan. Anda dapat melakukannya dengan mengintegrasikan pusat informasi dengan sistem pengelolaan insiden yang ada atau dengan menyediakan portal khusus atau situs intranet. Pusat informasi yang tersedia memungkinkan tim mengakses informasi yang mereka butuhkan dengan cepat untuk menyelesaikan insiden secara efisien. Ketersediaan ini membantu mengurangi periode nonaktif dan meminimalkan dampak pada operasi bisnis.
Tinjau dan perbarui pusat informasi secara rutin untuk memastikan pusat informasi tersebut tetap relevan dan bermanfaat. Pantau laporan insiden, identifikasi masalah dan tren umum, serta masukkan solusi dan panduan pemecahan masalah baru ke dalam pusat informasi. Pusat informasi yang selalu diperbarui membantu tim Anda menyelesaikan insiden dengan lebih cepat dan efektif.
Mengotomatiskan respons insiden
Otomatisasi membantu menyederhanakan proses respons dan perbaikan insiden Anda. Dengan begitu, Anda dapat mengatasi pelanggaran keamanan dan kegagalan sistem dengan cepat dan efisien. Dengan menggunakan produk Google Cloud seperti Cloud Run functions atau Cloud Run, Anda dapat mengotomatiskan berbagai tugas yang biasanya dilakukan secara manual dan memakan waktu. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Respons insiden otomatis memberikan manfaat berikut:
- Pengurangan waktu deteksi dan penyelesaian insiden: Alat otomatis dapat terus memantau sistem dan aplikasi, mendeteksi aktivitas mencurigakan atau tidak wajar secara real time, dan memberi tahu pemangku kepentingan atau merespons tanpa intervensi. Dengan otomatisasi ini, Anda dapat mengidentifikasi potensi ancaman atau masalah sebelum meningkat menjadi insiden besar. Saat insiden terdeteksi, alat otomatis dapat memicu tindakan perbaikan yang telah ditentukan sebelumnya, seperti mengisolasi sistem yang terpengaruh, mengarantina file berbahaya, atau mengembalikan perubahan untuk memulihkan sistem ke kondisi yang diketahui baik.
- Mengurangi beban pada tim keamanan dan operasi: Respons insiden otomatis memungkinkan tim keamanan dan operasi berfokus pada tugas yang lebih strategis. Dengan mengotomatiskan tugas rutin dan berulang, seperti mengumpulkan informasi diagnostik atau memicu pemberitahuan, organisasi Anda dapat membebaskan personel untuk menangani insiden yang lebih kompleks dan kritis. Otomatisasi ini dapat meningkatkan efektivitas dan efisiensi respons insiden secara keseluruhan.
- Meningkatkan konsistensi dan akurasi proses perbaikan: Alat otomatis dapat memastikan bahwa tindakan perbaikan diterapkan secara seragam di semua sistem yang terpengaruh, sehingga meminimalkan risiko kesalahan atau inkonsistensi manusia. Standardisasi proses perbaikan ini membantu meminimalkan dampak insiden terhadap pengguna dan bisnis.
Mengelola dan mengoptimalkan resource cloud
Prinsip dalam pilar keunggulan operasional di Google Cloud Framework yang Dirancang dengan Baik ini memberikan rekomendasi untuk membantu Anda mengelola dan mengoptimalkan resource yang digunakan oleh workload cloud Anda. Hal ini mencakup penyesuaian ukuran resource berdasarkan penggunaan dan permintaan aktual, penggunaan penskalaan otomatis untuk alokasi resource dinamis, penerapan strategi pengoptimalan biaya, dan peninjauan penggunaan dan biaya resource secara rutin. Banyak topik yang dibahas dalam prinsip ini tercakup secara mendetail dalam pilar Pengoptimalan biaya.
Ringkasan prinsip
Pengelolaan dan pengoptimalan resource cloud berperan penting dalam mengoptimalkan pengeluaran cloud, penggunaan resource, dan efisiensi infrastruktur. Panduan ini mencakup berbagai strategi dan praktik terbaik yang bertujuan untuk memaksimalkan nilai dan laba atas investasi cloud Anda.
Fokus pilar ini pada pengoptimalan tidak hanya terbatas pada pengurangan biaya. Fitur ini menekankan tujuan berikut:
- Efisiensi: Menggunakan otomatisasi dan analisis data untuk mencapai performa puncak dan penghematan biaya.
- Performa: Menskalakan resource dengan mudah untuk memenuhi permintaan yang berfluktuasi dan memberikan hasil yang optimal.
- Skalabilitas: Menyesuaikan infrastruktur dan proses untuk mengakomodasi pertumbuhan yang cepat dan beragam workload.
Dengan berfokus pada sasaran ini, Anda akan mencapai keseimbangan antara biaya dan fungsi. Anda dapat membuat keputusan yang tepat terkait penyediaan, penskalaan, dan migrasi resource. Selain itu, Anda akan mendapatkan insight berharga tentang pola konsumsi resource, yang memungkinkan Anda mengidentifikasi dan mengatasi potensi masalah secara proaktif sebelum masalah tersebut memburuk.
Rekomendasi
Untuk mengelola dan mengoptimalkan resource, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Menyesuaikan ukuran resource
Memantau pemanfaatan resource secara terus-menerus dan menyesuaikan alokasi resource agar sesuai dengan permintaan aktual sangat penting untuk pengelolaan resource cloud yang efisien. Penyediaan resource yang berlebihan dapat menyebabkan biaya yang tidak perlu, dan penyediaan yang kurang dapat menyebabkan bottleneck performa yang memengaruhi performa aplikasi dan pengalaman pengguna. Untuk mencapai keseimbangan yang optimal, Anda harus menerapkan pendekatan proaktif untuk menyesuaikan ukuran resource cloud. Rekomendasi ini relevan dengan area fokus tata kelola kesiapan operasional.
Cloud Monitoring dan Recommender dapat membantu Anda mengidentifikasi peluang untuk menyesuaikan ukuran yang tepat. Cloud Monitoring memberikan visibilitas real-time ke dalam metrik pemanfaatan resource. Dengan visibilitas ini, Anda dapat melacak pola penggunaan resource dan mengidentifikasi potensi inefisiensi. Recommender menganalisis data pemanfaatan resource untuk memberikan rekomendasi cerdas dalam mengoptimalkan alokasi resource. Dengan menggunakan alat ini, Anda dapat memperoleh insight tentang penggunaan resource dan membuat keputusan yang tepat tentang penyesuaian ukuran resource.
Selain Cloud Monitoring dan Recommender, pertimbangkan untuk menggunakan metrik kustom untuk memicu tindakan penyesuaian ukuran otomatis. Metrik kustom memungkinkan Anda melacak metrik pemanfaatan resource tertentu yang relevan dengan aplikasi dan beban kerja Anda. Anda juga dapat mengonfigurasi pemberitahuan untuk memberi tahu administrator saat batas yang telah ditentukan tercapai. Kemudian, administrator dapat mengambil tindakan yang diperlukan untuk menyesuaikan alokasi resource. Pendekatan proaktif ini memastikan bahwa resource diskalakan secara tepat waktu, yang membantu mengoptimalkan biaya cloud dan mencegah masalah performa.
Menggunakan penskalaan otomatis
Penskalaan otomatis komputasi dan resource lainnya membantu memastikan performa yang optimal dan efisiensi biaya aplikasi berbasis cloud Anda. Penskalaan otomatis memungkinkan Anda menyesuaikan kapasitas resource secara dinamis berdasarkan fluktuasi workload, sehingga Anda memiliki resource yang diperlukan saat Anda membutuhkannya dan Anda dapat menghindari penyediaan yang berlebihan dan biaya yang tidak perlu. Rekomendasi ini relevan dengan proses area fokus kesiapan operasional.
Untuk memenuhi beragam kebutuhan berbagai aplikasi dan beban kerja,Google Cloud menawarkan berbagai opsi penskalaan otomatis, termasuk berikut ini:
- Grup instance terkelola (MIG) Compute Engine adalah grup VM yang dikelola dan diskalakan sebagai satu entity. Dengan MIG, Anda dapat menentukan kebijakan penskalaan otomatis yang menentukan jumlah minimum dan maksimum VM yang harus dipertahankan dalam grup, serta kondisi yang memicu penskalaan otomatis. Misalnya, Anda dapat mengonfigurasi kebijakan untuk menambahkan VM di MIG saat pemakaian CPU mencapai batas tertentu dan menghapus VM saat pemakaian turun di bawah batas yang berbeda.
Autoscaling Google Kubernetes Engine (GKE) menyesuaikan resource cluster Anda secara dinamis agar sesuai dengan kebutuhan aplikasi Anda. Alat ini menawarkan alat berikut:
- Autoscaler Cluster menambahkan atau menghapus node berdasarkan permintaan resource Pod.
- Horizontal Pod Autoscaler mengubah jumlah replika Pod berdasarkan CPU, memori, atau metrik kustom.
- Autoscaler Pod Vertikal menyesuaikan permintaan dan batas resource Pod berdasarkan pola penggunaan.
- Penyediaan Otomatis Node akan otomatis membuat node pool yang dioptimalkan untuk workload Anda.
Alat ini bekerja sama untuk mengoptimalkan pemanfaatan resource, memastikan performa aplikasi, dan menyederhanakan pengelolaan cluster.
Cloud Run adalah platform serverless yang memungkinkan Anda menjalankan kode tanpa harus mengelola infrastruktur. Cloud Run menawarkan penskalaan otomatis bawaan, yang secara otomatis menyesuaikan jumlah instance berdasarkan traffic masuk. Saat volume traffic meningkat, Cloud Run akan menskalakan jumlah instance untuk menangani beban. Saat traffic menurun, Cloud Run akan menurunkan skala jumlah instance untuk mengurangi biaya.
Dengan menggunakan opsi penskalaan otomatis ini, Anda dapat memastikan bahwa aplikasi berbasis cloud Anda memiliki resource yang diperlukan untuk menangani berbagai beban kerja, sekaligus menghindari penyediaan yang berlebihan dan biaya yang tidak perlu. Penggunaan penskalaan otomatis dapat meningkatkan performa, menghemat biaya, dan menggunakan resource cloud secara lebih efisien.
Memanfaatkan strategi pengoptimalan biaya
Mengoptimalkan pembelanjaan cloud membantu Anda mengelola anggaran IT organisasi secara efektif. Rekomendasi ini relevan dengan area fokus kesiapan operasional tata kelola.
Google Cloud menawarkan beberapa alat dan teknik untuk membantu Anda mengoptimalkan biaya cloud. Dengan menggunakan alat dan teknik ini, Anda bisa mendapatkan nilai terbaik dari pembelanjaan cloud Anda. Alat dan teknik ini membantu Anda mengidentifikasi area yang dapat mengurangi biaya, seperti mengidentifikasi resource yang kurang dimanfaatkan atau merekomendasikan jenis instance yang lebih hemat biaya. Google Cloud Opsi untuk membantu mengoptimalkan biaya cloud mencakup hal berikut:
- Diskon abonemen (CUD) adalah diskon untuk berkomitmen pada tingkat penggunaan tertentu selama jangka waktu tertentu.
- Diskon penggunaan berkelanjutan di Compute Engine memberikan diskon untuk penggunaan layanan yang konsisten.
- Spot VM memberikan akses ke kapasitas VM yang tidak digunakan dengan biaya lebih rendah dibandingkan VM reguler.
Model harga dapat berubah dari waktu ke waktu, dan fitur baru dapat diperkenalkan yang menawarkan performa lebih baik atau biaya lebih rendah dibandingkan opsi yang ada. Oleh karena itu, Anda harus meninjau model harga secara rutin dan mempertimbangkan fitur alternatif. Dengan terus mengetahui model harga dan fitur terbaru, Anda dapat membuat keputusan yang tepat tentang arsitektur cloud untuk meminimalkan biaya.
Google Cloud's Cost Management tools, such as budgets and alerts, provide valuable insights into cloud spending. Anggaran dan pemberitahuan memungkinkan pengguna menetapkan anggaran dan menerima pemberitahuan saat anggaran terlampaui. Alat ini membantu pengguna melacak pembelanjaan cloud mereka dan mengidentifikasi area yang dapat mengurangi biaya.
Melacak penggunaan dan biaya resource
Anda dapat menggunakan pemberian tag dan pelabelan untuk melacak penggunaan dan biaya resource. Dengan menetapkan tag dan label ke resource cloud Anda seperti project, departemen, atau dimensi relevan lainnya, Anda dapat mengategorikan dan mengatur resource. Hal ini memungkinkan Anda memantau dan menganalisis pola pembelanjaan untuk resource tertentu serta mengidentifikasi area penggunaan tinggi atau potensi penghematan biaya. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tata kelola dan alat.
Alat seperti Penagihan Cloud dan Pengelolaan Biaya membantu Anda mendapatkan pemahaman yang komprehensif tentang pola pengeluaran Anda. Alat ini memberikan insight mendetail tentang penggunaan cloud Anda dan memungkinkan Anda mengidentifikasi tren, memperkirakan biaya, dan membuat keputusan yang tepat. Dengan menganalisis data historis dan pola pembelanjaan saat ini, Anda dapat mengidentifikasi area fokus untuk upaya pengoptimalan biaya.
Dasbor dan laporan kustom membantu Anda memvisualisasikan data biaya dan mendapatkan insight yang lebih mendalam tentang tren pembelanjaan. Dengan menyesuaikan dasbor menggunakan metrik dan dimensi yang relevan, Anda dapat memantau indikator performa utama (KPI) dan melacak progres menuju sasaran pengoptimalan biaya. Laporan menawarkan analisis data biaya yang lebih mendalam. Laporan memungkinkan Anda memfilter data menurut jangka waktu atau jenis resource tertentu untuk memahami faktor-faktor pokok yang berkontribusi terhadap pembelanjaan cloud Anda.
Tinjau dan perbarui tag, label, dan alat analisis biaya Anda secara rutin untuk memastikan Anda memiliki informasi terbaru tentang penggunaan dan biaya cloud Anda. Dengan terus mendapatkan informasi dan melakukan postmortem biaya atau peninjauan biaya proaktif, Anda dapat segera mengidentifikasi peningkatan pengeluaran yang tidak terduga. Dengan begitu, Anda dapat membuat keputusan proaktif untuk mengoptimalkan resource cloud dan mengontrol biaya.
Menetapkan alokasi biaya dan penganggaran
Akuntabilitas dan transparansi dalam pengelolaan biaya cloud sangat penting untuk mengoptimalkan pemanfaatan resource dan memastikan kontrol keuangan. Rekomendasi ini relevan dengan area fokus tata kelola kesiapan operasional.
Untuk memastikan akuntabilitas dan transparansi, Anda harus memiliki mekanisme yang jelas untuk alokasi biaya dan penagihan balik. Dengan mengalokasikan biaya ke tim, proyek, atau individu tertentu, organisasi Anda dapat memastikan bahwa setiap entitas ini bertanggung jawab atas penggunaan cloud-nya. Praktik ini menumbuhkan rasa kepemilikan dan mendorong pengelolaan resource yang bertanggung jawab. Selain itu, mekanisme penagihan balik memungkinkan organisasi Anda memulihkan biaya cloud dari pelanggan internal, menyelaraskan insentif dengan performa, dan meningkatkan disiplin fiskal.
Menetapkan anggaran untuk berbagai tim atau project adalah aspek penting lainnya dalam pengelolaan biaya cloud. Anggaran memungkinkan organisasi Anda menentukan batas pembelanjaan dan melacak pengeluaran aktual terhadap batas tersebut. Dengan pendekatan ini, Anda dapat membuat keputusan proaktif untuk mencegah pembelanjaan yang tidak terkontrol. Dengan menetapkan anggaran yang realistis dan dapat dicapai, Anda dapat memastikan bahwa resource cloud digunakan secara efisien dan selaras dengan tujuan bisnis. Pemantauan rutin terhadap pembelanjaan aktual dibandingkan dengan anggaran membantu Anda mengidentifikasi perbedaan dan mengatasi potensi pembelanjaan berlebih dengan cepat.
Untuk memantau anggaran, Anda dapat menggunakan alat seperti anggaran dan pemberitahuan Penagihan Cloud. Alat ini memberikan insight real-time tentang pembelanjaan cloud dan memberi tahu pemangku kepentingan jika ada potensi pembelanjaan yang berlebihan. Dengan menggunakan kemampuan ini, Anda dapat melacak biaya cloud dan mengambil tindakan korektif sebelum terjadi penyimpangan yang signifikan. Pendekatan proaktif ini membantu mencegah kejutan finansial dan memastikan bahwa resource cloud digunakan secara bertanggung jawab.
Mengotomatiskan dan mengelola perubahan
Prinsip dalam pilar keunggulan operasional di Google Cloud Framework yang Dirancang dengan Baik ini memberikan rekomendasi untuk membantu Anda mengotomatiskan dan mengelola perubahan untuk workload cloud Anda. Hal ini melibatkan penerapan infrastruktur sebagai kode (IaC), pembuatan prosedur operasi standar, penerapan proses pengelolaan perubahan yang terstruktur, dan penggunaan otomatisasi dan orkestrasi.
Ringkasan prinsip
Manajemen perubahan dan otomatisasi berperan penting dalam memastikan transisi yang lancar dan terkontrol dalam lingkungan cloud. Untuk manajemen perubahan yang efektif, Anda perlu menggunakan strategi dan praktik terbaik yang meminimalkan gangguan dan memastikan perubahan terintegrasi dengan lancar dengan sistem yang ada.
Pengelolaan dan otomatisasi perubahan yang efektif mencakup elemen dasar berikut:
- Tata kelola perubahan: Tetapkan kebijakan dan prosedur yang jelas untuk manajemen perubahan, termasuk proses persetujuan dan rencana komunikasi.
- Penilaian risiko: Identifikasi potensi risiko yang terkait dengan perubahan dan mitigasi risiko tersebut melalui teknik manajemen risiko.
- Pengujian dan validasi: Uji perubahan secara menyeluruh untuk memastikan bahwa perubahan tersebut memenuhi persyaratan fungsional dan performa serta mengurangi potensi regresi.
- Penerapan terkontrol: Terapkan perubahan secara terkontrol, pastikan pengguna bertransisi ke lingkungan baru dengan lancar, dengan mekanisme untuk melakukan roll back dengan lancar jika diperlukan.
Elemen dasar ini membantu meminimalkan dampak perubahan dan memastikan bahwa perubahan berdampak positif pada operasi bisnis. Elemen ini diwakili oleh proses, alat, dan tata kelola area fokus kesiapan operasional.
Rekomendasi
Untuk mengotomatiskan dan mengelola perubahan, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Mengadopsi IaC
Infrastructure as code (IaC) adalah pendekatan transformatif untuk mengelola infrastruktur cloud. Anda dapat menentukan dan mengelola infrastruktur cloud secara deklaratif dengan menggunakan alat seperti Terraform. IaC membantu Anda mencapai konsistensi, pengulangan, dan pengelolaan perubahan yang disederhanakan. Hal ini juga memungkinkan deployment yang lebih cepat dan andal. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Berikut adalah manfaat utama mengadopsi pendekatan IaC untuk deployment cloud Anda:
- Konfigurasi resource yang mudah dibaca manusia: Dengan pendekatan IaC, Anda dapat mendeklarasikan resource infrastruktur cloud dalam format yang mudah dibaca manusia, seperti JSON atau YAML. Administrator dan operator infrastruktur dapat dengan mudah memahami dan mengubah infrastruktur serta berkolaborasi dengan orang lain.
- Konsistensi dan kemampuan pengulangan: IaC memungkinkan konsistensi dan kemampuan pengulangan dalam deployment infrastruktur Anda. Anda dapat memastikan bahwa infrastruktur Anda disediakan dan dikonfigurasi dengan cara yang sama setiap saat, terlepas dari siapa yang melakukan deployment. Pendekatan ini membantu mengurangi kesalahan dan memastikan infrastruktur Anda selalu dalam kondisi yang diketahui.
- Akuntabilitas dan pemecahan masalah yang disederhanakan: Pendekatan IaC membantu meningkatkan akuntabilitas dan mempermudah pemecahan masalah. Dengan menyimpan kode IaC di sistem kontrol versi, Anda dapat melacak perubahan, serta mengidentifikasi kapan perubahan dilakukan dan oleh siapa. Jika perlu, Anda dapat dengan mudah melakukan roll back ke versi sebelumnya.
Menerapkan kontrol versi
Sistem kontrol versi seperti Git adalah komponen utama dari proses IaC. Hal ini memberikan kemampuan pengelolaan perubahan dan mitigasi risiko yang kuat, itulah sebabnya banyak digunakan, baik melalui pengembangan internal maupun solusi SaaS. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tata kelola dan alat.
Dengan melacak perubahan pada kode dan konfigurasi IaC, kontrol versi memberikan visibilitas ke dalam evolusi kode, sehingga memudahkan untuk memahami dampak perubahan dan mengidentifikasi potensi masalah. Peningkatan visibilitas ini mendorong kolaborasi di antara anggota tim yang mengerjakan project IaC yang sama.
Sebagian besar sistem kontrol versi memungkinkan Anda dengan mudah mengembalikan perubahan jika diperlukan. Kemampuan ini membantu mengurangi risiko konsekuensi atau error yang tidak diinginkan. Dengan menggunakan alat seperti Git dalam alur kerja IaC, Anda dapat meningkatkan proses pengelolaan perubahan secara signifikan, mendorong kolaborasi, dan mengurangi risiko, yang menghasilkan penerapan IaC yang lebih efisien dan andal.
Membangun pipeline CI/CD
Pipeline continuous integration dan continuous delivery (CI/CD) menyederhanakan proses pengembangan dan deployment aplikasi cloud. Pipeline CI/CD mengotomatiskan tahap build, pengujian, dan deployment, sehingga memungkinkan rilis yang lebih cepat dan lebih sering dengan peningkatan kontrol kualitas. Rekomendasi ini relevan dengan area fokus alat kesiapan operasional.
Pipeline CI/CD memastikan bahwa perubahan kode terus diintegrasikan ke dalam repositori pusat, biasanya sistem kontrol versi seperti Git. Integrasi berkelanjutan memfasilitasi deteksi dan penyelesaian masalah lebih awal, serta mengurangi kemungkinan terjadinya bug atau masalah kompatibilitas.
Untuk membuat dan mengelola pipeline CI/CD untuk aplikasi cloud, Anda dapat menggunakan alat seperti Cloud Build dan Cloud Deploy.
- Cloud Build adalah layanan build terkelola sepenuhnya yang memungkinkan developer menentukan dan menjalankan langkah-langkah build secara deklaratif. Cloud Build terintegrasi dengan lancar dengan platform pengelolaan kode sumber yang populer dan dapat dipicu oleh peristiwa seperti push kode dan permintaan pull.
- Cloud Deploy adalah layanan deployment tanpa server yang mengotomatiskan proses men-deploy aplikasi ke berbagai lingkungan, seperti pengujian, staging, dan produksi. Platform ini menyediakan fitur seperti blue-green deployment, pemisahan traffic, dan kemampuan rollback, sehingga memudahkan pengelolaan dan pemantauan deployment aplikasi.
Mengintegrasikan pipeline CI/CD dengan sistem kontrol versi dan framework pengujian membantu memastikan kualitas dan keandalan aplikasi cloud Anda. Dengan menjalankan pengujian otomatis sebagai bagian dari proses CI/CD, tim pengembangan dapat dengan cepat mengidentifikasi dan memperbaiki masalah apa pun sebelum kode di-deploy ke lingkungan produksi. Integrasi ini membantu meningkatkan stabilitas dan performa aplikasi cloud Anda secara keseluruhan.
Menggunakan alat pengelolaan konfigurasi
Alat seperti Puppet, Chef, Ansible, dan VM Manager membantu Anda mengotomatiskan konfigurasi dan pengelolaan resource cloud. Dengan menggunakan alat ini, Anda dapat memastikan konsistensi dan kepatuhan resource di seluruh lingkungan cloud Anda. Rekomendasi ini relevan dengan area fokus kesiapan operasional alat.
Mengotomatiskan konfigurasi dan pengelolaan resource cloud memberikan manfaat berikut:
- Pengurangan signifikan risiko kesalahan manual: Jika proses manual terlibat, kemungkinan terjadinya kesalahan lebih tinggi karena kesalahan manusia. Alat pengelolaan konfigurasi mengurangi risiko ini dengan mengotomatiskan proses, sehingga konfigurasi diterapkan secara konsisten dan akurat di semua resource cloud. Otomatisasi ini dapat meningkatkan keandalan dan stabilitas lingkungan cloud.
- Peningkatan efisiensi operasional: Dengan mengotomatiskan tugas berulang, organisasi Anda dapat membebaskan staf IT untuk berfokus pada inisiatif yang lebih strategis. Otomatisasi ini dapat meningkatkan produktivitas dan penghematan biaya serta meningkatkan respons terhadap perubahan kebutuhan bisnis.
- Pengelolaan infrastruktur cloud yang kompleks menjadi lebih sederhana: Seiring dengan bertambahnya ukuran dan kompleksitas lingkungan cloud, pengelolaan resource dapat menjadi semakin sulit. Alat pengelolaan konfigurasi menyediakan platform terpusat untuk mengelola resource cloud. Alat ini mempermudah pelacakan konfigurasi, identifikasi masalah, dan penerapan perubahan. Penggunaan alat ini dapat meningkatkan visibilitas, kontrol, dan keamanan lingkungan cloud Anda.
Mengotomatiskan pengujian
Mengintegrasikan pengujian otomatis ke dalam pipeline CI/CD membantu memastikan kualitas dan keandalan aplikasi cloud Anda. Dengan memvalidasi perubahan sebelum deployment, Anda dapat secara signifikan mengurangi risiko error dan regresi, yang menghasilkan sistem software yang lebih stabil dan andal. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.
Berikut adalah manfaat utama menggabungkan pengujian otomatis ke dalam pipeline CI/CD Anda:
- Deteksi bug dan kerusakan lebih awal: Pengujian otomatis membantu mendeteksi bug dan kerusakan lebih awal dalam proses pengembangan, sebelum menyebabkan masalah besar dalam produksi. Kemampuan ini menghemat waktu dan sumber daya dengan mencegah kebutuhan akan pengerjaan ulang dan perbaikan bug yang mahal pada tahap selanjutnya dalam proses pengembangan.
- Kode berkualitas tinggi dan berbasis standar: Pengujian otomatis dapat membantu meningkatkan kualitas kode Anda secara keseluruhan dengan memastikan bahwa kode tersebut memenuhi standar dan praktik terbaik tertentu. Kemampuan ini menghasilkan aplikasi yang lebih mudah dikelola dan andal serta tidak rentan terhadap error.
Anda dapat menggunakan berbagai jenis teknik pengujian di pipeline CI/CD. Setiap jenis pengujian memiliki tujuan tertentu.
- Pengujian unit berfokus pada pengujian setiap unit kode, seperti fungsi atau metode, untuk memastikan bahwa unit tersebut berfungsi seperti yang diharapkan.
- Pengujian integrasi menguji interaksi antara berbagai komponen atau modul aplikasi Anda untuk memverifikasi bahwa komponen atau modul tersebut berfungsi dengan baik bersama-sama.
- Pengujian menyeluruh sering digunakan bersama dengan pengujian unit dan integrasi. Pengujian menyeluruh menyimulasikan skenario dunia nyata untuk menguji aplikasi secara keseluruhan, dan membantu memastikan bahwa aplikasi memenuhi persyaratan pengguna akhir Anda.
Untuk mengintegrasikan pengujian otomatis secara efektif ke dalam pipeline CI/CD, Anda harus memilih alat dan framework pengujian yang sesuai. Ada banyak opsi yang berbeda, masing-masing dengan kelebihan dan kekurangannya sendiri. Anda juga harus menetapkan strategi pengujian yang jelas yang menguraikan jenis pengujian yang akan dilakukan, frekuensi pengujian, dan kriteria untuk lulus atau gagal dalam pengujian. Dengan mengikuti rekomendasi ini, Anda dapat memastikan bahwa proses pengujian otomatis Anda efisien dan efektif. Proses tersebut memberikan insight berharga tentang kualitas dan keandalan aplikasi cloud Anda.
Terus meningkatkan kualitas dan berinovasi
Prinsip ini dalam pilar keunggulan operasional Google Cloud Framework yang Dirancang dengan Baik memberikan rekomendasi untuk membantu Anda terus mengoptimalkan operasi cloud dan mendorong inovasi.
Ringkasan prinsip
Untuk terus meningkatkan dan berinovasi di cloud, Anda harus berfokus pada pembelajaran, eksperimen, dan adaptasi berkelanjutan. Hal ini membantu Anda mempelajari teknologi baru dan mengoptimalkan proses yang ada serta mendorong budaya keunggulan yang memungkinkan organisasi Anda mencapai dan mempertahankan kepemimpinan industri.
Melalui peningkatan dan inovasi berkelanjutan, Anda dapat mencapai tujuan berikut:
- Mempercepat inovasi: Pelajari teknologi dan layanan baru untuk meningkatkan kemampuan dan mendorong diferensiasi.
- Mengurangi biaya: Mengidentifikasi dan menghilangkan inefisiensi melalui inisiatif peningkatan proses.
- Meningkatkan ketangkasan: Beradaptasi dengan cepat terhadap perubahan permintaan pasar dan kebutuhan pelanggan.
- Meningkatkan pengambilan keputusan: Dapatkan insight berharga dari data dan analisis untuk membuat keputusan berbasis data.
Organisasi yang menerapkan prinsip peningkatan dan inovasi berkelanjutan dapat mengoptimalkan potensi penuh lingkungan cloud dan mencapai pertumbuhan yang berkelanjutan. Prinsip ini terutama dipetakan ke area fokus kesiapan operasional dalam Workforce. Budaya inovasi memungkinkan tim bereksperimen dengan alat dan teknologi baru untuk memperluas kemampuan dan mengurangi biaya.
Rekomendasi
Untuk terus meningkatkan dan berinovasi pada workload cloud Anda, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.
Menumbuhkan budaya belajar
Dorong tim untuk bereksperimen, berbagi pengetahuan, dan terus belajar. Terapkan budaya tidak menyalahkan di mana kegagalan dipandang sebagai peluang untuk pertumbuhan dan peningkatan. Rekomendasi ini relevan dengan area fokus kesiapan operasional tenaga kerja.
Saat Anda memupuk budaya belajar, tim dapat belajar dari kesalahan dan melakukan iterasi dengan cepat. Pendekatan ini mendorong anggota tim untuk mengambil risiko, bereksperimen dengan ide-ide baru, dan memperluas batas pekerjaan mereka. Hal ini juga menciptakan lingkungan yang aman secara psikologis di mana individu merasa nyaman berbagi kegagalan dan belajar darinya. Berbagi dengan cara ini akan menciptakan lingkungan yang lebih terbuka dan kolaboratif.
Untuk memfasilitasi berbagi pengetahuan dan pembelajaran berkelanjutan, ciptakan peluang bagi tim untuk berbagi pengetahuan dan belajar dari satu sama lain. Anda dapat melakukannya melalui sesi dan konferensi pembelajaran informal dan formal.
Dengan menumbuhkan budaya eksperimen, berbagi pengetahuan, dan pembelajaran berkelanjutan, Anda dapat menciptakan lingkungan tempat tim berani mengambil risiko, berinovasi, dan berkembang. Lingkungan ini dapat meningkatkan produktivitas, memperbaiki pemecahan masalah, serta menciptakan tenaga kerja yang lebih terlibat dan termotivasi. Selain itu, dengan mempromosikan budaya tanpa menyalahkan, Anda dapat menciptakan ruang aman bagi karyawan untuk belajar dari kesalahan dan berkontribusi pada pengetahuan kolektif tim. Budaya ini pada akhirnya akan menghasilkan tenaga kerja yang lebih tangguh dan mudah beradaptasi, serta lebih siap menghadapi tantangan dan mendorong kesuksesan dalam jangka panjang.
Lakukan retrospektif secara rutin
Retrospektif memberi tim kesempatan untuk merefleksikan pengalaman mereka, mengidentifikasi hal-hal yang berjalan dengan baik, dan mengidentifikasi hal-hal yang dapat ditingkatkan. Dengan melakukan retrospektif setelah project atau insiden besar, tim dapat belajar dari keberhasilan dan kegagalan, serta terus meningkatkan proses dan praktik mereka. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan tata kelola.
Cara efektif untuk menyusun retrospektif adalah dengan menggunakan model Mulai-Berhenti-Lanjutkan:
- Mulai: Pada fase Mulai retrospektif, anggota tim mengidentifikasi praktik, proses, dan perilaku baru yang mereka yakini dapat meningkatkan kualitas pekerjaan mereka. Mereka mendiskusikan alasan perubahan diperlukan dan cara penerapannya.
- Hentikan: Pada fase Hentikan, anggota tim mengidentifikasi dan menghilangkan praktik, proses, dan perilaku yang tidak lagi efektif atau menghambat kemajuan. Mereka membahas mengapa perubahan ini diperlukan dan bagaimana cara menerapkannya.
- Lanjutkan: Pada fase Lanjutkan, anggota tim mengidentifikasi praktik, proses, dan perilaku yang berjalan dengan baik dan harus dilanjutkan. Mereka membahas mengapa elemen-elemen ini penting dan bagaimana cara memperkuatnya.
Dengan menggunakan format terstruktur seperti model Start-Stop-Continue, tim dapat memastikan bahwa retrospektif berjalan produktif dan terfokus. Model ini membantu memfasilitasi diskusi, mengidentifikasi poin-poin penting, dan mengidentifikasi langkah-langkah yang dapat dilakukan untuk peningkatan di masa mendatang.
Selalu dapatkan info terkini tentang teknologi cloud
Untuk memaksimalkan potensi layanan Google Cloud , Anda harus terus mengikuti perkembangan terbaru, fitur, dan praktik terbaik. Rekomendasi ini relevan dengan area fokus kesiapan operasional tenaga kerja.
Berpartisipasi dalam konferensi, webinar, dan sesi pelatihan yang relevan adalah cara yang efektif untuk memperluas pengetahuan Anda. Acara ini memberikan peluang untuk belajar dari pakar, memahami kemampuan baru, dan berinteraksi dengan rekan industri yang mungkin menghadapi tantangan serupa. Google Cloud Dengan menghadiri sesi ini, Anda dapat memperoleh insight tentang cara menggunakan fitur baru secara efektif, mengoptimalkan operasi cloud, dan mendorong inovasi dalam organisasi Anda.
Untuk memastikan anggota tim Anda terus mengikuti perkembangan teknologi cloud, dorong mereka untuk mendapatkan sertifikasi dan mengikuti kursus pelatihan. Google Cloud menawarkan berbagai sertifikasi yang memvalidasi keterampilan dan pengetahuan di domain cloud tertentu. Memperoleh sertifikasi ini menunjukkan komitmen terhadap keunggulan dan memberikan bukti nyata kecakapan dalam teknologi cloud. Kursus pelatihan yang ditawarkan oleh Google Cloud dan partner kami mempelajari topik tertentu secara lebih mendalam. Mereka memberikan pengalaman langsung dan keterampilan praktis yang dapat segera diterapkan pada proyek di dunia nyata. Dengan berinvestasi dalam pengembangan profesional tim Anda, Anda dapat menumbuhkan budaya pembelajaran berkelanjutan dan memastikan bahwa semua orang memiliki keterampilan yang diperlukan untuk meraih kesuksesan di cloud.
Secara aktif mencari dan menggabungkan masukan
Kumpulkan masukan dari pengguna, pemangku kepentingan, dan anggota tim. Gunakan masukan untuk mengidentifikasi peluang peningkatan solusi cloud Anda. Rekomendasi ini relevan dengan area fokus kesiapan operasional angkatan kerja.
Umpan balik yang Anda kumpulkan dapat membantu Anda memahami kebutuhan, masalah, dan ekspektasi pengguna solusi Anda yang terus berubah. Masukan ini berfungsi sebagai input berharga untuk mendorong peningkatan dan memprioritaskan peningkatan pada masa mendatang. Anda dapat menggunakan berbagai mekanisme untuk mengumpulkan masukan:
- Survei adalah cara yang efektif untuk mengumpulkan data kuantitatif dari sejumlah besar pengguna dan pemangku kepentingan.
- Wawancara pengguna memberikan peluang untuk pengumpulan data kualitatif yang mendalam. Wawancara memungkinkan Anda memahami tantangan dan pengalaman spesifik dari setiap pengguna.
- Formulir masukan yang ditempatkan dalam solusi cloud menawarkan cara mudah bagi pengguna untuk memberikan masukan langsung tentang pengalaman mereka.
- Rapat rutin dengan anggota tim dapat memfasilitasi pengumpulan masukan tentang aspek teknis dan tantangan penerapan.
Masukan yang Anda kumpulkan melalui mekanisme ini harus dianalisis dan disintesis untuk mengidentifikasi tema dan pola umum. Analisis ini dapat membantu Anda memprioritaskan peningkatan di masa mendatang berdasarkan dampak dan kelayakan peningkatan yang disarankan. Dengan memenuhi kebutuhan dan masalah yang diidentifikasi melalui masukan, Anda dapat memastikan bahwa solusi cloud Anda terus memenuhi persyaratan pengguna dan pemangku kepentingan yang terus berkembang.
Mengukur dan melacak progres
Indikator performa utama (KPI) dan metrik sangat penting untuk melacak progres dan mengukur efektivitas operasi cloud Anda. KPI adalah pengukuran yang dapat diukur dan mencerminkan keseluruhan performa. Metrik adalah titik data spesifik yang berkontribusi pada penghitungan KPI. Tinjau metrik secara rutin dan gunakan metrik tersebut untuk mengidentifikasi peluang peningkatan dan mengukur progres. Dengan begitu, Anda dapat terus meningkatkan dan mengoptimalkan lingkungan cloud Anda. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: tata kelola dan proses.
Manfaat utama penggunaan KPI dan metrik adalah memungkinkan organisasi Anda menerapkan pendekatan berbasis data untuk operasi cloud. Dengan melacak dan menganalisis data operasional, Anda dapat membuat keputusan yang tepat tentang cara meningkatkan kualitas lingkungan cloud. Pendekatan berbasis data ini membantu Anda mengidentifikasi tren, pola, dan anomali yang mungkin tidak terlihat tanpa penggunaan metrik sistematis.
Untuk mengumpulkan dan menganalisis data operasional, Anda dapat menggunakan alat seperti Cloud Monitoring dan BigQuery. Cloud Monitoring memungkinkan pemantauan resource dan layanan cloud secara real-time. BigQuery memungkinkan Anda menyimpan dan menganalisis data yang Anda kumpulkan melalui pemantauan. Dengan menggunakan alat ini bersama-sama, Anda dapat membuat dasbor kustom untuk memvisualisasikan metrik dan tren penting.
Dasbor operasional dapat memberikan tampilan terpusat dari metrik terpenting, sehingga Anda dapat dengan cepat mengidentifikasi area yang perlu diperhatikan. Misalnya, dasbor dapat mencakup metrik seperti pemakaian CPU, penggunaan memori, traffic jaringan, dan latensi untuk aplikasi atau layanan tertentu. Dengan memantau metrik ini, Anda dapat dengan cepat mengidentifikasi potensi masalah dan mengambil langkah-langkah untuk menyelesaikannya.