Memastikan kesiapan dan performa operasional menggunakan CloudOps

Last reviewed 2024-10-31 UTC

Prinsip dalam pilar keunggulan operasional di Google Cloud Framework yang Dirancang dengan Baik ini membantu Anda memastikan kesiapan dan performa operasional workload cloud Anda. Hal ini menekankan penetapan ekspektasi dan komitmen yang jelas untuk performa layanan, penerapan pemantauan dan pemberitahuan yang andal, melakukan pengujian performa, dan merencanakan kebutuhan kapasitas secara proaktif.

Ringkasan prinsip

Organisasi yang berbeda mungkin menafsirkan kesiapan operasional secara berbeda. Kesiapan operasional adalah cara organisasi Anda bersiap untuk berhasil mengoperasikan workload di Google Cloud. Mempersiapkan pengoperasian workload cloud multitingkat yang kompleks memerlukan perencanaan yang cermat untuk peluncuran dan operasi day-2. Operasi ini sering disebut CloudOps.

Area fokus kesiapan operasional

Kesiapan operasional terdiri dari empat area fokus. Setiap area fokus terdiri dari serangkaian aktivitas dan komponen yang diperlukan untuk bersiap mengoperasikan aplikasi atau lingkungan yang kompleks di Google Cloud. Tabel berikut mencantumkan komponen dan aktivitas setiap area fokus:

Area fokus kesiapan operasional Aktivitas dan komponen
Tenaga Kerja
  • Menentukan peran dan tanggung jawab yang jelas untuk tim yang mengelola dan mengoperasikan resource cloud.
  • Memastikan anggota tim memiliki keterampilan yang sesuai.
  • Mengembangkan program pembelajaran.
  • Membangun struktur tim yang jelas.
  • Merekrut talenta yang diperlukan.
Proses
  • Kemampuan observasi.
  • Mengelola gangguan layanan.
  • Pengiriman cloud.
  • Operasi cloud inti.
Alat Alat yang diperlukan untuk mendukung proses CloudOps.
Tata kelola
  • Tingkat layanan dan pelaporan.
  • Keuangan cloud.
  • Model operasi cloud.
  • Dewan tata kelola dan tinjauan arsitektur.
  • Arsitektur dan kepatuhan cloud.

Rekomendasi

Untuk memastikan kesiapan dan performa operasional menggunakan CloudOps, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.

Menentukan SLO dan SLA

Tanggung jawab utama tim operasi cloud adalah menentukan tujuan tingkat layanan (SLO) dan perjanjian tingkat layanan (SLA) untuk semua beban kerja penting. Rekomendasi ini relevan dengan area fokus kesiapan operasional tata kelola.

SLO harus spesifik, terukur, dapat dicapai, relevan, dan terikat waktu (SMART), serta harus mencerminkan tingkat layanan dan performa yang Anda inginkan.

  • Spesifik: Mengartikulasikan dengan jelas tingkat layanan dan performa yang diperlukan.
  • Terukur (Measurable): Dapat diukur dan dilacak.
  • Dapat dicapai (Achievable): Dapat dicapai dalam batas kemampuan dan sumber daya organisasi Anda.
  • Relevan: Selaras dengan sasaran dan prioritas bisnis.
  • Terikat waktu: Memiliki jangka waktu yang ditentukan untuk pengukuran dan evaluasi.

Misalnya, SLO untuk aplikasi web mungkin adalah "ketersediaan 99,9%" atau "waktu respons rata-rata kurang dari 200 md". SLO tersebut dengan jelas menentukan tingkat layanan dan performa yang diperlukan untuk aplikasi web, dan SLO dapat diukur dan dilacak dari waktu ke waktu.

SLA menguraikan komitmen kepada pelanggan terkait ketersediaan, performa, dan dukungan layanan, termasuk penalti atau upaya perbaikan jika terjadi ketidakpatuhan. SLA harus mencakup detail spesifik tentang layanan yang diberikan, tingkat layanan yang dapat diharapkan, tanggung jawab penyedia layanan dan pelanggan, serta penalti atau upaya perbaikan jika terjadi ketidakpatuhan. SLA berfungsi sebagai perjanjian kontraktual antara kedua belah pihak, yang memastikan bahwa keduanya memiliki pemahaman yang jelas tentang ekspektasi dan kewajiban yang terkait dengan layanan cloud.

Google Cloud menyediakan alat seperti Cloud Monitoring dan indikator tingkat layanan (SLI) untuk membantu Anda menentukan dan melacak SLO. Cloud Monitoring menyediakan kemampuan pemantauan dan observabilitas yang komprehensif yang memungkinkan organisasi Anda mengumpulkan dan menganalisis metrik yang terkait dengan ketersediaan, performa, dan latensi aplikasi dan layanan berbasis cloud. SLI adalah metrik spesifik yang dapat Anda gunakan untuk mengukur dan melacak SLO dari waktu ke waktu. Dengan memanfaatkan alat ini, Anda dapat memantau dan mengelola layanan cloud secara efektif, serta memastikan layanan tersebut memenuhi SLO dan SLA.

Menentukan dan mengomunikasikan SLO dan SLA untuk semua layanan cloud penting Anda secara jelas akan membantu memastikan keandalan dan performa aplikasi serta layanan yang di-deploy.

Menerapkan observabilitas komprehensif

Untuk mendapatkan visibilitas real-time terkait kondisi dan performa lingkungan cloud Anda, sebaiknya gunakan kombinasi alat Google Cloud Observability dan solusi pihak ketiga. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.

Menerapkan kombinasi solusi observabilitas memberi Anda strategi observabilitas yang komprehensif yang mencakup berbagai aspek infrastruktur dan aplikasi cloud Anda. Google Cloud Observability adalah platform terpadu untuk mengumpulkan, menganalisis, dan memvisualisasikan metrik, log, dan rekaman aktivitas dari berbagaiGoogle Cloud layanan, aplikasi, dan sumber eksternal. Dengan menggunakan Cloud Monitoring, Anda dapat memperoleh insight tentang pemakaian resource, karakteristik performa, dan kondisi keseluruhan resource Anda.

Untuk memastikan pemantauan yang komprehensif, pantau metrik penting yang sesuai dengan indikator kesehatan sistem seperti pemakaian CPU, penggunaan memori, traffic jaringan, I/O disk, dan waktu respons aplikasi. Anda juga harus mempertimbangkan metrik khusus bisnis. Dengan melacak metrik ini, Anda dapat mengidentifikasi potensi hambatan, masalah performa, dan batasan resource. Selain itu, Anda dapat menyiapkan pemberitahuan untuk memberi tahu tim yang relevan secara proaktif tentang potensi masalah atau anomali.

Untuk meningkatkan kemampuan pemantauan Anda lebih lanjut, Anda dapat mengintegrasikan solusi pihak ketiga dengan Google Cloud Observability. Solusi ini dapat memberikan fungsi tambahan, seperti analisis lanjutan, deteksi anomali yang didukung machine learning, dan kemampuan pengelolaan insiden. Kombinasi alat Observability Google Cloud dan solusi pihak ketiga ini memungkinkan Anda membuat ekosistem pemantauan yang andal dan dapat disesuaikan dengan kebutuhan spesifik Anda. Dengan menggunakan pendekatan kombinasi ini, Anda dapat secara proaktif mengidentifikasi dan mengatasi masalah, mengoptimalkan pemanfaatan resource, serta memastikan keandalan dan ketersediaan aplikasi dan layanan cloud Anda secara keseluruhan.

Menerapkan pengujian performa dan beban

Melakukan pengujian performa secara rutin membantu Anda memastikan bahwa aplikasi dan infrastruktur berbasis cloud Anda dapat menangani beban puncak dan mempertahankan performa yang optimal. Pengujian beban menyimulasikan pola traffic yang realistis. Uji tekanan mendorong sistem hingga batasnya untuk mengidentifikasi potensi hambatan dan batasan performa. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.

Alat seperti Cloud Load Balancing dan layanan pengujian beban dapat membantu Anda menyimulasikan pola traffic dunia nyata dan menguji aplikasi Anda secara intensif. Alat ini memberikan insight berharga tentang perilaku sistem Anda dalam berbagai kondisi beban, dan dapat membantu Anda mengidentifikasi area yang memerlukan pengoptimalan.

Berdasarkan hasil pengujian performa, Anda dapat membuat keputusan untuk mengoptimalkan infrastruktur dan aplikasi cloud Anda agar performa dan skalabilitasnya optimal. Pengoptimalan ini mungkin melibatkan penyesuaian alokasi resource, penyesuaian konfigurasi, atau penerapan mekanisme caching.

Misalnya, jika Anda mendapati bahwa aplikasi Anda mengalami perlambatan selama periode traffic tinggi, Anda mungkin perlu meningkatkan jumlah mesin virtual atau penampung yang dialokasikan untuk aplikasi. Atau, Anda mungkin perlu menyesuaikan konfigurasi server web atau database untuk meningkatkan performa.

Dengan melakukan pengujian performa secara rutin dan menerapkan pengoptimalan yang diperlukan, Anda dapat memastikan bahwa aplikasi dan infrastruktur berbasis cloud Anda selalu berjalan dengan performa puncak, serta memberikan pengalaman yang lancar dan responsif bagi pengguna Anda. Dengan demikian, Anda dapat mempertahankan keunggulan kompetitif dan membangun kepercayaan dengan pelanggan.

Merencanakan dan mengelola kapasitas

Merencanakan kebutuhan kapasitas di masa mendatang secara proaktif—baik organik maupun anorganik—membantu Anda memastikan kelancaran operasi dan skalabilitas sistem berbasis cloud Anda. Rekomendasi ini relevan dengan proses area fokus kesiapan operasional.

Perencanaan kapasitas di masa mendatang mencakup pemahaman dan pengelolaan kuota untuk berbagai resource seperti instance komputasi, penyimpanan, dan permintaan API. Dengan menganalisis pola penggunaan historis, proyeksi pertumbuhan, dan persyaratan bisnis, Anda dapat secara akurat mengantisipasi persyaratan kapasitas di masa mendatang. Anda dapat menggunakan alat seperti Cloud Monitoring dan BigQuery untuk mengumpulkan dan menganalisis data penggunaan, mengidentifikasi tren, dan memperkirakan permintaan di masa mendatang.

Pola penggunaan historis memberikan insight berharga tentang pemanfaatan resource dari waktu ke waktu. Dengan memeriksa metrik seperti pemakaian CPU, penggunaan memori, dan traffic jaringan, Anda dapat mengidentifikasi periode permintaan tinggi dan potensi bottleneck. Selain itu, Anda dapat membantu memperkirakan kebutuhan kapasitas di masa mendatang dengan membuat proyeksi pertumbuhan berdasarkan faktor-faktor seperti pertumbuhan basis pengguna, produk dan fitur baru, serta kampanye pemasaran. Saat menilai kebutuhan kapasitas, Anda juga harus mempertimbangkan persyaratan bisnis seperti SLA dan target performa.

Saat Anda menentukan ukuran resource untuk workload, pertimbangkan faktor-faktor yang dapat memengaruhi penggunaan resource. Variasi musiman seperti periode belanja liburan atau penjualan akhir kuartal dapat menyebabkan lonjakan permintaan sementara. Acara yang direncanakan seperti peluncuran produk atau kampanye pemasaran juga dapat meningkatkan traffic secara signifikan. Untuk memastikan sistem utama dan pemulihan dari bencana (DR) Anda dapat menangani lonjakan permintaan yang tidak terduga, rencanakan kapasitas yang dapat mendukung failover yang lancar selama gangguan seperti bencana alam dan serangan siber.

Penskalaan otomatis adalah strategi penting untuk menyesuaikan resource cloud Anda secara dinamis berdasarkan fluktuasi workload. Dengan menggunakan kebijakan penskalaan otomatis, Anda dapat menskalakan instance komputasi, penyimpanan, dan resource lainnya secara otomatis sebagai respons terhadap perubahan permintaan. Hal ini memastikan performa yang optimal selama periode puncak sekaligus meminimalkan biaya saat penggunaan resource rendah. Algoritma penskalaan otomatis menggunakan metrik seperti pemakaian CPU, penggunaan memori, dan kedalaman antrean untuk menentukan kapan harus menskalakan resource.

Terus memantau dan mengoptimalkan

Untuk mengelola dan mengoptimalkan workload cloud, Anda harus membuat proses untuk terus memantau dan menganalisis metrik performa. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.

Untuk membuat proses pemantauan dan analisis berkelanjutan, Anda melacak, mengumpulkan, dan mengevaluasi data yang terkait dengan berbagai aspek lingkungan cloud Anda. Dengan menggunakan data ini, Anda dapat secara proaktif mengidentifikasi area yang perlu ditingkatkan, mengoptimalkan penggunaan resource, dan memastikan infrastruktur cloud Anda secara konsisten memenuhi atau melampaui ekspektasi performa Anda.

Aspek penting dari pemantauan performa adalah meninjau log dan rekaman aktivitas secara rutin. Log memberikan insight berharga tentang peristiwa, error, dan peringatan sistem. Trace memberikan informasi mendetail tentang alur permintaan melalui aplikasi Anda. Dengan menganalisis log dan rekaman aktivitas, Anda dapat mengidentifikasi potensi masalah, mengidentifikasi penyebab utama masalah, dan lebih memahami perilaku aplikasi Anda dalam berbagai kondisi. Metrik seperti waktu perjalanan pulang pergi antar-layanan dapat membantu Anda mengidentifikasi dan memahami hambatan yang ada di workload Anda.

Selain itu, Anda dapat menggunakan teknik penyesuaian performa untuk meningkatkan waktu respons aplikasi dan efisiensi secara keseluruhan secara signifikan. Berikut adalah contoh teknik yang dapat Anda gunakan:

  • Penyimpanan cache: Simpan data yang sering diakses dalam memori untuk mengurangi kebutuhan akan kueri database atau panggilan API yang berulang.
  • Pengoptimalan database: Gunakan teknik seperti pengindeksan dan pengoptimalan kueri untuk meningkatkan performa operasi database.
  • Pemrofilan kode: Identifikasi area kode Anda yang menggunakan resource berlebihan atau menyebabkan masalah performa.

Dengan menerapkan teknik ini, Anda dapat mengoptimalkan aplikasi dan memastikan aplikasi berjalan secara efisien di cloud.