Dokumen dalam Google Cloud Framework yang Dirancang dengan Baik: Perspektif FSI memberikan ringkasan prinsip dan rekomendasi untuk membangun, men-deploy, dan mengoperasikan workload industri jasa keuangan (FSI) yang andal di Google Cloud. Rekomendasi ini membantu Anda menyiapkan elemen dasar seperti kemampuan observasi, otomatisasi, dan skalabilitas. Rekomendasi dalam dokumen ini selaras dengan pilar keunggulan operasional dari Framework yang Dirancang dengan Baik.
Keunggulan operasional sangat penting untuk workload FSI di Google Cloud karena sifat workload tersebut yang sangat diatur dan sensitif. Keunggulan operasional memastikan bahwa solusi cloud dapat beradaptasi dengan kebutuhan yang terus berubah dan memenuhi persyaratan Anda dalam hal nilai, performa, keamanan, dan keandalan. Kegagalan di area ini dapat mengakibatkan kerugian finansial yang signifikan, hukuman peraturan, dan kerusakan reputasi.
Keunggulan operasional memberikan manfaat berikut untuk workload FSI:
- Menjaga kepercayaan dan reputasi: Lembaga keuangan sangat mengandalkan kepercayaan pelanggan mereka. Gangguan operasional atau pelanggaran keamanan dapat mengikis kepercayaan ini secara signifikan dan menyebabkan pelanggan beralih ke produk lain. Keunggulan operasional membantu meminimalkan risiko ini.
Memenuhi persyaratan kepatuhan terhadap peraturan yang ketat: FSI tunduk pada berbagai peraturan yang rumit, seperti berikut:
- General Data Protection Regulation (GDPR) Uni Eropa
- EU Digital Operational Resilience Act (DORA)
- California Consumer Privacy Act (CCPA)
- Peraturan khusus industri
Proses operasional, pemantauan, dan pengelolaan insiden yang andal sangat penting untuk menunjukkan kepatuhan terhadap peraturan dan menghindari sanksi.
Memastikan kelangsungan dan ketahanan bisnis: Pasar dan layanan keuangan sering kali beroperasi secara berkelanjutan. Oleh karena itu, ketersediaan tinggi dan pemulihan dari bencana (disaster recovery) yang efektif sangat penting. Prinsip keunggulan operasional memandu desain dan penerapan sistem yang tangguh. Pilar keandalan memberikan panduan lebih lanjut di area ini.
Melindungi data sensitif: Lembaga keuangan menangani banyak sekali data pelanggan dan keuangan yang sangat sensitif. Kontrol operasional yang kuat, pemantauan keamanan, dan respons insiden yang cepat sangat penting untuk mencegah pelanggaran data dan menjaga privasi. Pilar keamanan memberikan panduan lebih lanjut di area ini.
Mengoptimalkan performa untuk aplikasi penting: Banyak aplikasi keuangan, seperti platform perdagangan dan analisis real-time, memerlukan performa tinggi dan latensi rendah. Untuk memenuhi persyaratan performa ini, Anda memerlukan desain komputasi, jaringan, dan penyimpanan yang sangat dioptimalkan. Pilar pengoptimalan performa memberikan panduan lebih lanjut di area ini.
Mengelola biaya secara efektif: Selain keamanan dan keandalan, lembaga keuangan juga memperhatikan efisiensi biaya. Keunggulan operasional mencakup praktik untuk mengoptimalkan pemanfaatan resource dan mengelola pembelanjaan cloud. Pilar pengoptimalan biaya memberikan panduan lebih lanjut di area ini.
Rekomendasi keunggulan operasional dalam dokumen ini dipetakan ke prinsip inti berikut:
- Menentukan SLA serta SLO dan SLI yang sesuai
- Menentukan dan menguji proses manajemen insiden
- Terus meningkatkan dan berinovasi
Menentukan SLA serta SLO dan SLI yang sesuai
Di banyak organisasi FSI, ketersediaan aplikasi biasanya diklasifikasikan berdasarkan metrik tujuan waktu pemulihan (RTO) dan tujuan titik pemulihan (RPO). Untuk aplikasi penting bisnis yang melayani pelanggan eksternal, perjanjian tingkat layanan (SLA) juga dapat ditentukan.
SLA memerlukan framework metrik yang merepresentasikan perilaku sistem dari perspektif kepuasan pengguna. Praktik Site Reliability Engineering (SRE) menawarkan cara untuk mencapai tingkat keandalan sistem yang Anda inginkan. Membuat framework metrik melibatkan penentuan dan pemantauan indikator numerik utama untuk memahami kondisi sistem dari perspektif pengguna. Misalnya, metrik seperti latensi dan tingkat error mengukur seberapa baik performa layanan. Metrik ini disebut indikator tingkat layanan (SLI). Pengembangan SLI yang efektif sangat penting karena SLI menyediakan data mentah yang diperlukan untuk menilai keandalan secara objektif.
Untuk menentukan SLA, SLI, dan SLO yang bermakna, pertimbangkan rekomendasi berikut:
- Kembangkan dan tentukan SLI untuk setiap layanan penting. Tetapkan nilai target yang menentukan tingkat performa yang dapat diterima.
- Kembangkan dan tentukan tujuan tingkat layanan (SLO) yang sesuai dengan SLI. Misalnya, SLO dapat menyatakan bahwa 99,9% permintaan harus memiliki latensi kurang dari 200 milidetik.
- Identifikasi tindakan perbaikan internal yang harus dilakukan jika layanan tidak memenuhi SLO. Misalnya, untuk meningkatkan ketahanan platform, Anda mungkin perlu memfokuskan sumber daya pengembangan untuk memperbaiki masalah.
- Validasi persyaratan SLA untuk setiap layanan dan akui SLA sebagai kontrak formal dengan pengguna layanan.
Contoh tingkat layanan
Tabel berikut memberikan contoh SLI, SLO, dan SLA untuk platform pembayaran:
Metrik bisnis | SLI | SLO | SLA |
---|---|---|---|
Keberhasilan transaksi pembayaran | Ukuran kuantitatif persentase semua transaksi pembayaran yang dimulai yang berhasil diproses dan dikonfirmasi. Contoh: (jumlah transaksi yang berhasil ÷ total jumlah transaksi yang valid) × 100, diukur selama periode 5 menit bergulir. |
Target internal untuk mempertahankan persentase tinggi transaksi pembayaran yang berhasil selama periode tertentu. Contoh: Pertahankan rasio keberhasilan transaksi pembayaran sebesar 99,98% selama periode 30 hari, tidak termasuk permintaan yang tidak valid dan pemeliharaan terencana. |
Jaminan kontraktual untuk tingkat keberhasilan dan kecepatan pemrosesan transaksi pembayaran. Contoh: Penyedia layanan menjamin bahwa 99,0% transaksi pembayaran yang dimulai oleh klien akan berhasil diproses dan dikonfirmasi dalam waktu satu detik. |
Latensi pemrosesan pembayaran | Rata-rata waktu yang diperlukan untuk memproses transaksi pembayaran dari inisiasi oleh klien hingga konfirmasi akhir. Contoh: Waktu respons rata-rata dalam milidetik untuk konfirmasi transaksi, yang diukur selama periode 5 menit bergulir. |
Target internal untuk kecepatan pemrosesan transaksi pembayaran. Contoh: Pastikan 99,5% transaksi pembayaran diproses dalam waktu 400 milidetik selama periode 30 hari. |
Komitmen kontraktual untuk menyelesaikan masalah pemrosesan pembayaran kritis dalam jangka waktu tertentu. Contoh: Untuk masalah pemrosesan pembayaran yang kritis (didefinisikan sebagai gangguan yang memengaruhi lebih dari 1% transaksi), penyedia layanan berkomitmen untuk menyelesaikan masalah dalam waktu dua jam sejak masalah dilaporkan atau terdeteksi. |
Ketersediaan platform | Persentase waktu saat API pemrosesan pembayaran inti dan antarmuka pengguna beroperasi dan dapat diakses oleh klien. Contoh: (total waktu operasional − waktu nonaktif) ÷ total waktu operasional × 100, diukur per menit. |
Target internal untuk uptime platform pembayaran inti. Contoh: Mencapai ketersediaan platform 99,995% per bulan kalender, tidak termasuk periode pemeliharaan terjadwal. |
Komitmen formal dan mengikat secara hukum kepada klien terkait waktu aktif minimum platform pembayaran, termasuk konsekuensi jika tidak dapat dipenuhi. Contoh: Platform akan mempertahankan ketersediaan minimum 99,9% per bulan kalender, tidak termasuk periode pemeliharaan terjadwal. Jika ketersediaan berada di bawah tingkat minimum, klien akan menerima kredit layanan sebesar 5% dari biaya layanan bulanan untuk setiap penurunan 0,1%. |
Gunakan data SLI untuk memantau apakah sistem berada dalam SLO yang ditentukan dan untuk memastikan SLA terpenuhi. Dengan menggunakan serangkaian SLI yang ditentukan dengan baik, engineer dan developer dapat memantau aplikasi FSI di tingkat berikut:
- Langsung di dalam layanan tempat aplikasi di-deploy, seperti GKE atau Cloud Run.
- Dengan menggunakan log yang disediakan oleh komponen infrastruktur, seperti load balancer.
OpenTelemetry menyediakan standar open source dan serangkaian teknologi untuk mengambil semua jenis telemetri, termasuk metrik, trace, dan log. Google Cloud Managed Service for Prometheus menyediakan backend yang terkelola sepenuhnya dan sangat skalabel untuk metrik dan operasi Prometheus dalam skala besar.
Untuk mengetahui informasi selengkapnya tentang SLI, SLO, dan anggaran error, lihat buku panduan SRE.
Untuk mengembangkan mekanisme dan dasbor pemantauan serta pemberitahuan yang efektif, gunakan alat Google Cloud Observability bersama dengan Google Cloud Monitoring. Untuk mengetahui informasi tentang kemampuan pemantauan dan deteksi khusus keamanan, lihat pilar keamanan.
Menentukan dan menguji proses manajemen insiden
Proses pengelolaan insiden yang jelas dan diuji secara rutin berkontribusi langsung terhadap nilai, performa, keamanan, dan keandalan beban kerja FSI di Google Cloud. Proses ini membantu lembaga keuangan memenuhi persyaratan peraturan yang ketat, melindungi data sensitif, mempertahankan kelangsungan bisnis, dan menjaga kepercayaan pelanggan.
Pengujian rutin terhadap proses pengelolaan insiden memberikan manfaat berikut:
- Mempertahankan performa di bawah beban puncak: Pengujian performa dan beban rutin membantu lembaga keuangan memastikan bahwa aplikasi dan infrastruktur berbasis cloud mereka dapat menangani volume transaksi puncak, volatilitas pasar, dan skenario permintaan tinggi lainnya tanpa penurunan performa. Kemampuan ini sangat penting untuk mempertahankan pengalaman pengguna yang lancar dan memenuhi permintaan pasar keuangan.
- Mengidentifikasi potensi hambatan dan batasan: Pengujian beban mendorong sistem hingga batasnya, dan memungkinkan lembaga keuangan untuk mengidentifikasi potensi hambatan dan batasan performa sebelum memengaruhi operasi penting. Pendekatan proaktif ini memungkinkan lembaga keuangan menyesuaikan infrastruktur dan aplikasi mereka untuk mendapatkan performa dan skalabilitas yang optimal.
- Memvalidasi keandalan dan ketahanan: Pengujian rutin, termasuk rekayasa kekacauan atau kegagalan yang disimulasikan, membantu memvalidasi keandalan dan ketahanan sistem keuangan. Pengujian ini memastikan bahwa sistem dapat pulih dengan baik dari kegagalan dan mempertahankan ketersediaan tinggi, yang penting untuk kelangsungan bisnis.
- Lakukan perencanaan kapasitas yang efektif: Pengujian performa memberikan data berharga tentang pemanfaatan resource dalam berbagai kondisi beban, yang sangat penting untuk perencanaan kapasitas yang akurat. Lembaga keuangan dapat menggunakan data ini untuk mengantisipasi kebutuhan kapasitas di masa mendatang secara proaktif dan menghindari masalah performa karena batasan sumber daya.
- Men-deploy fitur baru dan perubahan kode dengan berhasil: Mengintegrasikan pengujian otomatis ke dalam pipeline CI/CD membantu memastikan bahwa perubahan dan deployment baru divalidasi secara menyeluruh sebelum dirilis ke lingkungan produksi. Pendekatan ini secara signifikan mengurangi risiko error dan regresi yang dapat menyebabkan gangguan operasional.
- Memenuhi persyaratan peraturan untuk stabilitas sistem: Peraturan keuangan sering kali mewajibkan lembaga memiliki praktik pengujian yang andal untuk memastikan stabilitas dan keandalan sistem penting mereka. Pengujian reguler membantu menunjukkan kepatuhan terhadap persyaratan ini.
Untuk menentukan dan menguji proses pengelolaan insiden, pertimbangkan rekomendasi berikut.
Menetapkan prosedur respons insiden yang jelas
Serangkaian prosedur respons insiden yang sudah teruji mencakup elemen berikut:
- Peran dan tanggung jawab yang ditentukan untuk komandan insiden, penyelidik, komunikator, dan pakar teknis untuk memastikan respons yang efektif dan terkoordinasi.
- Protokol komunikasi dan jalur eskalasi yang ditentukan untuk memastikan informasi dibagikan dengan cepat dan efektif selama insiden.
- Prosedur yang didokumentasikan dalam runbook atau playbook yang menguraikan langkah-langkah untuk komunikasi, triase, penyelidikan, dan penyelesaian.
- Pelatihan dan persiapan rutin yang membekali tim dengan pengetahuan dan keterampilan untuk merespons secara efektif.
Terapkan pengujian performa dan beban secara rutin
Pengujian performa dan beban secara rutin membantu memastikan bahwa aplikasi dan infrastruktur berbasis cloud dapat menangani beban puncak dan mempertahankan performa yang optimal. Pengujian beban menyimulasikan pola traffic yang realistis. Pengujian beban kerja menguji sistem hingga batasnya untuk mengidentifikasi potensi bottleneck dan batasan performa. Anda dapat menggunakan produk seperti Cloud Load Balancing dan layanan pengujian beban untuk menyimulasikan traffic dunia nyata. Berdasarkan hasil pengujian, Anda dapat menyesuaikan infrastruktur dan aplikasi cloud untuk mendapatkan performa dan skalabilitas yang optimal. Misalnya, Anda dapat menyesuaikan alokasi resource atau menyesuaikan konfigurasi aplikasi.
Mengotomatiskan pengujian dalam pipeline CI/CD
Menggabungkan pengujian otomatis ke dalam pipeline CI/CD membantu memastikan kualitas dan keandalan aplikasi cloud dengan memvalidasi perubahan sebelum deployment. Pendekatan ini secara signifikan mengurangi risiko error dan regresi, serta membantu Anda membangun sistem software yang lebih stabil dan andal. Anda dapat menggabungkan berbagai jenis pengujian dalam pipeline CI/CD, termasuk pengujian unit, pengujian integrasi, dan pengujian end-to-end. Gunakan produk seperti Cloud Build dan Cloud Deploy untuk membuat dan mengelola pipeline CI/CD Anda.
Terus meningkatkan kualitas dan berinovasi
Untuk beban kerja jasa keuangan di cloud, migrasi ke cloud hanyalah langkah awal. Peningkatan dan inovasi berkelanjutan sangat penting karena alasan berikut:
- Mempercepat inovasi: Manfaatkan teknologi baru seperti AI untuk meningkatkan kualitas layanan Anda.
- Mengurangi biaya: Menghilangkan inefisiensi dan mengoptimalkan penggunaan resource.
- Meningkatkan ketangkasan: Beradaptasi dengan perubahan pasar dan peraturan dengan cepat.
- Meningkatkan kualitas pengambilan keputusan: Gunakan produk analisis data seperti BigQuery dan Looker untuk membuat pilihan yang tepat.
Untuk memastikan peningkatan dan inovasi berkelanjutan, pertimbangkan rekomendasi berikut.
Lakukan retrospektif secara rutin
Retrospektif sangat penting untuk terus meningkatkan kualitas prosedur respons insiden, dan untuk mengoptimalkan strategi pengujian berdasarkan hasil performa dan pengujian beban secara rutin. Untuk memastikan retrospektif efektif, lakukan hal berikut:
- Berikan kesempatan kepada tim untuk merenungkan pengalaman mereka, mengidentifikasi hal-hal yang berjalan dengan baik, dan menentukan area yang perlu ditingkatkan.
- Lakukan retrospektif setelah pencapaian project, insiden besar, atau siklus pengujian yang signifikan. Tim dapat belajar dari kesuksesan dan kegagalan serta terus meningkatkan proses dan praktik mereka.
- Gunakan pendekatan terstruktur seperti model start-stop-continue untuk memastikan sesi retrospektif produktif dan menghasilkan langkah-langkah yang dapat ditindaklanjuti.
- Gunakan retrospektif untuk mengidentifikasi area tempat otomatisasi pengelolaan perubahan dapat ditingkatkan lebih lanjut untuk meningkatkan keandalan dan mengurangi risiko.
Menumbuhkan budaya belajar
Budaya belajar memfasilitasi eksplorasi teknologi baru yang aman di Google Cloud, seperti kemampuan AI dan ML untuk meningkatkan layanan seperti deteksi penipuan dan saran keuangan yang dipersonalisasi. Untuk mempromosikan budaya belajar, lakukan hal berikut:
- Dorong tim untuk bereksperimen, berbagi pengetahuan, dan terus belajar.
- Menerapkan budaya tanpa menyalahkan, di mana kegagalan dipandang sebagai peluang untuk tumbuh dan berkembang.
- Ciptakan lingkungan yang aman secara psikologis yang memungkinkan tim mengambil risiko dan mempertimbangkan solusi inovatif. Tim belajar dari kesuksesan dan kegagalan, yang menghasilkan organisasi yang lebih tangguh dan mudah beradaptasi.
- Kembangkan budaya yang memfasilitasi berbagi pengetahuan yang diperoleh dari proses manajemen insiden dan latihan pengujian.
Selalu dapatkan info terkini tentang teknologi cloud
Pembelajaran berkelanjutan sangat penting untuk memahami dan menerapkan langkah-langkah keamanan baru, memanfaatkan analisis data tingkat lanjut untuk mendapatkan insight yang lebih baik, dan mengadopsi solusi inovatif yang relevan dengan industri keuangan.
- Maksimalkan potensi layanan Google Cloud dengan terus mendapatkan informasi tentang perkembangan, fitur, dan praktik terbaik terbaru.
- Saat fitur dan layanan baru diperkenalkan, identifikasi peluang untuk mengotomatiskan lebih lanjut proses, meningkatkan keamanan, serta meningkatkan performa dan skalabilitas aplikasi Anda. Google Cloud
- Berpartisipasilah dalam konferensi, webinar, dan sesi pelatihan yang relevan untuk memperluas pengetahuan dan memahami kemampuan baru.
- Dorong anggota tim untuk mendapatkan Google Cloud sertifikasi untuk membantu memastikan bahwa organisasi memiliki keterampilan yang diperlukan agar berhasil di cloud.