Google Distributed Cloud dirancang untuk membatasi cakupan kegagalan dan memprioritaskan fungsi yang penting untuk kelangsungan bisnis. Dokumen ini menjelaskan dampak kegagalan terhadap fungsionalitas cluster Anda. Informasi ini dapat membantu Anda memprioritaskan area yang perlu dipecahkan masalahnya jika Anda mengalami masalah.
Fungsi inti Google Distributed Cloud mencakup kategori berikut:
- Menjalankan workload: Workload yang ada dapat terus berjalan. Hal ini adalah pertimbangan paling penting untuk menjaga kelangsungan bisnis. Meskipun cluster Anda mengalami masalah, workload yang ada dapat terus berjalan tanpa gangguan.
- Mengelola workload: Anda dapat membuat, mengupdate, dan menghapus workload. Ini adalah pertimbangan terpenting kedua untuk menskalakan workload saat traffic meningkat, meskipun cluster mengalami masalah.
- Mengelola cluster pengguna: Anda dapat mengelola node, memperbarui, mengupgrade, dan menghapus cluster pengguna. Hal ini kurang penting daripada pertimbangan siklus proses aplikasi. Jika ada kapasitas yang tersedia di node yang ada, ketidakmampuan untuk mengubah cluster pengguna tidak memengaruhi workload pengguna.
- Mengelola cluster admin: Anda dapat mengupdate dan mengupgrade cluster admin.
- Untuk deployment yang menggunakan cluster admin dan pengguna terpisah, ini adalah pertimbangan yang paling tidak penting karena cluster admin tidak menghosting beban kerja pengguna. Jika cluster admin Anda mengalami masalah, workload aplikasi Anda di cluster lain akan terus berjalan tanpa gangguan.
- Jika Anda menggunakan model deployment lain, seperti hybrid atau mandiri, cluster admin akan menjalankan beban kerja aplikasi. Jika cluster admin mengalami masalah dan bidang kontrol tidak berfungsi, Anda juga tidak dapat mengelola workload aplikasi atau komponen cluster pengguna.
Bagian berikut menggunakan kategori fungsi inti ini untuk menjelaskan dampak jenis skenario kegagalan tertentu. Jika terjadi gangguan sebagai bagian dari skenario kegagalan, durasi (urutan) gangguan juga dicatat, jika memungkinkan.
Kegagalan node
Node di Google Distributed Cloud mungkin berhenti berfungsi atau tidak dapat dijangkau di jaringan. Bergantung pada kumpulan node dan cluster tempat mesin yang gagal menjadi bagiannya, ada beberapa mode kegagalan yang berbeda.
Node bidang kontrol
Tabel berikut menguraikan perilaku untuk node yang merupakan bagian dari bidang kontrol di Google Distributed Cloud:
Menjalankan workload | Mengelola workload | Mengelola cluster pengguna | Mengelola cluster admin | |
---|---|---|---|---|
Gangguan (durasi) | Tidak ada gangguan | Kemungkinan gangguan (tidak diketahui) | Kemungkinan gangguan (tidak diketahui) | Kemungkinan gangguan (tidak diketahui) |
Explanation | — | Jika kegagalan node memengaruhi satu node bidang kontrol dalam cluster pengguna non-ketersediaan tinggi (HA), atau jika memengaruhi tidak kurang dari setengah node bidang kontrol dalam cluster pengguna HA, akan terjadi gangguan. Kuorum bidang kontrol cluster pengguna hilang. | Jika kegagalan node memengaruhi node bidang kontrol tunggal di cluster admin non-HA, atau jika memengaruhi setidaknya setengah dari node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum bidang kontrol cluster admin hilang. | Jika kegagalan node memengaruhi node bidang kontrol tunggal di cluster admin non-HA, atau jika memengaruhi setidaknya setengah dari node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum bidang kontrol cluster admin hilang. |
Pemulihan | — | Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum. | Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum. | Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum. |
Pencegahan | — | Deploy cluster pengguna dalam mode HA untuk meminimalkan kemungkinan gangguan. | Deploy cluster admin dalam mode HA untuk meminimalkan kemungkinan gangguan. | Deploy cluster admin dalam mode HA untuk meminimalkan kemungkinan gangguan. |
Node load balancer
Tabel berikut menguraikan perilaku untuk node yang menghosting load balancer di Google Distributed Cloud. Panduan ini hanya berlaku untuk load balancer gabungan dengan mode layer 2. Untuk load balancing manual, lihat mode kegagalan load balancer eksternal Anda:
Menjalankan workload | Mengelola workload | Mengelola cluster pengguna | Mengelola cluster admin | |
---|---|---|---|---|
Gangguan (durasi) | Kemungkinan gangguan (bervariasi) | Kemungkinan gangguan (bervariasi) | Kemungkinan gangguan (bervariasi) | Kemungkinan gangguan (bervariasi) |
Explanation | Jika beban kerja eksternal mengandalkan load balancer bidang data untuk berkomunikasi dengan beban kerja di cluster dan Anda hanya memiliki satu node load balancer, akan terjadi gangguan. | Alamat IP virtual bidang kontrol cluster pengguna berada di satu node load balancer. Jika load balancer nodepool cluster pengguna tidak HA, akan terjadi gangguan. | Alamat IP virtual bidang kontrol cluster admin berada di satu node load balancer. Jika kumpulan node load balancer dari cluster admin tidak HA, akan terjadi gangguan. | Alamat IP virtual bidang kontrol cluster admin berada di satu node load balancer. Jika kumpulan node load balancer dari cluster admin tidak HA, akan terjadi gangguan. |
Pemulihan | Jika ada beberapa node load balancer, failover MetalLB terjadi dalam beberapa detik. Jika tidak HA, pertimbangkan untuk men-deploy node load balancer tambahan. |
Jika HA, failover bersifat otomatis dan dalam urutan detik. Jika tidak HA, pertimbangkan untuk men-deploy node load balancer tambahan |
Jika HA, failover bersifat otomatis dan dalam urutan detik. Jika tidak HA, pertimbangkan untuk men-deploy node load balancer tambahan. |
Jika HA, failover bersifat otomatis dan dalam urutan detik. Jika tidak HA, pertimbangkan untuk men-deploy node load balancer tambahan. |
Pencegahan | Untuk meminimalkan kemungkinan gangguan, deploy kumpulan node load balancer dalam mode HA. | Untuk meminimalkan kemungkinan gangguan, deploy kumpulan node load balancer dalam mode HA. | Untuk meminimalkan kemungkinan gangguan, deploy kumpulan node load balancer dalam mode HA. | Untuk meminimalkan kemungkinan gangguan, deploy kumpulan node load balancer dalam mode HA. |
Node pekerja
Tabel berikut menguraikan perilaku untuk node pekerja di Google Distributed Cloud:
Menjalankan workload | Mengelola workload | Mengelola cluster pengguna | Mengelola cluster admin | |
---|---|---|---|---|
Gangguan (durasi) | Kemungkinan gangguan (dalam hitungan detik) | Tidak ada gangguan | Tidak ada gangguan | Tidak ada gangguan |
Explanation |
Jika aplikasi pengguna memiliki kapasitas workload cadangan dan tersebar di beberapa node, gangguan tidak dapat diamati oleh klien yang menerapkan percobaan ulang.
|
— | — | — |
Pemulihan | Jika cluster tidak memiliki kapasitas cadangan, Anda harus men-deploy lebih banyak node yang tersebar di beberapa zona kegagalan dan memindahkan workload yang gagal ke node baru. | — | — | — |
Pencegahan | Deploy node yang tersebar di beberapa zona kegagalan. Deploy workload dengan beberapa replika yang tersebar di beberapa zona kegagalan untuk meminimalkan kemungkinan gangguan. |
— | — | — |
Kegagalan penyimpanan
Penyimpanan di Google Distributed Cloud mungkin berhenti berfungsi atau tidak dapat dijangkau di jaringan. Bergantung pada penyimpanan yang gagal, ada beberapa mode kegagalan yang berbeda.
etcd
Isi direktori /var/lib/etcd
dan /var/lib/etcd-events
dapat rusak jika terjadi pematian daya node yang tidak benar atau kegagalan penyimpanan yang mendasar. Tabel berikut menguraikan perilaku fungsi inti karena kegagalan etcd
:
Menjalankan workload | Mengelola workload | Mengelola cluster pengguna | Mengelola cluster admin | |
---|---|---|---|---|
Gangguan (durasi) | Tidak ada gangguan | Kemungkinan gangguan (tidak diketahui) | Kemungkinan gangguan (tidak diketahui) | Kemungkinan gangguan (tidak diketahui) |
Explanation | Jika workload yang ada tidak bergantung pada bidang kontrol Kubernetes, workload tersebut akan terus berfungsi tanpa gangguan. | Jika etcd gagal pada satu cluster pengguna bidang kontrol, atau
gagal pada tidak kurang dari setengah node bidang kontrol di cluster pengguna
HA, akan terjadi gangguan. Kuorum bidang kontrol cluster
pengguna hilang. |
Jika etcd gagal di satu cluster admin bidang kontrol, atau
gagal di setidaknya setengah dari node bidang kontrol dalam cluster admin
HA, akan terjadi gangguan. Kuorum bidang kontrol cluster
admin hilang. |
Jika etcd gagal di satu cluster admin bidang kontrol, atau
gagal di setidaknya setengah dari node bidang kontrol dalam cluster admin
HA, akan terjadi gangguan. Kuorum bidang kontrol cluster
admin hilang. |
Pemulihan | — | Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum. | Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum. | Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum. |
Pencegahan | — | Untuk meminimalkan kemungkinan gangguan, deploy cluster pengguna dalam mode HA. | Untuk meminimalkan kemungkinan gangguan, deploy cluster admin dalam mode HA. | Untuk meminimalkan kemungkinan gangguan, deploy cluster admin dalam mode HA. |
Aplikasi pengguna PersistentVolume
Tabel berikut menguraikan perilaku fungsi inti karena kegagalan PersistentVolume
:
Menjalankan workload | Mengelola workload | Mengelola cluster pengguna | Mengelola cluster admin | |
---|---|---|---|---|
Gangguan (durasi) | Kemungkinan gangguan (tidak diketahui) | Tidak ada gangguan | Tidak ada gangguan | Tidak ada gangguan |
Explanation | Workload yang menggunakan PersistentVolume yang gagal |
— | — | — |
Pemulihan | — | — | — | — |
Pencegahan | Untuk meminimalkan kemungkinan gangguan, deploy workload pengguna dalam mode HA. | — | — | — |
Disk Fluent Bit rusak
Kerusakan disk Fluent Bit tidak memengaruhi fungsi inti apa pun, tetapi memengaruhi kemampuan untuk mengumpulkan dan memeriksa log di Google Cloud.
Peristiwa SIGSEGV
terkadang dapat diamati dari log
stackdriver-log-forwarder
. Error ini mungkin disebabkan oleh log yang di-buffer dan rusak di disk.
Fluent Bit memiliki mekanisme untuk memfilter dan menghapus potongan yang rusak. Fitur ini tersedia di versi fluent-bit (v1.8.3) yang digunakan di Google Distributed Cloud.
Dari LoadBalancer
IP
Jika semua alamat IP di kumpulan yang ditetapkan saat ini digunakan, layanan LoadBalancer
yang baru dibuat tidak dapat memperoleh alamat IP LoadBalancer
. Skenario
ini memengaruhi kemampuan klien layanan untuk berkomunikasi dengan layanan
LoadBalancer
.
Untuk memulihkan dari kehabisan alamat IP ini, tetapkan lebih banyak alamat IP ke kumpulan alamat dengan mengubah resource kustom cluster.
Masa berlaku sertifikat
Google Distributed Cloud membuat certificate authority (CA) yang ditandatangani sendiri selama proses penginstalan cluster. CA memiliki masa berlaku 10 tahun dan bertanggung jawab untuk membuat sertifikat, yang masa berlakunya berakhir setelah satu tahun. Rotasi sertifikat secara rutin untuk mencegah periode nonaktif cluster. Anda dapat merotasi sertifikat dengan mengupgrade cluster, yang merupakan metode yang direkomendasikan. Jika tidak dapat mengupgrade cluster, Anda dapat melakukan rotasi CA sesuai permintaan. Untuk mengetahui informasi selengkapnya tentang sertifikat cluster, lihat Sertifikat dan persyaratan PKI dalam dokumentasi Kubernetes.
Jika masa berlaku sertifikat cluster telah berakhir, sertifikat tersebut harus diperpanjang secara manual.
Menjalankan workload | Mengelola workload | Mengelola cluster pengguna | Mengelola cluster admin | |
---|---|---|---|---|
Gangguan (durasi) | Tanpa Gangguan | Kemungkinan gangguan (tidak diketahui) | Kemungkinan gangguan (tidak diketahui) | Kemungkinan gangguan (tidak diketahui) |
Explanation | Jika workload pengguna tidak berkomunikasi dengan komponen bidang kontrol kubernetes, tidak akan ada gangguan. | Jika masa berlaku otoritas sertifikat untuk cluster pengguna berakhir, akan terjadi gangguan. | Jika masa berlaku certificate authority untuk cluster admin berakhir, akan terjadi gangguan. | Jika masa berlaku otoritas sertifikat untuk cluster pengguna berakhir, akan terjadi gangguan. |
Pemulihan | — | Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna. |
Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna. |
Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna. |
Pencegahan | Siapkan monitor untuk masa berlaku sertifikat. Contoh
metrik kubelet_certificate_manager_server_expiration_seconds dapat
ditemukan di daftar metrik. |
Kegagalan upgrade
Menjalankan workload | Mengelola workload | Mengelola cluster pengguna | Mengelola cluster admin | |
---|---|---|---|---|
Gangguan (durasi) | Tanpa Gangguan | Tanpa Gangguan | Kemungkinan gangguan (tidak diketahui) | Kemungkinan gangguan (tidak diketahui) |
Explanation | Jika upgrade gagal di bidang kontrol cluster pengguna, TIDAK ADA gangguan pada workload yang ada. Jika upgrade gagal pada node pekerja tertentu, workload pada node tersebut akan dikuras dan dipindahkan ke node lain yang sehat jika ada kapasitas tambahan pada node yang sehat. |
Upgrade akan berhenti jika salah satu node bidang kontrol gagal diupgrade. Cluster tetap berfungsi jika upgrade gagal jika cluster pengguna adalah HA. | Jika upgrade gagal di bidang kontrol cluster admin, akan ada gangguan hingga upgrade selesai. | Jika upgrade gagal di bidang kontrol cluster admin, akan ada gangguan hingga upgrade selesai. |
Pemulihan | — | — | Upgrade dapat dicoba lagi. Untuk mengetahui informasi selengkapnya, lihat cara mendiagnosis masalah upgrade dan melanjutkan. | Upgrade dapat dicoba lagi. Untuk mengetahui informasi selengkapnya, lihat cara mendiagnosis masalah upgrade dan melanjutkan. |
Pencegahan | — | — | Untuk mengetahui informasi selengkapnya, lihat cara membuat cadangan sebelum melakukan upgrade. | Untuk mengetahui informasi selengkapnya, lihat cara membuat cadangan sebelum melakukan upgrade. |
Langkah berikutnya
Untuk mengetahui informasi selengkapnya tentang masalah dan solusi produk yang diketahui, lihat Masalah umum Google Distributed Cloud.
Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care. Anda juga dapat melihat bagian Mendapatkan dukungan untuk mengetahui informasi selengkapnya tentang sumber dukungan, termasuk yang berikut:
- Persyaratan untuk membuka kasus dukungan.
- Alat untuk membantu Anda memecahkan masalah, seperti konfigurasi lingkungan, log, dan metrik.
- Komponen yang didukung.