叢集管理總覽


本頁面提供管理員適用的 GKE 叢集管理快速總覽。

如果您是開發人員,在 GKE 上執行工作負載,可能不需要執行大部分的這些工作。如要瞭解如何在 GKE 上部署工作負載,請參閱「部署工作負載」一文。

閱讀本頁面之前,請先熟悉下列內容,以及Kubernetes 基本概念

我該使用哪些工具?

管理員可以使用各種工具處理 GKE 叢集。

  • 如要控管叢集的設定和整體特徵,請使用Google Cloud 工具和 API,包括 Google Cloud CLIGoogle Cloud 控制台。這些工作包括建立、更新、查看及刪除叢集,以及使用 Identity and Access Management (IAM) 控制叢集存取權。您也可以使用其他 Google Cloud 工具和服務,例如可觀測性服務,進行監控、記錄和警報。

  • 如要控管叢集的內部行為,請使用 Kubernetes API 和 kubectl 指令列介面。您可能需要使用 kubectl 的工作包括部署工作負載、套用 Kubernetes 角色型存取權控管 (RBAC) 政策,以及指定 Kubernetes 網路政策規則。如要進一步瞭解如何設定 kubectl,以便與 GKE 叢集搭配使用,請參閱「安裝 kubectl 並設定叢集存取權」。

  • 如要以宣告方式佈建叢集和工作負載,可以使用 Terraform。如要進一步瞭解如何搭配使用 Terraform 與 GKE,請參閱「使用 Terraform 佈建 GKE 資源」。

基本叢集管理

基本叢集管理工作包括叢集設定、叢集升級和節點設定。如果您為叢集使用預設的 Autopilot 模式 (建議),GKE 會為您處理大部分作業:叢集升級和節點設定都由 GKE 管理。如果您使用 Standard 模式,只有升級作業會由 GKE 管理,您必須自行設定節點。如要進一步瞭解何時可能需要為叢集選擇 Standard 模式,請參閱「 GKE 作業模式」。

基本叢集管理工作專屬於 Google Cloud Platform 上的 GKE 叢集,且通常不涉及 Kubernetes 系統本身;您可以使用 Google Cloud 控制台、Google Cloud CLI、GKE API 或 Terraform 的 Google Cloud供應商來完整執行這類工作。 Google Cloud Google Cloud

查看叢集

您可以在 Google Cloud 控制台中查看叢集的基本資訊,也可以使用 Google Cloud CLI 或 GKE API 查看。包括叢集是否正在執行、目前的設定,以及列出所有叢集。詳情請參閱「管理叢集」。

如要進一步瞭解叢集狀態和健康情況,可以使用可觀測性工具和功能。

叢集和節點升級

根據預設,叢集和節點會自動升級。您可以進一步瞭解如何設定各叢集的升級方式,包括升級的時機。

叢集層級設定

叢集層級的設定工作包括建立刪除 GKE 叢集和節點。您也可以更新部分叢集設定,例如叢集維護工作可執行的時間

如要進一步瞭解叢集設定,請參閱叢集設定總覽

節點設定

如果您為叢集使用 Autopilot,則不必擔心節點設定,因為 GKE 會為您設定節點。Autopilot 叢集節點完全由 GKE 管理,且都使用相同的節點作業系統 (OS)cos_containerd

不過,如果需要為任何叢集使用 Standard 模式,GKE 提供了叢集節點適用的各種選項。例如,您可以建立一或多個節點集區;節點集區是叢集內共用一般設定的節點群組。叢集至少須有一個節點集區,且建立叢集時,系統預設會建立名為 default 的節點集區。如要進一步瞭解如何管理 GKE 中的節點集區,請參閱「新增及管理節點集區」。

標準叢集的其他節點設定選項包括選擇非預設的 OS、使用臨時現成 VM,以及為新節點選擇最低 CPU 平台 (Autopilot 使用者也可以為運算密集型工作負載指定最低 CPU 平台,但只能以工作負載範圍為準)。

即使是標準叢集,您也無法變更 iptables 規則或其他節點層級設定。當手動變更已還原至叢集的陳述式配置,該節點可能無法供存取或以非預期的方式遭到公開。

設定叢集網路

叢集管理的重要環節是為叢集啟用及控管各種網路功能,例如標準叢集的 IP 位址選項、是否可從公開網路存取叢集節點 (無法從公開網路存取的節點稱為私人節點),以及網路存取政策。

許多網路功能是在建立叢集時設定 (其中許多功能必須重新建立叢集才能變更):當您使用Google Cloud 介面建立叢集時,必須啟用您想要使用的網路功能。因此,如果您不是網路管理員,設定可供正式環境使用的叢集時,可能需要與網路管理員密切合作。

部分可透過 Google Cloud 工具啟用的網路功能 (例如強制執行網路政策),也需要使用 Kubernetes API 進一步設定。

如要進一步瞭解 GKE 網路,請參閱網路總覽

叢集可觀測性

叢集管理另一項重要環節是設定及使用可觀測性工具,瞭解基礎架構和應用程式的健康狀態,並維持應用程式的可用性和可靠性。根據預設,GKE 叢集的設定如下:

GKE 也提供可觀測性功能,協助您使用收集到的資料,包括預設和自訂資訊主頁、警報、服務水準目標 (SLO) 監控和記錄分析。

如要進一步瞭解如何設定及使用 GKE 可觀測性,請參閱「GKE 可觀測性」。

設定叢集安全性

GKE 提供的 Google Cloud專屬和 Kubernetes 安全防護功能可搭配叢集使用。您可以使用Google Cloud 控制台,管理Google Cloud層級的安全防護功能 (例如身分與存取權管理)。您可以使用 Kubernetes API 和其他介面,管理叢集內的安全防護功能,例如 Kubernetes 角色型存取權控管 (RBAC)。

如要瞭解 GKE 提供的安全防護功能,請參閱「安全性總覽」和「強化叢集安全性」。GKE Autopilot 叢集會自動導入許多這類安全防護功能和強化最佳做法。詳情請參閱「GKE Autopilot 的安全性功能」。

提高成本效益

您可以使用 GKE 工具查看叢集費用,並確保有效運用付費 Google Cloud 資源。您可以查看不同時間範圍的 CPU、記憶體和磁碟用量指標,並使用這些指標來協助最佳化資源用量。舉例來說,如果叢集可能用量不足或過度使用,您或許可以調整大小。您也可以使用自動調度資源功能,在離峰時段縮減叢集大小,並運用洞察資料和建議找出閒置叢集,以及其他最佳做法。

如果您使用 GKE Enterprise,也可以查看指標,以便在機群和個別團隊中,盡量降低成本。

設定災難復原功能

為確保生產環境工作負載在服務中斷事件發生時仍可使用,您應準備災難復原 (DR) 計畫。如要進一步瞭解 DR 規劃,請參閱災難復原規劃指南

除非您採取明確行動,否則系統不會備份 Kubernetes 設定和任何持續性磁碟區。如要備份及還原 GKE 叢集中的 Kubernetes 設定和永久磁碟區,可以使用 GKE 備份服務

後續步驟