本指南說明如何為容量高峰活動和高流量做好準備,以最短的停機時間 (或是完全不停機) 提供服務,而且不會對效能或使用者體驗造成負面影響。
在雲端管理活動時,有三個主要階段:
- 準備:完成活動和工作,為活動做好準備,包括架構審查、容量規劃和建立預留項目。
- 執行:活動開始時,請密切監控並採取相應行動。
- 分析:活動結束後,分析哪些環節表現良好、哪些環節不盡理想,以及如何改善日後的活動。
本指南著重於準備階段。
檢查清單
完成下列工作,瞭解如何為容量高峰活動做好準備:
如要直接在 Google Cloud 控制台按照逐步指南操作,請按一下「Guide me」(逐步引導):
事前準備
請根據您購買的 Customer Care 支援方案,瞭解可用的活動準備服務:
進階支援:您可以使用預訂事件支援加值服務,為活動、發布和遷移作業做好準備。這項服務可涵蓋短期高流量數位活動的重要階段,例如盛大開幕、新產品發布或資料遷移。
Premium 支援服務:您可以使用活動管理服務,為預定的尖峰活動 (例如產品上市或重大銷售活動) 做好準備。透過這項服務,客戶服務團隊會與您合作制定計畫,在活動期間提供指引,並協助您完成下列事項:
- 為重要時刻和繁重工作負載做好系統準備
- 執行災害測試,主動解決潛在問題
- 開發及實作更快速的解決途徑,以減少可能發生的問題所造成的影響
活動結束後,客戶技術顧問 (TAM) 會與您一同檢討成果,並為日後活動提供建議。如要開始使用或瞭解詳情,請與客戶技術管理團隊聯絡。
瞭解事件管理最佳做法
請務必瞭解並遵循特定的事件管理最佳做法:
詳細制定活動規劃程序:在容量高峰活動的準備階段,應與帳戶團隊或客戶技術管理團隊交流,讓對方協助您檢視架構、製作圖表、排定時程、發布檢查清單、依預期的流量概況確認服務配額,以及判斷對專案的整體影響。
監控執行狀況並著手應對:旺季或上市活動開始時,必須密切監控活動情形,並視需要採取因應措施。如果發生任何問題,請務必擬定明確的事件管理和提報程序,才能省下處理及解決問題所需的時間與心力。
查看並記錄分析結果:在旺季或上市活動結束後,必須檢視並分析活動,然後將學到的經驗記錄下來,以應用到日後的重要活動。
詳情請參閱「事件管理最佳做法」。
為活動要求並保留適當容量
規劃容量是準備階段的重要一環,您必須判斷需要的雲端資源量,確保工作負載擁有恰到好處的資源,足以有效率地運作。在為高流量活動或旺季做準備時,應確認配額符合資源需求,避免發生未預期的錯誤。詳情請參閱「為活動保留容量」。
使用 Capacity Planner
您可以使用 Capacity Planner,查看虛擬機器 (VM) 執行個體、Persistent Disk 磁碟區和 GPU 的歷來與預估用量。您也可以查看預留項目、預先預留資源、管理專案的配額限制,以及設定自動配額提高要求。詳情請參閱「在 Capacity Planner 查看使用資料和預測資料」。
在 Google Cloud 控制台,前往「Capacity Planner」頁面。
使用控制台工具列上的資源選取器,選取專案、資料夾或機構。
選取要查看用量資料的 Compute Engine 資源類型:
如要查看 VM 的用量資料,請點按「Virtual machine」(虛擬機器) 分頁標籤 (若尚未選取)。
如要查看 Persistent Disk 磁碟區的用量資料,請點按「Disk」(磁碟) 分頁標籤。
如要查看 GPU 的用量資料,請點按「GPU」分頁標籤。
您可以篩選各項元素,查看不同的資源用量與預測資料圖表。
啟用配額調整工具
配額調整工具會監控資源用量,並主動代您提交配額調整要求,因此您不必手動提出要求。詳情請參閱「配額調整工具的運作方式」。
在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Quotas and system limits」(配額與系統限制) 頁面。
按一下 [設定] 分頁標籤。
如要開啟配額調整工具,請將「Enable」(啟用) 切換鈕設為開啟。
如果「Status」(狀態) 欄顯示「Enabled」(已啟用),代表配額調整工具會開始監控用量,並在資源用量接近配額值時發出配額調整要求。
申請調整配額
如果配額不足,可以申請調整配額。詳情請參閱「查看及管理配額」。
在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Quotas and system limits」(配額與系統限制) 頁面。
找到要調整的配額,然後勾選旁邊的核取方塊。
如要搜尋配額,可以點按
「Filter」(篩選條件)。點按
「Edit」(編輯) 後,「Quota changes」(配額變更) 窗格會隨即顯示。在「New value」(新值) 欄位輸入所需的配額值。部分配額值須設定計量單位;在這種情況下,請在相鄰清單中選取所需單位。
若畫面上的訊息指出申請配額超出覆寫設定時,配額覆寫設定將會移除,請勾選核取方塊繼續操作,然後選取「Apply for higher quota」(申請更多配額)。
在「Request description」(要求說明) 欄位輸入說明,接著點按「Done」(完成)。
點按「Next」(下一步) 並提供聯絡資料。
按一下 [提交要求]。
如果要求遭拒,可以嘗試建立支援案件,或與帳戶團隊/客戶技術管理團隊聯絡,要求提高配額。
建立保留項目
預訂功能可確保您有可用的 Compute Engine 資源,隨時都能建立具有相同硬體 (記憶體和 vCPU) 和選用資源 (GPU 和本機 SSD 磁碟) 的 VM。
如果可用容量符合需求,系統就會在您提出要求時佈建隨需預留項目。未來預留項目可讓您提前要求容量。建議您在活動前盡早預訂。詳情請參閱「Compute Engine 可用區資源的預留項目」。
為單一專案建立隨需預留項目
在 Google Cloud 控制台,前往「Reservations」(預留項目) 頁面。
在「隨需預留項目」分頁 (預設) 中,按一下
「建立預留項目」。「Create a reservation」(建立預留項目) 頁面會隨即開啟。
輸入預留項目的名稱。
選取要預留資源的「Region」(區域) 和「Zone」(可用區)。
在「Share type」(共用類型) 部分,選取「Local」(本機) (如果尚未選取)。
如要允許 Vertex AI 自訂訓練工作或預測工作使用 GPU VM 的預留項目,請在「Google Cloud services」(Google Cloud 服務) 部分,選取「Share reservation」(共用預留項目)。
選取「Use with VM instance」(用於 VM 執行個體) 選項:
如要允許相符的 VM 自動使用這個預留項目,請選取「Use reservation automatically」(自動使用預留項目) (如果尚未選取)。
如要只有在建立已明確指定這個保留項目名稱的相符 VM 時,才使用這個保留項目的資源,請選取「Select specific reservation」(選取特定保留項目)。
輸入要預留的 VM 執行個體數量。
在「機器設定」專區中,執行下列操作:
如要從現有的執行個體範本指定 VM 的屬性,請選取「Use instance template」(使用執行個體範本)。
指定執行個體範本。如果選取區域範本,您只能在該區域預留資源。
如要在指定時間自動刪除預留項目,請勾選「Enable auto-delete」(啟用自動刪除功能) 核取方塊。如果您停止使用預留項目,自動刪除預留項目有助於避免不必要的費用。
如要建立預留項目,請點按「Create」(建立)。
「預留項目」頁面隨即開啟。預留項目會在一分鐘內建立完畢。
為單一專案建立未來預留項目
在 Google Cloud 控制台,前往「Reservations」(預留項目) 頁面。
點按「Future reservations」(未來預留項目) 分頁標籤。
點按
「Create future reservation」(建立未來預留項目)。「Create a future reservation」(建立未來預留項目) 頁面會隨即開啟。
在「Name」部分,輸入未來預留要求名稱。
在「Prefix」部分輸入名稱前置字串。根據這項未來預留項目要求自動建立的每個預留項目,名稱開頭都會是這個前置字串。
在「區域」和「可用區」部分,選取要預留資源的區域和可用區。
在「開始時間」中,輸入預訂期間的開始時間。開始時間不得晚於您提交未來預留要求以供審查的日期和時間後一年。為確保有足夠時間在未來預留項目進入鎖定時間前,選擇性修改、取消或刪除該項目,請為開始時間指定建議值。
在「結束時間」部分,輸入預訂期間的結束時間。「預訂時間摘要」部分會顯示預訂時間長度。如要提高 Google Cloud 在您提交預訂要求後核准要求的可能性,請為預訂期間指定建議值。
在「共用類型」部分,選取「本機」(如果尚未選取)。
在「所需總容量」部分,輸入要為這項未來預留要求指定的期間、VM 設定和專案預留的 VM 總數。
Google Cloud在「機器設定」部分,執行下列操作:
選取「使用執行個體範本」。
在「Instance template」(執行個體範本) 中,選取您要使用的執行個體範本。 如果選取區域執行個體範本,就只能在與範本區域相同的區域中預留資源。
在「自動刪除系統自動產生的預留項目」部分,執行下列任一操作:
如要讓 Compute Engine 自動刪除未來預留項目要求自動建立的預留項目,請執行下列操作:
如果「啟用自動刪除」切換鈕尚未設為開啟,請點選該切換鈕。
選用:在「自動刪除時間」中,輸入要刪除自動建立預留項目的日期和時間。日期和時間必須晚於預訂期間的結束時間。如果將這個欄位留空,自動建立的預留項目就會在預留期間結束後的兩小時內刪除。
否則,請按一下「啟用自動刪除功能」切換鈕,將其設為關閉。
如要完成建立未來預留項目要求草稿,請點按「Save a draft」(儲存草稿)。
「預留項目」頁面隨即開啟。建立未來預留項目要求最多可能需要一分鐘。
準備好在活動期間快速解決問題
您如何因應、分類及解決不同嚴重程度的事件,會大幅影響活動期間的作業模式。請務必使用集中式事件管理系統,才能有效追蹤整個事件生命週期。
除了查看聯絡人並啟用 Personalized Service Health,您也應執行下列操作:
- 詳閱使用 Customer Care 的最佳做法
- 制定溝通計畫
- 確保存取權
詳情請參閱「準備好在活動期間解決問題」。
查看聯絡人
許多 Google Cloud 服務會傳送通知,與使用者分享重要資訊 Google Cloud 。根據預設,系統會將這些通知傳送給具備特定 Identity and Access Management (IAM) 角色的成員。如果選取「重要聯絡人」,您可以自行提供聯絡人名單,決定哪些人會收到通知。詳情請參閱「管理通知聯絡人」。
在 Google Cloud 控制台中,依序前往「IAM & Admin」(IAM 與管理) >「Essential Contacts」(重要聯絡人) 頁面。
確認專案、資料夾或機構的名稱顯示在控制台工具列的資源選取器中。資源選取器會指出您正在管理哪個專案、資料夾或組織的聯絡人。
如要依類別列出聯絡人,請選取「類別」。如要依字母順序列出聯絡人,請選取「聯絡人」。
啟用 Personalized Service Health
Personalized Service Health 可協助找出與專案相關的 Google Cloud 服務中斷情形,方便您有效管理這些問題並採取因應措施。 詳情請參閱「Personalized Service Health 總覽」。
請確認您已在活動前啟用 Service Health API,而且貴機構有權存取資訊主頁及設定快訊。詳情請參閱「管理 Personalized Service Health 存取權」。
- 在 Google Cloud 控制台的專案選擇器頁面中,選取或建立 Google Cloud 專案。
-
Enable the Service Health API.
管理及最佳化調整雲端資源
您可以管理及最佳化調整 Google Cloud工作負載使用的資源,包括根據實際用量和需求將資源調整為最適規模、使用自動調度資源功能動態分配資源,以及查看架構和安全性建議。
除了查看 Active Assist 建議,您也應執行下列操作:
- 詳閱 Google Cloud 最佳做法
- 檢查擴充性
- 查看產品版本
- 查看快訊和資訊主頁
詳情請參閱「最佳化調整雲端資源」。
查看 Active Assist 建議
Active Assist 是指Google Cloud 中用來生成建議和洞察資料的一系列工具,可協助您將 Google Cloud 專案調整至最佳狀態。詳情請參閱「什麼是 Active Assist」。
在 Google Cloud 控制台,前往「Recommendation Hub」(建議中心)。
使用控制台工具列上的資源選取器,選取Google Cloud 專案、資料夾或機構。
無論您在組織或資料夾內的資料夾或專案中擁有何種權限,都必須具備組織或資料夾的權限,才能查看相應組織或資料夾層級的建議。
在導覽窗格中,按一下「所有最佳化建議」。
您可以篩選、排序和分享隨即顯示的建議。您可以詳細瞭解建議、查看受影響的資源,以及套用建議可能造成的影響。
如要進一步瞭解建議,請點按「Recommendation」(建議) 欄中的任一建議。
系統會顯示相關資料,協助您決定是否要套用或關閉建議。
若您具備所需權限,只要點按適用的按鈕,即可套用或關閉建議。
請注意,部分建議可能無法直接採用,請按照控制台中的詳細操作說明來套用。
安排並進行負載測試
負載測試可判斷系統能否在正式使用期間順利調度資源,並找出導致無法調度資源的任何瓶頸。
活動開始 3 至 5 個月前,建議您對重要專案和工作負載執行負載測試,以模擬尖峰流量情形。
請調查負載測試對配額和成本的影響,並考慮建立 Cloud Billing 預算快訊,監控您最重視的服務費用。
每次測試完後,一律應評估結果,並運用 Capacity Planner 以圖表呈現用量和預測資料,再視需要申請提高配額。請參閱本文的「使用 Capacity Planner」和「申請調整配額」一節。
如需相關協助,請與帳戶團隊或客戶技術管理團隊聯絡,他們會引導您擷取並規劃架構變更,藉此提升服務的整體可靠性與可用性。
安排並進行災難復原測試
採用完善且經過嚴謹測試的災難復原 (DR) 策略,即可將服務中斷的影響降到最低、縮短復原時間,以及在發生錯誤時迅速恢復核心作業。
災難復原策略應包含詳細的緊急應變規範、備份作業和復原程序。
活動開始 1 至 3 個月前,請務必模擬災難情境,找出災難復原策略與整備度的不足之處。
每次測試完後,一律應評估結果,判斷是否需要變更架構,再視需要檢視及最佳化調整資源。請參閱本文的「管理及最佳化調整雲端資源」一節。
帳戶團隊或客戶技術管理團隊可協助進行災難復原測試,並說明如何瞭解和改進事件應變程序。詳情請參閱「災難復原規劃指南」。
資源摘要
下表列出本文件中提及的指南。
瞭解事件管理最佳做法 |
---|
為活動要求並保留適當容量 |
準備好在活動期間快速解決問題 |
管理及最佳化調整雲端資源 |
安排並進行負載測試 |
安排並進行災難復原測試 |