GKE のトラブルシューティング


このページでは、Google Kubernetes Engine(GKE)の使用時に発生する可能性のある一般的な問題のトラブルシューティング ページの一覧を示します。このページは、GKE 構成のトラブルシューティングを行う管理者とアーキテクト、セキュリティ スペシャリスト、ネットワーク スペシャリスト、ストレージ スペシャリストを対象としています。GKE ロールの詳細については、一般的な GKE Enterprise ユーザーのロールとタスクをご覧ください。

このページでは、GKE インフラストラクチャの使用のさまざまな段階で発生する問題を診断して解決します。

このページから、次のような一般的なトラブルシューティングのトピックも確認できます。

GKE ネットワーキングのトラブルシューティングを行うには、GKE ネットワーキングのドキュメントで GKE ネットワーキングのトラブルシューティングをご覧ください。

クラスタの設定

トピック 説明
クラスタの作成 クラスタの作成に関する問題を解決します。
Autopilot クラスタ クラスタの作成、Namespace の削除、スケーリング、ワークロードの問題など、GKE Autopilot クラスタを診断してトラブルシューティングを行います。
Kubectl コマンドライン ツール 認証や認可に関する問題など、GKE の kubectl コマンドライン ツールのトラブルシューティングを行います。このページでは、Konnectivity プロキシのトラブルシューティングを行う方法についても説明します。このプロキシが原因で kubectl logsattachexecport-forward コマンドが応答しなくなっているかどうかを確認できます。
Standard ノードプール ノードプールの作成、ベスト エフォート型のプロビジョニング、インスタンス メタデータの破損、新しいノードプールへのワークロードの移行に関する問題など、GKE Standard ノードプールのトラブルシューティングを行います。
ノードの登録 GKE Standard クラスタにノードを追加する際に発生する問題(ノード登録の失敗、ノード登録に成功するための前提条件を満たしていないなど)のトラブルシューティングを行います。
コンテナ ランタイム containerddockershim や、限定公開レジストリに関する問題など、GKE のコンテナ ランタイムのトラブルシューティングを行います。

ストレージ

トピック 説明
ストレージ リージョン永続ディスク、ディスク パフォーマンス、ボリューム拡張に関する問題など、ストレージのトラブルシューティングを行います。

クラスタ セキュリティ

トピック 説明
認証 RBAC、Workload Identity Federation for GKE、GKE メタデータ サーバーに関する問題など、GKE での認証のトラブルシューティングを行います。
サービス アカウント デフォルトのサービス アカウントの復元や Compute Engine のデフォルトのサービス アカウントの有効化など、サービス アカウントのトラブルシューティングを行います。
アプリケーション レイヤでの Secret アプリケーション レイヤでの Secret の暗号化の構成時に発生する可能性のある問題(更新の失敗、Cloud KMS 鍵を使用できないエラー、Cloud KMS 鍵バージョンが破棄されたエラーなど)のトラブルシューティングを行います。

クラスタのルート認証局の有効期限が近づいている

トピック 説明
ルート認証局(CA)の有効期限が近づいている クラスタのルート認証局(CA)の有効期限が近づいている場合は、認証情報のローテーションを行う方法を確認し、通常のクラスタ オペレーションが中断されないようにします。

ワークロード

トピック 説明
デプロイされたワークロード GKE クラスタで実行されているワークロードのエラー(CrashLoopBackOffPodUnschedulable など)をトラブルシューティングします。MatchNodeSelectorDoes not have minimum availability などのエラーに関する参考情報については、PodUnschedulable セクションをご覧ください。
イメージの pull イメージの pull に関するトラブルシューティングを行います。ImagePullBackOffErrImagePull などのステータスの原因と、認証やネットワーク接続といった一般的な問題を解決してこれらのステータスを解決する方法について学びます。
Arm ワークロード Arm ワークロードに関する問題(Arm ノードの Pod のクラッシュなど)のトラブルシューティングを行います。
TPU 割り当て、ノード自動プロビジョニング、ワークロードの構成、スケジューリングに関する問題など、TPU のトラブルシューティングを行います。
GPU GPU ドライバのインストール、デバイス プラグインのエラー、コンテナ イメージに関する問題など、GPU のトラブルシューティングを行います。

クラスタ管理

トピック 説明
アップグレード コントロール プレーンのアップグレード後に正常でなくなる kube-apiserver や、アップグレード後に強制排除されるワークロードなど、GKE クラスタのアップグレードに関する問題のトラブルシューティングを行います。
Webhook アドミッション Webhook を使用する際のトラブルシューティング方法やクラスタ コントロール プレーンの安定性を確保する方法について説明します。
Namespace が Terminating 状態のままになる 削除をブロックしている異常なコンポーネントを特定して削除することで、Namespace が Terminating 状態のままになる問題のトラブルシューティングを行います。

モニタリング

トピック 説明
システム指標 Cloud Monitoring にシステム指標が表示されない問題のトラブルシューティングを行います。
モニタリング ダッシュボード モニタリングの有効化、Kubernetes リソースの不足、権限に関する問題など、モニタリング ダッシュボードのトラブルシューティングを行います。
ロギング ロギングの有効化、ログの欠落、割り当てに関する問題など、ロギングに関するトラブルシューティングを行います。

4xx エラー

トピック 説明
4xx エラー GKE の使用時に発生する可能性のある 400、401、403、404 エラーのトラブルシューティングを行います。このページには、アカウントに対する編集権限がないエラーのトラブルシューティング方法も記載されています。

既知の問題

トピック 説明
既知の問題 GKE の使用に影響する可能性がある既知の問題を特定して解決します。

次のステップ

  • このドキュメントに問題の解決策が見当たらない場合は、サポートを受けるで Cloud カスタマーケアへの問い合わせ方法をご確認いただくか、コミュニティ リソースをご利用いただくか、公開バグトラッカーを使用してバグや機能リクエストを挙げてください。