このページは Cloud Translation API によって翻訳されました。

イメージ pull のトラブルシューティング

Autopilot Standard

このページでは、Google Kubernetes Engine（GKE）のイメージ pull プロセスに関する問題を解決する方法について説明します。イメージストリーミングを使用している場合は、イメージストリーミングのトラブルシューティングをご覧ください。このページでは、標準のイメージ pull について説明します。

このページは、アプリが正常にデプロイされるようにしたいアプリデベロッパー、イメージの pull の失敗の根本原因を把握し、プラットフォーム構成を確認したいプラットフォーム管理者と運用担当者を対象としています。 Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE Enterprise ユーザーロールとタスクをご覧ください。

イメージの pull プロセスは、Kubernetes（GKE を含む）がレジストリからコンテナイメージを取得する方法です。イメージの pull に失敗すると、アプリの動作が遅くなることや、アプリがまったく動作しなくなることがあります。

アプリが機能しない原因がイメージの pull であるかどうかを判断するには、このページで関連するエラーメッセージを探して理解し、イメージの pull の失敗を診断します。次に、イメージの pull が失敗する一般的な原因について学びます。

認証設定: クラスタに、コンテナイメージレジストリにアクセスするために必要な権限がない。
ネットワーク接続: DNS の問題、ファイアウォールルール、ネットワーク隔離を使用するクラスタでのインターネットアクセスがないために、クラスタがレジストリに接続できない。
レジストリでイメージが見つからない: 指定されたイメージ名またはタグが正しくないか、イメージが削除されているか、レジストリを使用できない。
パフォーマンスの制限: イメージサイズが大きい、ディスク I/O が遅い、ネットワークが輻輳している場合、pull が遅くなるかタイムアウトが発生する可能性があります。
互換性のないイメージアーキテクチャ: イメージは、GKE ノードプールとは異なる CPU アーキテクチャ用にビルドされています。
互換性のないスキーマバージョン: v1 Docker スキーマで containerd 2.0 以降を使用している可能性があります。これはサポートされていません。

特定のイベントメッセージが表示されている場合は、このページでそのメッセージを見つけて、記載されているトラブルシューティングの手順に沿って対応してください。メッセージが表示されていない場合は、次のセクションを順番に確認してください。問題が解決しない場合は、Cloud カスタマーケアにお問い合わせください。

イメージの pull について

トラブルシューティングを開始する前に、イメージのライフサイクルとイメージをホストできる場所について理解しておくと役に立ちます。

イメージのライフサイクル

Pod を作成すると、kubelet は Pod 定義を受け取ります。この定義には、イメージの仕様が含まれています。kubelet は、このイメージに基づいてコンテナを実行するためにこのイメージを必要とします。イメージを pull する前に、kubelet はコンテナランタイムをチェックして、イメージが存在するかどうかを確認します。kubelet は、Pod のイメージ pull ポリシーも確認します。イメージがコンテナランタイムのキャッシュにない場合、またはイメージの pull ポリシーで必要とされる場合は、kubelet はコンテナランタイム（containerd）に、指定されたイメージをレジストリから pull するよう指示します。イメージの pull に失敗すると、Pod 内のコンテナが起動できなくなります。

イメージの pull が正常に完了すると、コンテナランタイムはイメージを解凍して、コンテナの読み取り専用のベースファイルシステムを作成します。コンテナランタイムはこのイメージを保存し、実行中のコンテナが参照している限り、イメージは存在し続けます。実行中のコンテナがイメージを参照していない場合、イメージはガベージコレクションの対象になり、最終的に kubelet によって削除されます。

イメージホスティングオプション

イメージをホストするには、次のいずれかのオプションを使用することをおすすめします。

Artifact Registry: Artifact Registry は、Google のフルマネージドパッケージ管理システムです。Artifact Registry は他の Google Cloudサービスと緊密に統合され、きめ細かいアクセス制御を提供します。詳細については、Artifact Registry ドキュメントのコンテナイメージの操作をご覧ください。

注: kubelet による Artifact Registry からのイメージ pull は、Workload Identity Federation for GKE を使用しません。代わりに、これらのイメージの pull では、VM に関連付けられているサービスアカウントが使用されます。
自己ホスト型レジストリ: 自己ホスト型レジストリではより細かい制御が可能ですが、レジストリの管理も必要になります。Artifact Registry で満たせない特定のコンプライアンス要件またはセキュリティ要件がある場合は、このオプションを検討してください。

イメージの pull エラーを診断する

イメージの pull エラーを診断するには、次のセクションで説明する詳細な調査を行います。

Pod のステータスとイベントを表示する。
ステータスの意味を理解する。
イベントメッセージを使用して、イメージの pull 失敗の原因を特定する。
ログエクスプローラのログを表示する。

Pod のステータスとイベントを表示する

イメージの pull が失敗したことを確認できるように、GKE は Pod の次のステータスを記録します。

ImagePullBackOff
ErrImagePull
ImageInspectError
InvalidImageName
RegistryUnavailable
SignatureValidationFailed

ImagePullBackOff と ErrImagePull は、これらのステータスの中で最も一般的なものです。

これらのステータスに加えて、Kubernetes イベントはイメージの pull 失敗の原因を特定するのに役立ちます。

イメージの pull が失敗しているかどうかを確認するには、ステータスメッセージを確認してから、次のいずれかのオプションを選択してイベントメッセージを読み取ります。

コンソール

次の手順を行います。

Google Cloud コンソールで、[ワークロード] ページに移動します。

[ワークロード] に移動
調査するワークロードを選択します。確認する必要があるワークロードがわからない場合は、[ステータス] 列を確認します。この列には、問題が発生しているワークロードが表示されます。
ワークロードの [詳細] ページで、[マネージド Pod] セクションを見つけて、イメージの pull 失敗を示すステータスの Pod の名前をクリックします。
Pod の [詳細] ページで、[イベント] タブをクリックします。
表内の情報を確認します。[メッセージ] 列には、Kubernetes イベントが一覧表示されます。このイベントには、失敗したイメージの pull に関する詳細情報が表示されます。[理由] 列には、Pod のステータスが表示されます。

kubectl

次の手順を行います。

Pod のステータスを表示します。
```
kubectl get pods -n NAMESPACE
```
NAMESPACE は、Pod が実行される名前空間に置き換えます。

出力は次のようになります。
```
NAME         READY   STATUS       RESTARTS      AGE
POD_NAME_1   2/2     Running      0             7d5h
POD_NAME_2   0/1     ErrImagePull 0             7d5h
```
Status 列には、イメージの pull に失敗した Pod が表示されます。

イメージの pull に失敗した Pod のイベントを表示します。

kubectl describe POD_NAME -n NAMESPACE

POD_NAME は、前の手順で特定した Pod の名前に置き換えます。

Events セクションには、失敗したイメージの pull 中に発生した詳細情報が表示されます。

出力は次のようになります。

...
Events:
  Type    Reason    Age               From           Message
  ----    ------    ----              ----           -------
  Warning  Failed   5m (x4 over 7m)   kubelet, NODE  Failed to pull image "IMAGE_ADDRESS": rpc error: code = Unknown desc = Error response from daemon: repository IMAGE_ADDRESS not found
  Warning  Failed   5m (x4 over 7m)   kubelet, NODE  Error: ErrImagePull
  Normal   BackOff  5m (x6 over 7m)   kubelet, NODE  Back-off pulling image "IMAGE_ADDRESS"
  Warning  Failed   2m (x20 over 7m)  kubelet, NODE  Error: ImagePullBackOff

この出力で、IMAGE_ADDRESS はイメージの完全なアドレスです。例: us-west1-docker.pkg.dev/my-project/my-repo/test:staging

ステータスの意味を理解する

各ステータスの意味について詳しくは、以下の説明をご覧ください。

ImagePullBackOff: kubelet がイメージの pull に失敗しましたが、最大 5 分間の遅延（またはバックオフ）で再試行を続けます。
ErrImagePull: イメージの pull プロセス中に発生した一般的な復元不可能なエラー。
ImageInspectError: コンテナランタイムがコンテナイメージを検査しようとしたときに問題が発生しました。
InvalidImageName: Pod 定義で指定されたコンテナイメージの名前が正しくありません。
RegistryUnavailable: レジストリにアクセスできません。通常、これはネットワーク接続の問題です。
SignatureValidationFailed: コンテナイメージのデジタル署名を確認できませんでした。

イベントメッセージを使用して、イメージの pull 失敗の原因を特定する

次の表に、イメージの pull の失敗に関連するイベントメッセージと、これらのメッセージのいずれかが表示された場合に行う必要があるトラブルシューティングの手順を示します。

イメージの取得エラーに関連するメッセージには、多くの場合、次のような接頭辞が付いています。

Failed to pull image "IMAGE_ADDRESS": rpc error: code = CODE = failed to pull and unpack image "IMAGE_ADDRESS": failed to resolve reference "IMAGE_ADDRESS":

このメッセージには次の値が含まれます。

IMAGE_ADDRESS: イメージの完全なアドレス。例: us-west1-docker.pkg.dev/my-project/my-repo/test:staging
CODE: ログメッセージに関連付けられたエラーコード。たとえば、NotFound や Unknown です。

イメージの pull エラーの原因によっては、関連するイベントメッセージがない場合があります。次の表に記載されているイベントメッセージが表示されない場合でも、イメージの取得に関する問題が解決しない場合は、このページの残りの部分をお読みになることをおすすめします。

イベントメッセージ	詳細なトラブルシューティング
認証
`Failed to authorize: failed to fetch oauth token: unexpected status: 403 Forbidden` `Pulling from host HOST_NAME failed with status code: 403 Forbidden`	イメージへのアクセス権を確認する Artifact Registry にアクセスするための VPC Service Controls の設定を確認する
`Unexpected status code [manifests 1.0]: 401 Unauthorized`	非公開 Artifact Registry リポジトリに対するノードのアクセススコープを確認する
ネットワーク接続
`Failed to do request: Head "IMAGE_ADDRESS": dial tcp: lookup gcr.io on REGISTRY_IP_ADDRESS: server misbehaving`	DNS 解決を調査する
`Failed to start Download and install k8s binaries and configurations`	ファイアウォール構成を調査する
`Failed to do request: Head "IMAGE_ADDRESS": dial tcp REGISTRY_IP_ADDRESS: i/o timeout`	外部レジストリエンドポイントのインターネット接続を調査する Google API への接続がタイムアウトしているかどうかを調査する
イメージが見つかりません
`"IMAGE_ADDRESS": not found` `Failed to copy: httpReadSeeker: failed open: could not fetch content descriptor sha256:SHA_HASH (application/vnd.docker.container.image.v1+json) from remote: not found`	kubelet がイメージを見つけられない理由を調査する
イメージのタイムアウト
`Unknown desc = context canceled`	イメージ pull のタイムアウトやイメージ pull の遅延が発生する理由を調査する
互換性のないスキーマ
Failed to get converter for "IMAGE_ADDRESS": Pulling Schema 1 images have been deprecated and disabled by default since containerd v2.0. As a workaround you may set an environment variable `CONTAINERD_ENABLE_DEPRECATED_PULL_SCHEMA_1_IMAGE=1`, but this will be completely removed in containerd v2.1.	イメージスキーマのバージョンの互換性を確認する

ログエクスプローラのログを表示する

過去のイメージ pull イベントを調べるか、イメージ pull の失敗を他のコンポーネントアクティビティと関連付けるには、ログエクスプローラでログを表示します。

Google Cloud コンソールで、[ログエクスプローラ] ページに移動します。

[ログエクスプローラ] に移動
クエリペインに次のクエリを入力します。
```
log_id("events")
resource.type="k8s_pod"
resource.labels.cluster_name="CLUSTER_NAME"
jsonPayload.message=~"Failed to pull image"
```
CLUSTER_NAME は、イメージの pull エラーのある Pod が実行されているクラスタの名前に置き換えます。
[クエリを実行] をクリックして結果を確認します。

認証設定を調査する

以降のセクションでは、GKE 環境にリポジトリからイメージを pull するための適切な認証設定があることを確認します。

認証の問題がイメージの pull の問題の原因となっているかどうかを確認するには、次のセクションで説明する調査を行います。

イメージへのアクセス権を確認します。
imagePullSecret の構成と Deployment 仕様を確認します。
非公開 Artifact Registry リポジトリに対するノードのアクセススコープを確認する
Artifact Registry にアクセスするための VPC Service Controls の設定を確認する

イメージへのアクセス権を確認する

403 Forbidden イメージの pull エラーが発生した場合は、必要なコンポーネントがコンテナイメージにアクセスできることを確認します。

必要なアクセス権を付与するために必要なロールを確認して適用する方法は、イメージを保存するリポジトリの種類によって異なります。アクセス権を確認して付与するには、次のいずれかのオプションを選択します。

Artifact Registry

imagePullSecret を使用する場合、Secret にリンクされているサービスアカウントには、リポジトリに対する読み取り権限が必要です。それ以外の場合は、ノードプールのサービスアカウントに権限が必要です。

IAM のドキュメントの手順に沿って、サービスアカウントに割り当てられたロールを表示します。
サービスアカウントに Artifact Registry 読み取り（roles/artifactregistry.reader）IAM ロールがない場合は、このロールを付与します。
```
gcloud artifacts repositories add-iam-policy-binding REPOSITORY_NAME \
    --location=REPOSITORY_LOCATION \
    --member=serviceAccount:SERVICE_ACCOUNT_EMAIL \
    --role="roles/artifactregistry.reader"
```
次のように置き換えます。
- REPOSITORY_NAME: Artifact Registry リポジトリの名前。
- REPOSITORY_LOCATION: Artifact Registry リポジトリのリージョン。
- SERVICE_ACCOUNT_EMAIL: 必要なサービスアカウントのメールアドレス。アドレスがわからない場合は、gcloud iam service-accounts list コマンドを使用して、プロジェクト内のすべてのサービスアカウントのメールアドレスを一覧表示します。

Container Registry

IAM のドキュメントの手順に沿って、サービスアカウントに割り当てられたロールを表示します。
サービスアカウントに Storage オブジェクト閲覧者（roles/storage.objectViewer）IAM ロールがない場合は、サービスアカウントがバケットからの読み取りを行えるように、このロールを付与します。
```
gcloud storage buckets add-iam-policy-binding gs://BUCKET_NAME \
    --member=serviceAccount:SERVICE_ACCOUNT_EMAIL \
    --role=roles/storage.objectViewer
```
次のように置き換えます。
- SERVICE_ACCOUNT_EMAIL: 必要なサービスアカウントのメールアドレス。gcloud iam service-accounts list コマンドを使用して、プロジェクト内のすべてのサービスアカウントを一覧表示できます。
- BUCKET_NAME: イメージを含む Cloud Storage バケットの名前。gcloud storage ls コマンドを使用すると、プロジェクト内のすべてのバケットを一覧表示できます。

レジストリ管理者が、Container Registry ではなく gcr.io ドメインのイメージを保存するように Artifact Registry で gcr.io リポジトリを設定している場合は、Container Registry ではなく、Artifact Registry に対する読み取りアクセス権をユーザーに付与する必要があります。

自己ホスト型レジストリ

自己ホスト型レジストリの構成方法によっては、イメージにアクセスするために鍵、証明書、またはその両方が必要になる場合があります。

鍵を使用する場合は、imagePullSecret を使用します。imagePullSecret は、自己ホスト型レジストリへのアクセスに必要な認証情報をクラスタに安全に提供する方法です。imagePullSecret の構成方法の例については、Kubernetes ドキュメントの Pull an Image from a Private Registry をご覧ください。

レジストリへの HTTPS 接続を保護するには、リモートサーバーへの接続の完全性を確認する証明書も必要になる場合があります。Secret Manager を使用して独自の自己署名認証局を管理することをおすすめします。詳細については、プライベート CA 証明書を使用して限定公開レジストリにアクセスするをご覧ください。

imagePullSecret の構成と Deployment 仕様を確認する

imagePullSecret を使用する場合は、イメージの pull 用の認証情報を保持する Secret を作成し、すべての Deployment で定義した Secret を指定していることを確認します。詳細については、Kubernetes ドキュメントの Specifying imagePullSecrets on a Pod をご覧ください。

非公開 Artifact Registry リポジトリに対するノードのアクセススコープを確認する

コンテナイメージを限定公開の Artifact Registry リポジトリに保存している場合、ノードに正しいアクセススコープがない可能性があります。この場合、401 Unauthorized イメージの pull エラーが発生することがあります。

アクセススコープを確認して、必要に応じてアクセスを許可する手順は次のとおりです。

Pod を実行しているノードを特定します。
```
kubectl describe pod POD_NAME | grep "Node:"
```
POD_NAME は、イメージの pull に失敗した Pod の名前に置き換えます。
前の手順で特定したノードにストレージスコープがあることを確認します。
```
gcloud compute instances describe NODE_NAME \
    --zone="COMPUTE_ZONE" \
    --format="flattened(serviceAccounts[].scopes)"
```
次のように置き換えます。
- NODE_NAME: 前の手順で特定したノードの名前。
- COMPUTE_ZONE: ノードが属している Compute Engine ゾーン。
出力には、次のいずれかのアクセススコープが含まれている必要があります。
- serviceAccounts[0].scopes[0]: https://www.googleapis.com/auth/devstorage.read_only
- serviceAccounts[0].scopes[0]: https://www.googleapis.com/auth/cloud-platform
これらのスコープのいずれかがノードに含まれていない場合、イメージの pull は失敗します。
ノードが属するノードプールを十分なスコープで再作成します。既存のノードを変更できないため、正しいスコープでノードを再作成する必要があります。

gke-default スコープでノードプールを作成することをおすすめします。このスコープには、次のスコープへのアクセス権が付与されます。
- https://www.googleapis.com/auth/devstorage.read_only
- https://www.googleapis.com/auth/logging.write
- https://www.googleapis.com/auth/monitoring
- https://www.googleapis.com/auth/service.management.readonly
- https://www.googleapis.com/auth/servicecontrol
- https://www.googleapis.com/auth/trace.append
gke-default スコープが適切でない場合は、ノードプールに devstorage.read_only スコープを付与します。これにより、読み取りデータへのアクセスのみが許可されます。
gke-default
gke-default スコープを使用してノードプールを作成します。
```
gcloud container node-pools create NODE_POOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --scopes="gke-default"
```
次のように置き換えます。
- NODE_POOL_NAME: 新しいノードプールの名前。
- CLUSTER_NAME: 既存のクラスタの名前。
- CONTROL_PLANE_LOCATION: クラスタのコントロールプレーンの Compute Engine のロケーション。リージョンクラスタの場合はリージョン、ゾーンクラスタの場合はゾーンを指定します。
devstorage.read_only
devstorage.read_only スコープを使用してノードプールを作成します。
```
gcloud container node-pools create NODE_POOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --scopes="https://www.googleapis.com/auth/devstorage.read_only"
```
次のように置き換えます。
- NODE_POOL_NAME: 新しいノードプールの名前。
- CLUSTER_NAME: 既存のクラスタの名前。
- CONTROL_PLANE_LOCATION: クラスタのコントロールプレーンの Compute Engine のロケーション。リージョンクラスタの場合はリージョン、ゾーンクラスタの場合はゾーンを指定します。

Artifact Registry にアクセスするための VPC Service Controls の設定を確認する

VPC Service Controls を使用している場合は、サービス境界で Artifact Registry へのアクセスが許可されていることを確認します。詳細については、Artifact Registry のドキュメントでサービス境界でリポジトリを保護するをご覧ください。

ネットワーク接続を調査する

イメージの pull 中にネットワーク接続が失われると、プロセスが完了しないことがあります。

ネットワーク接続の問題がイメージの pull の問題の原因になっているかどうかを確認するには、次のセクションで説明する調査を行います。

DNS 解決を調査します。
ファイアウォールの構成を調査します。
外部レジストリエンドポイントのインターネット接続を調査します。
Google API への接続がタイムアウトしているかどうかを調査します。

DNS 解決を調査する

server misbehaving イメージの pull エラーが表示された場合は、DNS 解決がイメージの pull の失敗の原因である可能性があります。

DNS 解決に関する問題を調査するには、次のソリューションを試してください。

メタデータサーバーのトラブルシューティングを行います。ノードのメタデータサーバーは、すべての DNS クエリを解決します。このサーバーに関連する問題が発生すると、名前解決が停止され、リポジトリへの接続が妨げられて、イメージの pull が失敗する可能性があります。
DNS 解決に Cloud DNS を使用する場合は、Cloud DNS マネージド限定公開ゾーン、転送ゾーン、ピアリングゾーン、レスポンスポリシーが正しく構成されていることを確認します。これらの領域で構成ミスがあると、DNS 解決が停止される可能性があります。Cloud DNS の詳細については、GKE 向け Cloud DNS の使用をご覧ください。GKE で Cloud DNS のトラブルシューティングを行う方法については、GKE での Cloud DNS のトラブルシューティングをご覧ください。
DNS 解決に kube-dns を使用している場合は、正しく機能していることを確認します。kube-dns のトラブルシューティングについては、GKE で kube-dns のトラブルシューティングを行うをご覧ください。
クラスタのノードに外部 IP アドレスがない場合は（ネットワーク隔離を使用している場合、これは一般的です）、クラスタで使用されるサブネットでプライベート Google アクセスを有効にして、ネットワーク要件を満たしていることを確認します。Cloud NAT を使用している場合、Google Cloud はプライベート Google アクセスを自動的に有効にします。

ファイアウォール構成を調査する

ファイアウォールの問題が原因でイメージの pull が失敗すると、次のエラーメッセージが表示されることがあります。

Failed to start Download and install k8s binaries and configurations

ファイアウォールの問題を診断する

Standard クラスタを使用しているときに、ファイアウォールの問題がイメージの pull の問題の原因となっているかどうかを確認するには、次の操作を行います。

SSH を使用して、問題が発生しているノードに接続します。
```
gcloud compute ssh NODE_NAME --zone=ZONE_NAME
```
次のように置き換えます。
- NODE_NAME: ノードの名前。
- ZONE_NAME: ノードが作成された Compute Engine ゾーン。
kube-node-installation.service サービスと kube-node-configuration.service サービスの最新のログを、kube-node-installation_status.txt と kube-node-configuration_status.txt という名前のテキストファイルに送信します。
```
systemctl status kube-node-installation.service > kube-node-installation_status.txt
systemctl status kube-node-configuration.service > kube-node-configuration_status.txt
```
これらのログにイメージの pull が失敗したときの情報が含まれていない場合は、ログの完全なコピーを生成します。
```
sudo journalctl -u kube-node-installation.service > kube-node-installation_logs.txt
sudo journalctl -u kube-node-configuration.service > kube-node-configuration_logs.txt
```
kube-node-installation_status.txt ファイルと kube-node-configuration_status.txt ファイルの内容を確認します。出力に i/o timeout が表示された場合は、ファイアウォールに問題がある可能性があります。

ファイアウォールの構成に関する問題を解決する

ファイアウォールに関する問題を解決するには、次のソリューションを試してください。

ネットワークトラフィックをブロックしているファイアウォールルールを特定して解決します。たとえば、イメージを保存するレジストリへのトラフィックをブロックするルールを設定できます。
1. VPC フローログにアクセスします。
  1. Google Cloud コンソールで、[ログエクスプローラ] ページに移動します。
    
    [ログエクスプローラ] に移動
  2. クエリペインに次のクエリを入力します。
```
resource.type="gce_subnetwork"
logName="projects/PROJECT_ID/logs/[compute.googleapis.com%2Fvpc_flows](http://compute.googleapis.com%2Fvpc_flows)"
resource.labels.subnetwork_name="SUBNET_NAME",
```
    次のように置き換えます。
    - PROJECT_ID: 実際の Google Cloud プロジェクト ID。
    - SUBNET_NAME: サブネットワークの名前。
    詳細については、VPC ドキュメントのクエリを使用してフローログにアクセスするをご覧ください。
2. 必要なトラフィックをブロックしているファイアウォールルールが見つかった場合は、更新します。
クラスタのノードに外部 IP アドレスがない場合は（ネットワーク隔離を使用している場合、これは一般的です）、クラスタで使用されるサブネットでプライベート Google アクセスを有効にして、ネットワーク要件を満たしていることを確認します。Cloud NAT を使用している場合、Google Cloud はプライベート Google アクセスを自動的に有効にします。

外部レジストリエンドポイントのインターネット接続を調査する

ネットワーク構成でトラフィックが外部レジストリエンドポイントを経由する場合、そのエンドポイントにインターネット接続がない可能性があります。エンドポイントにアクセス権がない場合、イメージの pull が失敗し、i/o timeout イメージ pull エラーが表示されることがあります。

外部レジストリエンドポイントからレジストリへのネットワーク接続を確認するには、ping または traceroute を使用します。

ping REGISTRY_ENDPOINT

または

traceroute REGISTRY_ENDPOINT

REGISTRY_ENDPOINT は、レジストリエンドポイントに置き換えます。この値は、ホスト名または IP アドレスにできます。

接続にエラーが見つかった場合は、VPC ルートを確認します。

Google Cloud コンソールで [ルート] に移動します。

[ルート] に移動
[優先度] 列を確認し、優先度が最も高いルートがレジストリにアクセスできるソースに転送されていることを確認します。値が小さいルートの方が優先されます。

Google API への接続がタイムアウトしているかどうかを調査する

ネットワーク隔離を使用すると、Google API とサービスへの接続がタイムアウトし、i/o timeout イメージの pull エラーが発生することがあります。

このエラーは、ノードがレジストリからイメージを pull しようとしたときに、次のいずれかの API に到達できなかったために発生します。

containerregistry.googleapis.com
artifactregistry.googleapis.com

必要な API に接続できるようにするには、次のソリューションを試してください。

プライベート Google アクセスを有効にする。外部 IP アドレスのないノードが Google API とサービスの外部 IP アドレスに到達するには、プライベート Google アクセスが必要です。
サポートされているドメインを使用する。
ファイアウォールポリシーを確認します。
1. Google Cloud コンソールで、[ファイアウォールポリシー] に移動します。
  
  [ファイアウォールポリシー] に移動
2. ポート 443 から 199.36.153.4/30、199.36.153.8/30 へ、または Google API とサービスのために選択したドメインで使用される IP アドレス範囲への下り（外向き）TCP トラフィックをブロックするルールがあるかどうかを確認します。IP アドレス範囲 199.36.153.4/30 と 199.36.153.8/30 は、プライベート Google アクセスと制限付きの Google アクセスにそれぞれ使用されます。ポート 443 からこれらの範囲への TCP トラフィックは、Google API とサービスへのアクセス用です。
  
  このようなルールが見つかった場合は、下り（外向き）ファイアウォールルールを作成して、そのようなトラフィックを許可します。
Artifact Registry を使用する場合は、ネットワーク隔離で Artifact Registry を使用する要件を環境が満たしていることを確認してください。
仮想 IP アドレス（VIP）（199.36.153.4/30 または 199.36.153.8/30）に VPC ルートが構成されていることを確認します。
1. Google Cloud コンソールで、VPC ネットワークに移動します。
  
  [VPC ネットワーク] に移動
2. [名前] 列で [default] をクリックします。
3. VPC ネットワークの詳細ページで、[ルート] タブをクリックします。
4. ルートテーブルを確認します。
  
  VPC ネットワークにデフォルトルート（宛先 0.0.0.0/0 または ::0/0）が含まれ、そのルートのネクストホップがデフォルトのインターネットゲートウェイ（ネットワークのデフォルト）である場合は、そのルートを VIP が Google API とサービスにアクセスするために使用します。
  
  デフォルトルートを、ネクストホップがデフォルトのインターネットゲートウェイではないカスタムルートに置き換えた場合は、カスタムルーティングを使用して、Google API とサービスのルーティング要件を満たします。

kubelet がイメージを見つけられない理由を調査する

kubelet がイメージを見つけられない場合、image not found エラーが表示され、イメージの pull に失敗することがあります。

kubelet がイメージを見つけられるようにするには、次のソリューションを試してください。

Pod のマニフェストを調べて、イメージ名とイメージタグのスペルが正しいことを確認します。スペルミスや書式エラーがあると、イメージの pull が失敗します。
イメージを保存したレジストリにイメージがまだ存在することを確認します。イメージにレジストリフルパスがある場合は、使用する Docker レジストリにそのパスが存在することを確認します。イメージ名のみを指定した場合は、Docker Hub レジストリを確認してください。
クラスタでネットワーク隔離を使用している場合は、次のソリューションを試します。
1. プライベート Google アクセスを有効にする。
2. サービス境界が正しく構成されていることを確認する。

イメージ pull のタイムアウトやイメージ pull の遅延が発生する理由を調査する

GKE ワークロードに非常に大きなイメージを使用すると、イメージの pull がタイムアウトし、context cancelled エラーが発生する可能性があります。イメージにはサイズの上限は定められていませんが、context cancelled エラーは多くの場合、イメージのサイズが原因であることを示しています。

また、イメージの取得が失敗しないものの、通常よりもはるかに時間がかかることもあります。通常のイメージの pull 時間のベースラインを確認するには、Successfully pulled image ログエントリを確認します。たとえば、次のログメッセージは、イメージの pull に 30.313387996 秒かかったことを示しています。

Successfully pulled image "IMAGE_ADDRESS" in 30.313387996s.

タイムアウトとイメージの pull の遅延には、多くの共通の原因があります。これらの問題を解決するには、次のソリューションを試してください。

サービスの停止がないか確認します。この問題が特定の期間にのみ発生する場合は、 Google Cloud サービスの停止が発生していないか確認します。
ディスクのパフォーマンスを確認します。ディスク I/O が遅いと、イメージの pull 時間が長くなる可能性があります。パフォーマンスを向上させるには、SSD を使用する永続ディスク（pd-ssd）へのアップグレードまたは大容量ディスクの使用を検討してください。詳細については、ディスクパフォーマンスに関する問題のトラブルシューティングをご覧ください。
イメージサイズを小さくします。たとえば、一部のデータをコンテナイメージから Persistent Volume に移動できます。
イメージキャッシュ保存を利用して、Pod の起動時間を短縮します。GKE はノードにイメージをキャッシュ保存します。イメージの pull 中、コンテナランタイムは、キャッシュにまだ存在しないレイヤのみをダウンロードします。このキャッシュ保存メカニズムの有効性を最大化し、イメージの pull 時間を最小限に抑えるには、イメージの頻繁に変更される部分（アプリケーションコードなど）をファイルの末尾に配置するように Dockerfile を構造化し、小さいベースイメージを使用します。
イメージストリーミングを有効にします。この機能により、Pod の起動とイメージのダウンロードを高速化できます。詳しくは、イメージストリーミングを使用してコンテナイメージを pull するをご覧ください。
デフォルトのサービスアカウントに必要な権限があることを確認します。デフォルトのサービスアカウントに割り当てられているロールを変更すると、イメージの pull など、ワークロードが停止される可能性があります。その他の推奨事項については、重要な権限のノードサービスアカウントが存在するクラスタを特定するをご覧ください。
プロキシ構成を確認します。GKE クラスタと Google 以外のマネージドリポジトリの間にプロキシが存在する場合、レイテンシが発生する可能性があります。
サードパーティソフトウェアを確認します。一部のサードパーティソフトウェアは、イメージの取得を妨げる可能性があります。最近インストールしたツールが競合の原因となっているかどうかを調査します。

イメージマニフェストで正しいアーキテクチャが使用されていることを確認する

pull しようとしているイメージが、ノードプールで使用されているコンピュータアーキテクチャとは異なるアーキテクチャ用にビルドされている場合、イメージの pull は失敗します。

イメージマニフェストが正しいアーキテクチャを使用しているかどうかを確認する手順は次のとおりです。

イメージが使用するアーキテクチャを確認するには、イメージのマニフェストを表示します。たとえば、Docker イメージを表示するには、次のコマンドを実行します。
```
docker manifest inspect --verbose IMAGE_NAME
```
IMAGE_NAME は、表示するイメージの名前に置き換えます。

出力は次のようになります。
```
...
"Platform": {
          "architecture": "amd64",
          "os": "linux"
  }
...
```
この例では、サポートされているアーキテクチャは amd64 です。
ノードプールが使用するマシンタイプを確認します。
```
gcloud container node-pools list --cluster CLUSTER_NAME --location CONTROL_PLANE_LOCATION
```
次のように置き換えます。
- CLUSTER_NAME: イメージの pull エラーのある Pod が実行されているクラスタの名前。
- CONTROL_PLANE_LOCATION: クラスタのコントロールプレーンの Compute Engine のロケーション。リージョンクラスタの場合はリージョン、ゾーンクラスタの場合はゾーンを指定します。
出力は次のようになります。
```
NAME: example-node-pool
MACHINE_TYPE: e2-standard-2
DISK_SIZE_GB: 100
NODE_VERSION: 1.30.8-gke.1162000
```
この例では、マシンタイプは e2-standard-2 です。
architecture フィールドと MACHINE_TYPE フィールドの値を比較し、両方の値が互換性があることを確認します。たとえば、イメージのアーキテクチャが amd64 の場合、マシンタイプとして e2-standard-2 を使用するノードプールとの互換性があります。ただし、ノードプールが t2a-standard-1（Arm ベースのマシンタイプ）を使用している場合、このマシンタイプは失敗します。
イメージのアーキテクチャにノードプールのマシンタイプとの互換性がない場合は、必要なアーキテクチャをターゲットにしてイメージを再ビルドします。

イメージスキーマのバージョンの互換性を確認する

v1 Docker スキーマイメージで containerd 2.0 を使用すると、containerd 2.0 で GKE 1.33 の Docker スキーマ 1 イメージの pull のサポートが削除されたため、イメージの pull が失敗します。この問題がイメージの pull の失敗の原因である場合、次のエラーメッセージが表示されることがあります。

Failed to get converter for "IMAGE_ADDRESS": Pulling Schema 1 images have been deprecated and disabled by default since containerd v2.0. As a workaround you may set an environment variable `CONTAINERD_ENABLE_DEPRECATED_PULL_SCHEMA_1_IMAGE=1`, but this will be completely removed in containerd v2.1.

この問題を解決するには、Docker スキーマ 1 イメージから移行するの手順に沿って、これらのイメージを特定して移行します。

次のステップ

このドキュメントに問題のソリューションが見当たらない場合は、サポートを受けるで、次のトピックに関するアドバイスなど、詳細なヘルプをご覧ください。
- Cloud カスタマーケアに問い合わせて、サポートケースを登録する。
- StackOverflow で質問し、google-kubernetes-engine タグを使用して類似の問題を検索することで、コミュニティからサポートを受ける。#kubernetes-engine Slack チャンネルに参加して、コミュニティサポートを利用することもできます。
- 公開バグトラッカーを使用して、バグの報告や機能リクエストの登録を行う。

イメージ pull のトラブルシューティング

イメージの pull について

イメージのライフサイクル

イメージホスティングオプション

イメージの pull エラーを診断する

Pod のステータスとイベントを表示する

コンソール

kubectl

ステータスの意味を理解する

イベントメッセージを使用して、イメージの pull 失敗の原因を特定する

ログエクスプローラのログを表示する

認証設定を調査する

イメージへのアクセス権を確認する

Artifact Registry

Container Registry

自己ホスト型レジストリ

imagePullSecret の構成と Deployment 仕様を確認する

非公開 Artifact Registry リポジトリに対するノードのアクセススコープを確認する

`gke-default`

`devstorage.read_only`

Artifact Registry にアクセスするための VPC Service Controls の設定を確認する

ネットワーク接続を調査する

DNS 解決を調査する

ファイアウォール構成を調査する

ファイアウォールの問題を診断する

ファイアウォールの構成に関する問題を解決する

外部レジストリエンドポイントのインターネット接続を調査する

Google API への接続がタイムアウトしているかどうかを調査する

kubelet がイメージを見つけられない理由を調査する

イメージ pull のタイムアウトやイメージ pull の遅延が発生する理由を調査する

イメージマニフェストで正しいアーキテクチャが使用されていることを確認する

イメージスキーマのバージョンの互換性を確認する

次のステップ

イメージ pull のトラブルシューティング コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

イメージの pull について

イメージのライフサイクル

イメージ ホスティング オプション

イメージの pull エラーを診断する

Pod のステータスとイベントを表示する

コンソール

kubectl

ステータスの意味を理解する

イベント メッセージを使用して、イメージの pull 失敗の原因を特定する

ログ エクスプローラのログを表示する

認証設定を調査する

イメージへのアクセス権を確認する

Artifact Registry

Container Registry

自己ホスト型レジストリ

imagePullSecret の構成と Deployment 仕様を確認する

非公開 Artifact Registry リポジトリに対するノードのアクセス スコープを確認する

gke-default

devstorage.read_only

Artifact Registry にアクセスするための VPC Service Controls の設定を確認する

ネットワーク接続を調査する

DNS 解決を調査する

ファイアウォール構成を調査する

ファイアウォールの問題を診断する

ファイアウォールの構成に関する問題を解決する

外部レジストリ エンドポイントのインターネット接続を調査する

Google API への接続がタイムアウトしているかどうかを調査する

kubelet がイメージを見つけられない理由を調査する

イメージ pull のタイムアウトやイメージ pull の遅延が発生する理由を調査する

イメージ マニフェストで正しいアーキテクチャが使用されていることを確認する

イメージ スキーマのバージョンの互換性を確認する

次のステップ

イメージ pull のトラブルシューティング

イメージホスティングオプション

イベントメッセージを使用して、イメージの pull 失敗の原因を特定する

ログエクスプローラのログを表示する

非公開 Artifact Registry リポジトリに対するノードのアクセススコープを確認する

`gke-default`

`devstorage.read_only`

外部レジストリエンドポイントのインターネット接続を調査する

イメージマニフェストで正しいアーキテクチャが使用されていることを確認する

イメージスキーマのバージョンの互換性を確認する