수동으로 호스트 유지보수 이벤트 시작
이 페이지에서는 지원되는 TPU VM에서 호스트 유지보수 이벤트를 수동으로 시작하는 방법을 설명합니다. 이 기능은 유지보수 기간을 특정 시점에 시작해야 하는 경우, 성능 저하나 다운타임에 민감한 워크로드에 유용합니다.
유지보수 이벤트를 수동으로 시작하면 호스트 유지보수 이벤트가 즉시 시작됩니다. 유지보수 이벤트가 시작되는 날짜나 시간은 지정할 수 없습니다. 이 기능을 사용하지 않을 경우 유지보수 이벤트는 예정된 유지보수 알림에 표시된 시간에 발생합니다.
GKE에서 TPU에 대해 유지보수를 수동으로 시작하는 방법은 GPU 및 TPU에 대한 GKE 노드 중단 관리를 참조하세요.
제한사항
호스트 유지보수 이벤트를 수동으로 시작할 수 있는 경우는 다음과 같은 구성의 TPU v6e VM에 한정됩니다.
2x4
토폴로지 구성 이상의 TPU v6e VM(Cloud TPU API의 가속기 유형 필드에서는v6e-8
로 표시됨)2x4
이상 크기의 TPU v6e VM을 사용하는 GKE 멀티 호스트 노드 풀
더 큰 슬라이스에 대해 호스트 유지보수를 즉시 시작하면 슬라이스가 최대 몇 시간 동안 사용 불가능해질 수 있습니다. 일반적으로 호스트 유지보수 이벤트가 발생하면, 슬라이스는 가능한 한 빨리 다른 적합한 호스트 집합으로 다시 스케줄링됩니다. 하지만 슬라이스 규모가 큰 호스트 유지보수 이벤트 요청의 경우, 슬라이스를 즉시 다시 스케줄링할 수 있을 만큼 가용 용량이 부족할 수 있으며, 이로 인해 대기 시간이 길어질 수 있습니다.
또한 Cloud TPU 슬라이스에서 유지보수를 시작하면 모든 기본 TPU VM에 대해 유지보수가 시작됩니다. 인스턴스 API를 사용해 인스턴스 중 하나에서 직접 유지보수를 수행하면 해당 Cloud TPU 슬라이스 내의 모든 인스턴스가 유지보수 상태로 전환됩니다. 대신 유지보수를 수행할 노드를 지정하려면 queued-resources
Cloud TPU API를 사용하는 것이 좋습니다.
수동으로 호스트 유지보수 이벤트 시작
유지보수 알림을 사용하여 TPU에서 유지보수 이벤트를 수동으로 시작할 수 있는 시간을 확인할 수 있습니다.
알림 정보 확인
Cloud TPU API를 사용하거나 VM에서 메타데이터 서버를 쿼리하는 방식으로 예정된 유지보수 이벤트에 대한 알림을 찾을 수 있습니다. 자세한 내용은 유지보수 알림 보기를 참조하세요.
TPU에 예정된 호스트 유지보수 알림이 표시된 경우, 유지보수 이벤트를 사전에 시작할 수 있습니다. 유지보수 이벤트를 사전에 시작하려면 예정된 호스트 유지보수 알림에서 canReschedule
이 true
로 설정되어 있고 maintenanceStatus
가 PENDING
상태여야 합니다.
유지보수 이벤트 시작
호스트 유지보수 이벤트를 시작하려면 perform-maintenance
명령어와 함께 Cloud TPU API를 사용할 수 있습니다.
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
작업이 완료되면 windowEndTime
및 windowStartTime
필드가 유지보수 이벤트를 시작한 시점의 시간으로 변경되며, maintenanceStatus
필드는 ONGOING
으로 변경됩니다. 이후 곧바로 호스트 유지보수 이벤트가 시작됩니다.
gcloud alpha compute tpus tpu-vm describe
명령어를 사용하여 유지보수 이벤트 상태를 확인합니다.
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
출력에 다음과 유사한 섹션이 포함됩니다.
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
TPU VM의 상태가 READY
로 표시되고, gcloud alpha compute tpus tpu-vm describe
명령어의 출력에 upcomingMaintenance
메타데이터 필드가 더 이상 포함되지 않으면 유지보수가 완료된 것입니다.
멀티슬라이스 환경에서는 다음 명령어를 사용해 특정 슬라이스에서 호스트 유지보수 이벤트를 수동으로 시작할 수 있습니다.
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
는 호스트 유지보수 이벤트를 시작하려는 큐에 추가된 리소스에서 슬라이스(노드) 이름을 쉼표로 구분한 목록입니다. 예를 들어 큐에 추가된 리소스에 my-qr-0, my-qr-1
및 my-qr-2
라는 노드 이름이 있을 경우, perform-maintenance
명령어에 유효한 입력은 --node-names=my-qr-0,my-qr-1
입니다.