Trillium(v6e) 소개

v6e는 이 문서, TPU API, 로그에서 Trillium을 참조하는 데 사용됩니다. v6e는 Google의 6세대 TPU를 나타냅니다.

포드당 칩이 256개인 v6e 아키텍처는 v5e와 많은 유사점을 공유합니다. 이 시스템은 변환기, 텍스트-이미지, 컨볼루셔널 신경망(CNN) 학습, 미세 조정, 서빙에 최적화되어 있습니다.

v6e 시스템 아키텍처 및 구성에 관한 자세한 내용은 TPU v6e를 참조하세요.

이 소개 문서는 JAX 또는 PyTorch 프레임워크를 사용하여 모델을 학습하고 제공하는 프로세스에 중점을 둡니다. 각 프레임워크를 사용하면 큐에 추가된 리소스 또는 GKE를 사용하여 TPU를 프로비저닝할 수 있습니다. GKE 설정은 XPK 또는 GKE 명령어를 사용하여 수행할 수 있습니다.

v6e를 사용하여 모델을 학습하거나 제공하는 일반적인 절차

Google Cloud 프로젝트 준비
용량 확보
Cloud TPU 환경 프로비저닝
모델 학습 또는 추론 워크로드 실행

Google Cloud 프로젝트 준비

Cloud TPU를 사용하려면 먼저 다음을 실행해야 합니다.

결제가 사용 설정된 Google Cloud 계정 및 프로젝트 만들기
Google Cloud CLI 알파 구성요소 설치
Cloud TPU API 사용 설정
Cloud TPU 서비스 에이전트 만들기
Cloud TPU 서비스 계정 만들기 및 권한 부여

자세한 내용은 Cloud TPU 환경 설정을 참조하세요.

용량 확보

Google Cloud 지원팀에 문의하여 Cloud TPU v6e 할당량을 요청하고 용량에 관한 질문에 답변을 받으세요.

Cloud TPU 환경 프로비저닝

v6e Cloud TPU는 GKE, GKE 및 XPK(GKE 기반 래퍼 CLI 도구)를 사용하거나 큐에 추가된 리소스로 프로비저닝하고 관리할 수 있습니다.

기본 요건

Google Cloud프로젝트 내에서 액세스할 수 있는 최대 칩 수를 지정하는 TPUS_PER_TPU_FAMILY 할당량이 충분한지 확인합니다.
v6e는 다음 구성으로 테스트되었습니다.
- Python 3.10 이상
- Nightly 소프트웨어 버전:
  - Nightly JAX 0.4.32.dev20240912
  - Nightly LibTPU 0.1.dev20240912+nightly
- 안정화 소프트웨어 버전:
  - JAX + JAX Lib(v0.4.37)
프로젝트에 다음에 대한 할당량이 충분한지 확인합니다.
- Cloud TPU VM 할당량
- IP 주소 할당량
- Hyperdisk Balanced 및 사용하려는 기타 디스크 유형의 할당량
  
  참고: v6e는 Hyperdisk Balanced 및 Hyperdisk ML을 지원합니다. v6e는 Persistent Disk(PD)를 지원하지 않습니다. 자세한 내용은 Cloud TPU 데이터를 위한 스토리지 옵션을 참조하세요.
XPK와 함께 GKE를 사용하는 경우 XPK를 실행하는 데 필요한 권한은 사용자 또는 서비스 계정의 Cloud 콘솔 권한을 참조하세요.

환경 변수 만들기

Cloud Shell에서 다음 환경 변수를 만듭니다.

export NODE_ID=your-tpu-name
export PROJECT_ID=your-project-id
export ACCELERATOR_TYPE=v6e-16
export ZONE=us-east1-d
export RUNTIME_VERSION=v2-alpha-tpuv6e
export SERVICE_ACCOUNT=your-service-account
export QUEUED_RESOURCE_ID=your-queued-resource-id
export VALID_DURATION=your-duration 

# Additional environment variable needed for Multislice:
export NUM_SLICES=number-of-slices

# Use a custom network for better performance as well as to avoid having the default network becoming overloaded.

export NETWORK_NAME=${PROJECT_ID}-mtu9k
export NETWORK_FW_NAME=${NETWORK_NAME}-fw

명령어 플래그 설명

변수	설명
NODE_ID	큐에 추가된 리소스 요청이 할당될 때 생성되는 Cloud TPU의 사용자 할당 ID입니다.
PROJECT_ID	Google Cloud 프로젝트 이름. 기존 프로젝트를 사용하거나 새 프로젝트를 만듭니다. 자세한 내용은 Google Cloud 프로젝트 설정을 참조하세요.
ZONE	지원되는 영역에 대해서는 Cloud TPU 리전 및 영역 문서를 참조하세요.
ACCELERATOR_TYPE	가속기 유형을 참조하세요.
RUNTIME_VERSION	`v2-alpha-tpuv6e`
SERVICE_ACCOUNT	Google Cloud 콘솔 -> IAM -> 서비스 계정에서 찾을 수 있는 서비스 계정의 이메일 주소입니다. 예: `tpu-service-account@your-project-ID.iam.gserviceaccount.com.com`
NUM_SLICES	생성할 슬라이스 수입니다(멀티슬라이스에만 필요).
QUEUED_RESOURCE_ID	큐에 추가된 리소스 요청의 사용자 할당 텍스트 ID입니다.
VALID_DURATION	큐에 추가된 리소스 요청이 유효한 기간입니다.
NETWORK_NAME	사용할 보조 네트워크의 이름입니다.
NETWORK_FW_NAME	사용할 보조 네트워크 방화벽의 이름입니다.

네트워크 성능 최적화

최상의 성능을 위해 MTU(최대 전송 단위)가 8,896인 네트워크를 사용하세요.

기본적으로 가상 프라이빗 클라우드(VPC)는 1,460바이트의 MTU만 제공하므로 최적의 네트워크 성능을 제공하지 않습니다. VPC 네트워크의 MTU를 1,300바이트에서 8,896바이트(포함) 사이의 값으로 설정할 수 있습니다. 일반적인 커스텀 MTU 크기는 1,500바이트(표준 이더넷) 또는 8,896바이트(최대)입니다. 자세한 내용은 유효한 VPC 네트워크 MTU 크기를 참조하세요.

기존 또는 기본 네트워크의 MTU 설정을 변경하는 방법에 관한 자세한 내용은 VPC 네트워크의 MTU 설정 변경을 참조하세요.

다음 예시에서는 MTU가 8,896인 네트워크를 만듭니다.

export RESOURCE_NAME=your-resource-name
export NETWORK_NAME=${RESOURCE_NAME}-privatenetwork
export NETWORK_FW_NAME=${RESOURCE_NAME}-privatefirewall
gcloud compute networks create ${NETWORK_NAME} --mtu=8896 --project=${PROJECT_ID} \
 --subnet-mode=auto --bgp-routing-mode=regional
gcloud compute firewall-rules create ${NETWORK_FW_NAME} --network=${NETWORK_NAME} \
 --allow tcp,icmp,udp --project=${PROJECT_ID}

멀티 NIC 사용(멀티슬라이스 옵션)

멀티슬라이스 환경을 사용할 때 보조 서브넷에 다음 환경 변수가 필요합니다.

export NETWORK_NAME_2=${RESOURCE_NAME}
export SUBNET_NAME_2=${RESOURCE_NAME}
export FIREWALL_RULE_NAME=${RESOURCE_NAME}
export ROUTER_NAME=${RESOURCE_NAME}-network-2
export NAT_CONFIG=${RESOURCE_NAME}-natconfig-2
export REGION=your-region

다음 명령어를 사용하여 네트워크 및 서브넷에 대한 커스텀 IP 라우팅을 만듭니다.

gcloud compute networks create ${NETWORK_NAME_2} --mtu=8896 \
   --bgp-routing-mode=regional --subnet-mode=custom --project=${PROJECT_ID}
gcloud compute networks subnets create ${SUBNET_NAME_2} \
   --network=${NETWORK_NAME_2} \
   --range=10.10.0.0/18 --region=${REGION} \
   --project=${PROJECT_ID}

gcloud compute firewall-rules create ${FIREWALL_RULE_NAME} \
   --network=${NETWORK_NAME_2} --allow tcp,icmp,udp \
   --source-ranges 10.10.0.0/18 --project=${PROJECT_ID}

gcloud compute routers create ${ROUTER_NAME} \
  --project=${PROJECT_ID} \
  --network=${NETWORK_NAME_2} \
  --region=${REGION}

gcloud compute routers nats create ${NAT_CONFIG} \
  --router=${ROUTER_NAME} \
  --region=${REGION} \
  --auto-allocate-nat-external-ips \
  --nat-all-subnet-ip-ranges \
  --project=${PROJECT_ID} \
  --enable-logging

멀티 네트워크 슬라이스를 만든 후 XPK 클러스터를 설정하고 XPK 워크로드 생성 명령어에 --command ifconfig 플래그를 추가하여 두 네트워크 인터페이스 카드(NIC)가 모두 사용되고 있는지 확인할 수 있습니다.

다음 xpk workload 명령어를 사용하여 Google Cloud 콘솔 로그에 ifconfig 명령어의 출력을 표시하고 eth0과 eth1 모두 mtu=8896인지 확인합니다.

python3 xpk.py workload create \
   --cluster CLUSTER_NAME \
   {--base-docker-image maxtext_base_image | --docker-image your-cloud-image-name} \
   --workload=${USER}-xpk-${ACCELERATOR_TYPE}-${NUM_SLICES} \
   --tpu-type=${ACCELERATOR_TYPE} \
   --num-slices=${NUM_SLICES}  \
   --on-demand \
   --zone=${ZONE} \
   --project=${PROJECT_ID} \
   --command "ifconfig"

디버그 로그를 사용 설정하거나 Vertex AI 텐서보드를 사용하려면 다음 선택적 인수를 명령어에 추가합니다.

    --enable-debug-logs \
    --use-vertex-tensorboard

eth0 및 eth1 모두에 mtu=8,896이 있는지 확인합니다. XPK 워크로드 생성 명령어에 --command ifconfig 플래그를 추가하여 멀티 NIC가 실행 중인지 확인할 수 있습니다. Google Cloud 콘솔 로그에서 해당 xpk 워크로드의 출력을 확인하고 eth0과 eth1 모두 mtu=8896인지 확인합니다.

TCP 설정 개선

큐에 추가된 리소스 인터페이스를 사용하여 Cloud TPU를 만든 경우 다음 명령어를 실행하여 TCP 수신 버퍼 제한을 늘려 네트워크 성능을 개선할 수 있습니다.

gcloud alpha compute tpus queued-resources ssh "${QUEUED_RESOURCE_ID}" \
  --project "${PROJECT_ID}" \
  --zone "${ZONE}" \
  --node=all \
  --command='sudo sh -c "echo \"4096 41943040 314572800\" > /proc/sys/net/ipv4/tcp_rmem"' \
  --worker=all

큐에 추가된 리소스로 프로비저닝

큐에 추가된 리소스를 사용하여 Cloud TPU v6e를 만들 수 있습니다. 용량을 사용할 수 있게 되면 큐에 추가된 리소스에서 용량을 받을 수 있습니다. 요청을 작성할 때 선택적으로 시작 시간과 종료 시간을 지정할 수 있습니다. 자세한 내용은 큐에 추가된 리소스 관리를 참조하세요.

GKE 또는 XPK로 v6e Cloud TPU 프로비저닝

v6e에서 GKE 명령어를 사용하는 경우 Kubernetes 명령어 또는 XPK를 사용하여 Cloud TPU를 프로비저닝하고 모델을 학습 또는 제공할 수 있습니다. GKE 클러스터에서 Cloud TPU 구성을 계획하는 방법은 GKE에서 Cloud TPU 계획을 참조하세요. 다음 섹션에서는 단일 NIC 지원 및 멀티 NIC 지원이 있는 XPK 클러스터를 만드는 명령어를 제공합니다.

단일 NIC 지원을 통해 XPK 클러스터 만들기

export CLUSTER_NAME=xpk-cluster-name
export ZONE=us-east1-d
export PROJECT_ID=your-project-id
export TPU_TYPE=v6e-256
export NUM_SLICES=2

export NETWORK_NAME=${CLUSTER_NAME}-mtu9k
export NETWORK_FW_NAME=${NETWORK_NAME}-fw

gcloud compute networks create ${NETWORK_NAME} \
   --mtu=8896 \
   --project=${PROJECT_ID} \
   --subnet-mode=auto \
   --bgp-routing-mode=regional

gcloud compute firewall-rules create ${NETWORK_FW_NAME} \
   --network=${NETWORK_NAME} \
   --allow tcp,icmp,udp \
   --project=${PROJECT_ID}

export CLUSTER_ARGUMENTS="--network=${NETWORK_NAME} --subnetwork=${NETWORK_NAME}"

python3 xpk.py cluster create --cluster=${CLUSTER_NAME} \
   --cluster-cpu-machine-type=e2-standard-8 \
   --num-slices=${NUM_SLICES} \
   --tpu-type=${TPU_TYPE} \
   --zone=${ZONE}  \
   --project=${PROJECT_ID} \
   --on-demand \
   --custom-cluster-arguments="${CLUSTER_ARGUMENTS}"  \
   --create-vertex-tensorboard

명령어 플래그 설명

변수	설명
CLUSTER_NAME	XPK 클러스터에 사용자가 할당한 이름입니다.
PROJECT_ID	Google Cloud 프로젝트 이름. 기존 프로젝트를 사용하거나 새 프로젝트를 만듭니다. 자세한 내용은 Google Cloud 프로젝트 설정을 참조하세요.
ZONE	지원되는 영역에 대해서는 Cloud TPU 리전 및 영역 문서를 참조하세요.
TPU_TYPE	가속기 유형을 참조하세요.
NUM_SLICES	만들려는 슬라이스의 수입니다.
CLUSTER_ARGUMENTS	사용할 네트워크 및 서브네트워크입니다. 예: `--network=${NETWORK_NAME} --subnetwork=${NETWORK_NAME}`
NUM_SLICES	생성할 슬라이스 수입니다.
NETWORK_NAME	사용할 보조 네트워크의 이름입니다.
NETWORK_FW_NAME	사용할 보조 네트워크 방화벽의 이름입니다.

멀티 NIC를 지원하는 XPK 클러스터 만들기

export CLUSTER_NAME=xpk-cluster-name
export REGION=your-region
export ZONE=us-east1-d
export PROJECT_ID=your-project-id
export TPU_TYPE=v6e-256
export NUM_SLICES=2

export NETWORK_NAME_1=${CLUSTER_NAME}-mtu9k-1-${ZONE}
export SUBNET_NAME_1=${CLUSTER_NAME}-privatesubnet-1-${ZONE}
export NETWORK_FW_NAME_1=${NETWORK_NAME_1}-fw-1-${ZONE}
export FIREWALL_RULE_NAME=${CLUSTER_NAME}-privatefirewall-1-${ZONE}
export ROUTER_NAME=${CLUSTER_NAME}-network-1-${ZONE}
export NAT_CONFIG=${CLUSTER_NAME}-natconfig-1-${ZONE}

gcloud compute networks create ${NETWORK_NAME_1} \
   --mtu=8896 \
   --bgp-routing-mode=regional \
   --subnet-mode=custom \
   --project=${PROJECT_ID}

gcloud compute networks subnets create ${SUBNET_NAME_1} \
   --network=${NETWORK_NAME_1} \
   --range=10.11.0.0/18 \
   --region=${REGION} \
   --project=${PROJECT_ID}

gcloud compute firewall-rules create ${FIREWALL_RULE_NAME} \
   --network=${NETWORK_NAME_1} \
   --allow tcp,icmp,udp \
   --project=${PROJECT_ID}

gcloud compute routers create ${ROUTER_NAME} \
    --project=${PROJECT_ID} \
    --network=${NETWORK_NAME_1} \
    --region=${REGION}

gcloud compute routers nats create ${NAT_CONFIG} \
    --router=${ROUTER_NAME} \
    --region=${REGION} \
    --auto-allocate-nat-external-ips \
    --nat-all-subnet-ip-ranges \
    --project=${PROJECT_ID} \
    --enable-logging

# Secondary subnet for multi-nic experience.
# Need custom IP routing to be different from the first network's subnet.

export NETWORK_NAME_2=${CLUSTER_NAME}-privatenetwork-2-${ZONE}
export SUBNET_NAME_2=${CLUSTER_NAME}-privatesubnet-2-${ZONE}
export FIREWALL_RULE_NAME=${CLUSTER_NAME}-privatefirewall-2-${ZONE}
export ROUTER_NAME=${CLUSTER_NAME}-network-2-${ZONE}
export NAT_CONFIG=${CLUSTER_NAME}-natconfig-2-${ZONE}

gcloud compute networks create ${NETWORK_NAME_2} \
   --mtu=8896 \
   --bgp-routing-mode=regional \
   --subnet-mode=custom \
   --project=${PROJECT_ID}

gcloud compute networks subnets create ${SUBNET_NAME_2} \
   --network=${NETWORK_NAME_2} \
   --range=10.10.0.0/18 \
   --region=${REGION} \
   --project=${PROJECT_ID}

gcloud compute firewall-rules create ${FIREWALL_RULE_NAME} \
   --network=${NETWORK_NAME_2} \
   --allow tcp,icmp,udp \
   --project=${PROJECT_ID}

gcloud compute routers create ${ROUTER_NAME} \
     --project=${PROJECT_ID} \
     --network=${NETWORK_NAME_2} \
     --region=${REGION}

gcloud compute routers nats create ${NAT_CONFIG} \
     --router=${ROUTER_NAME} \
     --region=${REGION} \
     --auto-allocate-nat-external-ips \
     --nat-all-subnet-ip-ranges \
     --project=${PROJECT_ID} \
     --enable-logging

export CLUSTER_ARGUMENTS="--enable-dataplane-v2 --enable-ip-alias --enable-multi-networking --network=${NETWORK_NAME_1} --subnetwork=${SUBNET_NAME_1}"

export NODE_POOL_ARGUMENTS="--additional-node-network network=${NETWORK_NAME_2},subnetwork=${SUBNET_NAME_2}"

python3 xpk.py cluster create \
    --cluster=${CLUSTER_NAME} \
    --cluster-cpu-machine-type=e2-standard-8 \
    --num-slices=${NUM_SLICES} \
    --tpu-type=${TPU_TYPE} \
    --zone=${ZONE}  \
    --project=${PROJECT_ID} \
    --on-demand \
    --custom-cluster-arguments="${CLUSTER_ARGUMENTS}" \
    --custom-nodepool-arguments="${NODE_POOL_ARGUMENTS}" \
    --create-vertex-tensorboard

명령어 플래그 설명

변수	설명
CLUSTER_NAME	XPK 클러스터에 사용자가 할당한 이름입니다.
PROJECT_ID	Google Cloud 프로젝트 이름. 기존 프로젝트를 사용하거나 새 프로젝트를 만듭니다. 자세한 내용은 Google Cloud 프로젝트 설정을 참조하세요.
ZONE	지원되는 영역에 대해서는 Cloud TPU 리전 및 영역 문서를 참조하세요.
TPU_TYPE	가속기 유형을 참조하세요.
NUM_SLICES	만들려는 슬라이스의 수입니다.
CLUSTER_ARGUMENTS	사용할 네트워크 및 서브네트워크입니다. 예: `--enable-dataplane-v2 --enable-ip-alias --enable-multi-networking --network=${NETWORK_NAME_1} --subnetwork=${SUBNET_NAME_1}`
NODE_POOL_ARGUMENTS	사용할 추가 노드 네트워크입니다. 예: `--additional-node-network network=${NETWORK_NAME_2},subnetwork=${SUBNET_NAME_2}`
NUM_SLICES	생성할 슬라이스 수입니다(멀티슬라이스에만 필요).
NETWORK_NAME	사용할 보조 네트워크의 이름입니다.
NETWORK_FW_NAME	사용할 보조 네트워크 방화벽의 이름입니다.

프레임워크 설정

이 섹션에서는 JAX 및 PyTorch 프레임워크를 사용하는 ML 모델 학습을 위한 일반적인 설정 프로세스를 설명합니다. GKE를 사용하는 경우 프레임워크 설정에 XPK 또는 Kubernetes 명령어를 사용할 수 있습니다.

JAX 설정

이 섹션에서는 XPK 유무와 관계없이 GKE에서 JAX 워크로드를 실행하고 큐에 추가된 리소스를 사용하기 위한 설정 안내를 제공합니다.

GKE를 사용하여 JAX 설정

단일 호스트의 단일 슬라이스

다음 예시에서는 Kubernetes YAML 파일을 사용하여 2x2 단일 호스트 노드 풀을 설정합니다.

apiVersion: v1
kind: Pod
metadata:
  name: tpu-pod-jax-v6e-a
spec:
  restartPolicy: Never
  nodeSelector:
    cloud.google.com/gke-tpu-accelerator: tpu-v6e-slice
    cloud.google.com/gke-tpu-topology: 2x2
  containers:
  - name: tpu-job
    image: python:3.10
    securityContext:
      privileged: true
    command:
    - bash
    - -c
    - |
      pip install -U --pre jax jaxlib libtpu-nightly requests -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/ -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
      JAX_PLATFORMS=tpu,cpu ENABLE_PJRT_COMPATIBILITY=true python3 -c 'import jax; print("Total TPU chips:", jax.device_count())'
    resources:
      requests:
        google.com/tpu: 4
      limits:
        google.com/tpu: 4

성공적으로 완료되면 GKE 로그에 다음 메시지가 표시됩니다.

Total TPU chips: 4

멀티 호스트의 단일 슬라이스

다음 예시에서는 Kubernetes YAML 파일을 사용하여 4x4 멀티 호스트 노드 풀을 설정합니다.

apiVersion: v1
kind: Service
metadata:
  name: headless-svc
spec:
  clusterIP: None
  selector:
    job-name: tpu-available-chips
---
apiVersion: batch/v1
kind: Job
metadata:
  name: tpu-available-chips
spec:
  backoffLimit: 0
  completions: 4
  parallelism: 4
  completionMode: Indexed
  template:
    spec:
      subdomain: headless-svc
      restartPolicy: Never
      nodeSelector:
        cloud.google.com/gke-tpu-accelerator: tpu-v6e-slice
        cloud.google.com/gke-tpu-topology: 4x4
      containers:
      - name: tpu-job
        image: python:3.10
        ports:
        - containerPort: 8471 # Default port using which TPU VMs communicate
        - containerPort: 8431 # Port to export TPU runtime metrics, if supported.
        securityContext:
          privileged: true
        command:
        - bash
        - -c
        - |
          pip install -U --pre jax jaxlib libtpu-nightly requests -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/ -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
          JAX_PLATFORMS=tpu,cpu ENABLE_PJRT_COMPATIBILITY=true python -c 'import jax; print("Total TPU chips:", jax.device_count())'
        resources:
          requests:
            google.com/tpu: 4
          limits:
            google.com/tpu: 4

성공적으로 완료되면 GKE 로그에 다음 메시지가 표시됩니다.

Total TPU chips: 16

멀티 호스트의 멀티슬라이스

다음 예시에서는 Kubernetes YAML 파일을 사용하여 4x4 멀티 호스트 노드 풀 2개를 설정합니다.

기본 요건으로 v0.2.3 이상의 JobSet을 설치해야 합니다.

apiVersion: jobset.x-k8s.io/v1alpha2
kind: JobSet
metadata:
  name: multislice-job
  annotations:
    alpha.jobset.sigs.k8s.io/exclusive-topology: cloud.google.com/gke-nodepool
spec:
  failurePolicy:
    maxRestarts: 4
  replicatedJobs:
    - name: slice
      replicas: 2
      template:
        spec:
          parallelism: 4
          completions: 4
          backoffLimit: 0
          template:
            spec:
              hostNetwork: true
              dnsPolicy: ClusterFirstWithHostNet
              nodeSelector:
                cloud.google.com/gke-tpu-accelerator: tpu-v6e-slice
                cloud.google.com/gke-tpu-topology: 4x4
              hostNetwork: true
              containers:
              - name: jax-tpu
                image: python:3.10
                ports:
                - containerPort: 8471
                - containerPort: 8080
                - containerPort: 8431
                securityContext:
                  privileged: true
                command:
                - bash
                - -c
                - |
                  pip install -U --pre jax jaxlib libtpu-nightly requests -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/ -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
                  JAX_PLATFORMS=tpu,cpu ENABLE_PJRT_COMPATIBILITY=true python -c 'import jax; print("Total TPU chips:", jax.device_count())'
                resources:
                  limits:
                   google.com/tpu: 4
                  requests:
                   google.com/tpu: 4

성공적으로 완료되면 GKE 로그에 다음 메시지가 표시됩니다.

Total TPU chips: 32

자세한 내용은 GKE 문서의 멀티슬라이스 워크로드 실행을 참조하세요.

성능을 개선하려면 hostNetwork를 사용 설정합니다.

멀티 NIC

다음 멀티 NIC 매니페스트를 사용하려면 네트워크를 설정해야 합니다. 자세한 내용은 Kubernetes 포드에 대한 멀티 네트워크 지원 설정을 참조하세요. GKE에서 멀티 NIC를 활용하려면 Kubernetes 포드 매니페스트에 몇 가지 추가 주석을 포함해야 합니다. 다음은 TPU가 아닌 멀티 NIC 워크로드 예시 매니페스트입니다.

apiVersion: v1
kind: Pod
metadata:
  name: sample-netdevice-pod-1
  annotations:
    networking.gke.io/default-interface: 'eth0'
    networking.gke.io/interfaces: |
      [
        {"interfaceName":"eth0","network":"default"},
        {"interfaceName":"eth1","network":"netdevice-network"}
      ]
spec:
  containers:
  - name: sample-netdevice-pod
    image: busybox
    command: ["sleep", "infinity"]
    ports:
    - containerPort: 80
  restartPolicy: Always
  tolerations:
  - key: "google.com/tpu"
    operator: "Exists"
    effect: "NoSchedule"

exec 명령어를 사용하여 Kubernetes 포드에 연결하면 다음 코드를 사용하여 추가 NIC가 표시됩니다.

$ kubectl exec --stdin --tty sample-netdevice-pod-1 -- /bin/sh
/ # ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
2: eth0@if11: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1460 qdisc noqueue
    link/ether da:be:12:67:d2:25 brd ff:ff:ff:ff:ff:ff
    inet 10.124.2.6/24 brd 10.124.2.255 scope global eth0
       valid_lft forever preferred_lft forever
3: eth1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1460 qdisc mq qlen 1000
    link/ether 42:01:ac:18:00:04 brd ff:ff:ff:ff:ff:ff
    inet 172.24.0.4/32 scope global eth1
       valid_lft forever preferred_lft forever

XPK와 함께 GKE를 사용하여 JAX 설정

GKE 및 XPK를 사용하여 JAX를 설정하려면 xpk 리드미를 참조하세요.

MaxText로 XPK를 설정하고 실행하려면 MaxText 실행 방법을 참조하세요.

큐에 추가된 리소스를 사용하여 JAX 설정

gcloud alpha compute tpus tpu-vm ssh 명령어를 사용하여 슬라이스에 있는 모든 Cloud TPU VM에서 동시에 JAX를 설치합니다. 멀티슬라이스의 경우 --node=all 플래그를 추가합니다.

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} --project ${PROJECT_ID} \
 --zone ${ZONE} --worker=all \
 --command='pip install -U --pre jax jaxlib libtpu-nightly requests -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/ -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'

다음 명령어를 실행하여 슬라이스에서 사용할 수 있는 Cloud TPU 코어 수를 확인하고 모든 것이 올바르게 설치되었는지 테스트할 수 있습니다.

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} --project ${PROJECT_ID} \
   --zone ${ZONE} --worker=all  \
   --command='python3 -c "import jax; print(jax.device_count(), jax.local_device_count())"'

v6e-16 슬라이스에서 실행하면 출력은 다음과 비슷합니다.

SSH: Attempting to connect to worker 0...
SSH: Attempting to connect to worker 1...
SSH: Attempting to connect to worker 2...
SSH: Attempting to connect to worker 3...
16 4
16 4
16 4
16 4

jax.device_count()에서는 지정된 슬라이스의 칩 총개수를 보여줍니다. jax.local_device_count()는 이 슬라이스에서 단일 VM이 액세스할 수 있는 칩 수를 나타냅니다.


 gcloud alpha compute tpus queued-resources ssh ${QUEUED_RESOURCE_ID} \
   --project=${PROJECT_ID} --zone=${ZONE} --worker=all  \
   --command='git clone -b mlperf4.1 https://github.com/google/maxdiffusion.git &&
   cd maxdiffusion && git checkout 975fdb7dbddaa9a53ad72a421cdb487dcdc491a3 &&
   pip install setuptools==59.6.0 &&
   pip install -r requirements.txt  && pip install . '

JAX 설정 문제 해결하기

일반적인 팁은 GKE 워크로드 매니페스트에서 상세 로깅을 사용 설정하는 것입니다. 그런 다음 GKE 지원팀에 로그를 제공합니다.

TPU_MIN_LOG_LEVEL=0 TF_CPP_MIN_LOG_LEVEL=0 TPU_STDERR_LOG_LEVEL=0

오류 메시지

no endpoints available for service 'jobset-webhook-service'

이 오류는 JobSet가 올바르게 설치되지 않았음을 의미합니다. jobset-controller-manager 배포 Kubernetes Pod가 실행 중인지 확인합니다. 자세한 내용은 JobSet 문제 해결 문서를 참조하세요.

TPU initialization failed: Failed to connect

GKE 노드 버전이 1.30.4-gke.1348000 이상인지 확인합니다(GKE 1.31은 지원되지 않음).

PyTorch 설정

이 섹션에서는 PyTorch/XLA로 v6e에서 PJRT 사용을 시작하는 방법을 설명합니다. Python 3.10이 권장되는 Python 버전입니다.

XPK와 함께 GKE를 사용하여 PyTorch 설정

PyTorch 종속 항목이 이미 설치된 XPK와 함께 다음 Docker 컨테이너를 사용할 수 있습니다.

us-central1-docker.pkg.dev/tpu-pytorch-releases/docker/xla:nightly_3.10_tpuvm_20241028

XPK 워크로드를 만들려면 다음 명령어를 사용합니다.

python3 xpk.py workload create \
    --cluster ${CLUSTER_NAME} \
    {--base-docker-image maxtext_base_image | --docker-image your-cloud-image-name \
    --workload ${USER}-xpk-${ACCELERATOR_TYPE}-${NUM_SLICES} \
    --tpu-type=${ACCELERATOR_TYPE} \
    --num-slices=${NUM_SLICES}  \
    --on-demand \
    --zone ${ZONE} \
    --project ${PROJECT_ID} \
    --enable-debug-logs \
    --command 'python3 -c "import torch; import torch_xla; import torch_xla.runtime as xr; print(xr.global_runtime_device_count())"'

--base-docker-image를 사용하면 현재 작업 디렉터리가 새 Docker에 빌드된 새 Docker 이미지가 생성됩니다.

큐에 추가된 리소스를 사용하여 PyTorch 설정

다음 단계에 따라 큐에 추가된 리소스를 사용하여 PyTorch를 설치하고 v6e에서 작은 스크립트를 실행합니다.

SSH를 사용하여 종속 항목을 설치하여 VM에 액세스

다음 명령어를 사용하여 모든 Cloud TPU VM에 종속 항목을 설치합니다. 멀티슬라이스의 경우 --worker=all 플래그를 추가합니다.

gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
    --project=${PROJECT_ID} \
    --zone=${ZONE} \
    --worker=all \
    --command='sudo apt update && sudo apt install -y python3-pip libopenblas-base && \
               pip3 install torch~=2.6.0 "torch_xla[tpu]~=2.6.0" -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html'

상당한 크기의 자주 할당되는 모델의 성능 개선

상당한 크기의 할당이 빈번한 모델의 경우 tcmalloc 함수를 사용하면 기본 malloc 함수 구현에 비해 성능이 크게 향상되므로 Cloud TPU VM에서 사용되는 기본 malloc 함수는 tcmalloc입니다. 그러나 워크로드에 따라(예: 임베딩 테이블에 대한 대규모 할당이 있는 DLRM) tcmalloc 함수가 느려질 수 있으며, 이 경우 대신 기본 malloc 함수를 사용하여 다음 변수를 설정 해제할 수 있습니다.

unset LD_PRELOAD

Python 스크립트를 사용하여 v6e VM에서 계산 실행

다음 명령어를 사용하여 두 개의 텐서를 만들고, 이를 더한 후 결과를 출력하는 스크립트를 실행합니다.

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} \
   --project ${PROJECT_ID} \
   --zone ${ZONE} --worker all --command='
   unset LD_PRELOAD
   python3 -c "import torch; import torch_xla; import torch_xla.core.xla_model as xm; print(xm.xla_device()); dev = xm.xla_device(); t1 = torch.randn(3,3,device=dev); t2 = torch.randn(3,3,device=dev); print(t1 + t2)"
'

그러면 다음과 비슷한 출력이 생성됩니다.

SSH: Attempting to connect to worker 0...
WARNING:root:libtpu.so and TPU device found. Setting PJRT_DEVICE=TPU.
xla:0
tensor([[ 0.3355, -1.4628, -3.2610],
        [-1.4656,  0.3196, -2.8766],
        [ 0.8668, -1.5060,  0.7125]], device='xla:0')

SkyPilot이 포함된 v6e

SkyPilot에서 Cloud TPU v6e를 사용할 수 있습니다. 다음 단계에 따라 v6e 관련 위치 및 가격 책정 정보를 SkyPilot에 추가합니다. 자세한 내용은 GitHub의 SkyPilot TPU v6e 예시를 참조하세요.

추론 튜토리얼

다음 튜토리얼에서는 Cloud TPU v6e에서 추론을 실행하는 방법을 보여줍니다.

학습 예시

다음 섹션에서는 Cloud TPU v6e에서 MaxText, MaxDiffusion, PyTorch 모델을 학습시키는 예시를 제공합니다.

v6e Cloud TPU VM에서 MaxText 및 MaxDiffusion 학습

다음 섹션에서는 MaxText 및 MaxDiffusion 모델의 학습 수명 주기를 다룹니다.

일반적인 대략적인 단계는 다음과 같습니다.

워크로드 기본 이미지를 빌드합니다.
XPK를 사용하여 워크로드를 실행합니다.
1. 워크로드에 대한 학습 명령어를 빌드합니다.
2. 워크로드를 배포합니다.
워크로드를 따라가고 측정항목을 확인합니다.
XPK 워크로드가 필요하지 않으면 삭제합니다.
더 이상 필요하지 않으면 XPK 클러스터를 삭제합니다.

기본 이미지 빌드

MaxText 또는 MaxDiffusion을 설치하고 Docker 이미지를 빌드합니다.

사용할 저장소를 클론하고 저장소의 디렉터리로 변경합니다.

MaxText:

git clone https://github.com/google/maxtext.git && cd maxtext

MaxDiffusion:

git clone https://github.com/google/maxdiffusion.git && cd maxdiffusion

Google Cloud CLI를 사용하도록 Docker를 구성합니다.
```
gcloud auth configure-docker
```
다음 명령어를 사용하거나 JAX 안정화 스택을 사용하여 Docker 이미지를 빌드합니다. JAX 안정화 스택에 관한 자세한 내용은 JAX 안정화 스택으로 Docker 이미지 빌드를 참조하세요.
```
bash docker_build_dependency_image.sh MODE=stable JAX_VERSION=0.4.35
```
활성 gcloud CLI 구성에서 프로젝트 ID를 설정합니다.
```
gcloud config set project ${PROJECT_ID}
```
로컬에 이미지가 빌드되어 있지 않은 머신에서 워크로드를 실행하려는 경우 해당 이미지를 업로드합니다.

참고: bash 버전 4.2 이상을 사용하는지 확인하세요.
1. CLOUD_IMAGE_NAME 환경 변수를 설정합니다.
```
export CLOUD_IMAGE_NAME=${USER}_runner
```
2. 이미지를 업로드합니다.
```
bash docker_upload_runner.sh ${CLOUD_IMAGE_NAME}
```

XPK를 사용하여 워크로드 실행

MaxText에서 설정한 기본값 또는 MaxDiffusion을 사용하지 않는 경우 다음 환경 변수를 설정합니다.

export BASE_OUTPUT_DIR=gs://YOUR_BUCKET
export PER_DEVICE_BATCH_SIZE=2
export NUM_STEPS=30
export MAX_TARGET_LENGTH=8192

모델 스크립트를 빌드합니다. 이 스크립트는 이후 단계에서 학습 명령어로 복사됩니다.

아직 모델 스크립트를 실행하지 마세요.

MaxText

MaxText는 순수 Python 및 JAX로 작성된 고성능의 확장성이 뛰어난 오픈소스 LLM으로, 학습 및 추론을 위해 Google Cloud TPU 및 GPU를 타겟팅합니다.

JAX_PLATFORMS=tpu,cpu \
ENABLE_PJRT_COMPATIBILITY=true \
TPU_SLICE_BUILDER_DUMP_CHIP_FORCE=true \
TPU_SLICE_BUILDER_DUMP_ICI=true && \
python3 -m MaxText.train MaxText/configs/base.yml \
        base_output_directory=${BASE_OUTPUT_DIR} \
        dataset_type=synthetic \
        per_device_batch_size=${PER_DEVICE_BATCH_SIZE} \
        enable_checkpointing=false \
        gcs_metrics=true \
        profiler=xplane \
        skip_first_n_steps_for_profiler=5 \
        steps=${NUM_STEPS}  # attention='dot_product'"

Gemma2

Gemma는 Gemini 연구 및 기술을 기반으로 Google DeepMind에서 개발한 개방형 가중치 LLM 제품군입니다.

python3 -m MaxText.train MaxText/configs/base.yml \
    model_name=gemma2-27b \
    run_name=gemma2-27b-run \
    base_output_directory=${BASE_OUTPUT_DIR} \
    max_target_length=${MAX_TARGET_LENGTH} \
    per_device_batch_size=${PER_DEVICE_BATCH_SIZE} \
    steps=${NUM_STEPS} \
    enable_checkpointing=false \
    use_iota_embed=true \
    gcs_metrics=true \
    dataset_type=synthetic \
    profiler=xplane \
    attention=flash

Mixtral 8x7b

Mixtral은 Mistral AI에서 개발한 최신 AI 모델로, 희소 전문가 망(MoE) 아키텍처를 활용합니다.

python3 -m MaxText.train MaxText/configs/base.yml \
    base_output_directory=${BASE_OUTPUT_DIR} \
    per_device_batch_size=${PER_DEVICE_BATCH_SIZE} \
    model_name=mixtral-8x7b \
    steps=${NUM_STEPS} \
    max_target_length=${MAX_TARGET_LENGTH} \
    tokenizer_path=assets/tokenizer.mistral-v1 \
    attention=flash \
    dtype=bfloat16 \
    dataset_type=synthetic \
    profiler=xplane

Llama3-8b

Llama는 Meta에서 개발한 개방형 가중치 LLM 제품군입니다.

PyTorch에서 Llama3를 실행하는 방법에 대한 예시는 torchprime GitHub 저장소의 torch_xla 모델을 참조하세요.

MaxDiffusion

MaxDiffusion은 Cloud TPU 및 GPU를 비롯한 XLA 기기에서 실행되는 순수 Python 및 JAX로 작성된 다양한 잠재 확산 모델의 참조 구현 모음입니다. Stable Diffusion은 모든 텍스트 입력에서 실사 이미지를 생성하는 잠재 텍스트 이미지 변환 모델입니다.

MaxDiffusion을 실행하려면 다음 git checkout 명령어와 같이 특정 Git 브랜치를 설치해야 합니다.

git clone https://github.com/google/maxdiffusion.git
&& cd maxdiffusion
&& git checkout e712c9fc4cca764b0930067b6e33daae2433abf0
&& pip install -r requirements.txt
&& pip install .

학습 스크립트:

    cd maxdiffusion && OUT_DIR=${BASE_OUTPUT_DIR} \
    python src/maxdiffusion/train_sdxl.py \
    src/maxdiffusion/configs/base_xl.yml \
    revision=refs/pr/95 \
    activations_dtype=bfloat16 \
    weights_dtype=bfloat16 \
    resolution=1024 \
    per_device_batch_size=1 \
    output_dir=${OUT_DIR}  \
    jax_cache_dir=${OUT_DIR}/cache_dir/ \
    max_train_steps=200 \
    attention=flash run_name=sdxl-ddp-v6e

다음 변수를 내보냅니다.

export CLUSTER_NAME=CLUSTER_NAME
export ACCELERATOR_TYPE=ACCELERATOR_TYPE
export NUM_SLICES=NUM_SLICES
export YOUR_MODEL_SCRIPT=YOUR_MODEL_SCRIPT

환경 변수 설명

변수	설명
`CLUSTER_NAME`	XPK 클러스터의 이름입니다.
`ACCELERATOR_TYPE`	가속기 유형을 참조하세요.
`NUM_SLICES`	TPU 슬라이스 수입니다.
`YOUR_MODEL_SCRIPT`	학습 명령어로 실행할 모델 스크립트입니다.

이전 단계에서 만든 스크립트를 사용하여 모델을 실행합니다. MaxText 기본 이미지를 사용하려면 --base-docker-image 플래그를 지정하거나 --docker-image 플래그와 사용하려는 이미지를 지정해야 합니다.

선택사항: --enable-debug-logs 플래그를 포함하여 디버그 로깅을 사용 설정할 수 있습니다. 자세한 내용은 MaxText에서 JAX 디버그를 참조하세요.

선택사항: --use-vertex-tensorboard 플래그를 포함하여 Vertex AI Experiments를 만들어 Vertex AI 텐서보드에 데이터를 업로드할 수 있습니다. 자세한 내용은 Vertex AI를 사용하여 MaxText에서 JAX 모니터링을 참조하세요.
```
python3 xpk.py workload create \
    --cluster ${CLUSTER_NAME} \
    {--base-docker-image maxtext_base_image|--docker-image gcr.io/${PROJECT_ID}/${CLOUD_IMAGE_NAME}:latest} \
    --workload=${USER}-xpk-${ACCELERATOR_TYPE}-${NUM_SLICES} \
    --tpu-type=${ACCELERATOR_TYPE} \
    --num-slices=${NUM_SLICES}  \
    --on-demand \
    --zone=${ZONE} \
    --project=${PROJECT_ID} \
    [--enable-debug-logs] \
    [--use-vertex-tensorboard] \
    --command=${YOUR_MODEL_SCRIPT}
```
출력에는 워크로드를 추적할 수 있는 링크가 포함됩니다. 링크를 열고 로그 탭을 클릭하여 워크로드를 실시간으로 추적합니다.

MaxText에서 JAX 디버그

추가 XPK 명령어를 사용하여 클러스터 또는 워크로드가 실행되지 않는 이유를 진단합니다.

XPK 워크로드 목록
XPK 검사기
XPK 워크로드를 만들 때 --enable-debug-logs 플래그를 사용하여 워크로드 로그에서 상세 로깅을 사용 설정합니다.

Vertex AI를 사용하여 MaxText에서 JAX 모니터링

텐서보드를 사용하려면 Google Cloud 사용자 계정에 aiplatform.user 역할이 있어야 합니다. 다음 명령어를 실행하여 이러한 역할을 부여합니다.

gcloud projects add-iam-policy-binding your-project-id \
--member='user:your-email' \
--role='roles/aiplatform.user'

Vertex AI의 관리형 텐서보드를 통해 스칼라 및 프로필 데이터를 확인합니다.

사용 중인 영역에 대한 리소스 관리(CRUD) 요청을 600에서 5,000으로 늘립니다. 16개 미만의 VM을 사용하는 소규모 워크로드의 경우 문제가 되지 않을 수 있습니다.

Vertex AI용 cloud-accelerator-diagnostics와 같은 종속 항목을 설치합니다.

# xpk dependencies will install cloud-accelerator-diagnostics for Vertex AI
cd ~/xpk
pip install .

Vertex AI 텐서보드 만들기에 설명된 대로 --create-vertex-tensorboard 플래그를 사용하여 XPK 클러스터를 만듭니다. 기존 클러스터에서 이 명령어를 실행할 수도 있습니다.
--use-vertex-tensorboard 플래그와 선택적 --experiment-name 플래그를 사용하여 XPK 워크로드 실행 시 Vertex AI Experiments를 만듭니다. 전체 단계의 목록은 Vertex AI Experiments를 만들어 Vertex AI 텐서보드에 데이터 업로드를 참조하세요.

로그에는 다음과 유사한 Vertex AI 텐서보드 링크가 포함됩니다.

View your TensorBoard at https://us-central1.tensorboard.googleusercontent.com/experiment/project_id+locations+us-central1+tensorboards+hash+experiments+name

Vertex AI 텐서보드 링크는 Google Cloud 콘솔에서도 확인할 수 있습니다. Google Cloud 콘솔에서 Vertex AI Experiments로 이동합니다. 드롭다운에서 적절한 리전을 선택합니다.

텐서보드 디렉터리도 ${BASE_OUTPUT_DIR}로 지정한 Cloud Storage 버킷에 기록합니다.

XPK 워크로드 삭제

xpk workload delete 명령어를 사용하여 작업 접두사 또는 작업 상태를 기반으로 하나 이상의 워크로드를 삭제합니다. 이 명령어는 더 이상 실행할 필요가 없는 XPK 워크로드를 전송했거나 큐에 멈춰 있는 작업이 있는 경우에 유용할 수 있습니다.

XPK 클러스터 삭제

xpk cluster delete 명령어를 사용하여 클러스터를 삭제합니다.

python3 xpk.py cluster delete --cluster ${CLUSTER_NAME} \
--zone=${ZONE} --project=${PROJECT_ID}

v6e Cloud TPU VM에서 Llama 및 PyTorch/XLA 학습

이 튜토리얼에서는 WikiText 데이터 세트를 사용하여 Cloud TPU v6e에서 PyTorch/XLA를 사용하여 Llama 모델을 학습시키는 방법을 설명합니다.

Hugging Face 및 Llama 3 모델에 액세스

이 튜토리얼을 실행하려면 Hugging Face 사용자 액세스 토큰이 필요합니다. 사용자 액세스 토큰 생성 및 사용에 관한 자세한 내용은 사용자 액세스 토큰에 관한 Hugging Face 문서를 참조하세요.

Hugging Face의 Llama 3 8B 모델에 액세스하려면 권한도 필요합니다. 액세스 권한을 얻으려면 HuggingFace의 Meta-Llama-3-8B 모델로 이동하여 액세스를 요청하세요.

Cloud TPU VM 만들기

튜토리얼을 실행할 칩 8개가 있는 Cloud TPU v6e를 만듭니다.

환경 변수를 설정합니다.

export PROJECT_ID=your-project-id
export TPU_NAME=your-tpu-name
export ZONE=us-east1-d
export ACCELERATOR_TYPE=v6e-8
export RUNTIME_VERSION=v2-alpha-tpuv6e

환경 변수 설명

변수	설명
`PROJECT_ID`	Google Cloud 프로젝트 ID입니다. 기존 프로젝트를 사용하거나 새 프로젝트를 만듭니다.
`TPU_NAME`	TPU의 이름입니다.
`ZONE`	TPU VM을 만들 영역입니다. 지원되는 영역에 대한 자세한 내용은 TPU 리전 및 영역을 참조하세요.
`ACCELERATOR_TYPE`	가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.
`RUNTIME_VERSION`	Cloud TPU 소프트웨어 버전입니다.

Cloud TPU VM을 만듭니다.

gcloud alpha compute tpus tpu-vm create ${TPU_NAME} --version=${RUNTIME_VERSION} \
    --accelerator-type=${ACCELERATOR_TYPE} \
    --zone=${ZONE} \
    --project=${PROJECT_ID}

설치

Hugging Face Transformer 및 종속 항목의 pytorch-tpu/transformers 포크를 설치합니다. 이 튜토리얼은 이 예시에서 사용된 다음 종속 항목 버전으로 테스트되었습니다.

torch: 2.5.0과 호환
torch_xla[tpu]: 2.5.0과 호환
jax: 0.4.33
jaxlib: 0.4.33

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} --project=${PROJECT_ID} --zone ${ZONE} \
    --worker=all --command='git clone -b flash_attention https://github.com/pytorch-tpu/transformers.git
    cd transformers
    sudo pip3 install -e .
    pip3 install datasets
    pip3 install evaluate
    pip3 install scikit-learn
    pip3 install accelerate
    pip install torch~=2.6.0 torch_xla[tpu]~=2.6.0 -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html
    pip install jax==0.4.38 jaxlib==0.4.38 -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/'

모델 구성 설정

다음 섹션의 학습 명령어인 모델 실행은 두 개의 JSON 구성 파일을 사용하여 모델 매개변수와 FSDP(완전 샤딩된 데이터 동시 로드) 구성을 정의합니다. FSDP 샤딩은 학습 중에 모델 가중치가 더 큰 배치 크기에 맞도록 하는 데 사용됩니다. 소형 모델로 학습하는 경우 데이터 동시 로드를 사용하고 각 기기에 가중치를 복제하는 것으로 충분할 수 있습니다. PyTorch/XLA에서 기기 간에 텐서를 샤딩하는 방법에 관한 자세한 내용은 PyTorch/XLA SPMD 사용자 가이드를 참조하세요.

모델 매개변수 구성 파일을 만듭니다. 다음은 Llama3-8B의 모델 매개변수 구성입니다. 다른 모델의 경우 Hugging Face에서 구성을 찾습니다. 예를 들면 Llama2-7B 구성을 참조하세요.

cat > llama-config.json << EOF
{
    "architectures": [
        "LlamaForCausalLM"
    ],
    "attention_bias": false,
    "attention_dropout": 0.0,
    "bos_token_id": 128000,
    "eos_token_id": 128001,
    "hidden_act": "silu",
    "hidden_size": 4096,
    "initializer_range": 0.02,
    "intermediate_size": 14336,
    "max_position_embeddings": 8192,
    "model_type": "llama",
    "num_attention_heads": 32,
    "num_hidden_layers": 32,
    "num_key_value_heads": 8,
    "pretraining_tp": 1,
    "rms_norm_eps": 1e-05,
    "rope_scaling": null,
    "rope_theta": 500000.0,
    "tie_word_embeddings": false,
    "torch_dtype": "bfloat16",
    "transformers_version": "4.40.0.dev0",
    "use_cache": false,
    "vocab_size": 128256
}
EOF

FSDP 구성 파일을 만듭니다.

cat > fsdp-config.json << EOF
{
    "fsdp_transformer_layer_cls_to_wrap": [
        "LlamaDecoderLayer"
    ],
    "xla": true,
    "xla_fsdp_v2": true,
    "xla_fsdp_grad_ckpt": true
}
EOF

FSDP에 관한 자세한 내용은 FSDPv2를 참조하세요.

다음 명령어를 사용하여 구성 파일을 Cloud TPU VM에 업로드합니다.

gcloud alpha compute tpus tpu-vm scp llama-config.json fsdp-config.json ${TPU_NAME}:. \
    --worker=all \
    --project=${PROJECT_ID} \
    --zone=${ZONE}

모델 실행

이전 섹션에서 만든 구성 파일을 사용하여 run_clm.py 스크립트를 실행하여 WikiText 데이터 세트에서 Llama 3 8B 모델을 학습합니다. 학습 스크립트는 Cloud TPU v6e-8에서 실행되는 데 약 10분 정도 걸립니다.

다음 명령어를 사용하여 Cloud TPU에서 Hugging Face에 로그인합니다.

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} --project=${PROJECT_ID} \
    --zone ${ZONE} \
    --worker=all \
    --command='
    pip3 install "huggingface_hub[cli]"
    huggingface-cli login --token HUGGING_FACE_TOKEN'

모델 학습을 실행합니다.

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} --project=${PROJECT_ID} \
    --zone ${ZONE} \
    --worker=all \
    --command='
    export PJRT_DEVICE=TPU
    export XLA_USE_SPMD=1
    export ENABLE_PJRT_COMPATIBILITY=true
        # Optional variables for debugging:
    export XLA_IR_DEBUG=1
    export XLA_HLO_DEBUG=1
    export PROFILE_EPOCH=0
    export PROFILE_STEP=3
    export PROFILE_DURATION_MS=100000
        # Set PROFILE_LOGDIR to a local VM path or gs://my-bucket/profile_path
    export PROFILE_LOGDIR=PROFILE_PATH
    python3 transformers/examples/pytorch/language-modeling/run_clm.py \
    --dataset_name wikitext \
    --dataset_config_name wikitext-2-raw-v1 \
    --per_device_train_batch_size 16 \
    --do_train \
    --output_dir /home/$USER/tmp/test-clm \
    --overwrite_output_dir \
    --config_name /home/$USER/llama-config.json \
    --cache_dir /home/$USER/cache \
    --tokenizer_name meta-llama/Meta-Llama-3-8B \
    --block_size 8192 \
    --optim adafactor \
    --save_strategy no \
    --logging_strategy no \
    --fsdp "full_shard" \
    --fsdp_config /home/$USER/fsdp-config.json \
    --torch_dtype bfloat16 \
    --dataloader_drop_last yes \
    --flash_attention \
    --max_steps 20'

PyTorch/XLA 문제 해결

이전 섹션에서 디버깅을 위한 선택적 변수를 설정하면 모델에 대한 프로필이 PROFILE_LOGDIR 변수로 지정된 위치에 저장됩니다. 이 위치에 저장된 xplane.pb 파일을 추출하고 tensorboard를 사용하여 텐서보드 안내에 따라 브라우저에서 프로필을 볼 수 있습니다. PyTorch/XLA가 예상대로 작동하지 않으면 모델 디버깅, 프로파일링, 최적화에 관한 제안사항이 포함된 문제 해결 가이드를 참조하세요.

벤치마킹 결과

다음 섹션에는 v6e의 MaxDiffusion에 대한 벤치마킹 결과가 포함되어 있습니다.

MaxDiffusion

v6e-4, v6e-16, 2개의 v6e-16에서 MaxDiffusion용 학습 스크립트를 실행했습니다. 다음 표에서 처리량을 확인하세요.

	v6e-4	v6e-16	v6e-16 2개
학습 단계	0.069	0.073	0.13
전역 배치 크기	8	32	64
처리량(예시/초)	115.9	438.4	492.3