Halaman ini diterjemahkan oleh Cloud Translation API.

TPU v5e

Dokumen ini menjelaskan arsitektur dan konfigurasi yang didukung Cloud TPU v5e.

TPU v5e mendukung pelatihan host tunggal dan multi-host serta inferensi host tunggal. Inferensi multi-host didukung menggunakan Sax. Untuk mengetahui informasi selengkapnya, lihat Inferensi Cloud TPU.

Arsitektur sistem

Setiap chip v5e berisi satu TensorCore. Setiap TensorCore memiliki empat unit perkalian matriks (MXU), unit vektor, dan unit skalar.

Diagram berikut menggambarkan chip TPU v5e.

Diagram chip v5e

Tabel berikut menunjukkan spesifikasi chip utama dan nilainya untuk v5e.

Spesifikasi chip utama	Nilai v5e
Komputasi puncak per chip (bf16)	197 TFLOP
Kapasitas dan bandwidth HBM2	16 GB, 819 GBps
BW Interkoneksi Interchip	1.600 Gbps

Tabel berikut menampilkan spesifikasi Pod dan nilainya untuk v5e.

Spesifikasi Pod Utama	Nilai v5e
Ukuran Pod TPU	256 chip
Topologi Interconnect	Torus 2D
Komputasi puncak per Pod	100 PetaOps (Int8)
Bandwidth all-reduce per Pod	51,2 TB/dtk
Bandwidth biseksi per Pod	1,6 TB/dtk
Bandwidth jaringan pusat data per Pod	6,4 Tbps

Konfigurasi

Cloud TPU v5e adalah produk gabungan pelatihan dan inferensi (penayangan). Untuk membedakan antara lingkungan pelatihan dan inferensi, gunakan parameter AcceleratorType dengan TPU API atau flag --machine-type saat membuat node pool Google Kubernetes Engine (GKE).

Tugas pelatihan dioptimalkan untuk throughput dan ketersediaan, sedangkan tugas penayangan dioptimalkan untuk latensi. Tugas pelatihan di TPU yang disediakan untuk penayangan dapat memiliki ketersediaan yang lebih rendah dan demikian pula, tugas penayangan yang dijalankan di TPU yang disediakan untuk pelatihan dapat memiliki latensi yang lebih tinggi.

Anda menggunakan AcceleratorType untuk menentukan jumlah TensorCore yang ingin Anda gunakan. Anda menentukan AcceleratorType saat membuat TPU menggunakan gcloud CLI atau konsolGoogle Cloud . Nilai yang Anda tentukan untuk AcceleratorType adalah string dengan format: v$VERSION_NUMBER-$CHIP_COUNT.

Bentuk irisan 2D berikut didukung untuk v5e:

Topologi	Jumlah TPU chip	Jumlah host
1x1	1	1/8
2x2	4	1/2
2x4	8	1
4x4	16	2
4x8	32	4
8x8	64	8
8x16	128	16
16x16	256	32

Jenis VM

Setiap VM TPU dalam slice TPU v5e berisi 1, 4, atau 8 chip. Dalam slice 4 chip dan yang lebih kecil, semua chip TPU berbagi node akses memori non-seragam (NUMA) yang sama.

Untuk VM TPU v5e 8 chip, komunikasi CPU-TPU akan lebih efisien dalam partisi NUMA. Misalnya, pada gambar berikut, komunikasi CPU0-Chip0 akan lebih cepat daripada komunikasi CPU0-Chip4.

Komunikasi node NUMA

Tabel berikut menunjukkan perbandingan jenis VM TPU v5e:

Jenis VM	Jenis mesin (GKE API)	Jumlah vCPU per VM	RAM (GB) per VM	Jumlah node NUMA per VM
VM 1 chip	`ct5lp-hightpu-1t`	24	48	1
VM 4 chip	`ct5lp-hightpu-4t`	112	192	1
VM 8 chip	`ct5lp-hightpu-8t`	224	384	2

Jenis Cloud TPU v5e untuk penayangan

Penayangan satu host didukung untuk hingga 8 chip v5e. Konfigurasi berikut didukung: irisan 1x1, 2x2, dan 2x4. Setiap slice memiliki 1, 4, dan 8 chip.

Konfigurasi TPU v5e yang mendukung penayangan: 1x1, 2x2, dan 2x4.

Untuk menyediakan TPU bagi tugas penayangan, gunakan salah satu jenis akselerator berikut dalam permintaan pembuatan TPU CLI atau API Anda:

AcceleratorType (TPU API)	Jenis mesin (GKE API)
`v5litepod-1`	`ct5lp-hightpu-1t`
`v5litepod-4`	`ct5lp-hightpu-4t`
`v5litepod-8`	`ct5lp-hightpu-8t`

Perintah berikut membuat slice TPU v5e dengan 8 chip v5e untuk penayangan:

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-central1-a \
    --accelerator-type=v5litepod-8 \
    --version=v2-alpha-tpuv5-lite

Untuk mengetahui informasi selengkapnya tentang cara mengelola TPU, lihat Mengelola TPU. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem Cloud TPU, lihat Arsitektur sistem.

Penayangan di lebih dari 8 chip v5e, yang juga disebut penayangan multi-host, didukung menggunakan Sax. Untuk mengetahui informasi selengkapnya, lihat Inferensi Cloud TPU.

Jenis Cloud TPU v5e untuk pelatihan

Pelatihan didukung hingga 256 chip.

Untuk menyediakan TPU bagi tugas pelatihan v5e, gunakan salah satu jenis akselerator berikut dalam permintaan pembuatan TPU CLI atau API Anda:

AcceleratorType (TPU API)	Jenis mesin (GKE API)	Topologi
`v5litepod-16`	`ct5lp-hightpu-4t`	4x4
`v5litepod-32`	`ct5lp-hightpu-4t`	4x8
`v5litepod-64`	`ct5lp-hightpu-4t`	8x8
`v5litepod-128`	`ct5lp-hightpu-4t`	8x16
`v5litepod-256`	`ct5lp-hightpu-4t`	16x16

Perintah berikut membuat slice TPU v5e dengan 256 chip v5e untuk pelatihan:

$ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5litepod-256 \
    --version=v2-alpha-tpuv5-lite

Untuk mengetahui informasi selengkapnya tentang cara mengelola TPU, lihat Mengelola TPU. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem Cloud TPU, lihat Arsitektur sistem.