TPU v5e
Dokumen ini menjelaskan arsitektur dan konfigurasi yang didukung Cloud TPU v5e.
TPU v5e mendukung pelatihan satu dan multi-host serta inferensi host tunggal. Inferensi multi-host didukung menggunakan Sax. Untuk informasi selengkapnya, lihat Penayangan Model Bahasa Besar.
Arsitektur sistem
Setiap chip v5e berisi satu TensorCore. Setiap TensorCore memiliki empat unit perkalian matriks (MXU), unit vektor, dan unit skalar.
Diagram berikut mengilustrasikan chip TPU v5e.
Tabel berikut menunjukkan spesifikasi chip utama dan nilainya untuk v5e.
Spesifikasi chip utama | Nilai v5e |
Komputasi puncak per chip (bf16) | 197 TFLOP |
Kapasitas dan bandwidth HBM2 | 16 GB, 819 GBps |
BW Interkoneksi Interchip | 1.600 Gbps |
Tabel berikut menampilkan spesifikasi Pod dan nilainya untuk v5e.
Spesifikasi Pod utama | Nilai v5e |
Ukuran Pod TPU | 256 chip |
Topologi interkoneksi | Torus 2D |
Komputasi puncak per Pod | 100 PetaOps(Int8) |
Bandwidth all-reduce per Pod | 51,2 TB/dtk |
Bandwidth bisection per Pod | 1,6 TB/dtk |
Bandwidth jaringan pusat data per Pod | 6,4 Tbps |
Konfigurasi
Cloud TPU v5e adalah produk pelatihan dan inferensi (penayangan) gabungan. Untuk membedakan antara lingkungan pelatihan dan inferensi, gunakan parameter AcceleratorType
dengan TPU API atau tanda --machine-type
saat membuat node pool GKE.
Tugas pelatihan dioptimalkan untuk throughput dan ketersediaan, sedangkan tugas penayangan dioptimalkan untuk latensi. Tugas pelatihan di TPU yang disediakan untuk penayangan dapat memiliki ketersediaan yang lebih rendah dan demikian pula, tugas penayangan yang dijalankan di TPU yang disediakan untuk pelatihan dapat memiliki latensi yang lebih tinggi.
Anda menggunakan AcceleratorType
untuk menentukan jumlah TensorCore yang ingin digunakan.
Anda menentukan AcceleratorType
saat membuat TPU menggunakan gcloud CLI atau Konsol Google Cloud. Nilai yang Anda tentukan untuk AcceleratorType
adalah string dengan format: v$VERSION_NUMBER-$CHIP_COUNT
.
Bentuk slice 2D berikut didukung untuk v5e:
Topologi | Jumlah TPU chip | Jumlah Penyelenggara |
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Setiap VM TPU dalam slice TPU v5e berisi 1, 4, atau 8 chip. Dalam slice 4 chip dan yang lebih kecil, semua chip TPU menggunakan node Non Uniform Memory Access (NUMA) yang sama.
Untuk VM TPU v5e 8 chip, komunikasi CPU-TPU akan lebih efisien dalam partisi
NUMA. Misalnya, pada gambar berikut, komunikasi CPU0-Chip0
akan
lebih cepat daripada komunikasi CPU0-Chip4
.
Jenis Cloud TPU v5e untuk penayangan
Penyertaan satu host didukung untuk maksimal 8 chip v5e. Konfigurasi berikut didukung: slice 1x1, 2x2, dan 2x4. Setiap slice memiliki 1, 4, dan 8 chip.
Untuk menyediakan TPU untuk tugas penayangan, gunakan salah satu jenis akselerator berikut dalam permintaan pembuatan TPU CLI atau API:
AcceleratorType (TPU API) | Jenis mesin (GKE API) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
Perintah berikut akan membuat slice TPU v5e dengan 8 chip v5e untuk ditayangkan:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-central1-a \ --accelerator-type=v5litepod-8 \ --version=v2-alpha-tpuv5-lite
Untuk informasi selengkapnya tentang cara mengelola TPU, lihat Mengelola TPU. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem Cloud TPU, lihat Arsitektur sistem.
Penyertaan di lebih dari 8 chip v5e, yang juga disebut penayangan multi-host, didukung menggunakan Sax. Untuk informasi selengkapnya, lihat Penayangan Model Bahasa Besar.
Jenis Cloud TPU v5e untuk pelatihan
Pelatihan didukung untuk maksimal 256 chip.
Untuk menyediakan TPU untuk tugas pelatihan v5e, gunakan salah satu jenis accelerator berikut dalam permintaan pembuatan TPU CLI atau API:
AcceleratorType (TPU API) | Jenis mesin (GKE API) | Topologi |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
Perintah berikut membuat slice TPU v5e dengan 256 chip v5e untuk pelatihan:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5litepod-256 \ --version=v2-alpha-tpuv5-lite
Untuk informasi selengkapnya tentang cara mengelola TPU, lihat Mengelola TPU. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem Cloud TPU, lihat Arsitektur sistem.