Membuat instance A3 Ultra atau A4


Dokumen ini menjelaskan cara membuat instance dengan GPU terpasang dari rangkaian mesin A3 Ultra atau A4. Untuk mempelajari lebih lanjut cara membuat instance dengan GPU yang terpasang, lihat Ringkasan pembuatan instance dengan GPU yang terpasang.

Sebelum memulai

  • Untuk meninjau batasan dan langkah prasyarat tambahan guna membuat instance dengan GPU yang terpasang, seperti memilih image OS dan memeriksa kuota GPU, lihat Ringkasan pembuatan instance dengan GPU yang terpasang.
  • Jika Anda belum melakukannya, siapkan autentikasi. Autentikasi adalah proses yang digunakan untuk memverifikasi identitas Anda agar dapat mengakses Google Cloud layanan dan API. Untuk menjalankan kode atau contoh dari lingkungan pengembangan lokal, Anda dapat mengautentikasi ke Compute Engine dengan memilih salah satu opsi berikut:

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    gcloud

    1. After installing the Google Cloud CLI, initialize it by running the following command:

      gcloud init

      If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    2. Set a default region and zone.
    3. REST

      Untuk menggunakan contoh REST API di halaman ini dalam lingkungan pengembangan lokal, gunakan kredensial yang Anda berikan ke gcloud CLI.

        After installing the Google Cloud CLI, initialize it by running the following command:

        gcloud init

        If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

      Untuk informasi selengkapnya, lihat Mengautentikasi untuk menggunakan REST dalam Google Cloud dokumentasi autentikasi.

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk membuat instance, minta administrator untuk memberi Anda peran IAM Compute Instance Admin (v1) (roles/compute.instanceAdmin.v1) di project. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk membuat instance. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat instance:

  • compute.instances.create pada project
  • Untuk menggunakan image kustom guna membuat VM: compute.images.useReadOnly pada image
  • Untuk menggunakan snapshot guna membuat VM: compute.snapshots.useReadOnly pada snapshot
  • Untuk menggunakan template instance guna membuat VM: compute.instanceTemplates.useReadOnly pada template instance
  • Untuk menetapkan jaringan lama ke VM: compute.networks.use pada project
  • Untuk menentukan alamat IP statis untuk VM: compute.addresses.use pada project
  • Untuk menetapkan alamat IP eksternal ke VM saat menggunakan jaringan lama: compute.networks.useExternalIp di project
  • Untuk menentukan subnet bagi VM Anda: compute.subnetworks.use di project atau di subnet yang dipilih
  • Untuk menetapkan alamat IP eksternal ke VM saat menggunakan jaringan VPC: compute.subnetworks.useExternalIp di project atau di subnet yang dipilih
  • Untuk menetapkan metadata instance VM untuk VM: compute.instances.setMetadata pada project
  • Untuk menetapkan tag untuk VM: compute.instances.setTags di VM
  • Untuk menetapkan label untuk VM: compute.instances.setLabels di VM
  • Untuk menetapkan akun layanan yang akan digunakan VM: compute.instances.setServiceAccount di VM
  • Untuk membuat disk baru bagi VM: compute.disks.create pada project
  • Untuk memasang disk yang ada dalam mode hanya baca atau baca-tulis: compute.disks.use pada disk
  • Untuk memasang disk yang ada dalam mode hanya baca: compute.disks.useReadOnly pada disk

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Membuat instance A3 Ultra atau A4

Instance A3 Ultra atau A4 tersedia melalui opsi pembuatan berikut, yang masing-masing memiliki prosedur pembuatan, ketersediaan resource, dan harga yang berbeda. Identifikasi opsi yang ingin Anda gunakan berdasarkan beban kerja Anda.

  • Jika Anda perlu menjalankan beban kerja AI dan ML yang berjalan lama seperti pelatihan dan inferensi model besar yang memerlukan latensi terendah, sebaiknya buat VM atau cluster yang dapat menggunakan fitur dan layanan yang tersedia dari Cluster Director. Dengan Cluster Director, Anda dapat memesan mesin yang dialokasikan secara padat yang menyediakan penjadwalan berbasis topologi serta pemantauan dan pemeliharaan yang ditingkatkan untuk kapasitas yang direservasi ini. Untuk mempelajari Cluster Director lebih lanjut, lihat Cluster Director dalam dokumentasi Hypercomputer AI.

    Untuk mengetahui petunjuk cara membuat instance A3 Ultra atau A4, lihat Ringkasan pembuatan VM dan cluster dalam dokumentasi AI Hypercomputer.

  • Jika Anda perlu menjalankan workload AI dan ML dengan prioritas lebih rendah, pilih salah satu opsi berikut:

    • Jika workload Anda dapat dimulai kapan saja dan memerlukan jumlah VM yang tepat untuk dimulai, Anda dapat menggunakan permintaan perubahan ukuran di grup instance terkelola (MIG). Dengan permintaan pengubahan ukuran MIG, Anda meminta Compute Engine untuk menambahkan VM sekaligus ke MIG setiap kali resource yang Anda minta tersedia. VM ini dapat berjalan hingga tujuh hari. Karena resource dikirimkan dari kumpulan yang aman, Anda memiliki peluang lebih tinggi untuk mendapatkan GPU dibandingkan dengan permintaan on demand.

      Untuk informasi selengkapnya tentang permintaan pengubahan ukuran MIG, lihat Tentang permintaan pengubahan ukuran di MIG.

    • Jika workload Anda toleran terhadap gangguan ketersediaan, Anda dapat mendapatkan diskon yang signifikan dengan menggunakan Spot VM. Meskipun Anda dapat membuat dan menghapus Spot VM sesuai kebutuhan, Spot VM adalah resource terbatas yang mungkin tidak selalu tersedia, dan Compute Engine dapat melakukan preempt (otomatis menghentikan atau menghapus) Spot VM kapan saja. Untuk mempelajari Spot VM lebih lanjut, lihat artikel Spot VM.

      Untuk mengetahui petunjuk cara membuat instance A3 Ultra atau A4 menggunakan VM Spot, lihat bagian Membuat instance A3 Ultra atau A4 menggunakan VM Spot berikut dalam dokumen ini.

Membuat instance A3 Ultra atau A4 menggunakan Spot VM

Untuk membuat instance A3 Ultra atau A4 menggunakan Spot VM, selesaikan langkah-langkah di bagian berikut:

  1. Membuat jaringan VPC.
  2. Buat Spot VM.
  3. Menyiapkan Spot VM dengan GPU terpasang untuk digunakan.

Membuat jaringan VPC

Untuk jenis mesin A4 atau A3 Ultra, Anda harus membuat tiga jaringan VPC untuk antarmuka jaringan berikut:

  • 2 jaringan VPC untuk antarmuka jaringan (NIC) gVNIC. Ini digunakan untuk komunikasi host ke host.
  • 1 jaringan VPC dengan profil jaringan RDMA diperlukan untuk NIC CX7. Jaringan ini harus memiliki 8 subnet, satu subnet untuk setiap NIC CX7, dan digunakan untuk komunikasi GPU ke GPU.

Untuk informasi selengkapnya tentang pengaturan NIC, lihat Meninjau bandwidth jaringan dan pengaturan NIC.

Siapkan jaringan secara manual dengan mengikuti panduan petunjuk atau secara otomatis menggunakan skrip yang disediakan.

Panduan petunjuk

Untuk membuat jaringan, Anda dapat menggunakan petunjuk berikut:

Untuk jaringan VPC ini, sebaiknya tetapkan unit transmisi maksimum (MTU) ke nilai yang lebih besar. Untuk jenis mesin A4 atau A3 Ultra, MTU yang direkomendasikan adalah 8896 byte. Untuk meninjau setelan MTU yang direkomendasikan untuk jenis mesin GPU lainnya, lihat Setelan MTU untuk jenis mesin GPU.

Skrip

Untuk membuat jaringan, Anda dapat menggunakan skrip berikut.

Untuk jaringan VPC ini, sebaiknya tetapkan unit transmisi maksimum (MTU) ke nilai yang lebih besar. Untuk jenis mesin A4 atau A3 Ultra, MTU yang direkomendasikan adalah 8896 byte. Untuk meninjau setelan MTU yang direkomendasikan untuk jenis mesin GPU lainnya, lihat Setelan MTU untuk jenis mesin GPU.

  #!/bin/bash

  # Create standard VPCs (network and subnets) for the gVNICs
  for N in $(seq 0 1); do
    gcloud compute networks create GVNIC_NAME_PREFIX-net-$N \
      --subnet-mode=custom \
      --mtu=8896

    gcloud compute networks subnets create GVNIC_NAME_PREFIX-sub-$N \
      --network=GVNIC_NAME_PREFIX-net-$N \
      --region=REGION \
      --range=10.$N.0.0/16

    gcloud compute firewall-rules create GVNIC_NAME_PREFIX-internal-$N \
      --network=GVNIC_NAME_PREFIX-net-$N \
      --action=ALLOW \
      --rules=tcp:0-65535,udp:0-65535,icmp \
      --source-ranges=10.0.0.0/8
  done

  # Create SSH firewall rules
  gcloud compute firewall-rules create GVNIC_NAME_PREFIX-ssh \
    --network=GVNIC_NAME_PREFIX-net-0 \
    --action=ALLOW \
    --rules=tcp:22 \
    --source-ranges=IP_RANGE

  # Assumes that an external IP is only created for vNIC 0
  gcloud compute firewall-rules create GVNIC_NAME_PREFIX-allow-ping-net-0 \
    --network=GVNIC_NAME_PREFIX-net-0 \
    --action=ALLOW \
    --rules=icmp \
    --source-ranges=IP_RANGE

  # List and make sure network profiles exist
  gcloud compute network-profiles list

  # Create network for CX-7
  gcloud compute networks create RDMA_NAME_PREFIX-mrdma \
    --network-profile=ZONE-vpc-roce \
    --subnet-mode custom \
    --mtu=8896

  # Create subnets.
  for N in $(seq 0 7); do
    gcloud compute networks subnets create RDMA_NAME_PREFIX-mrdma-sub-$N \
      --network=RDMA_NAME_PREFIX-mrdma \
      --region=REGION \
      --range=10.$((N+2)).0.0/16 # offset to avoid overlap with gVNICs
  done
  

Ganti kode berikut:

  • GVNIC_NAME_PREFIX: awalan nama kustom yang akan digunakan untuk jaringan VPC dan subnet standar untuk gVNIC.
  • RDMA_NAME_PREFIX: awalan nama kustom yang akan digunakan untuk jaringan VPC dan subnet dengan profil jaringan RDMA untuk NIC CX7.
  • ZONE: menentukan zona tempat jenis mesin yang ingin Anda gunakan tersedia. Untuk informasi tentang region, lihat Ketersediaan GPU menurut region dan zona.
  • REGION: region tempat Anda ingin membuat subnet. Wilayah ini harus sesuai dengan zona yang ditentukan. Misalnya, jika zona Anda adalah europe-west1-b, maka region Anda adalah europe-west1.
  • IP_RANGE: rentang IP yang akan digunakan untuk aturan firewall SSH.

Membuat Spot VM

Untuk membuat Spot VM, gunakan salah satu metode berikut:

Konsol

  1. Di konsol Google Cloud , buka halaman Create an instance.

    Buka halaman Buat instance

    Layar Create an instance akan muncul dan menampilkan panel Machine configuration.

  2. Di panel Machine configuration, selesaikan langkah-langkah berikut:

    1. Tentukan Nama untuk instance Anda. Lihat Konvensi penamaan resource.
    2. Pilih Region dan Zone tempat Anda ingin memesan kapasitas. Lihat daftar region dan zona GPU yang tersedia.
    3. Klik tab GPU, lalu selesaikan langkah-langkah berikut:
      1. Pada daftar GPU type, pilih jenis GPU Anda.
        • Untuk instance A4, pilih NVIDIA B200
        • Untuk instance A3 Ultra, pilih NVIDIA H200 141GB
      2. Dalam daftar Number of GPUs, pilih 8.
  3. Di menu navigasi, klik OS and storage. Di panel OS dan penyimpanan yang muncul, selesaikan langkah-langkah berikut:

    1. Klik Ubah. Panel Boot disk configuration akan terbuka.
    2. Pada tab Public images, pilih image yang direkomendasikan. Untuk daftar image yang direkomendasikan, lihat Sistem operasi.
    3. Untuk mengonfirmasi opsi boot disk, klik Select.
  4. Untuk membuat instance multi-NIC, selesaikan langkah-langkah berikut. Jika tidak, untuk membuat instance NIC tunggal, lewati langkah-langkah ini.

    1. Di menu navigasi, klik Networking. Di panel Networking yang muncul, selesaikan langkah-langkah berikut:

      1. Di bagian Network interfaces, selesaikan langkah-langkah berikut:

      2. Hapus antarmuka jaringan default. Untuk menghapus antarmuka, klik Hapus.

      3. Klik Add a network interface. Gunakan opsi ini untuk menambahkan jaringan gVNIC dan RDMA yang Anda buat di bagian sebelumnya. Saat menambahkan jaringan, ingatlah hal berikut:

        • Tentukan jaringan host Anda dalam daftar Jaringan dan Subnetwork, lalu tetapkan daftar Kartu antarmuka jaringan ke gVNIC.
        • Tentukan jaringan GPU Anda dalam daftar Jaringan dan Sub-jaringan, lalu tetapkan daftar Kartu antarmuka jaringan ke MRDMA untuk jaringan ini.
  5. Di menu navigasi, klik Lanjutan. Di panel Advanced yang muncul, selesaikan langkah-langkah berikut:

    1. Di bagian Model penyediaan, pilih Spot dalam daftar Model penyediaan VM.

    2. Opsional: Untuk menentukan tindakan yang akan diambil saat Compute Engine melakukan preempt terhadap instance (berhenti (default) atau hapus), selesaikan langkah-langkah berikut:

      1. Luaskan bagian VM provisioning model advanced settings.
      2. Dalam daftar Pada penghentian VM, pilih opsi.
  6. Untuk membuat dan memulai instance, klik Create.

gcloud

Untuk membuat VM, gunakan perintah gcloud compute instances create.

gcloud compute instances create VM_NAME  \
    --machine-type=MACHINE_TYPE \
    --image-family=IMAGE_FAMILY \
    --image-project=IMAGE_PROJECT \
    --zone=ZONE \
    --boot-disk-type=hyperdisk-balanced \
    --boot-disk-size=DISK_SIZE \
    --scopes=cloud-platform \
    --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-0,subnet=GVNIC_NAME_PREFIX-sub-0 \
    --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-1,subnet=GVNIC_NAME_PREFIX-sub-1,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-0,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-1,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-2,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-3,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-4,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-5,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-6,no-address \
    --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-7,no-address \
    --provisioning-model=SPOT \
    --instance-termination-action=TERMINATION_ACTION

Ganti kode berikut:

  • VM_NAME: nama VM.
  • MACHINE_TYPE: jenis mesin yang akan digunakan untuk VM. Tentukan jenis mesin A4 atau A3 Ultra. Untuk mengetahui informasi selengkapnya, lihat Jenis mesin GPU.
  • IMAGE_FAMILY: kelompok image OS image yang ingin Anda gunakan. Untuk mengetahui daftar sistem operasi yang didukung, lihat Detail sistem operasi.
  • IMAGE_PROJECT: project ID image OS.
  • ZONE: zona tempat jenis mesin yang ingin Anda gunakan tersedia. Untuk informasi tentang region, lihat Region dan zona GPU.
  • DISK_SIZE: ukuran boot disk dalam GB.
  • GVNIC_NAME_PREFIX: awalan nama yang Anda tentukan saat membuat jaringan VPC dan subnet standar yang menggunakan gVNIC.
  • RDMA_NAME_PREFIX: awalan nama yang Anda tentukan saat membuat jaringan VPC dan subnet yang menggunakan NIC RDMA.
  • TERMINATION_ACTION: tindakan yang akan diambil saat Compute Engine melakukan preempt terhadap instance, baik STOP (default) atau DELETE.

REST

Untuk membuat VM, buat permintaan POST ke metode instances.insert.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances
{
  "machineType":"projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE",
  "name":"VM_NAME",
  "disks":[
    {
      "boot":true,
      "initializeParams":{
        "diskSizeGb":"DISK_SIZE",
        "diskType":"hyperdisk-balanced",
        "sourceImage":"projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY"
      },
      "mode":"READ_WRITE",
      "type":"PERSISTENT"
    }
  ],
  "networkInterfaces": [
    {
      "accessConfigs": [
        {
          "name": "external-nat",
          "type": "ONE_TO_ONE_NAT"
        }
      ],
      "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-0",
      "nicType": "GVNIC",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-0"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-1",
      "nicType": "GVNIC",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-1"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-0"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-1"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-2"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-3"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-4"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-5"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-6"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
      "nicType": "MRDMA",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-7"
    }
  ],
  "scheduling":
  {
    "provisioningModel": "SPOT",
    "instanceTerminationAction": "TERMINATION_ACTION"
  }
}

Ganti kode berikut:

  • PROJECT_ID: project ID project tempat Anda ingin membuat VM.
  • ZONE: zona tempat jenis mesin yang ingin Anda gunakan tersedia. Untuk informasi tentang region, lihat Region dan zona GPU.
  • MACHINE_TYPE: jenis mesin yang akan digunakan untuk VM. Tentukan jenis mesin A4 atau A3 Ultra. Untuk mengetahui informasi selengkapnya, lihat Jenis mesin GPU.
  • VM_NAME: nama VM.
  • DISK_SIZE: ukuran boot disk dalam GB.
  • IMAGE_PROJECT: project ID image OS.
  • IMAGE_FAMILY: kelompok image OS image yang ingin Anda gunakan. Untuk mengetahui daftar sistem operasi yang didukung, lihat Detail sistem operasi.
  • NETWORK_PROJECT_ID: project ID jaringan.
  • GVNIC_NAME_PREFIX: awalan nama yang Anda tentukan saat membuat jaringan VPC dan subnet standar yang menggunakan gVNIC.
  • REGION: region subnetwork.
  • RDMA_NAME_PREFIX: awalan nama yang Anda tentukan saat membuat jaringan VPC dan subnet yang menggunakan NIC RDMA.
  • TERMINATION_ACTION: tindakan yang akan diambil saat Compute Engine melakukan preempt terhadap instance, baik STOP (default) atau DELETE.

Menyiapkan Spot VM dengan GPU terpasang untuk digunakan

Untuk menyiapkan Spot VM dengan GPU yang terpasang untuk digunakan, selesaikan langkah-langkah berikut:

  1. Agar instance dapat menggunakan GPU yang terpasang, instance memerlukan driver GPU. Kecuali jika Anda menentukan image yang sudah menyertakan driver GPU yang diperlukan, ikuti langkah-langkah untuk Menginstal driver GPU.
  2. Untuk menyiapkan Spot VM agar dapat digunakan, selesaikan langkah-langkah berikut:

Langkah berikutnya