Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Container kustom adalah image Docker yang Anda buat untuk menjalankan aplikasi pelatihan. Dengan menjalankan tugas pelatihan
machine learning (ML) Anda dalamcontainer kustom, Anda dapat menggunakan framework ML, dependensi non-ML,
library, dan biner yang tidak didukung di Vertex AI.
Cara kerja pelatihan dengan container
Aplikasi pelatihan Anda, yang diimplementasikan dalam framework ML pilihan Anda, adalah inti dari proses pelatihan.
Buat aplikasi yang melatih model Anda menggunakan framework ML pilihan Anda.
Putuskan apakah akan menggunakan container kustom. Mungkin ada
container bawaan yang sudah mendukung
dependensi Anda. Jika tidak, Anda perlu mem-build container kustom untuk tugas pelatihan Anda. Dalam container kustom, Anda menginstal sebelumnya aplikasi pelatihan dan semua dependensinya ke dalam image yang digunakan untuk menjalankan tugas pelatihan.
Simpan data pelatihan dan verifikasi Anda di sumber yang dapat diakses Vertex AI. Untuk menyederhanakan autentikasi dan mengurangi
latensi, simpan data Anda di Cloud Storage, Bigtable, atau
Google Cloud layanan penyimpanan lainnya di project Google Cloud
dan region yang sama dengan yang Anda gunakan untuk Vertex AI. Pelajari lebih lanjut
cara Vertex AI dapat memuat data Anda.
Setelah aplikasi siap dijalankan, Anda harus mem-build image Docker dan mengirimkannya ke Artifact Registry atau Docker Hub, sehingga memastikan bahwa Vertex AI dapat mengakses registry Anda.
Vertex AI menyiapkan resource untuk tugas Anda. Opsi ini mengalokasikan satu atau beberapa virtual machine (yang disebut instance pelatihan) berdasarkan konfigurasi tugas Anda. Anda menyiapkan instance pelatihan menggunakan container kustom yang ditentukan sebagai bagian dari objek WorkerPoolSpec saat mengirimkan tugas pelatihan kustom Anda.
Vertex AI menjalankan image Docker, meneruskan argumen command line apa pun yang Anda tentukan saat membuat tugas pelatihan.
Saat tugas pelatihan Anda berhasil atau mengalami error yang tidak dapat dipulihkan,
Vertex AI akan menghentikan semua proses tugas dan membersihkan
resource.
Keuntungan container kustom
Dengan container kustom, Anda dapat menentukan dan menginstal semua dependensi yang diperlukan untuk aplikasi Anda terlebih dahulu.
Waktu mulai lebih cepat. Jika menggunakan container kustom dengan dependensi yang sudah diinstal sebelumnya, Anda dapat menghemat waktu yang diperlukan oleh aplikasi pelatihan untuk menginstal dependensi saat dimulai.
Gunakan framework ML pilihan Anda. Jika tidak dapat menemukan container bawaan Vertex AI dengan framework ML yang ingin digunakan, Anda dapat membuat container kustom dengan framework pilihan Anda dan menggunakannya untuk menjalankan tugas di Vertex AI. Misalnya, Anda
dapat menggunakan container pelanggan untuk berlatih dengan PyTorch.
Dukungan yang diperluas untuk pelatihan terdistribusi. Dengan container kustom, Anda dapat melakukan pelatihan terdistribusi menggunakan framework ML apa pun.
Gunakan versi terbaru. Anda juga dapat menggunakan build terbaru atau versi minor
framework ML. Misalnya, Anda dapat membuat container kustom untuk berlatih dengan tf-nightly.
Penyesuaian hyperparameter dengan container kustom
Untuk melakukan penyesuaian hyperparameter pada Vertex AI, Anda
menentukan metrik sasaran, serta apakah akan meminimalkan atau memaksimalkan setiap metrik.
Misalnya, Anda mungkin ingin memaksimalkan akurasi model atau meminimalkan kehilangan model. Anda juga mencantumkan hyperparameter yang ingin Anda sesuaikan, beserta rentang nilai yang dapat diterima untuk setiap hyperparameter. Vertex AI
melakukan beberapa uji coba aplikasi pelatihan Anda, melacak dan menyesuaikan
hyperparameter setelah setiap uji coba. Saat tugas penyesuaian hyperparameter selesai, Vertex AI melaporkan nilai untuk konfigurasi paling efektif
dari hyperparameter Anda, serta ringkasan untuk setiap uji coba.
Untuk melakukan penyesuaian hyperparameter dengan container kustom, Anda harus melakukan penyesuaian berikut:
Untuk pelatihan dengan GPU, container kustom Anda harus memenuhi beberapa
persyaratan khusus. Anda harus mem-build image Docker yang berbeda dari yang akan digunakan untuk pelatihan dengan CPU.
Instal toolkit CUDA dan cuDNN terlebih dahulu di image Docker Anda. Cara yang direkomendasikan untuk mem-build container kustom dengan dukungan GPU adalah dengan menggunakan image nvidia/cuda sebagai image dasar untuk container kustom Anda. Image container nvidia/cuda memiliki
versi toolkit CUDA dan cuDNN yang cocok yang telah diinstal sebelumnya, dan ini membantu
Anda menyiapkan variabel lingkungan terkait dengan benar.
Instal aplikasi pelatihan Anda, beserta framework ML yang diperlukan dan dependensi lainnya di image Docker Anda.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-19 UTC."],[],[],null,["# Custom containers overview\n\nA custom container is a Docker image that you create to run\nyour training application. By running your machine learning (ML) training job\nin a *custom container*, you can use ML frameworks, non-ML dependencies,\nlibraries, and binaries that are not otherwise supported\non Vertex AI.\n\nHow training with containers works\n----------------------------------\n\nYour training application, implemented in the ML framework of your choice,\nis the core of the training process.\n\n1. Create an application that trains your model, using the ML framework\n of your choice.\n\n2. Decide whether to use a custom container. There could be a\n [prebuilt container](/vertex-ai/docs/training/pre-built-containers) that already supports\n your dependencies. Otherwise, you need to [build a custom container for\n your training job](/vertex-ai/docs/training/create-custom-container). In your custom container, you\n pre-install your training application and all its dependencies onto an\n image that is used to run your training job.\n\n3. Store your training and verification data in a source that\n Vertex AI can access. To simplify authentication and reduce\n latency, store your data in Cloud Storage, Bigtable, or another\n Google Cloud storage service in the same Google Cloud project\n and region that you are using for Vertex AI. Learn more about\n [the ways Vertex AI can load your data](/vertex-ai/docs/training/code-requirements#loading-data).\n\n4. When your application is ready to run, you must build your Docker image and\n push it to Artifact Registry or Docker Hub, making sure that\n [Vertex AI can access your registry](/vertex-ai/docs/training/create-custom-container#manage-container-registry-permissions).\n\n5. Submit your custom training job by [creating a custom\n job](/vertex-ai/docs/training/create-custom-job) or [creating a custom training\n pipeline](/vertex-ai/docs/training/create-training-pipeline).\n\n6. Vertex AI sets up resources for your job. It allocates one or\n more virtual machines (called *training instances* ) based on your job\n configuration. You set up a training instance by using the custom container\n you specify as part of the [`WorkerPoolSpec`](/vertex-ai/docs/reference/rest/v1/CustomJobSpec#workerpoolspec) object when\n you [submit your custom training\n job](/vertex-ai/docs/training/create-custom-job).\n\n7. Vertex AI runs your Docker image, passing through any\n command-line arguments you specify when you create the training job.\n\n8. When your training job succeeds or encounters an unrecoverable error,\n Vertex AI halts all job processes and cleans up the\n resources.\n\nAdvantages of custom containers\n-------------------------------\n\nCustom containers let you specify and pre-install all the dependencies\nneeded for your application.\n\n- **Faster start-up time.** If you use a custom container with your dependencies pre-installed, you can save the time that your training application would otherwise take to install dependencies when starting up.\n- **Use the ML framework of your choice.** If you can't find an Vertex AI prebuilt container with the ML framework you want to use, you can build a custom container with your chosen framework and use it to run jobs on Vertex AI. For example, you can use a customer container to train with PyTorch.\n- **Extended support for distributed training.** With custom containers, you can do distributed training using any ML framework.\n- **Use the newest version.** You can also use the latest build or minor version of an ML framework. For example, you can build a custom container to train with `tf-nightly`.\n\nHyperparameter tuning with custom containers\n--------------------------------------------\n\nTo do [hyperparameter tuning](/vertex-ai/docs/training/hyperparameter-tuning-overview) on Vertex AI, you\nspecify goal metrics, along with whether to minimize or maximize each metric.\nFor example, you might want to maximize your model accuracy, or minimize your\nmodel loss. You also list the hyperparameters you'd like to tune, along with\nthe range of acceptable values for each hyperparameter. Vertex AI\ndoes multiple *trials* of your training application, tracking and adjusting the\nhyperparameters after each trial. When the hyperparameter tuning job is\ncomplete, Vertex AI reports values for the most effective\nconfiguration of your hyperparameters, and a summary for each trial.\n\nTo do hyperparameter tuning with custom containers, you need to make\nthe following adjustments:\n\n- In your Dockerfile: install [`cloudml-hypertune`](https://github.com/GoogleCloudPlatform/cloudml-hypertune).\n- In your training code:\n - Use `cloudml-hypertune` to report the results of each trial by calling its helper function, [`report_hyperparameter_tuning_metric`](https://github.com/GoogleCloudPlatform/cloudml-hypertune/blob/master/hypertune/hypertune.py#L49).\n - Add command-line arguments for each hyperparameter, and handle the argument parsing with an argument parser such as [`argparse`](https://docs.python.org/3/library/argparse.html).\n\nSee how to [configure a hyperparameter tuning job that uses custom\ncontainers](/vertex-ai/docs/training/using-hyperparameter-tuning) or learn more about\n[how hyperparameter tuning works on Vertex AI](/vertex-ai/docs/training/hyperparameter-tuning-overview).\n\nGPUs in custom containers\n-------------------------\n\nFor training with GPUs, your custom container needs to meet a few special\nrequirements. You must build a different Docker image than what you'd use for\ntraining with CPUs.\n\n- Pre-install the CUDA toolkit and cuDNN in your Docker image. The recommended way to build a custom container with support for GPUs is to use the [`nvidia/cuda`](https://hub.docker.com/r/nvidia/cuda/) image as your base image for your custom container. The `nvidia/cuda` container image has matching versions of CUDA toolkit and cuDNN pre-installed, and it helps you set up the related environment variables correctly.\n- Install your training application, along with your required ML framework and other dependencies in your Docker image.\n\nSee an [example Dockerfile for training with GPUs](https://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/pytorch/containers/quickstart/mnist/Dockerfile-gpu).\n\nWhat's next\n-----------\n\n- Learn more about how to [create a custom container for your training\n job](/vertex-ai/docs/training/create-custom-container)."]]