Halaman ini diterjemahkan oleh Cloud Translation API.

Memecahkan Masalah Vertex AI

Halaman ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah saat menggunakan Vertex AI.

Langkah-langkah pemecahan masalah untuk beberapa komponen Vertex AI tercantum secara terpisah. Lihat referensi berikut:

Untuk memfilter konten halaman ini, klik topik:

Model AutoML

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan AutoML.

Tidak ada label dalam set pengujian, validasi, atau pelatihan

Masalah

Saat Anda menggunakan pemisahan data default saat melatih model klasifikasi AutoML, Vertex AI mungkin menetapkan instance class yang terlalu sedikit ke set tertentu (pengujian, validasi, atau pelatihan), yang menyebabkan error selama pelatihan. Masalah ini lebih sering terjadi saat Anda memiliki class yang tidak seimbang atau data pelatihan dalam jumlah kecil.

Solusi

Untuk mengatasi masalah ini, tambahkan lebih banyak data pelatihan, pisahkan data Anda secara manual untuk menetapkan class yang cukup ke setiap set, atau hapus label yang lebih jarang muncul dari set data Anda. Untuk informasi selengkapnya, lihat Tentang pemisahan data untuk model AutoML.

Vertex AI Studio

Saat menggunakan Vertex AI Studio, Anda mungkin mengalami error berikut:

Mencoba menyesuaikan model akan menampilkan `Internal error encountered`

Masalah

Anda mengalami error Internal error encountered saat mencoba menyesuaikan model.

Solusi

Jalankan perintah curl berikut untuk membuat set data Vertex AI kosong. Pastikan Anda mengonfigurasi project ID dengan perintah tersebut.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Setelah perintah selesai, tunggu lima menit dan coba lakukan penyesuaian model lagi.

Kode error: 429

Masalah

Anda mengalami error berikut:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Solusi

Coba lagi nanti dengan backoff. Jika Anda masih mengalami error, hubungi dukungan Vertex AI.

Kode error: 410

Masalah

Anda mengalami error berikut:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Solusi

Lihat Ringkasan autentikasi untuk mempelajari lebih lanjut.

Kode error: 403

Masalah

Anda mengalami error berikut:

403: Permission denied.

Solusi

Pastikan akun yang mengakses API memiliki izin yang tepat.

Vertex AI Pipelines

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan Vertex AI Pipelines.

Anda tidak memiliki izin untuk bertindak sebagai akun layanan

Masalah

Saat menjalankan alur kerja Vertex AI Pipelines, Anda mungkin mendapatkan pesan error berikut:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Solusi

Error ini berarti akun layanan yang menjalankan alur kerja Anda tidak memiliki akses ke resource yang perlu digunakan.

Untuk mengatasi masalah ini, beri pengguna izin iam.serviceAccounts.actAs di akun layanan.

Error: Hash paket Python tidak cocok di komponen Vertex AI Pipelines

Masalah

Saat menjalankan alur kerja Vertex AI Pipelines, Anda mungkin mengalami error berikut:

ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes. Otherwise, examine the package contents carefully; someone may have tampered with them.

Hal ini disebabkan oleh konflik versi antara library Python di image dasar untuk komponen Vertex AI Pipelines dan library yang coba diinstal oleh pipeline.

Solusi

Bangun dependensi apa pun yang tercantum bersama pesan ini ke dalam image yang digunakan oleh komponen Vertex AI Pipelines.

Error `Internal error happened`

Masalah

Jika pipeline Anda gagal dengan pesan Internal error happened, periksa Logs Explorer dan telusuri nama pipeline. Anda mungkin melihat error seperti berikut:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Artinya, peering VPC untuk Vertex AI mencakup rentang IP yang telah dihapus.

Solusi

Untuk mengatasi masalah ini, perbarui peering VPC menggunakan perintah update dan sertakan rentang IP yang valid.

Cakupan OAuth atau audiens token ID yang diberikan tidak valid

Masalah

Saat menjalankan alur kerja Vertex AI Pipelines, Anda akan mendapatkan pesan error berikut:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Solusi

Artinya, Anda belum memberikan kredensial di salah satu komponen pipeline atau tidak menggunakan ai_platform.init() untuk menetapkan kredensial.

Untuk mengatasi masalah ini, tetapkan kredensial untuk komponen pipeline yang relevan atau tetapkan kredensial lingkungan dan gunakan ai_platform.init() di awal kode Anda.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

Komponen Vertex AI Pipelines memerlukan ruang disk lebih dari 100 GB

Masalah

Ruang disk default yang dialokasikan untuk komponen Vertex AI Pipelines adalah 100 GB dan peningkatan ruang disk tidak didukung. Lihat Public Issue Tracker untuk masalah ini.

Solusi

Agar komponen dapat menggunakan ruang disk lebih dari 100 GB, konversi komponen menjadi tugas kustom menggunakan metode komponen. Dengan operator ini, Anda dapat menetapkan jenis mesin dan ukuran disk yang digunakan komponen.

Untuk contoh cara menggunakan operator ini, lihat Vertex AI Pipelines: Pelatihan kustom dengan Komponen Pipeline bawaan Google Cloud , di bagian Mengonversi komponen menjadi Tugas Kustom Vertex AI.

Masalah jaringan Vertex AI

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah terkait jaringan untuk Vertex AI.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

Workload tidak dapat mengakses endpoint di jaringan VPC Anda saat menggunakan rentang IP publik yang digunakan secara pribadi untuk Vertex AI

Masalah

Rentang IP publik yang digunakan secara pribadi tidak diimpor secara default.

Solusi

Untuk menggunakan rentang IP publik yang digunakan secara pribadi, Anda harus mengaktifkan impor rentang IP publik yang digunakan secara pribadi

`com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project`

Masalah

Anda menerima error dalam bentuk com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project saat menjalankan beban kerja atau men-deploy endpoint.

Hal ini terjadi saat Anda mengubah reservasi akses layanan pribadi untuk workload Anda. Rentang yang dihapus mungkin belum didaftarkan dengan Vertex AI API.

Solusi

Jalankan gcloud services vpc-peerings update untuk servicenetworking setelah memperbarui alokasi akses layanan pribadi.

Pipeline atau tugas tidak dapat mengakses endpoint dalam jaringan VPC yang di-peering

Masalah

Waktu tunggu pipeline Vertex AI Anda habis saat mencoba terhubung ke resource di jaringan VPC Anda.

Solusi

Coba langkah-langkah berikut untuk mengatasi masalah ini:

Pastikan Anda telah menyelesaikan semua langkah dalam Menyiapkan Peering Jaringan VPC.
Tinjau konfigurasi jaringan VPC yang di-peering. Pastikan jaringan Anda mengimpor rute dari rentang jaringan layanan yang tepat saat tugas Anda sedang berjalan.

Buka Peering Jaringan VPC
Pastikan Anda memiliki aturan firewall yang mengizinkan koneksi dari rentang ini ke target di jaringan Anda.
Jika koneksi peering tidak mengimpor rute apa pun saat tugas Anda berjalan, ini berarti konfigurasi jaringan layanan tidak digunakan. Hal ini mungkin terjadi karena Anda menyelesaikan konfigurasi peering dengan jaringan selain jaringan default. Jika demikian, pastikan Anda menentukan jaringan saat meluncurkan tugas. Gunakan nama jaringan yang sepenuhnya memenuhi syarat dalam format berikut: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

Untuk informasi selengkapnya, lihat Ringkasan rute.

Pipeline atau tugas tidak dapat mengakses untuk menjangkau endpoint di jaringan lain di luar jaringan Anda

Masalah

Pipeline atau tugas Anda tidak dapat mengakses endpoint di jaringan di luar jaringan Anda.

Solusi

Secara default, konfigurasi peering Anda hanya mengekspor rute ke subnet lokal di VPC Anda.

Selain itu, peering transitif tidak didukung dan hanya jaringan yang di-peering langsung yang dapat berkomunikasi.

Agar Vertex AI dapat terhubung melalui jaringan Anda dan menjangkau endpoint di jaringan lain, Anda harus mengekspor rute jaringan ke koneksi peering. Edit konfigurasi jaringan VPC yang di-peering dan aktifkan Export custom routes.

Buka Peering Jaringan VPC

Karena peering transitif tidak didukung, Vertex AI tidak mempelajari rute ke jaringan dan layanan yang di-peering lainnya, meskipun dengan Export Custom Routes diaktifkan. Untuk mengetahui informasi tentang solusi, lihat Memperluas keterjangkauan jaringan Vertex AI Pipelines.

`No route to host` tanpa konflik rute yang terlihat di konsol Google Cloud

Masalah

Satu-satunya rute yang dapat Anda lihat di konsol Google Cloud adalah rute yang diketahui oleh VPC Anda sendiri serta rentang yang dicadangkan saat Anda menyelesaikan konfigurasi Peering Jaringan VPC.

Terkadang, tugas Vertex AI dapat memunculkan no route to hostkeluhan saat mencoba menjangkau alamat IP yang diekspor VPC Anda ke jaringan Vertex AI.

Hal ini mungkin karena tugas Vertex AI berjalan dalam namespace jaringan di cluster GKE terkelola yang rentang IP-nya bertentangan dengan IP target. Lihat dasar-dasar jaringan GKE untuk pembahasan lebih lanjut.

Dalam kondisi ini, beban kerja mencoba terhubung ke IP dalam namespace jaringannya sendiri dan menampilkan error jika tidak dapat menjangkaunya.

Solusi

Buat workload Anda untuk menampilkan alamat IP namespace lokalnya dan pastikan bahwa alamat IP ini tidak berkonflik dengan rute yang Anda ekspor melalui koneksi peering. Jika ada konflik, teruskan daftar reservedIpRanges[] dalam parameter tugas yang tidak tumpang-tindih dengan rentang apa pun di jaringan VPC Anda. Tugas menggunakan rentang ini untuk alamat IP internal workload.

`RANGES_EXHAUSTED`, `RANGES_NOT_RESERVED`

Masalah

Error dalam bentuk RANGES_EXHAUSTED dan RANGES_NOT_RESERVED serta RANGES_DELETED_LATER menunjukkan masalah pada konfigurasi peering jaringan VPC yang mendasarinya. Ini adalah error jaringan dan bukan error dari layanan Vertex AI itu sendiri.

Solusi

Saat menghadapi error RANGES_EXHAUSTED, Anda harus mempertimbangkan terlebih dahulu apakah keluhan ini valid.

Buka Network Analyzer di konsol cloud dan cari insight dalam bentuk "Summary of IP address allocation" di jaringan VPC. Jika menunjukkan bahwa alokasi berada pada atau mendekati 100%, Anda dapat menambahkan rentang baru ke reservasi.
Pertimbangkan juga jumlah maksimum tugas paralel yang dapat dijalankan dengan reservasi berukuran tertentu.

Untuk mengetahui informasi selengkapnya, lihat Error Validasi Infrastruktur Layanan

Jika error tetap berlanjut, hubungi dukungan.

`Router status is temporarily unavailable`

Masalah

Saat meluncurkan Vertex AI Pipelines, Anda menerima pesan error yang mirip dengan berikut ini:

Router status is temporarily unavailable. Please try again later

Solusi

Pesan error menunjukkan bahwa ini adalah kondisi sementara. Coba luncurkan Vertex AI Pipelines lagi.

Jika error tetap berlanjut, hubungi dukungan.

Workload tidak dapat me-resolve nama host untuk domain DNS di VPC Anda

Masalah

Workload Vertex AI gagal terhubung ke nama host yang dikonfigurasi di VPC Anda. Anda telah mengonfirmasi bahwa nama host ini dapat diakses dari klien dalam VPC Anda.

Hal ini karena workload berjalan dalam project yang dikelola Google. VPC di lingkungan terkelola ini harus di-peering ke VPC Anda untuk menggunakan resource jaringan Anda. Selain itu, semua zona DNS yang perlu diakses oleh beban kerja ini harus dibagikan secara khusus ke VPC yang dikelola Google.

Solusi

Pastikan Anda telah menyiapkan Peering Jaringan VPC untuk Vertex AI di jaringan VPC Anda.
Selesaikan langkah-langkah untuk membagikan zona DNS pribadi dengan jaringan produsen Vertex AI.
Pastikan workload Vertex AI Anda diluncurkan dengan tanda --network yang menentukan jaringan VPC Anda. Hal ini memungkinkan mereka berjalan di jaringan yang dikelola Google dan mengakses zona DNS yang telah Anda bagikan.

Masalah konektivitas yang disebabkan oleh perilaku sisi klien

Jika Anda mengalami masalah konektivitas saat mencoba menggunakan Google Cloud API, penyebab utamanya mungkin ada di sisi klien. Bagian ini menyarankan solusi sisi klien yang dapat meningkatkan pengalaman Anda.

Koneksi direset dan paket yang tidak terkirim

Masalah

Saat mencoba menggunakan Google Cloud API, Anda mengalami reset koneksi dan paket yang dihapus.

Solusi

Untuk membantu mengatasi masalah ini, pertimbangkan hal berikut:

Untuk traffic transaksi bervolume tinggi yang memiliki persyaratan latensi rendah, pertimbangkan apakah ada masalah umum dengan kartu antarmuka klien lokal yang dapat menyebabkan koneksi TCP direset atau paket dihapus.
Pertimbangkan apakah ada layanan sisi klien di jalur permintaan yang menggunakan iptables. Hal ini dapat mencakup cluster kubernetes atau beberapa firewall stateful dan perangkat NAT. Secara default, subsistem pelacakan koneksi (conntrack) Linux akan mengikuti spesifikasi protokol TCP secara ketat dan, misalnya, membuang paket TCP yang tidak berurutan. Untuk menonaktifkan perilaku ini, aktifkan parameter kernel Linux net.netfilter.nf_conntrack_tcp_be_liberal atau yang setara.

Koneksi tidak selesai

Masalah

Saat mencoba menggunakan Google Cloud API, Anda mengalami koneksi yang tidak lengkap.

Solusi

Untuk membantu mengatasi masalah ini, pertimbangkan hal berikut:

Jika jalur penerusan memiliki beberapa rute kembali ke klien, pastikan Anda memahami konsep Reverse Path Forwarding. Nonaktifkan perilaku ini jika Anda mencurigai bahwa perilaku ini memblokir koneksi.
Untuk koneksi yang di-load balance, pertimbangkan apakah aturan firewall masuk Anda mengizinkan paket respons ke kedua load balancer.

Masalah koneksi non-API lainnya

Untuk membantu mengatasi masalah koneksi non-API, pertimbangkan hal berikut:

Jika ada proxy di jalur permintaan, pertimbangkan apakah proxy tersebut dapat menyebabkan masalah yang Anda alami. Tinjau dokumentasi dan pastikan untuk memecahkan masalah proxy saat menghadapi masalah seperti latensi yang tidak dapat dijelaskan, koneksi terputus, penggantian DNS, pemblokiran lintas asal, dan masalah serupa lainnya.
Terutama saat menangani respons 429 dari Google Cloud API, logika sisi klien yang segera mencoba ulang koneksi dapat memperburuk masalah. Pastikan Anda memahami dan menerapkan backoff eksponensial saat menerapkan percobaan ulang.

Prediksi Vertex AI

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah dengan prediksi Vertex AI.

Error percobaan ulang terlampaui

Masalah

Anda akan mendapatkan error seperti berikut saat menjalankan tugas prediksi batch, yang menunjukkan bahwa mesin yang menjalankan model kustom mungkin tidak dapat menyelesaikan prediksi dalam batas waktu.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Hal ini dapat terjadi saat layanan prediksi Vertex AI mendaftarkan dirinya dengan layanan Google Front End, yang memproksi koneksi dari klien ke Vertex AI Prediction API.

Layanan Google Front End akan menghentikan koneksi dan menampilkan kode respons HTTP 500 kepada klien jika tidak menerima respons dari API dalam waktu 10 menit.

Solusi

Untuk mengatasi masalah ini, coba salah satu langkah berikut:

Tingkatkan node komputasi, atau ubah jenis mesin.
Buat container prediksi Anda untuk mengirim kode respons HTTP 102 secara berkala. Tindakan ini mereset timer 10 menit di layanan Google Front End.

Project sudah ditautkan ke VPC

Masalah

Saat men-deploy endpoint, Anda mungkin melihat pesan error seperti berikut, yang menunjukkan bahwa endpoint Vertex AI Anda sebelumnya telah menggunakan jaringan Virtual Private Cloud dan resource tidak dibersihkan dengan benar.

Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.

Solusi

Untuk mengatasi masalah ini, coba jalankan perintah ini di Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

Tindakan ini akan memutuskan koneksi jaringan VPC lama Anda dari VPC Service Networking secara manual.

Kegagalan deployment atau penghapusan endpoint yang tidak terduga

Masalah

Deployment model gagal secara tidak terduga, endpoint ditemukan telah dihapus, atau model yang sebelumnya di-deploy telah dibatalkan deployment-nya.

Akun penagihan Anda mungkin tidak valid. Jika tetap tidak valid dalam waktu yang lama, beberapa resource mungkin akan dihapus dari project yang terkait dengan akun Anda. Misalnya, endpoint dan model Anda mungkin dihapus. Resource yang dihapus tidak dapat dipulihkan.

Solusi

Untuk mengatasi masalah ini, Anda dapat mencoba langkah-langkah berikut:

Verifikasi status penagihan project Anda.
Hubungi Dukungan Penagihan Cloud untuk meminta bantuan terkait pertanyaan penagihan.

Untuk mengetahui informasi selengkapnya, lihat Pertanyaan terkait penagihan.

Masalah akun layanan khusus Vertex AI

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah terkait akun layanan.

Deployment model gagal disertai error akun layanan `serviceAccountAdmin`

Masalah

Deployment model Anda gagal dengan error seperti berikut:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform. the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.

Solusi

Error ini berarti akun layanan kustom Anda mungkin belum dikonfigurasi dengan benar. Untuk membuat akun layanan khusus dengan izin IAM yang benar, lihat Menggunakan akun layanan khusus.

Tidak dapat mengambil token identitas saat menggunakan akun layanan kustom

Masalah

Saat menggunakan akun layanan kustom, tugas pelatihan yang berjalan di satu replika tidak dapat menjangkau layanan metadata Compute Engine yang diperlukan untuk mengambil token.

Anda akan melihat error yang mirip dengan:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Solusi

Untuk mengambil token identitas dengan akun layanan kustom, Anda harus menggunakan iamcredentials.googleapis.com.

Model yang dilatih khusus

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan model yang dilatih kustom.

Masalah pelatihan khusus

Masalah berikut dapat terjadi selama pelatihan khusus. Masalah ini terjadi pada resource CustomJob dan HyperparameterTuningJob, termasuk yang dibuat oleh resource TrainingPipeline.

Kode error: 400

Masalah

Anda mengalami error berikut:

400 Machine type MACHINE_TYPE is not supported.

Anda mungkin melihat pesan error ini jika jenis mesin yang dipilih tidak didukung untuk pelatihan Vertex AI, atau jika resource tertentu tidak tersedia di region yang dipilih.

Solusi

Gunakan hanya jenis mesin yang tersedia di region yang sesuai.

Replika dihentikan dengan kode status bukan nol

Masalah

Selama pelatihan terdistribusi, error dari pekerja mana pun akan menyebabkan pelatihan menjadi gagal.

Solusi

Untuk memeriksa stack trace bagi pekerja, lihat log pelatihan kustom Anda di Google Cloud konsol.

Lihat topik pemecahan masalah lainnya untuk memperbaiki error umum, lalu buat resource CustomJob, HyperparameterTuningJob, atau TrainingPipeline baru. Dalam banyak kasus, kode error disebabkan oleh masalah dalam kode pelatihan Anda, tidak disebabkan oleh layanan Vertex AI. Untuk menentukan apakah hal tersebut memang terjadi, Anda dapat menjalankan kode pelatihan di mesin lokal atau di Compute Engine.

Replika kehabisan memori

Masalah

Error dapat terjadi jika instance virtual machine (VM) pelatihan kehabisan memori selama pelatihan.

Solusi

Anda dapat melihat penggunaan memori VM pelatihan di konsol Google Cloud .

Meskipun error ini muncul, Anda mungkin tidak mendapati penggunaan memori 100% di VM, karena layanan selain aplikasi pelatihan Anda yang berjalan di VM juga memakai resource. Untuk jenis mesin yang memiliki lebih sedikit memori, layanan lain mungkin menggunakan persentase memori yang relatif besar. Misalnya, pada VM n1-standard-4, layanan dapat menggunakan hingga 40% memori.

Anda dapat mengoptimalkan konsumsi memori aplikasi pelatihan, atau Anda dapat memilih jenis mesin yang lebih besar dengan lebih banyak memori.

Sumber daya yang tidak memadai di suatu region

Masalah

Anda mengalami masalah kehabisan stok di suatu wilayah.

Solusi

Vertex AI melatih model Anda menggunakan resource Compute Engine. Vertex AI tidak dapat menjadwalkan workload Anda jika Compute Engine memiliki kapasitas untuk CPU atau GPU tertentu di suatu region. Masalah ini tidak terkait dengan kuota project Anda.

Saat kapasitas Compute Engine tercapai, Vertex AI akan otomatis mencoba ulang CustomJob atau HyperparameterTuningJob Anda hingga tiga kali. Tugas akan gagal jika semua percobaan ulang gagal.

Stok habis biasanya terjadi saat Anda menggunakan GPU. Jika Anda mengalami error ini saat menggunakan GPU, cobalah beralih ke jenis GPU lain. Jika Anda dapat menggunakan region lain, cobalah melakukan pelatihan di region yang berbeda.

Error izin saat mengakses layanan Google Cloud lain

Jika Anda mengalami error izin saat mengakses layanan Google Cloud lain dari kode pelatihan (misalnya: google.api_core.exceptions.PermissionDenied: 403), Anda mungkin mengalami salah satu masalah berikut:

Masalah

Agen layanan atau akun layanan yang menjalankan kode Anda (baik Agen Layanan Kode Kustom Vertex AI untuk project Anda atau akun layanan kustom) tidak memiliki izin yang diperlukan.

Solusi

Pelajari cara memberi izin kepada Agen Layanan Kode Kustom Vertex AI atau mengonfigurasi akun layanan kustom dengan izin yang diperlukan.
Masalah

Agen layanan atau akun layanan yang menjalankan kode Anda memiliki izin yang diperlukan, tetapi kode Anda mencoba mengakses resource dalam project yang salah. Hal ini mungkin menjadi masalah jika pesan error merujuk project ID yang diakhiri dengan -tp.

Solusi

Karena cara Vertex AI menjalankan kode pelatihan Anda, masalah ini dapat terjadi secara tidak sengaja jika Anda tidak secara eksplisit menentukan project ID atau nomor project dalam kode Anda.

Pelajari cara memperbaiki masalah ini dengan menentukan project ID atau nomor project.
Masalah

Tugas Vertex AI Training Anda berhasil dijalankan dengan data lokal, tetapi tidak dengan data dari Cloud Storage.

Solusi

Tambahkan izin storage.buckets.create ke peran Agen Layanan Kode Kustom Vertex AI untuk project.

Pelajari cara memperbaiki masalah ini dengan menambahkan peran tertentu ke agen layanan Vertex AI.

Masalah performa saat menggunakan Cloud Storage FUSE

Masalah

Tugas Cloud Storage FUSE berjalan lambat.

Solusi

Lihat "Pedoman pengoptimalan performa" di Menggunakan Cloud Storage sebagai sistem file yang terpasang.

`pip install` gagal saat menggunakan KFP dengan Kontrol Layanan VPC

Masalah

Anda akan melihat error berikut:

ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(&lt;pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10&gt;, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/

Solusi

Perimeter layanan Kontrol Layanan VPC memblokir akses dari Vertex AI ke API dan layanan pihak ketiga di internet. Untuk menginstal paket, gunakan packageUris untuk menginstal dependensi dari bucket Cloud Storage. Untuk pembahasan umum tentang penggunaan teknik ini, lihat "Menggunakan container kustom" di Kontrol Layanan VPC dengan Vertex AI.

Error internal

Masalah

Pelatihan Anda gagal karena error sistem.

Solusi

Masalah ini mungkin bersifat sementara; coba kirim ulang CustomJob, HyperparameterTuningJob, atau TrainingPipeline. Jika error tetap berlanjut, hubungi dukungan.

Kode error 500 saat menggunakan image container kustom

Masalah

Anda melihat error 500 di log.

Solusi

Jenis error ini kemungkinan merupakan masalah pada image container kustom Anda, bukan error Vertex AI.

Akun layanan tidak dapat mengakses bucket Cloud Storage saat men-deploy ke endpoint

Masalah

Saat mencoba men-deploy model ke endpoint dan akun layanan Anda tidak memiliki akses storage.objects.list ke bucket Cloud Storage yang terkait, Anda mungkin mendapatkan error berikut:

custom-online-prediction@TENANT_PROJECT_ID.
does not have storage.objects.list access to the Cloud Storage bucket.

Secara default, container kustom yang men-deploy model Anda menggunakan akun layanan yang tidak memiliki akses ke bucket Cloud Storage Anda.

Solusi

Untuk mengatasinya, coba salah satu langkah berikut:

Salin file yang ingin Anda akses dari container ke dalam artefak model saat mengupload model. Vertex AI akan menyalinnya ke lokasi yang dapat diakses oleh akun layanan default, mirip dengan semua artefak model lainnya.
Salin file ke container sebagai bagian dari proses build container.
Tentukan akun layanan khusus

Penelusuran Arsitektur Neural

Masalah umum

Setelah membatalkan tugas NAS, tugas utama (induk) akan berhenti, tetapi beberapa uji coba turunan tetap menampilkan status Berjalan. Abaikan status uji coba turunan yang menampilkan status Berjalan dalam kasus ini. Uji coba telah dihentikan, tetapi UI terus menampilkan status Berjalan. Selama tugas utama telah berhenti, Anda tidak akan dikenai biaya tambahan.
Setelah melaporkan reward di pelatih, tunggu (aktifkan mode tidur) selama 10 menit sebelum tugas uji coba dihentikan.
Saat menggunakan Cloud Shell untuk menjalankan TensorBoard, link output yang dihasilkan mungkin tidak berfungsi. Dalam hal ini, tuliskan nomor port, gunakan alat Pratinjau Web, lalu pilih nomor port yang benar untuk menampilkan plot.

Mengakses alat Web Preview:
Jika Anda melihat pesan error seperti berikut di log pelatih:
```
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
```
gunakan mesin dengan RAM yang lebih besar, karena kondisi OOM menyebabkan error ini.
Jika pelatih kustom Anda tidak dapat menemukan FLAG job-dir direktori tugas, impor job_dir dengan garis bawah, bukan tanda hubung. Dijelaskan dalam catatan di tutorial-1.
Error NaN selama pelatihan Mungkin akan ada error NaN dalam tugas pelatihan seperti NaN : Tensor had NaN values. Kecepatan pembelajaran mungkin terlalu besar untuk arsitektur yang disarankan. Untuk mengetahui informasi selengkapnya, lihat Error terkait kehabisan memori (OOM) dan kecepatan pembelajaran.
Error OOM selama pelatihan Mungkin akan ada error OOM (out-of-memory) dalam tugas pelatihan. Ukuran tumpukan mungkin terlalu besar untuk memori akselerator. Untuk informasi selengkapnya, lihat Error terkait kehabisan memori (OOM) dan kecepatan pembelajaran.
Tugas pengontrol pemilihan model tugas proxy mati Dalam kasus yang jarang terjadi ketika tugas pengontrol pemilihan model tugas proxy mati, Anda dapat melanjutkan tugas dengan mengikuti langkah-langkah ini.
Tugas pengontrol penelusuran tugas proxy mati Dalam kasus yang jarang terjadi ketika tugas pengontrol penelusuran tugas proxy mati, Anda dapat melanjutkan tugas dengan mengikuti langkah-langkah ini.
Akun layanan tidak memiliki izin untuk mengakses Artifact Registry atau bucket. Jika Anda mendapatkan error seperti Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc. does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas atau error serupa untuk akses bucket, beri akun layanan ini peran editor penyimpanan dalam project Anda.

Vertex AI Feature Store

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan Vertex AI Feature Store.

`Resource not found` error saat mengirim permintaan penyerapan streaming atau penyaluran online

Masalah

Setelah Anda menyiapkan featurestore, jenis entity, atau resource fitur, akan ada penundaan sebelum resource tersebut diterapkan ke layanan FeaturestoreOnlineServingService. Terkadang penerapan yang tertunda ini dapat menyebabkan error resource not found saat Anda mengirimkan permintaan penyerapan streaming atau penyaluran online segera setelah membuat resource.

Solusi

Jika Anda menerima error ini, tunggu beberapa menit, lalu coba lagi permintaan Anda.

Penyerapan batch berhasil untuk fitur yang baru dibuat, tetapi permintaan penyaluran online menampilkan nilai kosong

Masalah

Khusus untuk fitur yang baru dibuat, ada penundaan sebelum fitur tersebut diterapkan ke layanan FeaturestoreOnlineServingService. Fitur dan nilai ada, tetapi perlu waktu untuk diterapkan. Hal ini dapat menyebabkan permintaan penyaluran online Anda menampilkan nilai kosong.

Solusi

Jika Anda melihat ketidaksesuaian ini, tunggu beberapa menit, lalu coba lagi permintaan penyaluran online Anda.

Pemakaian CPU tinggi untuk node penyaluran online

Masalah

Penggunaan CPU untuk node penyaluran online Anda tinggi.

Solusi

Untuk mengatasi masalah ini, Anda dapat meningkatkan jumlah node penyaluran online dengan menambah jumlah node secara manual atau dengan mengaktifkan penskalaan otomatis. Perhatikan bahwa meskipun penskalaan otomatis diaktifkan, Vertex AI Feature Store memerlukan waktu untuk menyeimbangkan kembali data saat node ditambahkan atau dihapus. Untuk informasi tentang cara melihat metrik distribusi nilai fitur dari waktu ke waktu, lihat Melihat metrik nilai fitur.

Pemakaian CPU tinggi untuk node penyaluran online terpanas

Masalah

Jika pemakaian CPU untuk node terpanas tinggi, Anda dapat meningkatkan jumlah node penyaluran atau mengubah pola akses entity menjadi pseudo-random.

Solusi

Menyetel pola akses entity ke pseudo-random akan mengurangi tingginya pemakaian CPU yang dihasilkan dari entity yang sering mengakses yang terletak berdekatan satu sama lain di featurestore. Jika tidak ada solusi yang efektif, implementasikan cache sisi klien untuk menghindari akses entity yang sama berulang kali.

Latensi penyaluran online tinggi saat QPS rendah

Masalah

Periode tidak aktif atau aktivitas rendah pada QPS rendah dapat mengakibatkan masa berlaku beberapa cache sisi server berakhir. Hal ini dapat mengakibatkan latensi tinggi saat traffic ke node penyaluran online dilanjutkan dengan QPS reguler atau lebih tinggi.

Solusi

Untuk mengatasi masalah ini, Anda harus menjaga koneksi tetap aktif dengan mengirimkan traffic buatan minimal 5 QPS ke featurestore.

Tugas penyerapan batch gagal setelah enam jam

Masalah

Tugas penyerapan batch dapat gagal karena sesi baca berakhir setelah enam jam.

Solusi

Untuk menghindari habisnya waktu tunggu, tingkatkan jumlah pekerja untuk menyelesaikan tugas penyerapan dalam batas waktu enam jam.

Error `Resource exceeded` saat mengekspor nilai fitur

Masalah

Mengekspor data dalam jumlah besar dapat gagal dengan error resource terlampaui jika tugas ekspor melebihi kuota internal.

Solusi

Untuk menghindari error ini, Anda dapat mengonfigurasi parameter rentang waktu, start_time dan end_time, untuk memproses data dalam jumlah yang lebih kecil sekaligus. Untuk mengetahui informasi tentang ekspor lengkap, lihat Ekspor lengkap.

Vertex AI Vizier

Saat menggunakan Vertex AI Vizier, Anda mungkin mengalami masalah berikut.

Error internal

Masalah

Error internal terjadi saat ada error sistem.

Solusi

Hal ini mungkin bersifat sementara. Coba kirim ulang permintaan, dan jika error terus berlanjut, hubungi dukungan.

Error izin saat menggunakan peran akun layanan dengan Vertex AI

Masalah

Anda mendapatkan error izin umum saat menggunakan peran akun layanan dengan Vertex AI.

Error ini dapat muncul di Cloud Logging dalam log komponen produk atau log audit. Peringatan ini juga dapat muncul dalam kombinasi apa pun dari project yang terpengaruh.

Masalah ini dapat disebabkan oleh salah satu atau kedua hal berikut:

Penggunaan peran Service Account Token Creator saat peran Service Account User seharusnya digunakan, atau sebaliknya. Peran ini memberikan izin yang berbeda pada akun layanan dan tidak dapat dipertukarkan. Untuk mempelajari perbedaan antara peran Service Account Token Creator dan Service Account User, lihat Peran akun layanan.
Anda telah memberikan izin akun layanan di beberapa project, yang tidak diizinkan secara default.

Solusi

Untuk mengatasi masalah ini, coba satu atau beberapa langkah berikut:

Tentukan apakah peran Service Account Token Creator atau Service Account User diperlukan. Untuk mempelajari lebih lanjut, baca dokumentasi IAM untuk layanan Vertex AI yang Anda gunakan, serta integrasi produk lainnya yang Anda gunakan.
Jika Anda telah memberikan izin akun layanan di beberapa project, aktifkan akun layanan untuk dilampirkan di seluruh project dengan memastikan bahwa iam.disableCrossProjectServiceAccountUsage. tidak diterapkan. Untuk memastikan bahwa iam.disableCrossProjectServiceAccountUsage tidak diterapkan, jalankan perintah berikut:
```
gcloud resource-manager org-policies disable-enforce \
  iam.disableCrossProjectServiceAccountUsage \
  --project=PROJECT_ID
```

Memecahkan Masalah Vertex AI Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Model AutoML

Tidak ada label dalam set pengujian, validasi, atau pelatihan

Vertex AI Studio

Mencoba menyesuaikan model akan menampilkan Internal error encountered

Kode error: 429

Kode error: 410

Kode error: 403

Vertex AI Pipelines

Anda tidak memiliki izin untuk bertindak sebagai akun layanan

Error: Hash paket Python tidak cocok di komponen Vertex AI Pipelines

Error Internal error happened

Cakupan OAuth atau audiens token ID yang diberikan tidak valid

Komponen Vertex AI Pipelines memerlukan ruang disk lebih dari 100 GB

Masalah jaringan Vertex AI

Workload tidak dapat mengakses endpoint di jaringan VPC Anda saat menggunakan rentang IP publik yang digunakan secara pribadi untuk Vertex AI

com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project

Pipeline atau tugas tidak dapat mengakses endpoint dalam jaringan VPC yang di-peering

Pipeline atau tugas tidak dapat mengakses untuk menjangkau endpoint di jaringan lain di luar jaringan Anda

No route to host tanpa konflik rute yang terlihat di konsol Google Cloud

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Router status is temporarily unavailable

Workload tidak dapat me-resolve nama host untuk domain DNS di VPC Anda

Masalah konektivitas yang disebabkan oleh perilaku sisi klien

Koneksi direset dan paket yang tidak terkirim

Koneksi tidak selesai

Masalah koneksi non-API lainnya

Prediksi Vertex AI

Error percobaan ulang terlampaui

Project sudah ditautkan ke VPC

Kegagalan deployment atau penghapusan endpoint yang tidak terduga

Masalah akun layanan khusus Vertex AI

Deployment model gagal disertai error akun layanan serviceAccountAdmin

Tidak dapat mengambil token identitas saat menggunakan akun layanan kustom

Model yang dilatih khusus

Masalah pelatihan khusus

Kode error: 400

Replika dihentikan dengan kode status bukan nol

Replika kehabisan memori

Sumber daya yang tidak memadai di suatu region

Error izin saat mengakses layanan Google Cloud lain

Masalah performa saat menggunakan Cloud Storage FUSE

pip install gagal saat menggunakan KFP dengan Kontrol Layanan VPC

Error internal

Kode error 500 saat menggunakan image container kustom

Akun layanan tidak dapat mengakses bucket Cloud Storage saat men-deploy ke endpoint

Penelusuran Arsitektur Neural

Masalah umum

Vertex AI Feature Store

Resource not found error saat mengirim permintaan penyerapan streaming atau penyaluran online

Penyerapan batch berhasil untuk fitur yang baru dibuat, tetapi permintaan penyaluran online menampilkan nilai kosong

Pemakaian CPU tinggi untuk node penyaluran online

Pemakaian CPU tinggi untuk node penyaluran online terpanas

Latensi penyaluran online tinggi saat QPS rendah

Tugas penyerapan batch gagal setelah enam jam

Error Resource exceeded saat mengekspor nilai fitur

Vertex AI Vizier

Error internal

Error izin saat menggunakan peran akun layanan dengan Vertex AI

Memecahkan Masalah Vertex AI

Mencoba menyesuaikan model akan menampilkan `Internal error encountered`

Error `Internal error happened`

`com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project`

`No route to host` tanpa konflik rute yang terlihat di konsol Google Cloud

`RANGES_EXHAUSTED`, `RANGES_NOT_RESERVED`

`Router status is temporarily unavailable`

Deployment model gagal disertai error akun layanan `serviceAccountAdmin`

`pip install` gagal saat menggunakan KFP dengan Kontrol Layanan VPC

`Resource not found` error saat mengirim permintaan penyerapan streaming atau penyaluran online

Error `Resource exceeded` saat mengekspor nilai fitur