Halaman ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah saat menggunakan Vertex AI.
Langkah-langkah pemecahan masalah untuk beberapa komponen Vertex AI tercantum secara terpisah. Lihat referensi berikut:
Untuk memfilter konten halaman ini, klik topik:
Model AutoML
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan AutoML.
Tidak ada label dalam set pengujian, validasi, atau pelatihan
Masalah
Saat Anda menggunakan pemisahan data default saat melatih model klasifikasi AutoML, Vertex AI mungkin menetapkan instance class yang terlalu sedikit ke set tertentu (pengujian, validasi, atau pelatihan), yang menyebabkan error selama pelatihan. Masalah ini lebih sering terjadi saat Anda memiliki class yang tidak seimbang atau data pelatihan dalam jumlah kecil.
Solusi
Untuk mengatasi masalah ini, tambahkan lebih banyak data pelatihan, pisahkan data Anda secara manual untuk menetapkan class yang cukup ke setiap set, atau hapus label yang lebih jarang muncul dari set data Anda. Untuk informasi selengkapnya, lihat Tentang pemisahan data untuk model AutoML.
Vertex AI Studio
Saat menggunakan Vertex AI Studio, Anda mungkin mengalami error berikut:
Mencoba menyesuaikan model akan menampilkan Internal error encountered
Masalah
Anda mengalami error Internal error encountered
saat mencoba menyesuaikan model.
Solusi
Jalankan perintah curl berikut untuk membuat set data Vertex AI kosong. Pastikan Anda mengonfigurasi project ID dengan perintah tersebut.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
Setelah perintah selesai, tunggu lima menit dan coba lakukan penyesuaian model lagi.
Kode error: 429
Masalah
Anda mengalami error berikut:
429: The online prediction request quota is exceeded for PUBLIC_BASE_MODEL_NAME.
Solusi
Coba lagi nanti dengan backoff. Jika Anda masih mengalami error, hubungi dukungan Vertex AI.
Kode error: 410
Masalah
Anda mengalami error berikut:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
Solusi
Lihat Ringkasan autentikasi untuk mempelajari lebih lanjut.
Kode error: 403
Masalah
Anda mengalami error berikut:
403: Permission denied.
Solusi
Pastikan akun yang mengakses API memiliki izin yang tepat.
Vertex AI Pipelines
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan Vertex AI Pipelines.
Anda tidak memiliki izin untuk bertindak sebagai akun layanan
Masalah
Saat menjalankan alur kerja Vertex AI Pipelines, Anda mungkin mendapatkan pesan error berikut:
You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).
Solusi
Error ini berarti akun layanan yang menjalankan alur kerja Anda tidak memiliki akses ke resource yang perlu digunakan.
Untuk mengatasi masalah ini, coba salah satu langkah berikut:
- Tambahkan peran
Vertex AI Service Agent
ke akun layanan. - Beri pengguna izin
iam.serviceAccounts.actAs
di akun layanan.
Error Internal error happened
Masalah
Jika pipeline Anda gagal dengan pesan Internal error happened
,
periksa Logs Explorer dan telusuri nama pipeline. Anda mungkin melihat
error seperti berikut:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID/global/networks/VPC_NETWORK.APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: 'RANGE_NAME' not found for consumer project: 'PROJECT_ID' network: 'VPC_NETWORK'. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME' not found for consumer project
Artinya, peering VPC untuk Vertex AI mencakup rentang IP yang telah dihapus.
Solusi
Untuk mengatasi masalah ini, perbarui peering VPC menggunakan perintah update dan sertakan rentang IP yang valid.
Cakupan OAuth atau audiens token ID yang diberikan tidak valid
Masalah
Saat menjalankan alur kerja Vertex AI Pipelines, Anda akan mendapatkan pesan error berikut:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
Solusi
Artinya, Anda belum memberikan kredensial di salah satu komponen
pipeline atau tidak menggunakan ai_platform.init()
untuk menetapkan kredensial.
Untuk mengatasi masalah ini, tetapkan kredensial untuk komponen pipeline yang relevan atau tetapkan kredensial lingkungan dan gunakan ai_platform.init()
di awal kode Anda.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY
Komponen Vertex AI Pipelines memerlukan ruang disk lebih dari 100 GB
Masalah
Ruang disk default yang dialokasikan untuk komponen Vertex AI Pipelines adalah 100 GB dan peningkatan ruang disk tidak didukung. Lihat Public Issue Tracker untuk masalah ini.
Solusi
Agar komponen dapat menggunakan ruang disk lebih dari 100 GB, konversi komponen menjadi tugas kustom menggunakan metode komponen. Dengan operator ini, Anda dapat menetapkan jenis mesin dan ukuran disk yang digunakan komponen.
Untuk contoh cara menggunakan operator ini, lihat Vertex AI Pipelines: Pelatihan kustom dengan Komponen Pipeline bawaan Google Cloud , di bagian Mengonversi komponen menjadi Tugas Kustom Vertex AI.
Masalah jaringan Vertex AI
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah terkait jaringan untuk Vertex AI.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
Workload tidak dapat mengakses endpoint di jaringan VPC Anda saat menggunakan rentang IP publik yang digunakan secara pribadi untuk Vertex AI
Masalah
Rentang IP publik yang digunakan secara pribadi tidak diimpor secara default.
Solusi
Untuk menggunakan rentang IP publik yang digunakan secara pribadi, Anda harus mengaktifkan impor rentang IP publik yang digunakan secara pribadi
com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project
Masalah
Anda menerima error dalam bentuk com.google.api.tenant.error.TenantManagerException:
Reserved range: nnn not found for consumer project
saat menjalankan beban kerja atau men-deploy endpoint.
Hal ini terjadi saat Anda mengubah reservasi akses layanan pribadi untuk beban kerja Anda. Rentang yang dihapus mungkin belum terdaftar di Vertex AI API.
Solusi
Jalankan gcloud services vpc-peerings update
untuk servicenetworking
setelah memperbarui alokasi akses layanan pribadi.
Pipeline atau tugas tidak dapat mengakses endpoint dalam jaringan VPC yang di-peering
Masalah
Waktu tunggu pipeline Vertex AI Anda habis saat mencoba terhubung ke resource di jaringan VPC Anda.
Solusi
Coba langkah-langkah berikut untuk mengatasi masalah ini:
- Pastikan Anda telah menyelesaikan semua langkah dalam Menyiapkan Peering Jaringan VPC.
Tinjau konfigurasi jaringan VPC yang di-peering. Pastikan jaringan Anda mengimpor rute dari rentang jaringan layanan yang tepat saat tugas Anda sedang berjalan.
Pastikan Anda memiliki aturan firewall yang mengizinkan koneksi dari rentang ini ke target di jaringan Anda.
Jika koneksi peering tidak mengimpor rute apa pun saat tugas Anda berjalan, ini berarti konfigurasi jaringan layanan tidak digunakan. Hal ini mungkin terjadi karena Anda menyelesaikan konfigurasi peering dengan jaringan selain jaringan default. Jika demikian, pastikan Anda menentukan jaringan saat meluncurkan tugas. Gunakan nama jaringan yang sepenuhnya memenuhi syarat dalam format berikut:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME
.Untuk informasi selengkapnya, lihat Ringkasan rute.
Pipeline atau tugas tidak dapat mengakses untuk menjangkau endpoint di jaringan lain di luar jaringan Anda
Masalah
Pipeline atau tugas Anda tidak dapat mengakses endpoint di jaringan di luar jaringan Anda.
Solusi
Secara default, konfigurasi peering Anda hanya mengekspor rute ke subnet lokal di VPC Anda.
Selain itu, peering transitif tidak didukung dan hanya jaringan yang di-peering langsung yang dapat berkomunikasi.
- Agar Vertex AI dapat terhubung melalui
jaringan Anda dan menjangkau endpoint di jaringan lain, Anda harus mengekspor rute
jaringan ke koneksi peering. Edit konfigurasi jaringan VPC
yang di-peering dan aktifkan
Export custom routes
.
Karena peering transitif tidak didukung, Vertex AI tidak
mempelajari rute ke jaringan dan layanan yang di-peering lainnya, meskipun dengan
Export Custom Routes
diaktifkan. Untuk mengetahui informasi tentang solusi, lihat
Memperluas keterjangkauan jaringan Vertex AI Pipelines.
No route to host
tanpa konflik rute yang terlihat di konsol Google Cloud
Masalah
Satu-satunya rute yang dapat Anda lihat di konsol Google Cloud adalah rute yang diketahui oleh VPC Anda sendiri serta rentang yang dicadangkan saat Anda menyelesaikan konfigurasi Peering Jaringan VPC.
Terkadang, tugas Vertex AI dapat memunculkan no route to host
keluhan
saat mencoba menjangkau alamat IP yang diekspor VPC Anda ke jaringan
Vertex AI.
Hal ini mungkin karena tugas Vertex AI berjalan dalam namespace jaringan di cluster GKE terkelola yang rentang IP-nya bertentangan dengan IP target. Lihat dasar-dasar jaringan GKE untuk pembahasan lebih lanjut.
Dalam kondisi ini, beban kerja mencoba terhubung ke IP dalam namespace jaringannya sendiri dan menampilkan error jika tidak dapat menjangkaunya.
Solusi
Buat workload Anda untuk menampilkan alamat IP namespace lokalnya dan pastikan bahwa alamat IP ini tidak berkonflik dengan rute yang Anda ekspor melalui koneksi peering.
Jika ada konflik, teruskan daftar reservedIpRanges[]
dalam parameter tugas yang tidak tumpang-tindih dengan rentang apa pun di jaringan VPC Anda.
Tugas menggunakan rentang ini untuk alamat IP internal beban kerja.
RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
Masalah
Error dalam bentuk RANGES_EXHAUSTED
dan RANGES_NOT_RESERVED
serta
RANGES_DELETED_LATER
menunjukkan masalah pada konfigurasi
peering jaringan VPC yang mendasarinya. Ini adalah error jaringan
dan bukan error dari layanan Vertex AI itu sendiri.
Solusi
Saat menghadapi error RANGES_EXHAUSTED
, Anda harus mempertimbangkan terlebih dahulu apakah keluhan ini valid.
- Buka Network Analyzer di konsol cloud dan cari insight dalam bentuk "Summary of IP address allocation" di jaringan VPC. Jika menunjukkan bahwa alokasi berada pada atau mendekati 100%, Anda dapat menambahkan rentang baru ke reservasi.
- Pertimbangkan juga jumlah maksimum tugas paralel yang dapat dijalankan dengan reservasi berukuran tertentu.
Untuk mengetahui informasi selengkapnya, lihat Error Validasi Infrastruktur Layanan
Jika error tetap berlanjut, hubungi dukungan.
Router status is temporarily unavailable
Masalah
Saat meluncurkan Vertex AI Pipelines, Anda menerima pesan error yang mirip dengan berikut ini:
Router status is temporarily unavailable. Please try again later
Solusi
Pesan error menunjukkan bahwa ini adalah kondisi sementara. Coba luncurkan Vertex AI Pipelines lagi.
Jika error tetap berlanjut, hubungi dukungan.
Workload tidak dapat me-resolve nama host untuk domain DNS di VPC Anda
Masalah
Workload Vertex AI gagal terhubung ke nama host yang dikonfigurasi di VPC Anda. Anda telah mengonfirmasi bahwa nama host ini dapat diakses dari klien dalam VPC Anda.
Hal ini karena workload berjalan dalam project yang dikelola Google. VPC di lingkungan terkelola ini harus di-peering ke VPC Anda untuk menggunakan resource jaringan Anda. Selain itu, semua zona DNS yang perlu diakses oleh beban kerja ini harus dibagikan secara khusus ke VPC yang dikelola Google.
Solusi
- Pastikan Anda telah menyiapkan Peering Jaringan VPC untuk Vertex AI di jaringan VPC Anda.
- Selesaikan langkah-langkah untuk membagikan zona DNS pribadi dengan jaringan produsen Vertex AI.
- Pastikan workload Vertex AI Anda diluncurkan dengan tanda
--network
yang menentukan jaringan VPC Anda. Hal ini memungkinkan mereka berjalan di jaringan yang dikelola Google dan mengakses zona DNS yang telah Anda bagikan.
Masalah konektivitas yang disebabkan oleh perilaku sisi klien
Jika Anda mengalami masalah konektivitas saat mencoba menggunakan Google Cloud API, penyebab utamanya mungkin ada di sisi klien. Bagian ini menyarankan solusi sisi klien yang dapat meningkatkan pengalaman Anda.
Koneksi direset dan paket yang tidak terkirim
Masalah
Saat Anda mencoba menggunakan Google Cloud API, Anda akan mengalami reset koneksi dan paket yang dihapus.
Solusi
Untuk membantu mengatasi masalah ini, pertimbangkan hal berikut:
- Untuk traffic transaksi bervolume tinggi yang memiliki persyaratan latensi rendah, pertimbangkan apakah ada masalah umum dengan kartu antarmuka klien lokal yang dapat menyebabkan koneksi TCP direset atau paket dihapus.
- Pertimbangkan apakah ada layanan sisi klien di jalur permintaan yang menggunakan
iptables. Hal ini dapat mencakup
cluster kubernetes atau beberapa firewall stateful dan perangkat NAT. Secara default, subsistem pelacakan koneksi (conntrack) Linux akan mengikuti spesifikasi protokol TCP secara ketat dan, misalnya, menghapus paket TCP yang tidak berurutan. Untuk menonaktifkan perilaku ini, aktifkan parameter kernel Linux
net.netfilter.nf_conntrack_tcp_be_liberal
atau yang setara.
Koneksi tidak selesai
Masalah
Saat mencoba menggunakan Google Cloud API, Anda mengalami koneksi yang tidak lengkap.
Solusi
Untuk membantu mengatasi masalah ini, pertimbangkan hal berikut:
- Jika jalur penerusan memiliki beberapa rute kembali ke klien, pastikan Anda memahami konsep Reverse Path Forwarding. Nonaktifkan perilaku ini jika Anda mencurigai bahwa perilaku ini memblokir koneksi.
- Untuk koneksi yang di-load balance, pertimbangkan apakah aturan firewall masuk Anda mengizinkan paket respons ke kedua load balancer.
Masalah koneksi non-API lainnya
Untuk membantu mengatasi masalah koneksi non-API, pertimbangkan hal berikut:
- Jika ada proxy di jalur permintaan, pertimbangkan apakah proxy tersebut dapat menyebabkan masalah yang Anda alami. Tinjau dokumentasi dan pastikan untuk memecahkan masalah proxy saat menghadapi masalah seperti latensi yang tidak dapat dijelaskan, koneksi terputus, penggantian DNS, pemblokiran lintas asal, dan masalah serupa lainnya.
- Terutama saat menangani
respons
429
dari API Google Cloud , logika sisi klien yang segera mencoba ulang koneksi dapat memperburuk masalah. Pastikan Anda memahami dan menerapkan backoff eksponensial saat menerapkan percobaan ulang.
Prediksi Vertex AI
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah dengan prediksi Vertex AI.
Error percobaan ulang terlampaui
Masalah
Anda akan mendapatkan error seperti berikut saat menjalankan tugas prediksi batch, yang menunjukkan bahwa mesin yang menjalankan model kustom mungkin tidak dapat menyelesaikan prediksi dalam batas waktu.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
Hal ini dapat terjadi saat layanan prediksi Vertex AI mendaftarkan dirinya dengan layanan Google Front End, yang memproksi koneksi dari klien ke Vertex AI Prediction API.
Layanan Google Front End akan menghentikan koneksi dan menampilkan kode respons HTTP 500 kepada klien jika tidak menerima respons dari API dalam waktu 10 menit.
Solusi
Untuk mengatasi masalah ini, coba salah satu langkah berikut:
- Tingkatkan node komputasi, atau ubah jenis mesin.
- Buat container prediksi Anda untuk mengirim kode respons HTTP 102 secara berkala. Tindakan ini mereset timer 10 menit di layanan Google Front End.
Project sudah ditautkan ke VPC
Masalah
Saat men-deploy endpoint, Anda mungkin melihat pesan error seperti berikut, yang menunjukkan bahwa endpoint Vertex AI Anda sebelumnya telah menggunakan jaringan Virtual Private Cloud dan resource tidak dibersihkan dengan benar.
Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.
Solusi
Untuk mengatasi masalah ini, coba jalankan perintah ini di Cloud Shell.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
Tindakan ini akan memutuskan koneksi jaringan VPC lama Anda dari VPC Service Networking secara manual.
Kegagalan deployment atau penghapusan endpoint yang tidak terduga
Masalah
Deployment model gagal secara tidak terduga, endpoint ditemukan telah dihapus, atau model yang sebelumnya di-deploy telah dibatalkan deployment-nya.
Akun penagihan Anda mungkin tidak valid. Jika tetap tidak valid dalam waktu yang lama, beberapa resource mungkin akan dihapus dari project yang terkait dengan akun Anda. Misalnya, endpoint dan model Anda mungkin dihapus. Resource yang dihapus tidak dapat dipulihkan.
Solusi
Untuk mengatasi masalah ini, Anda dapat mencoba langkah-langkah berikut:
- Verifikasi status penagihan project Anda.
- Hubungi Dukungan Penagihan Cloud untuk meminta bantuan terkait pertanyaan penagihan.
Untuk mengetahui informasi selengkapnya, lihat Pertanyaan terkait penagihan.
Masalah akun layanan khusus Vertex AI
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah terkait akun layanan.
Deployment model gagal disertai error akun layanan serviceAccountAdmin
Masalah
Deployment model Anda gagal dengan error seperti berikut:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
Solusi
Error ini berarti akun layanan kustom Anda mungkin belum dikonfigurasi dengan benar. Untuk membuat akun layanan khusus dengan izin IAM yang benar, lihat Menggunakan akun layanan khusus.
Tidak dapat mengambil token identitas saat menggunakan akun layanan kustom
Masalah
Saat menggunakan akun layanan kustom, tugas pelatihan yang berjalan di satu replika tidak dapat menjangkau layanan metadata Compute Engine yang diperlukan untuk mengambil token.
Anda akan melihat error yang mirip dengan:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
Solusi
Untuk mengambil token identitas dengan akun layanan kustom, Anda harus menggunakan iamcredentials.googleapis.com.
Model yang dilatih khusus
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan model yang dilatih kustom.
Masalah pelatihan khusus
Masalah berikut dapat terjadi selama pelatihan khusus. Masalah ini terjadi pada
resource CustomJob
dan HyperparameterTuningJob
, termasuk yang dibuat
oleh resource TrainingPipeline
.
Kode error: 400
Masalah
Anda mengalami error berikut:
400 Machine type MACHINE_TYPE is not supported.
Anda mungkin melihat pesan error ini jika jenis mesin yang dipilih tidak didukung untuk pelatihan Vertex AI, atau jika resource tertentu tidak tersedia di region yang dipilih.
Solusi
Gunakan hanya jenis mesin yang tersedia di region yang sesuai.
Replika dihentikan dengan kode status bukan nol
Masalah
Selama pelatihan terdistribusi, error dari pekerja mana pun akan menyebabkan pelatihan menjadi gagal.
Solusi
Untuk memeriksa stack trace bagi pekerja, lihat log pelatihan kustom Anda di Google Cloud konsol.
Lihat topik pemecahan masalah lainnya untuk memperbaiki error umum, lalu buat resource
CustomJob
, HyperparameterTuningJob
, atau TrainingPipeline
baru. Dalam banyak
kasus, kode error disebabkan oleh masalah dalam kode pelatihan Anda, tidak disebabkan oleh
layanan Vertex AI. Untuk menentukan apakah hal tersebut memang terjadi, Anda dapat menjalankan kode pelatihan di mesin lokal atau di Compute Engine.
Replika kehabisan memori
Masalah
Error dapat terjadi jika instance virtual machine (VM) pelatihan kehabisan memori selama pelatihan.
Solusi
Anda dapat melihat penggunaan memori VM pelatihan di konsol Google Cloud .
Meskipun error ini muncul, Anda mungkin tidak mendapati penggunaan memori 100% di VM,
karena layanan selain aplikasi pelatihan Anda yang berjalan di VM juga
memakai resource. Untuk jenis
mesin yang memiliki lebih sedikit
memori, layanan lain mungkin menggunakan persentase memori yang relatif besar.
Misalnya, pada VM n1-standard-4
, layanan dapat menggunakan hingga 40%
memori.
Anda dapat mengoptimalkan konsumsi memori aplikasi pelatihan, atau Anda dapat memilih jenis mesin yang lebih besar dengan lebih banyak memori.
Sumber daya yang tidak memadai di suatu region
Masalah
Anda mengalami masalah kehabisan stok di suatu wilayah.
Solusi
Vertex AI melatih model Anda menggunakan resource Compute Engine. Vertex AI tidak dapat menjadwalkan workload Anda jika Compute Engine memiliki kapasitas untuk CPU atau GPU tertentu di suatu region. Masalah ini tidak terkait dengan kuota project Anda.
Saat kapasitas Compute Engine tercapai, Vertex AI akan otomatis
mencoba ulang CustomJob
atau HyperparameterTuningJob
Anda hingga tiga kali. Tugas
akan gagal jika semua percobaan ulang gagal.
Stok habis biasanya terjadi saat Anda menggunakan GPU. Jika Anda mengalami error ini saat menggunakan GPU, cobalah beralih ke jenis GPU lain. Jika Anda dapat menggunakan region lain, cobalah melakukan pelatihan di region yang berbeda.
Error izin saat mengakses layanan Google Cloud lain
Jika Anda mengalami error izin saat mengakses layanan Google Cloud
lain dari kode pelatihan (misalnya:
google.api_core.exceptions.PermissionDenied: 403
), Anda mungkin mengalami salah satu
masalah berikut:
-
Masalah
Agen layanan atau akun layanan yang menjalankan kode Anda (baik Agen Layanan Kode Kustom Vertex AI untuk project Anda atau akun layanan kustom) tidak memiliki izin yang diperlukan.
Solusi
Pelajari cara memberi izin kepada Agen Layanan Kode Kustom Vertex AI atau mengonfigurasi akun layanan kustom dengan izin yang diperlukan.
-
Masalah
Agen layanan atau akun layanan yang menjalankan kode Anda memiliki izin yang diperlukan, tetapi kode Anda mencoba mengakses resource dalam project yang salah. Hal ini mungkin menjadi masalah jika pesan error merujuk project ID yang diakhiri dengan
-tp
.Solusi
Karena cara Vertex AI menjalankan kode pelatihan Anda, masalah ini dapat terjadi secara tidak sengaja jika Anda tidak secara eksplisit menentukan project ID atau nomor project dalam kode Anda.
Pelajari cara memperbaiki masalah ini dengan menentukan project ID atau nomor project.
-
Masalah
Tugas Vertex AI Training Anda berhasil dijalankan dengan data lokal, tetapi tidak dengan data dari Cloud Storage.
Solusi
Tambahkan izin
storage.buckets.create
ke peran Agen Layanan Kode Kustom Vertex AI untuk project.Pelajari cara memperbaiki masalah ini dengan menambahkan peran tertentu ke agen layanan Vertex AI.
Masalah performa saat menggunakan Cloud Storage FUSE
Masalah
Tugas Cloud Storage FUSE berjalan lambat.
Solusi
Lihat "Pedoman pengoptimalan performa" di Menggunakan Cloud Storage sebagai sistem file yang terpasang.
pip install
gagal saat menggunakan KFP dengan Kontrol Layanan VPC
Masalah
Anda akan melihat error berikut:
ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10>, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/
Solusi
Perimeter layanan Kontrol Layanan VPC memblokir akses dari Vertex AI ke API dan layanan pihak ketiga di internet. Untuk menginstal paket, gunakan packageUris untuk menginstal dependensi dari bucket Cloud Storage. Untuk pembahasan umum tentang penggunaan teknik ini, lihat "Menggunakan container kustom" di Kontrol Layanan VPC dengan Vertex AI.
Error internal
Masalah
Pelatihan Anda gagal karena error sistem.
Solusi
Masalah ini mungkin bersifat sementara; coba kirim ulang CustomJob
,
HyperparameterTuningJob
, atau TrainingPipeline
. Jika error tetap berlanjut,
hubungi dukungan.
Kode error 500 saat menggunakan image container kustom
Masalah
Anda melihat error 500 di log.
Solusi
Jenis error ini kemungkinan merupakan masalah pada image container kustom Anda, bukan error Vertex AI.
Akun layanan tidak dapat mengakses bucket Cloud Storage saat men-deploy ke endpoint
Masalah
Saat mencoba men-deploy model ke endpoint dan akun layanan Anda
tidak memiliki akses
storage.objects.list
ke bucket Cloud Storage yang terkait,
Anda mungkin mendapatkan error berikut:
custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
Secara default, container kustom yang men-deploy model Anda menggunakan akun layanan yang tidak memiliki akses ke bucket Cloud Storage Anda.
Solusi
Untuk mengatasinya, coba salah satu langkah berikut:
Salin file yang ingin Anda akses dari container ke dalam artefak model saat mengupload model. Vertex AI akan menyalinnya ke lokasi yang dapat diakses oleh akun layanan default, mirip dengan semua artefak model lainnya.
Salin file ke container sebagai bagian dari proses build container.
Tentukan akun layanan khusus
Penelusuran Arsitektur Neural
Masalah umum
- Setelah membatalkan tugas NAS, tugas utama (induk) akan berhenti, tetapi beberapa uji coba turunan tetap menampilkan status Berjalan. Abaikan status uji coba turunan yang menampilkan status Berjalan dalam kasus ini. Uji coba telah dihentikan, tetapi UI terus menampilkan status Berjalan. Selama tugas utama telah berhenti, Anda tidak akan dikenai biaya tambahan.
- Setelah melaporkan reward di pelatih, tunggu (aktifkan mode tidur) selama 10 menit sebelum tugas uji coba dihentikan.
Saat menggunakan Cloud Shell untuk menjalankan
TensorBoard
, link output yang dihasilkan mungkin tidak berfungsi. Dalam hal ini, tuliskan nomor port, gunakan alat Pratinjau Web, lalu pilih nomor port yang benar untuk menampilkan plot.Mengakses alat
Web Preview
:Jika Anda melihat pesan error seperti berikut di log pelatih:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
gunakan mesin dengan RAM yang lebih besar, karena kondisi OOM menyebabkan error ini.
Jika pelatih kustom Anda tidak dapat menemukan FLAG
job-dir
direktori tugas, imporjob_dir
dengan garis bawah, bukan tanda hubung. Dijelaskan dalam catatan di tutorial-1.Error NaN selama pelatihan Mungkin akan ada error NaN dalam tugas pelatihan seperti
NaN : Tensor had NaN values
. Kecepatan pembelajaran mungkin terlalu besar untuk arsitektur yang disarankan. Untuk mengetahui informasi selengkapnya, lihat Error terkait kehabisan memori (OOM) dan kecepatan pembelajaran.Error OOM selama pelatihan Mungkin akan ada error OOM (out-of-memory) dalam tugas pelatihan. Ukuran tumpukan mungkin terlalu besar untuk memori akselerator. Untuk informasi selengkapnya, lihat Error terkait kehabisan memori (OOM) dan kecepatan pembelajaran.
Tugas pengontrol pemilihan model tugas proxy mati Dalam kasus yang jarang terjadi ketika tugas pengontrol pemilihan model tugas proxy mati, Anda dapat melanjutkan tugas dengan mengikuti langkah-langkah ini.
Tugas pengontrol penelusuran tugas proxy mati Dalam kasus yang jarang terjadi ketika tugas pengontrol penelusuran tugas proxy mati, Anda dapat melanjutkan tugas dengan mengikuti langkah-langkah ini.
Akun layanan tidak memiliki izin untuk mengakses Artifact Registry atau bucket. Jika Anda mendapatkan error seperti
Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas
atau error serupa untuk akses bucket, beri akun layanan ini peran editor penyimpanan dalam project Anda.
Vertex AI Feature Store
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan Vertex AI Feature Store.
Resource not found
error saat mengirim permintaan penyerapan streaming atau penyaluran online
Masalah
Setelah Anda menyiapkan featurestore, jenis entity, atau resource fitur, akan ada
penundaan sebelum resource tersebut diterapkan ke
layanan FeaturestoreOnlineServingService
. Terkadang penerapan yang tertunda ini
dapat menyebabkan error resource not found
saat Anda mengirimkan permintaan penyerapan streaming
atau penyaluran online segera setelah membuat resource.
Solusi
Jika Anda menerima error ini, tunggu beberapa menit, lalu coba lagi permintaan Anda.
Penyerapan batch berhasil untuk fitur yang baru dibuat, tetapi permintaan penyaluran online menampilkan nilai kosong
Masalah
Khusus untuk fitur yang baru dibuat, ada penundaan sebelum fitur tersebut
diterapkan ke layanan FeaturestoreOnlineServingService
. Fitur dan
nilai ada, tetapi perlu waktu untuk diterapkan. Hal ini dapat menyebabkan permintaan
penyaluran online Anda menampilkan nilai kosong.
Solusi
Jika Anda melihat ketidaksesuaian ini, tunggu beberapa menit, lalu coba lagi permintaan penyaluran online Anda.
Pemakaian CPU tinggi untuk node penyaluran online
Masalah
Penggunaan CPU untuk node penyaluran online Anda tinggi.
Solusi
Untuk mengurangi masalah ini, Anda dapat meningkatkan jumlah node penyaluran online dengan menambah jumlah node secara manual atau dengan mengaktifkan penskalaan otomatis. Perhatikan bahwa meskipun penskalaan otomatis diaktifkan, Vertex AI Feature Store memerlukan waktu untuk menyeimbangkan kembali data saat node ditambahkan atau dihapus. Untuk mengetahui informasi tentang cara melihat metrik distribusi nilai fitur dari waktu ke waktu, lihat Melihat metrik nilai fitur.
Pemakaian CPU tinggi untuk node penyaluran online terpanas
Masalah
Jika pemakaian CPU untuk node terpanas tinggi, Anda dapat meningkatkan jumlah node penyaluran atau mengubah pola akses entity menjadi pseudo-random.
Solusi
Menyetel pola akses entity ke pseudo-random akan mengurangi tingginya pemakaian CPU yang dihasilkan dari entity yang sering mengakses yang terletak berdekatan satu sama lain di featurestore. Jika tidak ada solusi yang efektif, implementasikan cache sisi klien untuk menghindari akses entity yang sama berulang kali.
Latensi penyaluran online tinggi saat QPS rendah
Masalah
Periode tidak aktif atau aktivitas rendah pada QPS rendah dapat mengakibatkan masa berlaku beberapa cache sisi server berakhir. Hal ini dapat mengakibatkan latensi tinggi saat traffic ke node penyaluran online dilanjutkan dengan QPS reguler atau lebih tinggi.
Solusi
Untuk mengatasi masalah ini, Anda harus menjaga koneksi tetap aktif dengan mengirimkan traffic buatan minimal 5 QPS ke featurestore.
Tugas penyerapan batch gagal setelah enam jam
Masalah
Tugas penyerapan batch dapat gagal karena sesi baca berakhir setelah enam jam.
Solusi
Untuk menghindari habisnya waktu tunggu, tingkatkan jumlah pekerja untuk menyelesaikan tugas penyerapan dalam batas waktu enam jam.
Error Resource exceeded
saat mengekspor nilai fitur
Masalah
Mengekspor data dalam jumlah besar dapat gagal dengan error resource terlampaui jika tugas ekspor melebihi kuota internal.
Solusi
Untuk menghindari error ini, Anda dapat mengonfigurasi parameter rentang waktu, start_time
dan end_time
, untuk memproses data dalam jumlah yang lebih kecil sekaligus. Untuk mengetahui informasi tentang ekspor lengkap, lihat Ekspor lengkap.
Vertex AI Vizier
Saat menggunakan Vertex AI Vizier, Anda mungkin mengalami masalah berikut.
Error internal
Masalah
Error internal terjadi saat ada error sistem.
Solusi
Hal ini mungkin bersifat sementara. Coba kirim ulang permintaan, dan jika error terus berlanjut, hubungi dukungan.
Error izin saat menggunakan peran akun layanan dengan Vertex AI
Masalah
Anda mendapatkan error izin umum saat menggunakan peran akun layanan dengan Vertex AI.
Error ini dapat muncul di Cloud Logging dalam log komponen produk atau log audit. Peringatan ini juga dapat muncul dalam kombinasi apa pun dari project yang terpengaruh.
Masalah ini dapat disebabkan oleh salah satu atau kedua hal berikut:
Penggunaan peran
Service Account Token Creator
saat peranService Account User
seharusnya digunakan, atau sebaliknya. Peran ini memberikan izin yang berbeda pada akun layanan dan tidak dapat dipertukarkan. Untuk mempelajari perbedaan antara peranService Account Token Creator
danService Account User
, lihat Peran akun layanan.Anda telah memberikan izin akun layanan di beberapa project, yang tidak diizinkan secara default.
Solusi
Untuk mengatasi masalah ini, coba satu atau beberapa langkah berikut:
Tentukan apakah peran
Service Account Token Creator
atauService Account User
diperlukan. Untuk mempelajari lebih lanjut, baca dokumentasi IAM untuk layanan Vertex AI yang Anda gunakan, serta integrasi produk lainnya yang Anda gunakan.Jika Anda telah memberikan izin akun layanan di beberapa project, aktifkan akun layanan untuk dilampirkan di seluruh project dengan memastikan bahwa
iam.disableCrossProjectServiceAccountUsage
. tidak diterapkan. Untuk memastikan bahwaiam.disableCrossProjectServiceAccountUsage
tidak diterapkan, jalankan perintah berikut:gcloud resource-manager org-policies disable-enforce \ iam.disableCrossProjectServiceAccountUsage \ --project=PROJECT_ID