Halaman ini menjelaskan status cluster pelatihan selama siklus proses tugas pelatihan, dan cara AI Platform Training menangani error pelatihan. Anda dapat menggunakan informasi ini untuk menyesuaikan kode pelatihan Anda.
Siklus proses tugas pelatihan
Bagian ini menjelaskan cara AI Platform Training menangani VM pekerja melalui siklus proses tugas pelatihan.
Memulai worker secara paralel
Saat tugas pelatihan dimulai, AI Platform Training menjadwalkan sebanyak mungkin pekerja dalam waktu singkat. Akibatnya, worker dapat memulai secara paralel, bukan secara berurutan. Untuk mengurangi latensi pengaktifan,
Pelatihan AI Platform mulai menjalankan kode Anda pada setiap pekerja segera setelah
tersedia. Saat semua pekerja tersedia, AI Platform Training
akan menetapkan status tugas ke
RUNNING
.
Pada umumnya, framework machine learning Anda akan otomatis menangani worker secara paralel. Jika menggunakan strategi distribusi dalam kode pelatihan, Anda mungkin perlu menyesuaikannya secara manual untuk menangani worker yang dimulai secara paralel. Pelajari lebih lanjut strategi distribusi di TensorFlow dan di PyTorch.
Memulai ulang worker selama tugas pelatihan
Selama tugas pelatihan, Pelatihan AI Platform dapat memulai ulang server master, pekerja, atau parameter Anda dengan nama host yang sama. Masalah ini dapat terjadi karena alasan berikut:
- Pemeliharaan VM: Saat VM yang menjalankan pekerja dikenai pemeliharaan VM, Pelatihan AI Platform akan memulai ulang pekerja di VM lain. Pelajari lebih lanjut migrasi langsung untuk pemeliharaan VM.
Keluar yang bukan nol: Jika ada pekerja yang keluar dengan kode keluar bukan nol, AI Platform Training akan segera memulai ulang pekerja tersebut di VM yang sama.
- Jika pekerja gagal karena error umum, hal tersebut akan diperlakukan sebagai error permanen, dan AI Platform Training akan menghentikan seluruh tugas. Jika ada container yang dimulai ulang sebelum AI Platform Training menghentikan seluruh tugas, container ini dapat menghasilkan log di Cloud Logging.
- Jika pekerja gagal karena error non-permanen (error yang tidak tercantum dalam error umum), AI Platform Training memungkinkan pekerja yang dimulai ulang terus berjalan, dengan hingga lima kali mulai ulang per pekerja. Setelah lima kali dimulai ulang, jika pekerja gagal lagi, AI Platform Training akan mencoba seluruh tugas hingga tiga kali sebelum gagal sepenuhnya.
Untuk menangani mulai ulang worker dalam kode pelatihan, simpan checkpoint secara rutin selama pelatihan sehingga Anda dapat memulihkan dari checkpoint saat worker dimulai ulang. Jika Anda memperkirakan pelatihan akan memakan waktu lebih dari empat jam, sebaiknya simpan checkpoint setidaknya sekali setiap empat jam. Pelajari cara menggunakan checkpoint pelatihan di TensorFlow dan di PyTorch.
Berhasil menyelesaikan tugas
Tugas pelatihan berhasil diselesaikan saat replika utamanya keluar dengan kode exit 0. Pada saat itu, AI Platform Training akan menghentikan semua pekerja lainnya yang sedang berjalan.
Cara AI Platform Training menangani error tugas pelatihan
Bagian ini menjelaskan cara AI Platform Training menangani error tugas pelatihan yang umum dan error internal.
Sekitar satu menit setelah tugas berakhir, AI Platform Training menetapkan kode error pada objek tugas pelatihan, berdasarkan kode keluar.
Menangani error umum
AI Platform Training akan menonaktifkan semua pekerja jika mengalami salah satu masalah berikut:
Jenis Error | Log/Pesan Error | Catatan |
Pengecualian kode pengguna | Replika REPLICA_NAME keluar dengan status EXIT_CODE bukan nol. Alasan penghentian: REASON. | Jika tugas mengalami exit code yang bersifat sementara, AI Platform Training akan mencoba memulai ulang tugas hingga tiga kali.
Kode error yang berpotensi sementara yang meminta AI Platform Training untuk
mencoba lagi tugas mencakup hal berikut:
|
Kehabisan memori | Replika REPLICA_NAME kehabisan memori dan keluar dengan status EXIT_CODE bukan nol. |
GKE mencadangkan memori pada node Pelatihan AI Platform. Pada jenis mesin terkecil (seperti n1-standard-4 ), agen sistem Pelatihan AI Platform dapat menggunakan hingga 40% dari total memori.
Untuk VM yang lebih besar, overhead-nya relatif kecil. Bandingkan memori yang dapat dialokasikan untuk jenis mesin n1-standard .
|
Kapasitas tidak memadai di region Anda (kehabisan stok Compute Engine) | Resource tidak memadai di region: REGION_NAME. Coba region lain. Jika Anda menggunakan K80 , sebaiknya gunakan P100 atau V100 .
|
Stok habis terjadi saat Compute Engine mencapai kapasitasnya untuk CPU atau GPU yang dipilih di region Anda. Hal ini tidak terkait dengan kuota project Anda. Jika hal ini terjadi, AI Platform Training akan mencoba memulai ulang tugas hingga tiga kali. |
Menangani error internal
Jika mengalami error internal, AI Platform Training akan mencoba memulai ulang tugas
dua kali (total tiga kali percobaan). Jika upaya mulai ulang juga gagal,
AI Platform Training akan menampilkan error internal dengan pesan:
Internal error occurred for the current attempt
.