Memilih metode pelatihan

Dokumen ini menjelaskan perbedaan utama antara melatih model di Vertex AI menggunakan AutoML, pelatihan kustom, Ray on Vertex AI, atau melatih model menggunakan BigQuery ML.

  • Dengan AutoML, Anda membuat dan melatih model dengan upaya teknis minimal. Anda dapat menggunakan AutoML untuk membuat prototipe model dengan cepat dan mempelajari set data baru sebelum berinvestasi dalam pengembangan. Misalnya, Anda dapat menggunakannya untuk mempelajari fitur yang terbaik untuk set data tertentu.

  • Dengan pelatihan kustom, Anda dapat membuat aplikasi pelatihan yang dioptimalkan untuk hasil yang ditargetkan. Anda memiliki kontrol penuh atas fungsionalitas aplikasi pelatihan. Artinya, Anda dapat menargetkan objektif apa pun, menggunakan algoritma apa pun, mengembangkan fungsi atau metrik kerugian Anda sendiri, atau melakukan penyesuaian lainnya.

  • Dengan Ray on Vertex AI, Anda dapat menggunakan framework komputasi terdistribusi Ray di Google Cloud infrastruktur. Ray di Vertex AI menyediakan lingkungan terkelola dengan resource komputasi yang dapat dikonfigurasi, integrasi dengan layanan seperti Vertex AI Prediction dan BigQuery, serta opsi jaringan yang fleksibel untuk mengembangkan dan menjalankan workload terdistribusi.

  • Dengan BigQuery, Anda dapat melatih model menggunakan data BigQuery langsung di BigQuery. Dengan menggunakan perintah SQL, Anda dapat dengan cepat membuat model dan menggunakannya untuk mendapatkan prediksi batch.

Untuk membandingkan berbagai fungsi dan keahlian yang diperlukan untuk setiap layanan, tinjau tabel berikut.

AutoML Pelatihan kustom Ray di Vertex AI BigQuery ML
Diperlukan keahlian data science Tidak Ya, untuk mengembangkan aplikasi pelatihan dan juga melakukan beberapa persiapan data seperti rekayasa fitur. Melibatkan pemahaman dasar konsep machine learning dan alur kerja data science sangat bermanfaat. Tidak
Diperlukan kemampuan pemrograman Tidak. AutoML tidak memiliki kode. Ya, untuk mengembangkan aplikasi pelatihan. Ya. Ya.
Waktu untuk melatih model Lebih sedikit. Memerlukan lebih sedikit persiapan data dan tidak memerlukan pengembangan. Lebih banyak. Memerlukan lebih banyak persiapan data dan memerlukan pengembangan aplikasi pelatihan. Menggunakan pelatihan terdistribusi dapat mengurangi waktu yang diperlukan untuk melatih model. Waktu untuk melatih bergantung pada logika kode (persiapan dan pelatihan data) serta waktu untuk menyediakan resource. Lebih sedikit. Kecepatan pengembangan model meningkat karena Anda tidak perlu membangun infrastruktur yang diperlukan untuk prediksi batch atau pelatihan model, karena BigQuery ML memanfaatkan mesin komputasi BigQuery. Hal ini meningkatkan kecepatan pelatihan, evaluasi, dan prediksi.
Batas untuk tujuan machine learning Ya. Anda harus menargetkan salah satu tujuan AutoML yang telah ditetapkan. Tidak Tidak Ya
Dapat mengoptimalkan performa model secara manual dengan penyesuaian hyperparameter Tidak. AutoML melakukan beberapa penyesuaian hyperparameter otomatis, tetapi Anda tidak dapat mengubah nilai yang digunakan. Ya. Anda dapat menyesuaikan model dalam setiap pelatihan yang dijalankan untuk eksperimen dan perbandingan. Ya. Karena menyediakan kode pelatihan kustom, Anda dapat menetapkan atau menyesuaikan nilai hyperparameter secara manual sebelum meluncurkan tugas Ray di Vertex AI. Ya. BigQuery ML mendukung penyesuaian hyperparameter saat melatih model ML menggunakan pernyataan `CREATE MODEL`.
Dapat mengontrol aspek lingkungan pelatihan Terbatas. Untuk set data gambar dan tabel, Anda dapat menentukan jumlah jam kerja node yang akan dilatih, dan apakah akan mengizinkan penghentian pelatihan lebih awal. Ya. Anda dapat menentukan aspek lingkungan seperti jenis mesin, ukuran disk, framework machine learning, dan jumlah node Compute Engine, serta image Docker yang ingin Anda gunakan untuk pelatihan. Ya. Anda memiliki kontrol yang signifikan atas berbagai aspek lingkungan pelatihan. Misalnya, Anda dapat membawa image container Docker kustom Anda sendiri ke cluster Ray di Vertex AI. Saat membuat cluster Ray, Anda dapat menentukan jenis mesin untuk node head dan worker node, termasuk jumlah dan jenis akselerator (GPU) yang ingin Anda gunakan, dan banyak lagi. Tidak
Batas untuk ukuran data

Ya. AutoML menggunakan set data terkelola. Batas ukuran data bervariasi bergantung pada jenis set data. Lihat salah satu topik berikut untuk mengetahui detailnya:

Tidak untuk set data tidak terkelola. Set data terkelola memiliki batas yang sama dengan objek set data terkelola yang dibuat di dan dihosting oleh BigQuery serta digunakan untuk melatih model AutoML. Tidak. Namun, ada ukuran respons kueri maksimum sebesar 10 GB untuk pembacaan BigQuery. Ini adalah batasan ukuran respons BigQuery API, bukan batasan jumlah total data yang dapat diproses oleh Ray di Vertex AI dari BigQuery melalui kueri iteratif atau paralel. Ya. BigQuery ML menerapkan kuota yang sesuai per project. Untuk mempelajari lebih lanjut, lihat Kuota dan batas.

Langkah berikutnya