Dokumen ini menjelaskan perbedaan utama antara melatih model di Vertex AI menggunakan AutoML, pelatihan kustom, Ray di Vertex AI, atau melatih model menggunakan BigQuery ML.
Dengan AutoML, Anda dapat membuat dan melatih model dengan sedikit upaya teknis. Anda dapat menggunakan AutoML untuk membuat prototipe model dengan cepat dan mempelajari set data baru sebelum berinvestasi dalam pengembangan. Misalnya, Anda dapat menggunakannya untuk mempelajari fitur yang terbaik untuk set data tertentu.
Dengan pelatihan kustom, Anda dapat membuat aplikasi pelatihan yang dioptimalkan untuk hasil yang Anda targetkan. Anda memiliki kontrol penuh atas fungsionalitas aplikasi pelatihan. Artinya, Anda dapat menargetkan objektif apa pun, menggunakan algoritma apa pun, mengembangkan fungsi atau metrik kerugian Anda sendiri, atau melakukan penyesuaian lainnya.
Dengan Ray on Vertex AI, Anda dapat menggunakan framework komputasi terdistribusi Ray di infrastruktur Google Cloud . Ray on Vertex AI menyediakan lingkungan terkelola dengan resource komputasi yang dapat dikonfigurasi, integrasi dengan layanan seperti Inferensi Vertex AI dan BigQuery, serta opsi jaringan yang fleksibel untuk mengembangkan dan menjalankan workload terdistribusi.
Dengan BigQuery, Anda dapat melatih model menggunakan data BigQuery secara langsung di BigQuery. Dengan menggunakan perintah SQL, Anda dapat dengan cepat membuat model dan menggunakannya untuk mendapatkan inferensi batch.
Untuk membandingkan berbagai fungsi dan keahlian yang diperlukan untuk setiap layanan, tinjau tabel berikut.
AutoML | Pelatihan kustom | Ray di Vertex AI | BigQuery ML | |
---|---|---|---|---|
Diperlukan keahlian data science | Tidak | Ya, untuk mengembangkan aplikasi pelatihan dan juga melakukan beberapa persiapan data seperti rekayasa fitur. | Memiliki pemahaman dasar tentang konsep machine learning dan alur kerja data science akan sangat membantu. | Tidak |
Diperlukan kemampuan pemrograman | Tidak. AutoML tidak memerlukan kode. | Ya, untuk mengembangkan aplikasi pelatihan. | Ya. | Ya. |
Waktu untuk melatih model | Lebih sedikit. Memerlukan lebih sedikit persiapan data dan tidak memerlukan pengembangan. | Lebih banyak. Memerlukan lebih banyak persiapan data dan memerlukan pengembangan aplikasi pelatihan. Menggunakan pelatihan terdistribusi dapat mengurangi waktu yang diperlukan untuk melatih model. | Waktu untuk melatih bergantung pada logika kode (penyiapan dan pelatihan data) serta waktu untuk menyediakan resource. | Lebih sedikit. Kecepatan pengembangan model meningkat karena Anda tidak perlu membangun infrastruktur yang diperlukan untuk inferensi batch atau pelatihan model, karena BigQuery ML memanfaatkan mesin komputasi BigQuery. Hal ini dapat meningkatkan kecepatan pelatihan, evaluasi, dan inferensi. |
Batas untuk tujuan machine learning | Ya. Anda harus menargetkan salah satu tujuan yang telah ditentukan AutoML. | Tidak | Tidak | Ya |
Dapat mengoptimalkan performa model secara manual dengan penyesuaian hyperparameter | Tidak. AutoML melakukan beberapa penyesuaian hyperparameter otomatis, tetapi Anda tidak dapat mengubah nilai yang digunakan. | Ya. Anda dapat menyesuaikan model dalam setiap pelatihan yang dijalankan untuk eksperimen dan perbandingan. | Ya. Karena Anda menyediakan kode pelatihan kustom, Anda dapat menetapkan atau menyesuaikan nilai hyperparameter secara manual sebelum meluncurkan tugas Ray di Vertex AI. | Ya. BigQuery ML mendukung penyesuaian hyperparameter saat melatih model ML menggunakan pernyataan `CREATE MODEL`. |
Dapat mengontrol aspek lingkungan pelatihan | Terbatas. Untuk set data gambar dan tabular, Anda dapat menentukan jumlah jam kerja node yang akan dilatih, dan apakah Anda mengizinkan penghentian awal untuk pelatihan atau tidak. | Ya. Anda dapat menentukan aspek lingkungan seperti jenis mesin Compute Engine, ukuran disk, framework machine learning, dan jumlah node, serta image Docker yang ingin Anda gunakan untuk pelatihan. | Ya. Anda memiliki kontrol yang signifikan atas berbagai aspek lingkungan pelatihan. Misalnya, Anda dapat menggunakan image container Docker kustom Anda sendiri ke cluster Ray di Vertex AI. Saat membuat cluster Ray, Anda dapat menentukan jenis mesin untuk node head dan node worker, termasuk jumlah dan jenis akselerator (GPU) yang ingin digunakan, dan lainnya. | Tidak |
Batas untuk ukuran data |
Ya. AutoML menggunakan set data terkelola. Batas ukuran data bervariasi bergantung pada jenis set data. Lihat salah satu topik berikut untuk mengetahui detailnya: |
Tidak untuk set data yang tidak dikelola. Set data terkelola memiliki batas yang sama dengan objek set data terkelola yang dibuat dan dihosting oleh BigQuery serta digunakan untuk melatih model AutoML. | Tidak. Namun, ada ukuran respons kueri maksimum sebesar 10 GB untuk pembacaan BigQuery. Hal ini merupakan batasan ukuran respons API BigQuery, bukan batasan jumlah total data yang dapat diproses Ray di Vertex AI dari BigQuery melalui kueri berulang atau paralel. | Ya. BigQuery ML menerapkan kuota yang sesuai per project. Untuk mempelajari lebih lanjut, lihat Kuota dan batas. |
Langkah berikutnya
- Pilih tutorial pengantar untuk mulai menggunakan Vertex AI Training.
- Pelajari lebih lanjut cara melatih model AutoML.
- Pelajari cara membuat tugas pelatihan kustom menggunakan Python.
- Pelajari Ray on Vertex AI lebih lanjut.