Ringkasan persiapan data

Ada beberapa opsi untuk mengembangkan data pelatihan Anda.

Pilihan yang Anda buat bergantung pada banyak faktor.

Cloud Storage sebagai Sistem File yang Dipasang (Cloud Storage FUSE)

Pertimbangkan untuk menggunakan Cloud Storage sebagai Sistem File yang Dipasang (Cloud Storage FUSE) karena alasan berikut:

  • Jika data pelatihan tidak terstruktur, seperti gambar, teks, atau video: Cloud Storage adalah pilihan yang tepat untuk menyimpan jenis file besar ini, yang sering kali berupa file individual.
  • Jika data pelatihan terstruktur dalam format seperti TFRecord: Cloud Storage biasanya digunakan untuk format khusus ML ini.
  • Saat Anda menangani file yang sangat besar: Cloud Storage FUSE akan melakukan streaming data ke tugas pelatihan, bukan mengharuskan seluruh file didownload ke replika. Hal ini dapat mempercepat pemuatan data dan waktu mulai tugas untuk set data besar.
  • Saat melakukan pelatihan terdistribusi: Cloud Storage FUSE menyediakan throughput tinggi untuk pembacaan berurutan file besar, yang bermanfaat dalam skenario pelatihan terdistribusi saat beberapa pekerja perlu mengakses data secara paralel.
  • Jika Anda lebih memilih kemudahan dalam mengakses data Cloud Storage seolah-olah adalah sistem file lokal tanpa perlu melakukan panggilan API eksplisit dalam kode pelatihan Anda.
  • Jika kebutuhan utama Anda adalah penyimpanan yang skalabel dan Anda tidak terlalu khawatir dengan latensi terendah untuk akses acak ke banyak file kecil.

Khusus untuk Ray di Vertex AI

  • Anda dapat menyimpan data di bucket Cloud Storage, yang dapat diakses oleh Ray di Vertex AI.
  • Ray dapat langsung membaca data dari Cloud Storage. Misalnya, saat menjalankan Spark on Ray, Anda dapat membaca file dari Cloud Storage.
  • Vertex AI menggunakan Cloud Storage FUSE untuk memasang bucket Cloud Storage sebagai sistem file lokal dalam tugas pelatihan yang berjalan di Ray. Hal ini memungkinkan aplikasi Ray Anda mengakses data seolah-olah berada di disk lokal menggunakan operasi I/O file standar.
  • Untuk performa optimal, sebaiknya gunakan bucket Cloud Storage di region yang sama dengan tempat Anda menjalankan cluster Ray.

Pelajari lebih lanjut

Berbagi Network File System (NFS)

  • Jika Anda memerlukan throughput yang sangat tinggi dan akses latensi rendah ke file jarak jauh, seolah-olah file tersebut disimpan secara lokal. Hal ini dapat penting untuk jenis data tertentu atau interaksi file yang kompleks selama pelatihan.
  • Saat Anda perlu membuat file jarak jauh tersedia untuk semua node dalam cluster komputasi, seperti cluster Ray di Vertex AI.
  • Jika aplikasi Anda mendapatkan manfaat dari antarmuka sistem file yang lebih standar dengan kepatuhan POSIX yang berpotensi lebih kuat dibandingkan dengan Cloud Storage FUSE.
  • Anda memiliki infrastruktur NFS yang ada dalam Virtual Private Cloud yang ingin Anda gunakan.
  • Anda perlu membagikan file atau direktori di beberapa tugas atau cluster dengan akses latensi rendah yang konsisten, dan sebaiknya mengelola izin di tingkat sistem file.

Khusus untuk Ray di Vertex AI

  • Anda dapat memasang bagian NFS ke cluster Ray di Vertex AI, sehingga file jarak jauh dapat diakses seolah-olah file tersebut bersifat lokal.
  • Hal ini bermanfaat untuk akses ber-throughput tinggi dan latensi rendah ke sistem file bersama.
  • Anda dapat menyiapkan pemasangan NFS saat membuat cluster Ray menggunakan Vertex AI SDK untuk Python, dengan menentukan server, jalur, dan titik pemasangan. Setelah di-mount, kode Ray Anda dapat membaca dan menulis ke volume NFS ini menggunakan operasi file standar.

Pelajari lebih lanjut

Set data terkelola

  • Pengelolaan dan tata kelola data terpusat: Set data terkelola menyediakan lokasi terpusat untuk mengatur dan mengelola set data Anda dalam Vertex AI. Hal ini membantu pelacakan dan tata kelola aset data Anda di berbagai project dan eksperimen.
  • Pelabelan Data: Anda dapat membuat tugas pelabelan dan mengelola set anotasi langsung dalam set data terkelola.
  • Melacak Silsilah Data: Set data terkelola secara otomatis melacak silsilah data Anda ke model yang dilatih di dalamnya. Hal ini penting untuk memahami sumber data yang digunakan untuk model tertentu dan untuk memastikan reproduksi dan tata kelola.
  • Membandingkan Model Kustom dan AutoML: Set data terkelola memungkinkan Anda melatih model kustom dan model AutoML menggunakan data yang sama. Hal ini memfasilitasi perbandingan langsung performanya pada set data yang sama, yang membantu Anda memilih pendekatan terbaik untuk masalah Anda.
  • Membuat Statistik dan Visualisasi Data: Vertex AI dapat membuat statistik dan visualisasi secara otomatis untuk data dalam set data terkelola. Hal ini dapat membantu analisis data eksplorasi dan membantu Anda memahami karakteristik data.
  • Pemisahan Data Otomatis: Saat menggunakan set data terkelola di pipeline pelatihan, Vertex AI dapat otomatis membagi data Anda menjadi set pelatihan, validasi, dan pengujian berdasarkan fraksi, filter, pemisahan yang telah ditentukan, atau stempel waktu. Hal ini menyederhanakan proses persiapan data.
  • Menggunakan Versi Set Data: Set data terkelola memungkinkan pembuatan versi, yang memungkinkan Anda melacak perubahan pada data dari waktu ke waktu dan kembali ke versi sebelumnya jika diperlukan.

Khusus untuk Ray di Vertex AI

  • Jika Anda menggunakan set data terkelola di pipeline pelatihan Vertex AI yang menggunakan Ray untuk pelatihan terdistribusi, data dari set data terkelola akan tersedia untuk penampung pelatihan, yang kemudian dapat diakses oleh aplikasi Ray Anda (melalui Cloud Storage yang terpasang atau BigQuery jika set data ditautkan ke sumber tersebut). Variabel lingkungan AIP_TRAINING_DATA_URI, AIP_VALIDATION_DATA_URI, dan AIP_TEST_DATA_URI akan mengarah ke data.

Pelajari lebih lanjut

BigQuery

  • Saat terhubung ke data dalam komponen Vertex AI: Banyak alat dan layanan Vertex AI yang terintegrasi langsung dengan BigQuery. Anda dapat membuat kueri data di BigQuery dari dalam JupyterLab. Hal ini memungkinkan Anda berinteraksi langsung dengan data BigQuery untuk eksplorasi, visualisasi, dan pengembangan model tanpa perlu memindahkannya ke sistem penyimpanan lain.
  • Saat membuat pipeline pelatihan: Saat membuat pipeline pelatihan di Vertex AI, Anda dapat menggunakan data langsung dari BigQuery. Misalnya, pipeline dapat mengambil data dari BigQuery, memprosesnya terlebih dahulu, lalu melatih model.
  • Pipeline pelatihan model berkelanjutan: Untuk menyiapkan pelatihan model berkelanjutan, Anda dapat memicu pengoperasian pipeline berdasarkan data baru yang masuk ke tabel BigQuery. Hal ini memungkinkan otomatisasi pelatihan ulang model. Anda dapat mengonfigurasi pemicu Eventarc untuk memulai pipeline saat tugas baru disisipkan ke tabel BigQuery tertentu.
  • Pemantauan model: BigQuery dapat digunakan sebagai sumber untuk memantau penyimpangan dan penyimpangan fitur model yang di-deploy. Untuk deteksi skew, Anda dapat menentukan URI BigQuery set data pelatihan. Selain itu, BigQuery dapat menyimpan log dari endpoint inferensi online, yang kemudian dapat digunakan sebagai sumber data untuk pemantauan berkelanjutan. Untuk ini, tabel BigQuery Anda idealnya harus memiliki kolom stempel waktu.
  • Integrasi BigQuery ML: Anda dapat menggunakan set data BigQuery saat memanfaatkan BigQuery ML untuk membuat model machine learning menggunakan SQL. Vertex AI Workbench memungkinkan analisis eksploratif interaktif data BigQuery dan penggunaan BigQuery ML dalam lingkungan notebook.
  • Eksplorasi dan persiapan data: Sebelum pelatihan, Anda dapat menggunakan BigQuery untuk menjelajahi dan memvisualisasikan data. Anda juga dapat melakukan transformasi data menggunakan kueri SQL langsung di BigQuery sebelum menggunakan data untuk pelatihan.
  • Mengakses set data publik: BigQuery menghosting banyak set data publik, seperti set data Perjalanan Taksi Chicago, yang dapat Anda gunakan dengan mudah untuk eksperimen dan pelatihan di Vertex AI Workbench.

Khusus untuk Ray di Vertex AI

  • Ray di Vertex AI memiliki kemampuan untuk membaca data langsung dari BigQuery. Anda dapat menggunakan Vertex AI SDK untuk Python dalam tugas Ray untuk menjalankan kueri BigQuery dan mewujudkan hasilnya untuk digunakan dalam aplikasi Ray.
  • Saat membaca dari BigQuery, perhatikan ukuran respons kueri maksimum, yaitu 10 GB.
  • Anda juga dapat menulis data dari aplikasi Ray kembali ke BigQuery menggunakan Vertex AI SDK untuk Python.

Pelajari lebih lanjut