Pengantar Vertex AI Pipelines

Vertex AI Pipelines memungkinkan Anda mengotomatiskan, memantau, dan mengatur sistem machine learning (ML) secara serverless dengan menggunakan pipeline ML untuk mengorkestrasi alur kerja ML Anda. Anda dapat menjalankan pipeline ML secara batch yang ditentukan menggunakan framework Kubeflow Pipelines atau TensorFlow Extended (TFX). Untuk mempelajari cara memilih framework untuk menentukan pipeline ML, lihat Antarmuka untuk menentukan pipeline.

Halaman ini memberikan ringkasan tentang hal berikut:

Apa itu pipeline ML?

Pipeline ML adalah deskripsi alur kerja MLOps yang portabel dan dapat di-extend sebagai serangkaian langkah yang disebut tugas pipeline. Setiap tugas melakukan langkah tertentu dalam alur kerja untuk melatih dan men-deploy model ML.

Dengan pipeline ML, Anda dapat menerapkan strategi MLOps untuk mengotomatiskan dan memantau proses yang dapat diulang dalam praktik ML Anda. Misalnya, Anda dapat menggunakan kembali definisi pipeline untuk melatih ulang model secara berkelanjutan pada data produksi terbaru. Untuk mengetahui informasi selengkapnya tentang MLOps di Vertex AI, lihat MLOps di Vertex AI.

Struktur pipeline ML

Pipeline ML adalah directed acyclic graph (DAG) tugas pipeline yang di-container dan saling terhubung menggunakan dependensi input-output. Anda dapat menulis setiap tugas di Python atau sebagai image container bawaan.

Anda dapat menentukan pipeline sebagai DAG menggunakan Kubeflow Pipelines SDK atau TFX SDK, mengompilasinya ke YAML untuk representasi menengah, lalu menjalankan pipeline. Secara default, tugas pipeline berjalan secara paralel. Anda dapat menautkan tugas untuk mengeksekusinya secara berurutan. Untuk mengetahui informasi selengkapnya tentang tugas pipeline, lihat Tugas pipeline. Untuk mengetahui informasi selengkapnya tentang alur kerja untuk menentukan, mengompilasi, dan menjalankan pipeline, lihat Siklus proses pipeline ML.

Tugas dan komponen pipeline

Tugas pipeline adalah instansiasi komponen pipeline dengan input tertentu. Saat menentukan pipeline ML, Anda dapat menghubungkan beberapa tugas untuk membentuk DAG, dengan merutekan output dari satu tugas pipeline ke input untuk tugas pipeline berikutnya dalam alur kerja ML. Anda juga dapat menggunakan input untuk pipeline ML sebagai input untuk tugas pipeline.

Komponen pipeline

Komponen pipeline adalah sekumpulan kode mandiri yang melakukan langkah tertentu dari alur kerja ML, seperti pra-pemrosesan data, pelatihan model, atau deployment model. Komponen biasanya terdiri dari hal berikut:

  • Input: Komponen dapat memiliki satu atau beberapa parameter dan artefak input.

  • Output: Setiap komponen memiliki satu atau beberapa parameter atau artefak output.

  • Logika: Ini adalah kode yang dapat dieksekusi komponen. Untuk komponen yang di-container, logika juga berisi definisi lingkungan, atau image container, tempat komponen berjalan.

Komponen adalah dasar untuk menentukan tugas dalam pipeline ML. Untuk menentukan tugas pipeline, Anda dapat menggunakan Google Cloud Komponen Pipeline yang telah ditentukan sebelumnya atau membuat komponen kustom Anda sendiri.

Komponen standar

Gunakan Komponen Pipeline yang telah ditentukan sebelumnya jika Anda ingin menggunakan fitur Vertex AI, seperti AutoML, di pipeline Anda. Google Cloud Untuk mempelajari cara menggunakan Google Cloud Komponen Pipeline untuk menentukan pipeline, lihat Membangun Pipeline.

Komponen kustom

Anda dapat membuat komponen kustom sendiri untuk digunakan di pipeline ML. Untuk mengetahui informasi selengkapnya tentang cara membuat komponen kustom, lihat Membangun komponen pipeline Anda sendiri.

Untuk mempelajari cara membuat komponen Kubeflow Pipelines kustom, lihat notebook Jupyter "Pipelines with lightweight components based on Python functions" di GitHub. Untuk mempelajari cara membuat komponen TFX kustom, lihat tutorial komponen fungsi Python TFX di tutorial TensorFlow Extended in Production.

Tugas pipeline

Tugas pipeline adalah instansiasi komponen pipeline dan melakukan langkah tertentu dalam alur kerja ML Anda. Anda dapat membuat tugas pipeline ML menggunakan Python atau sebagai image container bawaan.

Dalam tugas, Anda dapat memanfaatkan kemampuan komputasi sesuai permintaan Vertex AI dengan Kubernetes untuk mengeksekusi kode secara terukur, atau mendelegasikan beban kerja ke mesin eksekusi lain, seperti BigQuery, Dataflow, atau Dataproc Serverless.

Siklus proses pipeline ML

Mulai dari definisi hingga eksekusi dan pemantauan, siklus proses pipeline ML terdiri dari tahap-tahap tingkat tinggi berikut:

  1. Menentukan: Proses menentukan pipeline ML dan tugasnya juga disebut membangun pipeline. Pada tahap ini, Anda perlu melakukan langkah-langkah berikut:

    1. Pilih framework ML: Vertex AI Pipelines mendukung pipeline ML yang ditentukan menggunakan framework TFX atau Kubeflow Pipelines. Untuk mempelajari cara memilih framework untuk membangun pipeline, lihat Antarmuka untuk menentukan pipeline.

    2. Tentukan tugas pipeline dan konfigurasi pipeline: Untuk mengetahui informasi selengkapnya, lihat Membangun Pipeline.

  2. Kompilasi: Pada tahap ini, Anda perlu melakukan langkah-langkah berikut:

    1. Buat definisi pipeline ML Anda dalam file YAML yang dikompilasi untuk representasi menengah, yang dapat Anda gunakan untuk menjalankan pipeline ML Anda.

    2. Opsional: Anda dapat mengupload file YAML yang dikompilasi sebagai template pipeline ke repositori dan menggunakannya kembali untuk membuat eksekusi pipeline ML.

  3. Jalankan: Buat instance eksekusi pipeline ML Anda menggunakan file YAML yang dikompilasi atau template pipeline. Instance eksekusi definisi pipeline disebut operasi pipeline.

    Anda dapat membuat kemunculan satu kali dari proses pipeline atau menggunakan scheduler API untuk membuat proses pipeline berulang dari definisi pipeline ML yang sama. Anda juga dapat meng-clone proses pipeline yang ada. Untuk mempelajari cara memilih antarmuka untuk menjalankan pipeline ML, lihat Antarmuka untuk menjalankan pipeline. Untuk mengetahui informasi selengkapnya tentang cara membuat proses pipeline, lihat Menjalankan pipeline.

  4. Memantau, memvisualisasikan, dan menganalisis operasi: Setelah membuat operasi pipeline, Anda dapat melakukan hal berikut untuk memantau performa, status, dan biaya operasi pipeline:

  5. Opsional: menghentikan atau menghapus proses pipeline: Tidak ada batasan berapa lama Anda dapat mempertahankan proses pipeline tetap aktif. Secara opsional, Anda dapat melakukan hal berikut:

    • Menghentikan proses pipeline.

    • Menjeda atau melanjutkan jadwal proses pipeline.

    • Menghapus template pipeline, proses pipeline, atau jadwal proses pipeline yang ada.

Apa itu eksekusi pipeline?

Jalannya pipeline adalah instance eksekusi definisi pipeline ML Anda. Setiap operasi pipeline diidentifikasi dengan nama operasi yang unik. Dengan Vertex AI Pipelines, Anda dapat membuat proses pipeline ML dengan cara berikut:

  • Menggunakan definisi YAML pipeline yang dikompilasi

  • Menggunakan template pipeline dari Galeri Template

Untuk mengetahui informasi selengkapnya tentang cara membuat proses pipeline, lihat Menjalankan pipeline. Untuk mengetahui informasi selengkapnya tentang cara membuat operasi pipeline dari template pipeline, lihat Membuat, mengupload, dan menggunakan template pipeline.

Untuk mengetahui informasi tentang cara merekam dan menyimpan metadata operasi pipeline menggunakan Vertex ML Metadata, lihat Menggunakan Vertex ML Metadata untuk melacak silsilah artefak ML.

Untuk mengetahui informasi tentang cara menggunakan operasi pipeline untuk bereksperimen pada alur kerja ML menggunakan Vertex AI Experiments, lihat Menambahkan operasi pipeline ke eksperimen.

Melacak silsilah artefak ML

Jalannya pipeline berisi beberapa artefak dan parameter, termasuk metadata pipeline. Untuk memahami perubahan performa atau akurasi sistem ML, Anda perlu menganalisis metadata dan silsilah artefak ML dari operasi pipeline ML Anda. Silsilah artefak ML mencakup semua faktor yang berkontribusi pada pembuatannya, beserta metadata dan referensi ke artefak yang berasal darinya.

Grafik silsilah membantu Anda menganalisis akar masalah hulu dan dampak hilir. Setiap eksekusi pipeline menghasilkan grafik silsilah parameter dan artefak yang dimasukkan ke dalam eksekusi, diwujudkan dalam eksekusi, dan dikeluarkan dari eksekusi. Metadata yang membentuk grafik silsilah ini disimpan di Vertex ML Metadata. Metadata ini juga dapat disinkronkan ke Dataplex Universal Catalog.

  • Menggunakan Vertex ML Metadata untuk melacak silsilah artefak pipeline

    Saat Anda menjalankan pipeline menggunakan Vertex AI Pipelines, semua parameter dan metadata artefak yang digunakan dan dihasilkan oleh pipeline akan disimpan di Vertex ML Metadata. Vertex ML Metadata adalah penerapan terkelola dari library ML Metadata di TensorFlow, dan mendukung pendaftaran serta penulisan skema metadata kustom. Saat Anda membuat operasi pipeline di Vertex AI Pipelines, metadata dari operasi pipeline akan disimpan di penyimpanan metadata default untuk project dan region tempat Anda menjalankan pipeline.

  • Menggunakan Katalog Universal Dataplex untuk melacak silsilah artefak pipeline

    Katalog Universal Dataplex adalah fabric data global dan lintas project yang terintegrasi dengan beberapa sistem dalam Google Cloud, seperti Vertex AI, BigQuery, dan Cloud Composer. Dalam Dataplex Universal Catalog, Anda dapat menelusuri artefak pipeline dan melihat grafik silsilahnya. Perhatikan bahwa untuk mencegah konflik artefak, setiap resource yang dikatalogkan di Dataplex Universal Catalog diidentifikasi dengan nama yang sepenuhnya memenuhi syarat (FQN).

    Pelajari biaya penggunaan Katalog Universal Dataplex.

Untuk mengetahui informasi selengkapnya tentang cara melacak silsilah artefak ML menggunakan Vertex ML Metadata dan Dataplex Universal Catalog, lihat Melacak silsilah artefak pipeline.

Untuk mengetahui informasi selengkapnya tentang memvisualisasikan, menganalisis, dan membandingkan operasi pipeline, lihat Memvisualisasikan dan menganalisis hasil pipeline. Untuk daftar jenis artefak pihak pertama yang ditentukan di Google Cloud Komponen Pipeline, lihat Jenis artefak ML Metadata.

Menambahkan operasi pipeline ke eksperimen

Vertex AI Experiments memungkinkan Anda melacak dan menganalisis berbagai arsitektur model, hyperparameter, dan lingkungan pelatihan untuk menemukan model terbaik untuk kasus penggunaan ML Anda. Setelah membuat operasi pipeline ML, Anda dapat mengaitkannya dengan eksperimen atau operasi eksperimen. Dengan begitu, Anda dapat bereksperimen dengan berbagai kumpulan variabel, seperti hyperparameter, jumlah langkah pelatihan, atau iterasi.

Untuk mengetahui informasi selengkapnya tentang bereksperimen dengan alur kerja ML menggunakan Vertex AI Experiments, lihat Pengantar Vertex AI Experiments.

Langkah berikutnya