Alur Kerja Berupa Tabulasi pada Vertex AI

Tabular Workflow adalah serangkaian pipeline yang terintegrasi, terkelola sepenuhnya, dan skalabel untuk ML end-to-end dengan data berbentuk tabel. Solusi ini memanfaatkan teknologi Google untuk pengembangan model dan menyediakan opsi penyesuaian sesuai kebutuhan Anda.

Manfaat

  • Terkelola sepenuhnya: Anda tidak perlu khawatir tentang update, dependensi, dan konflik.
  • Mudah diskalakan: Anda tidak perlu merekayasa ulang infrastruktur seiring meningkatnya workload atau set data.
  • Dioptimalkan untuk performa: hardware yang tepat akan otomatis dikonfigurasi sesuai kebutuhan alur kerja.
  • Terintegrasi secara mendalam: kompatibilitas dengan produk di suite Vertex AI MLOps, seperti Vertex AI Pipelines dan Eksperimen Vertex AI, memungkinkan Anda menjalankan banyak eksperimen dalam waktu singkat.

Ringkasan Teknis

Setiap alur kerja adalah instance Vertex AI Pipelines yang terkelola.

Vertex AI Pipelines adalah layanan serverless yang menjalankan pipeline Kubeflow. Anda dapat menggunakan pipeline untuk mengotomatisasi dan memantau machine learning serta tugas penyiapan data Anda. Setiap langkah di pipeline menjalankan bagian dari alur kerja pipeline. Misalnya, pipeline dapat mencakup langkah-langkah untuk memisahkan data, mengubah jenis data, dan melatih model. Karena langkah tersebut adalah instance komponen pipeline, langkah memiliki input, output, dan image container. Input langkah dapat ditetapkan dari input pipeline atau dapat bergantung pada output langkah lain dalam pipeline ini. Dependensi ini menentukan alur kerja pipeline sebagai directed acyclic graph.

Tabular Workflow sebagai directed acyclic graph

Cara memulai

Dalam sebagian besar kasus, Anda perlu menentukan dan menjalankan pipeline menggunakan Google Cloud Pipeline Components SDK. Kode contoh berikut memberikan ilustrasi. Perlu diperhatikan bahwa penerapan kode yang sebenarnya mungkin berbeda.

  // Define the pipeline and the parameters
  template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
           optimization_objective=optimization_objective,
      data_source=data_source,
      target_column_name=target_column_name
     )
  // Run the pipeline
  job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
  job.run(...)

Untuk contoh colab dan notebook, hubungi Sales Rep Anda atau isi formulir permintaan.

Pembuatan versi dan pemeliharaan

Tabular Workflow memiliki sistem pembuatan versi yang efektif yang memungkinkan update dan peningkatan berkelanjutan tanpa menyebabkan perubahan yang dapat menyebabkan gangguan pada aplikasi Anda.

Setiap alur kerja dirilis dan diperbarui sebagai bagian dari Google Cloud Pipeline Components SDK. Update dan modifikasi pada alur kerja apa pun dirilis sebagai versi baru dari alur kerja tersebut. Versi sebelumnya dari setiap alur kerja selalu tersedia melalui SDK versi lama. Jika versi SDK disematkan, versi alur kerja juga disematkan.

Alur kerja yang tersedia

Vertex AI menyediakan Tabular Workflow berikut:

Name Jenis Ketersediaan
Mesin Transformasi Fitur Rekayasa Fitur Pratinjau Publik
AutoML End-to-End Klasifikasi & Regresi Tersedia Secara Umum
TabNet Klasifikasi & Regresi Pratinjau Publik
Wide & Deep Klasifikasi & Regresi Pratinjau Publik
Prakiraan Prakiraan Pratinjau Publik

Untuk informasi tambahan dan contoh notebook, hubungi Sales Rep Anda atau isi formulir permintaan.

Mesin Transformasi Fitur

Mesin Transformasi Fitur melakukan pemilihan fitur dan transformasi fitur. Jika pemilihan fitur diaktifkan, Feature Transform Engine akan membuat serangkaian fitur penting yang diberi peringkat. Jika transformasi fitur diaktifkan, Feature Transform Engine akan memproses fitur untuk memastikan bahwa input untuk pelatihan model dan penyajian model konsisten. Feature Transform Engine dapat digunakan sendiri atau bersama dengan salah satu alur kerja pelatihan tabel. Platform ini mendukung framework TensorFlow dan non-TensorFlow.

Untuk informasi selengkapnya, lihat Rekayasa fitur.

Tabular Workflow untuk klasifikasi dan regresi

Tabular Workflow untuk AutoML End-to-End

Tabular Workflow untuk AutoML End-to-End adalah pipeline AutoML lengkap untuk tugas klasifikasi dan regresi. Hal ini mirip dengan AutoML API, tetapi memungkinkan Anda memilih apa yang akan dikontrol dan diotomatisasi. Alih-alih memiliki kontrol untuk seluruh pipeline, Anda memiliki kontrol untuk setiap langkah di pipeline. Kontrol pipeline ini mencakup:

  • Pemisahan data
  • Rekayasa fitur
  • Penelusuran arsitektur
  • Pelatihan model
  • Ansambel model
  • Distilasi model

Manfaat

  • Mendukung set data besar berukuran beberapa TB dan memiliki hingga 1.000 kolom.
  • Memungkinkan Anda meningkatkan stabilitas dan menurunkan waktu pelatihan dengan membatasi ruang penelusuran jenis arsitektur atau melewati penelusuran arsitektur.
  • Memungkinkan Anda meningkatkan kecepatan pelatihan dengan memilih secara manual hardware yang digunakan untuk penelusuran arsitektur dan pelatihan.
  • Memungkinkan Anda mengurangi ukuran model dan meningkatkan latensi dengan distilasi atau dengan mengubah ukuran ansambel.
  • Setiap komponen AutoML dapat diperiksa dengan antarmuka grafik pipeline andal yang memungkinkan Anda melihat tabel data yang ditransformasi, arsitektur model yang dievaluasi, dan banyak detail lainnya.
  • Setiap komponen AutoML mendapatkan fleksibilitas dan transparansi yang lebih luas, seperti kemampuan untuk menyesuaikan parameter, hardware, status proses tampilan, log, dan lain-lain.

Input-Output

  • Mengambil tabel BigQuery atau file CSV dari Cloud Storage sebagai input.
  • Menghasilkan model Vertex AI sebagai output.
  • Output perantara mencakup statistik set data dan pemisahan set data.

Untuk mengetahui informasi selengkapnya, lihat Tabular Workflow untuk AutoML End-to-End.

Tabular Workflow untuk TabNet

Tabular Workflow untuk TabNet adalah pipeline yang dapat Anda gunakan untuk melatih model klasifikasi atau regresi. TabNet menggunakan sequential attention untuk memilih fitur yang akan menjadi alasan pada setiap langkah keputusan. Hal ini meningkatkan penafsiran dan pembelajaran yang lebih efisien karena kapasitas pembelajaran digunakan untuk fitur yang paling penting.

Manfaat

  • Secara otomatis memilih ruang penelusuran hyperparameter yang sesuai berdasarkan ukuran set data, jenis prediksi, dan anggaran pelatihan.
  • Terintegrasi dengan Vertex AI. Model yang dilatih adalah model Vertex AI. Anda dapat langsung menjalankan prediksi batch atau men-deploy model untuk prediksi online.
  • Memberikan penafsiran model yang melekat. Anda dapat memperoleh insight tentang fitur yang digunakan TabNet untuk membuat keputusan.
  • Mendukung pelatihan GPU.

Input-Output

Mengambil tabel BigQuery atau file CSV dari Cloud Storage sebagai input dan menyediakan model Vertex AI sebagai output.

Untuk informasi selengkapnya, lihat Tabular Workflow untuk TabNet.

Tabular Workflow untuk Wide & Deep

Tabular Workflow untuk Wide & Deep adalah pipeline yang dapat Anda gunakan untuk melatih model klasifikasi atau regresi. Wide & Deep bersama-sama melatih model linear lebar dan jaringan neural dalam. Cara ini menggabungkan manfaat menghafal dan generalisasi. Dalam beberapa eksperimen online, hasilnya menunjukkan bahwa Wide & Deep meningkatkan akuisisi aplikasi Google Store secara signifikan dibandingkan dengan model khusus wide dan model khusus deep.

Manfaat

  • Terintegrasi dengan Vertex AI. Model yang dilatih adalah model Vertex AI. Anda dapat langsung menjalankan prediksi batch atau men-deploy model untuk prediksi online.

Input-Output

Mengambil tabel BigQuery atau file CSV dari Cloud Storage sebagai input dan menyediakan model Vertex AI sebagai output.

Untuk informasi selengkapnya, lihat Tabular Workflow untuk Wide & Deep.

Alur Kerja Berupa Tabulasi untuk perkiraan

Tabular Workflow untuk Perkiraan

Tabular Workflow untuk Perkiraan adalah pipeline lengkap untuk tugas perkiraan. Hal ini mirip dengan AutoML API, tetapi memungkinkan Anda memilih apa yang akan dikontrol dan diotomatisasi. Alih-alih memiliki kontrol untuk seluruh pipeline, Anda memiliki kontrol untuk setiap langkah di pipeline. Kontrol pipeline ini mencakup:

  • Pemisahan data
  • Rekayasa fitur
  • Penelusuran arsitektur
  • Pelatihan model
  • Ansambel model

Manfaat

  • Mendukung set data besar yang berukuran hingga 1 TB dan memiliki maksimal 200 kolom.
  • Memungkinkan Anda meningkatkan stabilitas dan menurunkan waktu pelatihan dengan membatasi ruang penelusuran jenis arsitektur atau melewati penelusuran arsitektur.
  • Memungkinkan Anda meningkatkan kecepatan pelatihan dengan memilih secara manual hardware yang digunakan untuk penelusuran arsitektur dan pelatihan.
  • Untuk beberapa metode pelatihan model, Anda dapat mengurangi ukuran model dan meningkatkan latensi dengan mengubah ukuran ansambel.
  • Setiap komponen AutoML dapat diperiksa dengan antarmuka grafik pipeline andal yang memungkinkan Anda melihat tabel data yang ditransformasi, arsitektur model yang dievaluasi, dan banyak detail lainnya.
  • Setiap komponen AutoML mendapatkan fleksibilitas dan transparansi yang lebih luas, seperti kemampuan untuk menyesuaikan parameter, hardware, status proses tampilan, log, dan lain-lain.

Input-Output

  • Mengambil tabel BigQuery atau file CSV dari Cloud Storage sebagai input.
  • Menghasilkan model Vertex AI sebagai output.
  • Output perantara mencakup statistik set data dan pemisahan set data.

Untuk informasi selengkapnya, lihat Tabular Workflow untuk Perkiraan.

Langkah selanjutnya