Perspektif AI dan ML: Pengoptimalan biaya

Last reviewed 2025-05-28 UTC

Dokumen dalam Well-Architected Framework: Perspektif AI dan ML ini memberikan ringkasan prinsip dan rekomendasi untuk mengoptimalkan biaya sistem AI Anda di sepanjang siklus proses ML. Dengan mengadopsi pendekatan pengelolaan biaya yang proaktif dan terinformasi, organisasi Anda dapat mewujudkan potensi penuh sistem AI dan ML sekaligus mempertahankan disiplin keuangan. Rekomendasi dalam dokumen ini selaras dengan pilar pengoptimalan biaya dari Google Cloud Framework yang Dirancang dengan Baik.

Sistem AI dan ML dapat membantu Anda mendapatkan insight berharga dan kemampuan prediktif dari data. Misalnya, Anda dapat mengurangi hambatan dalam proses internal, meningkatkan kualitas pengalaman pengguna, dan mendapatkan insight pelanggan yang lebih mendalam. Cloud menawarkan sejumlah besar resource dan waktu perolehan nilai yang cepat tanpa investasi awal yang besar untuk workload AI dan ML. Untuk memaksimalkan nilai bisnis dan menyelaraskan pembelanjaan dengan sasaran bisnis, Anda perlu memahami pendorong biaya, mengoptimalkan biaya secara proaktif, menyiapkan kontrol pembelanjaan, dan menerapkan praktik FinOps.

Rekomendasi dalam dokumen ini dipetakan ke prinsip inti berikut:

Menentukan dan mengukur biaya dan laba

Untuk mengelola biaya AI dan ML secara efektif di Google Cloud, Anda harus menentukan dan mengukur biaya resource cloud serta nilai bisnis inisiatif AI dan ML Anda. Untuk membantu Anda melacak pengeluaran secara terperinci, Google Cloud menyediakan alat pengelolaan biaya dan penagihan yang komprehensif, seperti berikut:

  • Laporan dan tabel Penagihan Cloud
  • Dasbor, anggaran, dan pemberitahuan Looker Studio
  • Cloud Monitoring
  • Cloud Logging

Untuk membuat keputusan yang tepat tentang alokasi dan pengoptimalan resource, pertimbangkan rekomendasi berikut.

Menetapkan sasaran dan KPI bisnis

Menyelaraskan pilihan teknis dalam project AI dan ML Anda dengan tujuan bisnis dan indikator kinerja utama (KPI).

Tentukan tujuan strategis dan KPI yang berfokus pada ROI

Pastikan project AI dan ML selaras dengan tujuan strategis seperti pertumbuhan pendapatan, pengurangan biaya, kepuasan pelanggan, dan efisiensi. Libatkan pemangku kepentingan untuk memahami prioritas bisnis. Tentukan tujuan AI dan ML yang spesifik, terukur, dapat dicapai, relevan, dan terikat waktu (SMART). Misalnya, tujuan SMART adalah: "Mengurangi waktu penanganan chat untuk dukungan pelanggan sebesar 15% dalam 6 bulan dengan menggunakan chatbot AI".

Untuk mencapai progres menuju sasaran bisnis dan mengukur laba atas investasi (ROI), tentukan KPI untuk kategori metrik berikut:

  • Biaya untuk pelatihan, inferensi, penyimpanan, dan resource jaringan, termasuk biaya per unit tertentu (seperti biaya per inferensi, titik data, atau tugas). Metrik ini membantu Anda mendapatkan insight tentang peluang efisiensi dan pengoptimalan biaya. Anda dapat melacak biaya ini menggunakan laporan Penagihan Cloud dan dasbor Cloud Monitoring.
  • Metrik nilai bisnis seperti pertumbuhan pendapatan, penghematan biaya, kepuasan pelanggan, efisiensi, akurasi, dan adopsi. Anda dapat melacak metrik ini menggunakan analisis BigQuery dan dasbor Looker.
  • Metrik khusus industri seperti berikut:

    • Industri retail: mengukur peningkatan pendapatan dan churn
    • Industri kesehatan: mengukur waktu pasien dan hasil pasien
    • Industri keuangan: mengukur pengurangan penipuan
  • Metrik khusus project. Anda dapat melacak metrik ini menggunakan Vertex AI Experiments dan evaluasi.

    • AI Prediktif: mengukur akurasi dan presisi
    • AI Generatif: mengukur adopsi, kepuasan, dan kualitas konten
    • AI computer vision: mengukur akurasi

Mendorong budaya kesadaran biaya dan pengoptimalan berkelanjutan

Terapkan prinsip FinOps untuk memastikan bahwa setiap project AI dan ML memiliki perkiraan biaya dan cara untuk mengukur serta melacak biaya sebenarnya di sepanjang siklus prosesnya. Pastikan bahwa biaya dan manfaat bisnis proyek Anda telah menetapkan pemilik dan akuntabilitas yang jelas.

Untuk mengetahui informasi selengkapnya, lihat Mendorong budaya kesadaran biaya dalam pilar Pengoptimalan Biaya di Google Cloud Framework yang Dirancang dengan Baik.

Mendorong nilai dan pengoptimalan berkelanjutan melalui iterasi dan masukan

Petakan aplikasi AI dan ML Anda langsung ke sasaran bisnis Anda dan ukur ROI-nya.

Untuk memvalidasi hipotesis ROI Anda, mulailah dengan project uji coba dan gunakan siklus pengoptimalan iteratif berikut:

  1. Pantau secara berkelanjutan dan analisis data: Pantau KPI dan biaya untuk mengidentifikasi penyimpangan dan peluang pengoptimalan.
  2. Lakukan penyesuaian berbasis data: Optimalkan strategi, model, infrastruktur, dan alokasi resource berdasarkan insight data.
  3. Perbaiki secara iteratif: Sesuaikan tujuan dan KPI bisnis berdasarkan hal-hal yang Anda pelajari dan kebutuhan bisnis yang terus berubah. Iterasi ini membantu Anda mempertahankan relevansi dan keselarasan strategis.
  4. Buat siklus masukan: Tinjau performa, biaya, dan nilai dengan pemangku kepentingan untuk menentukan pengoptimalan berkelanjutan dan perencanaan project mendatang.

Mengelola data penagihan dengan Penagihan Cloud dan label

Pengoptimalan biaya yang efektif memerlukan visibilitas ke sumber setiap elemen biaya. Rekomendasi di bagian ini dapat membantu Anda menggunakan alat Google Cloud untuk mendapatkan insight terperinci tentang biaya AI dan ML Anda. Anda juga dapat mengatribusikan biaya ke project, tim, dan aktivitas AI dan ML tertentu. Insight ini menjadi dasar untuk pengoptimalan biaya.

Mengatur dan memberi label Google Cloud resource

  • Susun project dan resource Anda dalam hierarki yang mencerminkan struktur organisasi serta alur kerja AI dan ML Anda. Untuk melacak dan menganalisis biaya di berbagai tingkat, atur resource Anda menggunakan organisasi, folder, dan project. Google Cloud Untuk mengetahui informasi selengkapnya, lihat Menentukan hierarki resource untuk Google Cloud zona landing Anda.
  • Terapkan label yang bermakna ke resource Anda. Anda dapat menggunakan label yang menunjukkan project, tim, lingkungan, nama model, set data, kasus penggunaan, dan persyaratan performa. Label memberikan konteks yang berharga untuk data penagihan Anda dan memungkinkan analisis biaya terperinci.
  • Pertahankan konsistensi dalam konvensi pelabelan di semua project AI dan ML Anda. Konvensi pelabelan yang konsisten memastikan data penagihan Anda teratur dan dapat dianalisis dengan mudah.
  • Untuk memfasilitasi analisis dan pelaporan yang mendetail, ekspor data penagihan ke BigQuery. BigQuery memiliki kemampuan kueri yang canggih yang memungkinkan Anda menganalisis data penagihan untuk membantu Anda memahami biaya.
  • Untuk menggabungkan biaya menurut label, project, atau jangka waktu tertentu, Anda dapat menulis kueri SQL kustom di BigQuery. Kueri tersebut memungkinkan Anda mengatribusikan biaya ke aktivitas AI dan ML tertentu, seperti pelatihan model, penyesuaian hyperparameter, atau inferensi.
  • Untuk mengidentifikasi anomali biaya atau lonjakan pembelanjaan yang tidak terduga, gunakan kemampuan analisis di BigQuery. Pendekatan ini dapat membantu Anda mendeteksi potensi masalah atau inefisiensi dalam workload AI dan ML.
  • Untuk mengidentifikasi dan mengelola biaya yang tidak terduga, gunakan dasbor deteksi anomali di Penagihan Cloud.
  • Untuk mendistribusikan biaya di berbagai tim atau departemen berdasarkan penggunaan resource, gunakan fitur alokasi biaya Google Cloud's. Alokasi biaya meningkatkan akuntabilitas dan transparansi.
  • Untuk mendapatkan insight tentang pola pembelanjaan, pelajari laporan Penagihan Cloud bawaan. Anda dapat memfilter dan menyesuaikan laporan ini untuk berfokus pada project atau layanan AI dan ML tertentu.

Memantau resource secara terus-menerus dengan dasbor, pemberitahuan, dan laporan

Untuk membuat cara yang skalabel dan tangguh untuk melacak biaya, Anda memerlukan pemantauan dan pelaporan berkelanjutan. Dasbor, pemberitahuan, dan laporan merupakan dasar untuk pelacakan biaya yang efektif. Dengan fondasi ini, Anda dapat mempertahankan akses konstan ke informasi biaya, mengidentifikasi area pengoptimalan, dan memastikan keselarasan antara tujuan bisnis dan biaya.

Membuat sistem pelaporan

Buat laporan terjadwal dan bagikan kepada pemangku kepentingan yang sesuai.

Gunakan Cloud Monitoring untuk mengumpulkan metrik dari berbagai sumber, termasuk aplikasi, infrastruktur, dan layanan seperti Compute Engine, Google Kubernetes Engine (GKE), dan fungsi Cloud Run. Google Cloud Untuk memvisualisasikan metrik dan log secara real time, Anda dapat menggunakan dasbor Cloud Monitoring bawaan atau membuat dasbor kustom. Dasbor kustom memungkinkan Anda menentukan dan menambahkan metrik untuk melacak aspek tertentu dari sistem Anda, seperti performa model, panggilan API, atau KPI tingkat bisnis.

Gunakan Cloud Logging untuk pengumpulan dan penyimpanan log secara terpusat dari aplikasi, sistem, dan Google Cloud layanan Anda. Gunakan log untuk tujuan berikut:

  • Lacak biaya dan pemanfaatan resource seperti CPU, memori, penyimpanan, dan jaringan.
  • Identifikasi kasus penyediaan berlebih (jika resource tidak dimanfaatkan sepenuhnya) dan penyediaan kurang (jika resource tidak mencukupi). Penyediaan yang berlebihan akan menimbulkan biaya yang tidak perlu. Penyediaan yang kurang akan memperlambat waktu pelatihan dan dapat menyebabkan masalah performa.
  • Identifikasi resource yang tidak ada aktivitas atau kurang dimanfaatkan, seperti VM dan GPU, lalu lakukan langkah-langkah untuk mematikan atau menyesuaikan ukurannya guna mengoptimalkan biaya.
  • Identifikasi lonjakan biaya untuk mendeteksi peningkatan penggunaan atau biaya resource yang tiba-tiba dan tidak terduga.

Gunakan Looker atau Looker Studio untuk membuat dasbor dan laporan interaktif. Hubungkan dasbor dan laporan ke berbagai sumber data, termasuk BigQuery dan Cloud Monitoring.

Menetapkan nilai minimum pemberitahuan berdasarkan KPI utama

Untuk KPI Anda, tentukan nilai minimum yang akan memicu pemberitahuan. Ambang batas pemberitahuan yang bermakna dapat membantu Anda menghindari kelelahan akibat pemberitahuan. Buat kebijakan pemberitahuan di Cloud Monitoring untuk mendapatkan notifikasi terkait KPI Anda. Misalnya, Anda dapat menerima notifikasi saat akurasi turun di bawah nilai minimum tertentu atau latensi melebihi batas yang ditentukan. Pemberitahuan berdasarkan data log dapat memberi tahu Anda tentang potensi masalah biaya secara real time. Dengan adanya pemberitahuan tersebut, Anda dapat segera mengambil tindakan korektif dan mencegah kerugian finansial lebih lanjut.

Mengoptimalkan alokasi resource

Untuk mencapai efisiensi biaya untuk workload AI dan ML di Google Cloud, Anda harus mengoptimalkan alokasi resource. Untuk membantu Anda menghindari pengeluaran yang tidak perlu dan memastikan bahwa workload Anda memiliki resource yang dibutuhkan untuk berjalan secara optimal, selaraskan alokasi resource dengan kebutuhan workload Anda.

Untuk mengoptimalkan alokasi resource cloud ke workload AI dan ML, pertimbangkan rekomendasi berikut.

Menggunakan penskalaan otomatis untuk menyesuaikan resource secara dinamis

Gunakan layanan Google Cloud yang mendukung penskalaan otomatis, yang secara otomatis menyesuaikan alokasi resource agar sesuai dengan permintaan saat ini. Penskalaan otomatis memberikan manfaat berikut:

  • Pengoptimalan biaya dan performa: Anda tidak perlu membayar resource yang tidak digunakan. Pada saat yang sama, penskalaan otomatis memastikan bahwa sistem Anda memiliki resource yang diperlukan untuk bekerja secara optimal, bahkan pada beban puncak.
  • Peningkatan efisiensi: Anda membebaskan tim Anda untuk fokus pada tugas lain.
  • Peningkatan ketangkasan: Anda dapat merespons perubahan permintaan dengan cepat dan mempertahankan ketersediaan tinggi untuk aplikasi Anda.

Tabel berikut merangkum teknik yang dapat Anda gunakan untuk menerapkan penskalaan otomatis untuk berbagai tahap project AI Anda.

Tahap Teknik penskalaan otomatis
Pelatihan
  • Gunakan layanan terkelola seperti Vertex AI atau GKE, yang menawarkan kemampuan penskalaan otomatis bawaan untuk tugas pelatihan.
  • Konfigurasi kebijakan penskalaan otomatis untuk menskalakan jumlah instance pelatihan berdasarkan metrik seperti pemakaian CPU, penggunaan memori, dan panjang antrean tugas.
  • Gunakan metrik penskalaan kustom untuk menyesuaikan perilaku penskalaan otomatis untuk beban kerja tertentu.
Inferensi
  • Deploy model Anda di platform yang skalabel seperti Inferensi Vertex AI, GPU di GKE, atau TPU di GKE.
  • Gunakan fitur penskalaan otomatis untuk menyesuaikan jumlah replika berdasarkan metrik seperti tingkat permintaan, latensi, dan penggunaan resource.
  • Terapkan load balancing untuk mendistribusikan traffic secara merata di seluruh replika dan memastikan ketersediaan tinggi.

Mulai dengan model dan dataset kecil

Untuk membantu mengurangi biaya, uji hipotesis ML dalam skala kecil jika memungkinkan dan gunakan pendekatan iteratif. Pendekatan ini, dengan model dan set data yang lebih kecil, memberikan manfaat berikut:

  • Biaya yang lebih rendah sejak awal: Daya komputasi, penyimpanan, dan waktu pemrosesan yang lebih sedikit dapat menghasilkan biaya yang lebih rendah selama fase eksperimen dan pengembangan awal.
  • Iterasi yang lebih cepat: Waktu pelatihan yang lebih singkat diperlukan, sehingga Anda dapat melakukan iterasi lebih cepat, menjelajahi pendekatan alternatif, dan mengidentifikasi arah yang menjanjikan secara lebih efisien.
  • Kompleksitas yang berkurang: Proses debug, analisis, dan interpretasi hasil yang lebih sederhana, sehingga mempercepat siklus pengembangan.
  • Penggunaan resource yang efisien: Mengurangi kemungkinan penyediaan resource yang berlebihan. Anda hanya menyediakan resource yang diperlukan untuk workload saat ini.

Pertimbangkan rekomendasi berikut:

  • Gunakan data sampel terlebih dahulu: Latih model Anda pada subset perwakilan data Anda. Dengan pendekatan ini, Anda dapat menilai performa model dan mengidentifikasi potensi masalah tanpa memproses seluruh set data.
  • Bereksperimen dengan menggunakan notebook: Mulai dengan instance yang lebih kecil dan lakukan penskalaan sesuai kebutuhan. Anda dapat menggunakan Vertex AI Workbench, lingkungan notebook Jupyter terkelola yang cocok untuk bereksperimen dengan berbagai arsitektur model dan set data.
  • Mulai dengan model yang lebih sederhana atau terlatih: Gunakan Vertex AI Model Garden untuk menemukan dan menjelajahi model terlatih. Model tersebut memerlukan lebih sedikit resource komputasi. Tingkatkan kompleksitas secara bertahap sesuai kebutuhan berdasarkan persyaratan performa.

    • Gunakan model terlatih untuk tugas seperti klasifikasi gambar dan natural language processing. Untuk menghemat biaya pelatihan, Anda dapat melakukan penyesuaian model pada set data yang lebih kecil terlebih dahulu.
    • Gunakan BigQuery ML untuk data terstruktur. Dengan BigQuery ML, Anda dapat membuat dan men-deploy model langsung di BigQuery. Pendekatan ini bisa hemat biaya untuk eksperimen awal, karena Anda dapat memanfaatkan model harga per kueri untuk BigQuery.
  • Penskalaan untuk pengoptimalan resource: Gunakan infrastruktur fleksibel Google Cloud untuk menskalakan resource sesuai kebutuhan. Mulailah dengan instance yang lebih kecil dan sesuaikan ukuran atau jumlahnya jika diperlukan.

Menemukan persyaratan resource melalui eksperimen

Persyaratan resource untuk beban kerja AI dan ML dapat sangat bervariasi. Untuk mengoptimalkan alokasi resource dan biaya, Anda harus memahami kebutuhan spesifik workload melalui eksperimen sistematis. Untuk mengidentifikasi konfigurasi yang paling efisien untuk model Anda, uji berbagai konfigurasi dan analisis performanya. Kemudian, berdasarkan persyaratan, sesuaikan ukuran resource yang Anda gunakan untuk pelatihan dan penayangan.

Kami merekomendasikan pendekatan berikut untuk eksperimen:

  1. Mulai dengan tolok ukur: Mulai dengan konfigurasi tolok ukur berdasarkan perkiraan awal Anda tentang persyaratan workload. Untuk membuat tolok ukur, Anda dapat menggunakan estimator biaya untuk beban kerja baru atau menggunakan laporan penagihan yang ada. Untuk mengetahui informasi selengkapnya, lihat Membuka biaya sebenarnya AI perusahaan di Google Cloud.
  2. Pahami kuota Anda: Sebelum meluncurkan eksperimen yang ekstensif, pelajari Google Cloud kuotaproject Anda untuk resource dan API yang akan Anda gunakan. Kuota menentukan rentang konfigurasi yang dapat Anda uji secara realistis. Dengan memahami kuota, Anda dapat bekerja dalam batas resource yang tersedia selama fase eksperimen.
  3. Bereksperimen secara sistematis: Sesuaikan parameter seperti jumlah CPU, jumlah memori, jumlah dan jenis GPU dan TPU, serta kapasitas penyimpanan. Pelatihan Vertex AI dan prediksi Vertex AI memungkinkan Anda bereksperimen dengan berbagai jenis dan konfigurasi mesin.
  4. Pantau pemanfaatan, biaya, dan performa: Lacak pemanfaatan resource, biaya, dan metrik performa utama seperti waktu pelatihan, latensi inferensi, dan akurasi model, untuk setiap konfigurasi yang Anda uji.

    • Untuk melacak pemanfaatan resource dan metrik performa, Anda dapat menggunakan konsol Vertex AI.
    • Untuk mengumpulkan dan menganalisis metrik performa mendetail, gunakan Cloud Monitoring.
    • Untuk melihat biaya, gunakan laporan Penagihan Cloud dan dasbor Cloud Monitoring.
    • Untuk mengidentifikasi hambatan performa dalam model dan mengoptimalkan pemanfaatan resource, gunakan alat pembuatan profil seperti Vertex AI TensorBoard.
  5. Menganalisis biaya: Bandingkan biaya dan performa setiap konfigurasi untuk mengidentifikasi opsi yang paling hemat biaya.

  6. Tetapkan target peningkatan dan nilai minimum resource berdasarkan kuota: Tentukan nilai minimum saat penskalaan mulai menghasilkan pengurangan performa, seperti pengurangan minimal dalam waktu pelatihan atau latensi untuk peningkatan biaya yang signifikan. Pertimbangkan kuota project saat menetapkan nilai minimum ini. Tentukan titik saat biaya dan potensi implikasi kuota dari penskalaan lebih lanjut tidak lagi dijustifikasi oleh peningkatan performa.

  7. Perbaiki secara iteratif: Ulangi proses eksperimen dengan konfigurasi yang lebih baik berdasarkan temuan Anda. Selalu pastikan penggunaan resource tetap berada dalam kuota yang dialokasikan dan sesuai dengan batas biaya-manfaat yang ditetapkan.

Menggunakan MLOps untuk mengurangi inefisiensi

Seiring makin banyaknya organisasi yang menggunakan ML untuk mendorong inovasi dan efisiensi, pengelolaan siklus proses ML secara efektif menjadi sangat penting. Operasi ML (MLOps) adalah serangkaian praktik yang mengotomatiskan dan menyederhanakan siklus proses ML, mulai dari pengembangan model hingga deployment dan pemantauan.

Menyelaraskan MLOps dengan faktor biaya

Untuk memanfaatkan MLOps demi efisiensi biaya, identifikasi pendorong biaya utama dalam siklus proses ML. Kemudian, Anda dapat menerapkan dan mengimplementasikan praktik MLOps yang selaras dengan pendorong biaya. Prioritaskan dan terapkan fitur MLOps yang menangani pendorong biaya yang paling berdampak. Pendekatan ini membantu memastikan jalur yang dapat dikelola dan berhasil untuk penghematan biaya yang signifikan.

Menerapkan MLOps untuk pengoptimalan biaya

Berikut adalah praktik MLOps umum yang membantu mengurangi biaya:

  • Kontrol versi: Alat seperti Git dapat membantu Anda melacak versi kode, data, dan model. Kontrol versi memastikan hasil dapat direproduksi, memfasilitasi kolaborasi, dan mencegah pengerjaan ulang yang mahal yang dapat disebabkan oleh masalah pembuatan versi.
  • Continuous integration dan continuous delivery (CI/CD): Cloud Build dan Artifact Registry memungkinkan Anda menerapkan pipeline CI/CD untuk mengotomatiskan build, pengujian, dan deployment model ML Anda. Pipeline CI/CD memastikan penggunaan resource yang efisien dan meminimalkan biaya yang terkait dengan intervensi manual.
  • Observabilitas: Cloud Monitoring dan Cloud Logging memungkinkan Anda melacak performa model dalam produksi, mengidentifikasi masalah, dan memicu pemberitahuan untuk intervensi proaktif. Kemampuan pengamatan memungkinkan Anda mempertahankan akurasi model, mengoptimalkan alokasi resource, dan mencegah periode nonaktif atau penurunan performa yang merugikan.
  • Pelatihan ulang model: Vertex AI Pipelines menyederhanakan proses pelatihan ulang model secara berkala atau saat performa menurun. Saat Anda menggunakan Vertex AI Pipelines untuk pelatihan ulang, hal ini akan membantu memastikan bahwa model Anda tetap akurat dan efisien, yang dapat mencegah penggunaan resource yang tidak perlu dan mempertahankan performa yang optimal.
  • Pengujian dan evaluasi otomatis: Vertex AI membantu Anda mempercepat dan menstandardisasi evaluasi model. Terapkan pengujian otomatis di seluruh siklus proses ML untuk memastikan kualitas dan keandalan model Anda. Pengujian tersebut dapat membantu Anda menemukan error sejak awal, mencegah masalah yang merugikan dalam produksi, dan mengurangi kebutuhan pengujian manual yang ekstensif.

Untuk mengetahui informasi selengkapnya, lihat MLOps: Pipeline otomatisasi dan continuous delivery di machine learning.

Menerapkan praktik pengelolaan dan tata kelola data

Praktik pengelolaan dan tata kelola data yang efektif sangat penting untuk pengoptimalan biaya. Data yang teratur dengan baik dapat mendorong tim untuk menggunakan kembali set data, menghindari duplikasi yang tidak perlu, dan mengurangi upaya untuk mendapatkan data berkualitas tinggi. Dengan mengelola data secara proaktif, Anda dapat mengurangi biaya penyimpanan, meningkatkan kualitas data, dan memastikan bahwa model ML Anda dilatih dengan data yang paling relevan dan berharga.

Untuk menerapkan praktik tata kelola dan pengelolaan data, pertimbangkan rekomendasi berikut.

Menetapkan dan menerapkan framework tata kelola data

Meningkatnya popularitas AI dan ML telah menjadikan data sebagai aset paling berharga bagi organisasi yang sedang menjalani transformasi digital. Framework yang andal untuk tata kelola data adalah persyaratan penting untuk mengelola workload AI dan ML secara efektif dan efisien dalam skala besar. Framework tata kelola data dengan kebijakan, prosedur, dan peran yang ditentukan dengan jelas memberikan pendekatan terstruktur untuk mengelola data di seluruh siklus prosesnya. Framework tersebut membantu meningkatkan kualitas data, meningkatkan keamanan, meningkatkan pemanfaatan, dan mengurangi redundansi.

Menetapkan kerangka kerja tata kelola data

Ada banyak framework yang sudah ada sebelumnya untuk tata kelola data, seperti framework yang dipublikasikan oleh EDM Council, dengan opsi yang tersedia untuk berbagai industri dan ukuran organisasi. Pilih dan sesuaikan framework yang sesuai dengan kebutuhan dan prioritas spesifik Anda.

Menerapkan framework tata kelola data

Google Cloud menyediakan layanan dan alat berikut untuk membantu Anda menerapkan framework tata kelola data yang andal:

  • Dataplex Universal Catalog adalah data fabric cerdas yang membantu Anda menyatukan data terdistribusi dan mengotomatiskan tata kelola data tanpa perlu menggabungkan set data di satu tempat. Hal ini membantu mengurangi biaya untuk mendistribusikan dan mengelola data, memfasilitasi penemuan data, dan mendorong penggunaan kembali.

  • Dataplex Universal Catalog juga merupakan layanan pengelolaan metadata yang skalabel dan terkelola sepenuhnya. Katalog memberikan fondasi yang memastikan bahwa aset data dapat diakses dan dapat digunakan kembali.

    • Metadata dari sumber yang didukung Google Cloud secara otomatis di-ingest ke dalam katalog universal. Untuk sumber data di luar Google Cloud, buat entri kustom.
    • Untuk meningkatkan penemuan dan pengelolaan aset data, perbanyak metadata teknis dengan metadata bisnis menggunakan aspek.
    • Pastikan ilmuwan data dan praktisi ML memiliki izin yang memadai untuk mengakses Katalog Universal Dataplex dan menggunakan fungsi penelusuran.
  • BigQuery sharing memungkinkan Anda bertukar aset data secara efisien dan aman di seluruh organisasi untuk mengatasi tantangan terkait keandalan dan biaya data.

    • Siapkan pertukaran data dan pastikan aset data pilihan dapat dilihat sebagai listingan.
    • Gunakan ruang bersih data untuk mengelola akses ke data sensitif secara aman dan berkolaborasi secara efisien dengan tim dan organisasi eksternal dalam proyek AI dan ML.
    • Pastikan ilmuwan data dan praktisi ML memiliki izin yang memadai untuk melihat dan memublikasikan set data ke berbagi BigQuery.

Membuat set data dan fitur yang dapat digunakan kembali di seluruh siklus proses ML

Untuk mendapatkan manfaat efisiensi dan biaya yang signifikan, gunakan kembali set data dan fitur di beberapa project ML. Jika Anda menghindari upaya rekayasa data dan pengembangan fitur yang berlebihan, organisasi Anda dapat mempercepat pengembangan model, mengurangi biaya infrastruktur, dan membebaskan resource berharga untuk tugas penting lainnya.

Google Cloud menyediakan layanan dan alat berikut untuk membantu Anda menggunakan kembali set data dan fitur:

  • Praktisi Data dan ML dapat memublikasikan produk data untuk memaksimalkan penggunaan ulang di seluruh tim. Produk data kemudian dapat ditemukan dan digunakan melalui Katalog Universal Dataplex dan berbagi BigQuery.
  • Untuk set data tabulasi dan terstruktur, Anda dapat menggunakan Vertex AI Feature Store untuk meningkatkan penggunaan kembali dan menyederhanakan pengelolaan fitur melalui BigQuery.
  • Anda dapat menyimpan data tidak terstruktur di Cloud Storage dan mengelola data tersebut menggunakan tabel objek BigQuery dan URL bertanda tangan.
  • Anda dapat mengelola embedding vektor dengan menyertakan metadata dalam indeks Vector Search.

Mengotomatiskan dan merampingkan dengan MLOps

Manfaat utama penerapan praktik MLOps adalah pengurangan biaya teknologi dan personel. Otomatisasi membantu Anda menghindari duplikasi aktivitas ML dan mengurangi beban kerja data scientist dan engineer ML.

Untuk mengotomatiskan dan menyederhanakan pengembangan ML dengan MLOps, pertimbangkan rekomendasi berikut.

Mengotomatiskan dan menstandardisasi pengumpulan dan pemrosesan data

Untuk membantu mengurangi upaya dan waktu pengembangan ML, otomatiskan dan standarkan teknologi pengumpulan dan pemrosesan data Anda.

Mengotomatiskan pengumpulan dan pemrosesan data

Bagian ini merangkum produk, alat, dan teknik yang dapat Anda gunakan untuk mengotomatiskan pengumpulan dan pemrosesan data.

Identifikasi dan pilih sumber data yang relevan untuk tugas AI dan ML Anda:

Untuk setiap sumber data, pilih alat penyerapan:

  • Dataflow: Untuk pemrosesan data batch dan streaming dari berbagai sumber, dengan integrasi komponen ML. Untuk arsitektur berbasis peristiwa, Anda dapat menggabungkan Dataflow dengan Eventarc untuk memproses data secara efisien untuk ML. Untuk meningkatkan efisiensi tugas MLOps dan ML, gunakan GPU dan kemampuan penyesuaian yang tepat.
  • Fungsi Cloud Run: Untuk penyerapan data yang digerakkan oleh peristiwa yang dipicu oleh perubahan pada sumber data untuk aplikasi real-time.
  • BigQuery: Untuk penyerapan data tabular klasik dengan akses yang sering.

Pilih alat untuk transformasi dan pemuatan data:

  • Gunakan alat seperti Dataflow atau Dataform untuk mengotomatiskan transformasi data seperti penskalaan fitur, encoding variabel kategoris, dan pembuatan fitur baru dalam batch, streaming, atau real time. Alat yang Anda pilih bergantung pada persyaratan dan layanan yang dipilih.
  • Gunakan Vertex AI Feature Store untuk mengotomatiskan pembuatan dan pengelolaan fitur. Anda dapat memusatkan fitur untuk digunakan kembali di berbagai model dan project.

Menstandardisasi pengumpulan dan pemrosesan data

Untuk menemukan, memahami, dan mengelola aset data, gunakan layanan pengelolaan metadata seperti Dataplex Universal Catalog. Hal ini membantu Anda menstandardisasi definisi data dan memastikan konsistensi di seluruh organisasi Anda.

Untuk menerapkan standardisasi dan menghindari biaya pemeliharaan beberapa penerapan kustom, gunakan pipeline pelatihan dan orkestrasi otomatis. Untuk informasi selengkapnya, lihat bagian berikutnya.

Mengotomatiskan pipeline pelatihan dan menggunakan kembali aset yang ada

Untuk meningkatkan efisiensi dan produktivitas dalam MLOps, pipeline pelatihan otomatis sangat penting. Google Cloud menawarkan serangkaian alat dan layanan yang andal untuk membangun dan men-deploy pipeline pelatihan, dengan penekanan yang kuat pada penggunaan kembali aset yang ada. Pipeline pelatihan otomatis membantu mempercepat pengembangan model, memastikan konsistensi, dan mengurangi upaya yang berlebihan.

Mengotomatiskan pipeline pelatihan

Tabel berikut menjelaskan layanan dan fitur Google Cloud yang dapat Anda gunakan untuk mengotomatiskan berbagai fungsi pipeline pelatihan.

Fungsi Layanan dan fiturGoogle Cloud
Orkestrasi: Tentukan alur kerja ML kompleks yang terdiri dari beberapa langkah dan dependensi. Anda dapat menentukan setiap langkah sebagai tugas yang di-container secara terpisah, yang membantu Anda mengelola dan menskalakan setiap tugas dengan mudah.
  • Untuk membuat dan mengorkestrasi pipeline, gunakan Vertex AI Pipelines atau Kubeflow Pipelines. Alat ini mendukung transformasi data sederhana, pelatihan model, deployment model, dan pembuatan versi pipeline. Pipeline memungkinkan Anda menentukan dependensi antar-langkah, mengelola alur data, dan mengotomatiskan eksekusi seluruh alur kerja.
  • Untuk tugas operasional yang kompleks dengan persyaratan CI/CD dan ekstraksi, transformasi, serta pemuatan (ETL) yang berat, gunakan Cloud Composer. Jika Anda lebih memilih Airflow untuk orkestrasi data, Cloud Composer adalah layanan terkelola yang kompatibel dan dibangun di Airflow.
  • Untuk pipeline yang dikelola di luar Vertex AI Pipelines, gunakan Workflows untuk tugas yang berfokus pada infrastruktur seperti memulai dan menghentikan VM atau mengintegrasikan dengan sistem eksternal.
  • Untuk mengotomatiskan proses CI/CD, gunakan Cloud Build dengan Pub/Sub. Anda dapat menyiapkan notifikasi dan pemicu otomatis untuk saat kode baru dikirim atau saat model baru perlu dilatih.
  • Untuk solusi yang terkelola sepenuhnya dan skalabel untuk pengelolaan pipeline, gunakan Cloud Data Fusion.
Pembuatan versi: Lacak dan kontrol berbagai versi pipeline dan komponen untuk memastikan reproduksibilitas dan auditabilitas. Menyimpan template pipeline Kubeflow di repositori Kubeflow Pipelines di Artifact Registry.
Kemampuan penggunaan ulang: Gunakan kembali komponen dan artefak pipeline yang ada, seperti set data yang telah disiapkan dan model terlatih, untuk mempercepat pengembangan. Simpan template pipeline Anda di Cloud Storage dan bagikan template tersebut di seluruh organisasi Anda.
Pemantauan: Pantau eksekusi pipeline untuk mengidentifikasi dan mengatasi masalah. Gunakan Cloud Logging dan Cloud Monitoring. Untuk mengetahui informasi selengkapnya, lihat Memantau resource secara berkelanjutan dengan dasbor, pemberitahuan, dan laporan.

Memperluas kemampuan penggunaan ulang di luar pipeline

Cari peluang untuk memperluas penggunaan ulang di luar pipeline pelatihan. Berikut adalah contoh kemampuan Google Cloud yang memungkinkan Anda menggunakan kembali fitur, set data, model, dan kode ML.

  • Vertex AI Feature Store menyediakan repositori terpusat untuk mengatur, menyimpan, dan menyalurkan fitur ML. Dengan fitur ini, Anda dapat menggunakan kembali fitur di berbagai project dan model, yang dapat meningkatkan konsistensi dan mengurangi upaya rekayasa fitur. Anda dapat menyimpan, membagikan, dan mengakses fitur untuk kasus penggunaan online dan offline.
  • Set data Vertex AI memungkinkan tim membuat dan mengelola set data secara terpusat, sehingga organisasi Anda dapat memaksimalkan penggunaan ulang dan mengurangi duplikasi data. Tim Anda dapat menelusuri dan menemukan set data menggunakan Katalog Universal Dataplex.
  • Vertex AI Model Registry memungkinkan Anda menyimpan, mengelola, dan men-deploy model terlatih. Model Registry memungkinkan Anda menggunakan kembali model di pipeline berikutnya atau untuk prediksi online, yang membantu Anda memanfaatkan upaya pelatihan sebelumnya.
  • Container kustom memungkinkan Anda mengemas kode pelatihan dan dependensi ke dalam container, lalu menyimpan container di Artifact Registry. Dengan container kustom, Anda dapat menyediakan lingkungan pelatihan yang konsisten dan dapat direproduksi di berbagai pipeline dan project.

Menggunakan layanan Google Cloud untuk evaluasi dan penyesuaian model

Google Cloud menawarkan serangkaian alat dan layanan canggih untuk menyederhanakan dan mengotomatiskan evaluasi dan penyesuaian model. Alat dan layanan ini dapat membantu Anda mengurangi waktu untuk produksi dan mengurangi resource yang diperlukan untuk pelatihan dan pemantauan berkelanjutan. Dengan menggunakan layanan ini, tim AI dan ML Anda dapat meningkatkan performa model dengan lebih sedikit iterasi yang mahal, mencapai hasil yang lebih cepat, dan meminimalkan pemborosan resource komputasi.

Menggunakan evaluasi dan eksperimen model yang hemat resource

Mulai project AI dengan eksperimen sebelum Anda meningkatkan skala solusi. Dalam eksperimen Anda, lacak berbagai metadata seperti versi set data, parameter model, dan jenis model. Untuk reproduksibilitas dan perbandingan hasil lebih lanjut, gunakan pelacakan metadata selain pembuatan versi kode, mirip dengan kemampuan di Git. Untuk menghindari hilangnya informasi atau men-deploy versi yang salah dalam produksi, gunakan Vertex AI Experiments sebelum Anda menerapkan tugas pelatihan atau deployment skala penuh.

Vertex AI Experiments memungkinkan Anda melakukan hal berikut:

  • Sederhanakan dan otomatiskan pelacakan dan penemuan metadata melalui UI dan API yang mudah digunakan untuk beban kerja yang siap produksi.
  • Menganalisis metrik performa model dan membandingkan metrik di beberapa model.

Setelah model dilatih, pantau terus performa dan pergeseran data seiring waktu untuk data yang masuk. Untuk menyederhanakan proses ini, gunakan Vertex AI Model Monitoring untuk mengakses model yang dibuat secara langsung di Model Registry. Pemantauan Model juga mengotomatiskan pemantauan untuk data dan hasil melalui prediksi online dan batch. Anda dapat mengekspor hasilnya ke BigQuery untuk analisis dan pelacakan lebih lanjut.

Memilih strategi optimal untuk mengotomatiskan pelatihan

Untuk penyesuaian hyperparameter, sebaiknya gunakan pendekatan berikut:

  • Untuk mengotomatiskan proses menemukan hyperparameter optimal untuk model Anda, gunakan penyesuaian hyperparameter Vertex AI. Vertex AI menggunakan algoritma canggih untuk menjelajahi ruang hyperparameter dan mengidentifikasi konfigurasi terbaik.
  • Untuk penyesuaian hyperparameter yang efisien, pertimbangkan untuk menggunakan teknik pengoptimalan Bayesian, terutama saat Anda menangani model yang kompleks dan set data yang besar.

Untuk pelatihan terdistribusi, sebaiknya gunakan pendekatan berikut:

  • Untuk set data besar dan model kompleks, gunakan infrastruktur pelatihan terdistribusi Vertex AI. Pendekatan ini memungkinkan Anda melatih model di beberapa mesin, yang membantu mengurangi waktu pelatihan dan biaya terkait secara signifikan. Gunakan alat seperti berikut:

  • Pilih framework ML yang dioptimalkan, seperti Keras dan PyTorch, yang mendukung pelatihan terdistribusi dan penggunaan resource yang efisien.

Menggunakan AI yang dapat dijelaskan

Penting untuk memahami alasan model membuat keputusan tertentu dan mengidentifikasi potensi bias atau area yang perlu ditingkatkan. Gunakan Vertex Explainable AI untuk mendapatkan insight tentang prediksi model Anda. Vertex Explainable AI menawarkan cara untuk mengotomatiskan penjelasan berbasis fitur dan berbasis contoh yang ditautkan ke eksperimen Vertex AI Anda.

  • Berbasis fitur: Untuk memahami fitur mana yang paling berpengaruh dalam prediksi model Anda, analisis atribusi fitur. Pemahaman ini dapat memandu upaya rekayasa fitur dan meningkatkan kemampuan interpretasi model.
  • Berbasis contoh: Untuk menampilkan daftar contoh (biasanya dari set pelatihan) yang paling mirip dengan input, Vertex AI menggunakan penelusuran tetangga terdekat. Karena input yang serupa umumnya menghasilkan prediksi yang serupa, Anda dapat menggunakan penjelasan ini untuk mengeksplorasi dan menjelaskan perilaku model.

Menggunakan layanan terkelola dan model terlatih

Terapkan pendekatan inkremental untuk pemilihan model dan pengembangan model. Pendekatan ini membantu Anda menghindari biaya berlebih yang terkait dengan memulai dari awal setiap saat. Untuk mengontrol biaya, gunakan framework ML, layanan terkelola, dan model terlatih.

Untuk mendapatkan nilai maksimum dari layanan terkelola dan model terlatih, pertimbangkan rekomendasi berikut.

Menggunakan notebook untuk eksplorasi dan eksperimen

Lingkungan Notebook sangat penting untuk eksperimen ML yang hemat biaya. Notebook menyediakan ruang interaktif dan kolaboratif bagi ilmuwan data dan engineer untuk menjelajahi data, mengembangkan model, berbagi pengetahuan, dan melakukan iterasi secara efisien. Kolaborasi dan berbagi pengetahuan melalui notebook secara signifikan mempercepat pengembangan, peninjauan kode, dan transfer pengetahuan. Notebook membantu menyederhanakan alur kerja dan mengurangi upaya yang berulang.

Daripada membeli dan mengelola hardware mahal untuk lingkungan pengembangan, Anda dapat menggunakan infrastruktur yang dapat diskalakan dan on-demand dari Vertex AI Workbench dan Colab Enterprise.

  • Vertex AI Workbench adalah lingkungan pengembangan notebook Jupyter untuk seluruh alur kerja data science. Anda dapat berinteraksi dengan Vertex AI dan layanan Google Cloud lainnya dari dalam notebook Jupyter instance. Integrasi dan fitur Vertex AI Workbench membantu Anda melakukan hal berikut:

    • Mengakses dan menjelajahi data dari notebook Jupyter menggunakan integrasi BigQuery dan Cloud Storage.
    • Mengotomatiskan update berulang pada model menggunakan eksekusi terjadwal kode yang berjalan di Vertex AI.
    • Proses data secara cepat dengan menjalankan notebook di cluster Dataproc.
    • Jalankan notebook sebagai langkah di dalam pipeline menggunakan Vertex AI Pipelines.
  • Colab Enterprise adalah lingkungan notebook kolaboratif dan terkelola yang memiliki kemampuan keamanan dan kepatuhan Google Cloud. Colab Enterprise sangat ideal jika prioritas project Anda mencakup pengembangan kolaboratif dan mengurangi upaya untuk mengelola infrastruktur. Colab Enterprise terintegrasi dengan layananGoogle Cloud dan bantuan berteknologi AI yang menggunakan Gemini. Colab Enterprise memungkinkan Anda melakukan hal berikut:

    • Bekerja di notebook tanpa perlu mengelola infrastruktur.
    • Bagikan notebook dengan satu pengguna, grup Google, atau domain Google Workspace. Anda dapat mengontrol akses notebook melalui Identity and Access Management (IAM).
    • Berinteraksi dengan fitur yang terintegrasi dalam Vertex AI dan BigQuery.

Untuk melacak perubahan dan mengembalikan ke versi sebelumnya jika perlu, Anda dapat mengintegrasikan notebook dengan alat kontrol versi seperti Git.

Mulai dengan model yang sudah ada dan terlatih

Melatih model yang kompleks dari awal, terutama model deep learning, memerlukan resource komputasi dan waktu yang signifikan. Untuk mempercepat pemilihan model dan proses pengembangan, mulailah dengan model yang sudah ada dan terlatih. Model ini, yang dilatih dengan set data yang sangat besar, menghilangkan kebutuhan untuk melatih model dari awal dan secara signifikan mengurangi biaya dan waktu pengembangan.

Mengurangi biaya pelatihan dan pengembangan

Pilih model atau API yang sesuai untuk setiap tugas ML dan gabungkan untuk membuat proses pengembangan ML end-to-end.

Vertex AI Model Garden menawarkan banyak koleksi model terlatih untuk tugas seperti klasifikasi gambar, deteksi objek, dan natural language processing. Model dikelompokkan ke dalam kategori berikut:

Google Cloud menyediakan API AI dan ML yang memungkinkan developer mengintegrasikan kemampuan AI canggih ke dalam aplikasi tanpa perlu membangun model dari awal.

  • Cloud Vision API memungkinkan Anda mendapatkan insight dari gambar. API ini berguna untuk aplikasi seperti analisis gambar, moderasi konten, dan entri data otomatis.
  • Cloud Natural Language API memungkinkan Anda menganalisis teks untuk memahami struktur dan maknanya. API ini berguna untuk tugas-tugas seperti analisis masukan pelanggan, kategorisasi konten, dan pemahaman tren media sosial.
  • Speech-to-Text API mengonversi audio menjadi teks. API ini mendukung berbagai bahasa dan dialek.
  • Video Intelligence API menganalisis konten video untuk mengidentifikasi objek, adegan, dan tindakan. Gunakan API ini untuk analisis konten video, moderasi konten, dan penelusuran video.
  • Document AI API memproses dokumen untuk mengekstrak, mengklasifikasikan, dan memahami data. API ini membantu Anda mengotomatiskan alur kerja pemrosesan dokumen.
  • Dialogflow API memungkinkan pembuatan antarmuka percakapan, seperti chatbot dan asisten suara. Anda dapat menggunakan API ini untuk membuat bot layanan pelanggan dan asisten virtual.
  • Gemini API di Vertex AI memberikan akses ke model AI serbaguna Google yang paling canggih.

Mengurangi biaya penyesuaian

Untuk membantu mengurangi kebutuhan akan data yang ekstensif dan waktu komputasi, sesuaikan model terlatih Anda pada set data tertentu. Sebaiknya gunakan pendekatan berikut:

  • Transfer pembelajaran: Gunakan pengetahuan dari model terlatih untuk tugas baru, bukan memulai dari awal. Pendekatan ini memerlukan lebih sedikit data dan waktu komputasi, yang membantu mengurangi biaya.
  • Penyesuaian adaptor (penyesuaian efisien parameter): Menyesuaikan model dengan tugas atau domain baru tanpa melakukan fine-tuning penuh. Pendekatan ini memerlukan resource komputasi yang jauh lebih rendah dan set data yang lebih kecil.
  • Supervised fine tuning: Menyesuaikan perilaku model dengan set data berlabel. Pendekatan ini menyederhanakan pengelolaan infrastruktur yang mendasarinya dan upaya pengembangan yang diperlukan untuk tugas pelatihan kustom.

Menjelajahi dan bereksperimen menggunakan Vertex AI Studio

Vertex AI Studio dapat Anda gunakan untuk menguji, membuat prototipe, dan men-deploy aplikasi AI generatif dengan cepat.

  • Integrasi dengan Model Garden: Memberikan akses cepat ke model terbaru dan memungkinkan Anda men-deploy model secara efisien untuk menghemat waktu dan biaya.
  • Akses terpadu ke model khusus: Menggabungkan akses ke berbagai model dan API terlatih, termasuk yang digunakan untuk chat, teks, media, terjemahan, dan ucapan. Akses terpadu ini dapat membantu Anda mengurangi waktu yang dihabiskan untuk menelusuri dan mengintegrasikan setiap layanan.

Menggunakan layanan terkelola untuk melatih atau menayangkan model

Layanan terkelola dapat membantu mengurangi biaya pelatihan model dan menyederhanakan pengelolaan infrastruktur, sehingga Anda dapat berfokus pada pengembangan dan pengoptimalan model. Pendekatan ini dapat menghasilkan manfaat biaya yang signifikan dan peningkatan efisiensi.

Mengurangi overhead operasional

Untuk mengurangi kompleksitas dan biaya pengelolaan infrastruktur, gunakan layanan terkelola seperti berikut:

  • Pelatihan Vertex AI menyediakan lingkungan yang terkelola sepenuhnya untuk melatih model Anda dalam skala besar. Anda dapat memilih dari berbagai container bawaan dengan framework ML populer atau menggunakan container kustom Anda sendiri. Google Cloud menangani penyediaan, penskalaan, dan pemeliharaan infrastruktur, sehingga Anda akan mengalami overhead operasional yang lebih rendah.
  • Prediksi Vertex AI menangani penskalaan infrastruktur, penyeimbangan beban, dan perutean permintaan. Anda mendapatkan ketersediaan dan performa tinggi tanpa intervensi manual.
  • Ray on Vertex AI menyediakan cluster Ray yang terkelola sepenuhnya. Anda dapat menggunakan cluster untuk menjalankan workload AI kustom yang kompleks dan melakukan banyak komputasi (penyesuaian hyperparameter, penyesuaian model, pelatihan model terdistribusi, dan reinforcement learning dari umpan balik manusia) tanpa perlu mengelola infrastruktur Anda sendiri.

Menggunakan layanan terkelola untuk mengoptimalkan pemanfaatan resource

Untuk mengetahui detail tentang pemanfaatan resource yang efisien, lihat Mengoptimalkan pemanfaatan resource.

Kontributor

Penulis:

Kontributor lainnya: