Dokumen dalam Google Cloud Framework dengan Arsitektur yang Baik menjelaskan prinsip dan rekomendasi untuk membantu Anda mendesain, mem-build, dan mengelola beban kerja AI dan ML di Google Cloud yang memenuhi sasaran operasional, keamanan, keandalan, biaya, dan performa Anda.
Target audiens untuk dokumen ini mencakup pengambil keputusan, arsitek, administrator, developer, dan operator yang mendesain, mem-build, men-deploy, dan memelihara workload AI dan ML di Google Cloud.
Halaman berikut menjelaskan prinsip dan rekomendasi yang khusus untuk AI dan ML, untuk setiap pilar Framework Arsitektur yang Baik:
- Perspektif AI dan ML: Keunggulan operasional
- Perspektif AI dan ML: Keamanan
- Perspektif AI dan ML: Keandalan
- Perspektif AI dan ML: Pengoptimalan biaya
- Perspektif AI dan ML: Pengoptimalan performa
Kontributor
Penulis:
- Benjamin Sadik | Customer Engineer Spesialis AI dan ML
- Filipe Gracio, PhD | Customer Engineer
- Isaac Lo | AI Business Development Manager
- Kamilla Kurta | GenAI/ML Specialist Customer Engineer
- Mohamed Fawzi | Benelux Security and Compliance Lead
- Rick (Rugui) Chen | AI Infrastructure Solutions Architect
- Sannya Dang | AI Solution Architect
Kontributor lainnya:
- Daniel Lees | Cloud Security Architect
- Gary Harmson | Principal Architect
- Jose Andrade | Enterprise Infrastructure Customer Engineer
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Marwan Al Shawi | Partner Customer Engineer
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Radhika Kanakam | Senior Program Manager, Cloud GTM
- Ryan Cox | Principal Architect
- Samantha He | Technical Writer
- Stef Ruinard | Generative AI Field Solutions Architect
- Wade Holmes | Direktur Solusi Global
- Zach Seils | Networking Specialist
Perspektif AI dan ML: Keunggulan operasional
Dokumen dalam Framework dengan Arsitektur yang Baik: perspektif AI dan ML memberikan ringkasan tentang prinsip dan rekomendasi untuk membantu Anda mem-build dan mengoperasikan sistem AI dan ML yang andal di Google Cloud. Rekomendasi ini membantu Anda menyiapkan elemen dasar seperti kemampuan observasi, otomatisasi, dan skalabilitas. Rekomendasi dalam dokumen ini selaras dengan pilar keunggulan operasional dari Google Cloud Framework Arsitektur yang Baik.
Keunggulan operasional dalam domain AI dan ML adalah kemampuan untuk men-deploy, mengelola, dan mengatur sistem dan pipeline AI dan ML yang rumit dengan lancar, yang mendukung tujuan strategis organisasi Anda. Keunggulan operasional memungkinkan Anda merespons perubahan secara efisien, mengurangi kompleksitas operasional, dan memastikan operasi tetap selaras dengan sasaran bisnis.
Membangun fondasi yang kuat untuk pengembangan model
Buat fondasi yang andal untuk menyederhanakan pengembangan model, mulai dari definisi masalah hingga deployment. Dasar semacam itu memastikan bahwa solusi AI Anda dibuat berdasarkan komponen dan pilihan yang andal dan efisien. Jenis fondasi ini membantu Anda merilis perubahan dan peningkatan dengan cepat dan mudah.
Pertimbangkan rekomendasi berikut:
- Tentukan masalah yang diselesaikan sistem AI dan hasil yang Anda inginkan.
- Identifikasi dan kumpulkan data relevan yang diperlukan untuk melatih dan mengevaluasi model Anda. Kemudian, bersihkan dan lakukan prapemrosesan data mentah. Terapkan pemeriksaan validasi data untuk memastikan kualitas dan integritas data.
- Pilih pendekatan ML yang sesuai untuk tugas tersebut. Saat Anda mendesain struktur dan parameter model, pertimbangkan kompleksitas model dan persyaratan komputasi.
- Gunakan sistem kontrol versi untuk kode, model, dan data.
Mengotomatiskan siklus proses pengembangan model
Dari persiapan dan pelatihan data hingga deployment dan pemantauan, otomatisasi membantu Anda meningkatkan kualitas dan efisiensi operasi. Otomatisasi memungkinkan pengembangan dan deployment model yang lancar, berulang, dan bebas error. Otomatisasi meminimalkan intervensi manual, mempercepat siklus rilis, dan memastikan konsistensi di seluruh lingkungan.
Pertimbangkan rekomendasi berikut:
- Gunakan sistem orkestrasi pipeline terkelola untuk mengorkestrasi dan mengotomatiskan alur kerja ML. Pipeline harus menangani langkah-langkah utama siklus proses pengembangan Anda: persiapan, pelatihan, deployment, dan evaluasi.
- Mengimplementasikan pipeline CI/CD untuk siklus proses pengembangan model. Pipeline ini harus mengotomatiskan pembuatan, pengujian, dan deployment model. Pipeline juga harus menyertakan pelatihan berkelanjutan untuk melatih ulang model pada data baru sesuai kebutuhan.
- Terapkan pendekatan rilis bertahap seperti deployment canary atau pengujian A/B, untuk rilis model yang aman dan terkontrol.
Menerapkan kemampuan observasi
Saat menerapkan kemampuan observasi, Anda dapat memperoleh insight mendalam tentang performa model, penyimpangan data, dan kondisi sistem. Terapkan mekanisme pemantauan, pemberitahuan, dan logging berkelanjutan untuk mengidentifikasi masalah secara proaktif, memicu respons tepat waktu, dan memastikan kontinuitas operasional.
Pertimbangkan rekomendasi berikut:
- Terapkan pemantauan performa permanen dan otomatis untuk model Anda. Gunakan metrik dan kriteria keberhasilan untuk evaluasi berkelanjutan terhadap model setelah deployment.
- Pantau endpoint dan infrastruktur deployment Anda untuk memastikan ketersediaan layanan.
- Siapkan pemberitahuan kustom berdasarkan anomali dan nilai minimum khusus bisnis untuk memastikan masalah diidentifikasi dan diselesaikan secara tepat waktu.
- Gunakan teknik Explainable AI untuk memahami dan menafsirkan output model.
Membangun budaya keunggulan operasional
Keunggulan operasional dibangun berdasarkan fondasi orang, budaya, dan praktik profesional. Keberhasilan tim dan bisnis Anda bergantung pada seberapa efektif organisasi Anda menerapkan metodologi yang memungkinkan pengembangan kemampuan AI yang andal dan cepat.
Pertimbangkan rekomendasi berikut:
- Mendukung otomatisasi dan standardisasi sebagai metodologi pengembangan inti. Sederhanakan alur kerja Anda dan kelola siklus proses ML secara efisien menggunakan teknik MLOps. Otomatiskan tugas untuk menghemat waktu bagi inovasi, dan standarkan proses untuk mendukung konsistensi dan pemecahan masalah yang lebih mudah.
- Prioritaskan pembelajaran dan peningkatan berkelanjutan. Promosikan peluang pembelajaran yang dapat digunakan anggota tim untuk meningkatkan keterampilan mereka dan terus mendapatkan informasi terbaru tentang kemajuan AI dan ML. Dorong eksperimen dan lakukan retrospective rutin untuk mengidentifikasi area yang perlu ditingkatkan.
- Mengembangkan budaya akuntabilitas dan kepemilikan. Tentukan peran yang jelas sehingga semua orang memahami kontribusi mereka. Berdayakan tim untuk membuat keputusan dalam batas dan melacak progres menggunakan metrik yang transparan.
- Menyematkan etika dan keamanan AI ke dalam budaya. Prioritaskan sistem yang bertanggung jawab dengan mengintegrasikan pertimbangan etika ke dalam setiap tahap siklus proses ML. Tetapkan prinsip etika yang jelas dan dorong diskusi terbuka tentang tantangan terkait etika.
Mendesain untuk skalabilitas
Buat arsitektur solusi AI Anda untuk menangani volume data dan permintaan pengguna yang terus meningkat. Gunakan infrastruktur yang skalabel sehingga model Anda dapat beradaptasi dan berperforma secara optimal saat project Anda berkembang.
Pertimbangkan rekomendasi berikut:
- Merencanakan kapasitas dan kuota. Antisipasi pertumbuhan di masa mendatang, dan rencanakan kuota resource dan kapasitas infrastruktur Anda dengan sesuai.
- Bersiap menghadapi peristiwa puncak. Pastikan sistem Anda dapat menangani lonjakan traffic atau workload secara tiba-tiba selama peristiwa puncak.
- Menskalakan aplikasi AI untuk produksi. Buat desain untuk penskalaan horizontal guna mengakomodasi peningkatan beban kerja. Gunakan framework seperti Ray di Vertex AI untuk melakukan paralelisasi tugas di beberapa mesin.
- Gunakan layanan terkelola jika perlu. Gunakan layanan yang membantu Anda menskalakan sekaligus meminimalkan overhead operasional dan kompleksitas intervensi manual.
Kontributor
Penulis:
- Sannya Dang | AI Solution Architect
- Filipe Gracio, PhD | Customer Engineer
Kontributor lainnya:
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Marwan Al Shawi | Partner Customer Engineer
- Ryan Cox | Principal Architect
- Stef Ruinard | Generative AI Field Solutions Architect
Perspektif AI dan ML: Keamanan
Dokumen dalam Framework dengan Arsitektur yang Baik: perspektif AI dan ML memberikan ringkasan prinsip dan rekomendasi untuk memastikan bahwa deployment AI dan ML Anda memenuhi persyaratan keamanan dan kepatuhan organisasi Anda. Rekomendasi dalam dokumen ini selaras dengan pilar keamanan Google Cloud Framework Arsitektur yang Baik.
Deployment workload AI dan ML yang aman adalah persyaratan penting, terutama di lingkungan perusahaan. Untuk memenuhi persyaratan ini, Anda perlu menggunakan pendekatan keamanan menyeluruh yang dimulai dari konsep awal solusi AI dan ML Anda dan diperluas ke pengembangan, deployment, dan operasi yang sedang berlangsung. Google Cloud menawarkan alat dan layanan andal yang dirancang untuk membantu mengamankan beban kerja AI dan ML Anda.
Menentukan sasaran dan persyaratan yang jelas
Lebih mudah untuk mengintegrasikan kontrol kepatuhan dan keamanan yang diperlukan di awal proses desain dan pengembangan, daripada menambahkan kontrol setelah pengembangan. Sejak awal proses desain dan pengembangan, buat keputusan yang sesuai dengan lingkungan risiko spesifik dan prioritas bisnis spesifik Anda.
Pertimbangkan rekomendasi berikut:
- Identifikasi potensi vektor serangan dan terapkan perspektif keamanan dan kepatuhan sejak awal. Saat Anda mendesain dan mengembangkan sistem AI, terus lacak platform serangan, potensi risiko, dan kewajiban yang mungkin Anda hadapi.
- Selaraskan upaya keamanan AI dan ML Anda dengan sasaran bisnis dan pastikan keamanan merupakan bagian integral dari strategi Anda secara keseluruhan. Pahami pengaruh pilihan keamanan Anda terhadap sasaran bisnis utama Anda.
Menjaga keamanan data dan mencegah kehilangan atau kesalahan penanganan
Data adalah aset berharga dan sensitif yang harus dijaga keamanannya. Keamanan data membantu Anda mempertahankan kepercayaan pengguna, mendukung tujuan bisnis, dan memenuhi persyaratan kepatuhan.
Pertimbangkan rekomendasi berikut:
- Jangan mengumpulkan, menyimpan, atau menggunakan data yang tidak benar-benar diperlukan untuk sasaran bisnis Anda. Jika memungkinkan, gunakan data sintetis atau yang sepenuhnya dianonimkan.
- Pantau pengumpulan, penyimpanan, dan transformasi data. Pertahankan log untuk semua aktivitas akses dan manipulasi data. Log ini membantu Anda mengaudit akses data, mendeteksi upaya akses tidak sah, dan mencegah akses yang tidak diinginkan.
- Terapkan berbagai tingkat akses (misalnya, tidak ada akses, hanya baca, atau tulis) berdasarkan peran pengguna. Pastikan izin ditetapkan berdasarkan prinsip hak istimewa terendah. Pengguna hanya boleh memiliki izin minimum yang diperlukan agar mereka dapat melakukan aktivitas peran mereka.
- Terapkan tindakan seperti enkripsi, perimeter aman, dan pembatasan pergerakan data. Langkah-langkah ini membantu Anda mencegah pemindahan data yang tidak sah dan hilangnya data.
- Lindungi sistem pelatihan ML Anda dari pencemaran data.
Menjaga pipeline AI tetap aman dan andal terhadap modifikasi tidak sah
Kode AI dan ML Anda serta pipeline yang ditentukan kode adalah aset penting. Kode yang tidak diamankan dapat dimodifikasi, yang dapat menyebabkan kebocoran data, kegagalan kepatuhan, dan gangguan aktivitas bisnis yang penting. Menjaga keamanan kode AI dan ML Anda membantu memastikan integritas dan nilai model serta output model Anda.
Pertimbangkan rekomendasi berikut:
- Gunakan praktik coding yang aman, seperti pengelolaan dependensi atau validasi dan sanitasi input, selama pengembangan model untuk mencegah kerentanan.
- Lindungi kode pipeline dan artefak model Anda, seperti file, bobot model, dan spesifikasi deployment, dari akses tidak sah. Terapkan tingkat akses yang berbeda untuk setiap artefak berdasarkan peran dan kebutuhan pengguna.
- Terapkan silsilah dan pelacakan aset dan operasi pipeline Anda. Penerapan ini membantu Anda memenuhi persyaratan kepatuhan dan menghindari kompromi pada sistem produksi.
Men-deploy di sistem aman dengan alat dan artefak yang aman
Pastikan kode dan model Anda berjalan di lingkungan aman yang memiliki sistem kontrol akses yang andal dengan jaminan keamanan untuk alat dan artefak yang di-deploy di lingkungan.
Pertimbangkan rekomendasi berikut:
- Latih dan deploy model Anda di lingkungan aman yang memiliki kontrol akses dan perlindungan yang sesuai terhadap penggunaan atau manipulasi yang tidak sah.
- Ikuti panduan Supply-chain Levels for Software Artifacts (SLSA) standar untuk artefak khusus AI Anda, seperti model dan paket software.
- Sebaiknya gunakan image container bawaan yang telah divalidasi dan dirancang khusus untuk workload AI.
Melindungi dan memantau input
Sistem AI memerlukan input untuk membuat prediksi, membuat konten, atau mengotomatiskan tindakan. Beberapa input mungkin menimbulkan risiko atau digunakan sebagai vektor serangan yang harus dideteksi dan dibersihkan. Mendeteksi potensi input berbahaya sejak awal akan membantu Anda menjaga keamanan sistem AI dan membuatnya beroperasi sebagaimana mestinya.
Pertimbangkan rekomendasi berikut:
- Terapkan praktik aman untuk mengembangkan dan mengelola perintah untuk sistem AI generatif, dan pastikan perintah tersebut dipindai untuk mengetahui niat berbahaya.
- Pantau input ke sistem prediktif atau generatif untuk mencegah masalah seperti endpoint atau perintah yang kelebihan beban yang tidak dirancang sistem untuk menanganinya.
- Pastikan hanya pengguna yang dimaksud dari sistem yang di-deploy yang dapat menggunakannya.
Memantau, mengevaluasi, dan bersiap untuk merespons output
Sistem AI memberikan nilai karena menghasilkan output yang meningkatkan, mengoptimalkan, atau mengotomatiskan pengambilan keputusan manusia. Untuk mempertahankan integritas dan kepercayaan sistem dan aplikasi AI, Anda perlu memastikan bahwa output aman dan berada dalam parameter yang diharapkan. Anda juga memerlukan rencana untuk merespons insiden.
Pertimbangkan rekomendasi berikut:
- Pantau output model AI dan ML Anda dalam produksi, dan identifikasi masalah performa, keamanan, dan kepatuhan.
- Evaluasi performa model dengan menerapkan metrik dan langkah keamanan yang andal, seperti mengidentifikasi respons generatif di luar cakupan atau output ekstrem dalam model prediktif. Kumpulkan masukan pengguna tentang performa model.
- Terapkan prosedur pemberitahuan dan respons insiden yang andal untuk mengatasi potensi masalah apa pun.
Kontributor
Penulis:
- Kamilla Kurta | GenAI/ML Specialist Customer Engineer
- Filipe Gracio, PhD | Customer Engineer
- Mohamed Fawzi | Benelux Security and Compliance Lead
Kontributor lainnya:
- Daniel Lees | Cloud Security Architect
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Marwan Al Shawi | Partner Customer Engineer
- Wade Holmes | Direktur Solusi Global
Perspektif AI dan ML: Keandalan
Dokumen dalam Framework dengan Arsitektur yang Baik: perspektif AI dan ML memberikan ringkasan tentang prinsip dan rekomendasi untuk mendesain dan mengoperasikan sistem AI dan ML yang andal di Google Cloud. Panduan ini membahas cara mengintegrasikan praktik keandalan dan kemampuan observasi lanjutan ke dalam blueprint arsitektur Anda. Rekomendasi dalam dokumen ini selaras dengan pilar keandalan dari Google Cloud Framework dengan Arsitektur yang Baik.
Dalam lanskap AI dan ML yang berkembang pesat, sistem yang andal sangat penting untuk memastikan kepuasan pelanggan dan mencapai sasaran bisnis. Anda memerlukan sistem AI dan ML yang andal, dapat diandalkan, dan dapat disesuaikan untuk memenuhi permintaan unik ML prediktif dan AI generatif. Untuk menangani kompleksitas MLOps—mulai dari pengembangan hingga deployment dan peningkatan berkelanjutan—Anda perlu menggunakan pendekatan keandalan-terlebih-dahulu. Google Cloud menawarkan infrastruktur AI yang dirancang khusus dan selaras dengan prinsip Site Reliability Engineering (SRE) serta memberikan fondasi yang kuat untuk sistem AI dan ML yang andal.
Memastikan infrastruktur skalabel dan sangat tersedia
Dengan merancang skalabilitas dan ketersediaan, Anda memungkinkan aplikasi menangani berbagai tingkat permintaan tanpa gangguan layanan atau penurunan performa. Artinya, layanan AI Anda masih tersedia bagi pengguna selama pemadaman infrastruktur dan saat traffic sangat tinggi.
Pertimbangkan rekomendasi berikut:
- Desain sistem AI Anda dengan kemampuan penskalaan otomatis dan dinamis untuk menangani fluktuasi permintaan. Hal ini membantu memastikan performa yang optimal, bahkan selama lonjakan traffic.
- Kelola resource secara proaktif dan antisipasi kebutuhan di masa mendatang melalui pengujian beban dan pemantauan performa. Gunakan data historis dan analisis prediktif untuk membuat keputusan yang tepat tentang alokasi resource.
- Buat desain untuk ketersediaan tinggi dan fault tolerance dengan mengadopsi arketipe deployment multi-zona dan multi-region di Google Cloud dan dengan menerapkan redundansi dan replikasi.
- Mendistribusikan traffic masuk ke beberapa instance layanan dan endpoint AI serta ML Anda. Load balancing membantu mencegah satu instance dari kelebihan beban dan membantu memastikan performa dan ketersediaan yang konsisten.
Menggunakan arsitektur modular dan yang dikaitkan secara longgar
Agar sistem AI Anda tahan terhadap kegagalan pada setiap komponen, gunakan arsitektur modular. Misalnya, desain komponen pemrosesan data dan validasi data sebagai modul terpisah. Saat komponen tertentu gagal, arsitektur modular membantu meminimalkan periode nonaktif dan memungkinkan tim Anda mengembangkan dan men-deploy perbaikan dengan lebih cepat.
Pertimbangkan rekomendasi berikut:
- Pisahkan sistem AI dan ML Anda menjadi modul atau komponen mandiri yang kecil. Pendekatan ini mendorong penggunaan kembali kode, menyederhanakan pengujian dan pemeliharaan, serta memungkinkan Anda mengembangkan dan men-deploy setiap komponen secara independen.
- Desain modul yang dikaitkan secara longgar dengan antarmuka yang jelas. Pendekatan ini meminimalkan dependensi, dan memungkinkan Anda melakukan update dan perubahan independen tanpa memengaruhi seluruh sistem.
- Buat rencana untuk degradasi halus. Saat komponen gagal, bagian lain sistem harus terus memberikan tingkat fungsi yang memadai.
- Gunakan API untuk membuat batas yang jelas antar-modul dan untuk menyembunyikan detail penerapan tingkat modul. Pendekatan ini memungkinkan Anda mengupdate atau mengganti setiap komponen tanpa memengaruhi interaksi dengan bagian sistem lainnya.
Membuat platform MLOps otomatis
Dengan platform MLOps otomatis, tahap dan output siklus proses model Anda akan lebih andal. Dengan mempromosikan konsistensi, pengaitan longgar, dan modularitas, serta dengan mengekspresikan operasi dan infrastruktur sebagai kode, Anda akan menghapus langkah manual yang rapuh dan mempertahankan sistem AI dan ML yang lebih andal dan andal.
Pertimbangkan rekomendasi berikut:
- Otomatiskan siklus proses pengembangan model, mulai dari persiapan dan validasi data hingga pelatihan, evaluasi, deployment, dan pemantauan model.
- Mengelola infrastruktur sebagai kode (IaC). Pendekatan ini memungkinkan kontrol versi yang efisien, rollback cepat jika diperlukan, dan deployment berulang.
- Validasi bahwa model Anda berperilaku seperti yang diharapkan dengan data yang relevan. Otomatiskan pemantauan performa model Anda, dan buat pemberitahuan yang sesuai untuk output yang tidak terduga.
- Validasi input dan output pipeline AI dan ML Anda. Misalnya, validasi data, konfigurasi, argumen perintah, file, dan prediksi. Konfigurasikan pemberitahuan untuk nilai yang tidak terduga atau tidak diizinkan.
- Gunakan strategi kontrol versi terkelola untuk endpoint model Anda. Strategi semacam ini memungkinkan rilis inkremental dan pemulihan cepat jika terjadi masalah.
Menjaga kepercayaan dan kontrol melalui tata kelola data dan model
Keandalan sistem AI dan ML bergantung pada kemampuan kepercayaan dan tata kelola data dan model Anda. Output AI dapat gagal memenuhi ekspektasi secara diam-diam. Misalnya, output mungkin konsisten secara formal, tetapi mungkin salah atau tidak diinginkan. Dengan menerapkan pelacakan dan tata kelola yang kuat, Anda dapat memastikan bahwa outputnya dapat diandalkan dan tepercaya.
Pertimbangkan rekomendasi berikut:
- Gunakan katalog data dan model untuk melacak dan mengelola aset Anda secara efektif. Untuk memfasilitasi pelacakan dan audit, pertahankan catatan data dan versi model yang komprehensif selama siklus proses.
- Terapkan kontrol akses dan audit trail yang ketat untuk melindungi data dan model sensitif.
- Atasi masalah bias yang penting dalam AI, terutama dalam aplikasi AI generatif. Untuk membangun kepercayaan, usahakan transparansi dan kemampuan menjelaskan dalam output model.
- Otomatiskan pembuatan statistik fitur dan terapkan deteksi anomali untuk mengidentifikasi masalah data secara proaktif. Untuk memastikan keandalan model, buat mekanisme untuk mendeteksi dan memitigasi dampak perubahan dalam distribusi data.
Mengimplementasikan praktik keandalan dan kemampuan observasi AI dan ML secara menyeluruh
Untuk terus meningkatkan kualitas operasi AI, Anda perlu menentukan sasaran keandalan yang bermakna dan mengukur progres. Observabilitas adalah elemen dasar sistem yang andal. Observabilitas memungkinkan Anda mengelola operasi yang sedang berlangsung dan peristiwa penting. Kemampuan observasi yang diterapkan dengan baik membantu Anda membuat dan mempertahankan layanan yang andal bagi pengguna.
Pertimbangkan rekomendasi berikut:
- Melacak metrik infrastruktur untuk prosesor (CPU, GPU, dan TPU) dan untuk resource lainnya seperti penggunaan memori, latensi jaringan, dan penggunaan disk. Lakukan pengujian beban dan pemantauan performa. Gunakan hasil dan metrik pengujian dari pemantauan untuk mengelola penskalaan dan kapasitas untuk sistem AI dan ML Anda.
- Tetapkan sasaran keandalan dan lacak metrik aplikasi. Ukur metrik seperti throughput dan latensi untuk aplikasi AI yang Anda buat. Pantau pola penggunaan aplikasi dan endpoint yang diekspos.
- Tetapkan metrik khusus model seperti akurasi atau indikator keamanan untuk mengevaluasi keandalan model. Lacak metrik ini dari waktu ke waktu untuk mengidentifikasi penyimpangan atau degradasi. Untuk kontrol versi dan otomatisasi yang efisien, tentukan konfigurasi pemantauan sebagai kode.
- Tentukan dan lacak metrik tingkat bisnis untuk memahami dampak model dan keandalan Anda terhadap hasil bisnis. Untuk mengukur keandalan layanan AI dan ML Anda, pertimbangkan untuk mengadopsi pendekatan SRE dan menentukan tujuan tingkat layanan (SLO).
Kontributor
Penulis:
- Rick (Rugui) Chen | AI Infrastructure Solutions Architect
- Filipe Gracio, PhD | Customer Engineer
Kontributor lainnya:
- Jose Andrade | Enterprise Infrastructure Customer Engineer
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Marwan Al Shawi | Partner Customer Engineer
Perspektif AI dan ML: Pengoptimalan biaya
Dokumen dalam Framework dengan Arsitektur yang Baik: perspektif AI dan ML memberikan ringkasan prinsip dan rekomendasi untuk mengoptimalkan biaya sistem AI Anda selama siklus proses ML. Dengan mengadopsi pendekatan pengelolaan biaya yang proaktif dan berbasis informasi, organisasi Anda dapat mewujudkan potensi penuh sistem AI dan ML serta mempertahankan disiplin keuangan. Rekomendasi dalam dokumen ini selaras dengan pilar pengoptimalan biaya Google Cloud Framework dengan Arsitektur yang Baik.
Sistem AI dan ML dapat membantu Anda mendapatkan insight yang berharga dan kemampuan prediktif dari data. Misalnya, Anda dapat mengurangi hambatan dalam proses internal, meningkatkan pengalaman pengguna, dan mendapatkan insight pelanggan yang lebih mendalam. Cloud menawarkan resource dalam jumlah besar dan waktu perolehan nilai yang cepat tanpa investasi awal yang besar untuk workload AI dan ML. Untuk memaksimalkan nilai bisnis dan menyesuaikan pembelanjaan dengan sasaran bisnis, Anda perlu memahami faktor pendorong biaya, mengoptimalkan biaya secara proaktif, menyiapkan kontrol pembelanjaan, dan mengadopsi praktik FinOps.
Menentukan dan mengukur biaya dan hasil
Untuk mengelola biaya AI dan ML secara efektif di Google Cloud, Anda harus menentukan dan mengukur pengeluaran untuk resource cloud dan nilai bisnis inisiatif AI dan ML Anda. Google Cloud menyediakan alat komprehensif untuk penagihan dan pengelolaan biaya guna membantu Anda melacak pengeluaran secara terperinci. Metrik nilai bisnis yang dapat Anda ukur mencakup kepuasan pelanggan, pendapatan, dan biaya operasional. Dengan menetapkan metrik konkret untuk biaya dan nilai bisnis, Anda dapat membuat keputusan yang tepat tentang alokasi dan pengoptimalan resource.
Pertimbangkan rekomendasi berikut:
- Tetapkan tujuan bisnis dan indikator performa utama (KPI) yang jelas untuk project AI dan ML Anda.
- Gunakan informasi penagihan yang diberikan oleh Google Cloud untuk menerapkan proses pelaporan dan pemantauan biaya yang dapat membantu Anda mengatribusikan biaya ke aktivitas AI dan ML tertentu.
- Buat dasbor, pemberitahuan, dan sistem pelaporan untuk melacak biaya dan hasil berdasarkan KPI.
Mengoptimalkan alokasi resource
Untuk mencapai efisiensi biaya untuk workload AI dan ML di Google Cloud, Anda harus mengoptimalkan alokasi resource. Dengan menyelaraskan alokasi resource dengan kebutuhan workload dengan cermat, Anda dapat menghindari pengeluaran yang tidak perlu dan memastikan bahwa sistem AI dan ML Anda memiliki resource yang diperlukan untuk berperforma secara optimal.
Pertimbangkan rekomendasi berikut:
- Gunakan penskalaan otomatis untuk menyesuaikan resource secara dinamis untuk pelatihan dan inferensi.
- Mulailah dengan model dan data yang kecil. Hemat biaya dengan menguji hipotesis dalam skala yang lebih kecil jika memungkinkan.
- Temukan kebutuhan komputasi Anda melalui eksperimen. Sesuaikan resource yang digunakan untuk pelatihan dan penayangan berdasarkan persyaratan ML Anda.
- Terapkan praktik MLOps untuk mengurangi duplikasi, proses manual, dan alokasi resource yang tidak efisien.
Menerapkan praktik tata kelola dan pengelolaan data
Praktik tata kelola dan pengelolaan data yang efektif memainkan peran penting dalam pengoptimalan biaya. Data yang diatur dengan baik membantu organisasi Anda menghindari duplikasi yang tidak perlu, mengurangi upaya yang diperlukan untuk mendapatkan data berkualitas tinggi, dan mendorong tim untuk menggunakan kembali set data. Dengan mengelola data secara proaktif, Anda dapat mengurangi biaya penyimpanan, meningkatkan kualitas data, dan memastikan model ML dilatih serta beroperasi pada data yang paling relevan dan berharga.
Pertimbangkan rekomendasi berikut:
- Tetapkan dan terapkan framework tata kelola data yang jelas.
- Terapkan label dan metadata yang relevan ke set data pada saat proses penyerapan data.
- Pastikan set data dapat ditemukan dan diakses di seluruh organisasi.
- Buat set data dan fitur Anda dapat digunakan kembali selama siklus proses ML jika memungkinkan.
Mengotomatiskan dan menyederhanakan dengan MLOps
Manfaat utama dari mengadopsi praktik MLOps adalah pengurangan biaya, baik dari perspektif teknologi maupun dalam hal aktivitas personel. Otomatisasi membantu Anda menghindari duplikasi aktivitas ML dan meningkatkan produktivitas data scientist dan engineer ML.
Pertimbangkan rekomendasi berikut:
- Tingkatkan tingkat otomatisasi dan standardisasi dalam teknologi pengumpulan dan pemrosesan data Anda untuk mengurangi upaya dan waktu pengembangan.
- Kembangkan pipeline pelatihan otomatis untuk mengurangi kebutuhan intervensi manual dan meningkatkan produktivitas engineer. Terapkan mekanisme untuk pipeline guna menggunakan kembali aset yang ada seperti set data yang disiapkan dan model yang dilatih.
- Gunakan layanan penyesuaian dan evaluasi model di Google Cloud untuk meningkatkan performa model dengan lebih sedikit iterasi. Hal ini memungkinkan tim AI dan ML Anda mencapai lebih banyak tujuan dalam waktu yang lebih singkat.
Menggunakan layanan terkelola dan model terlatih atau yang sudah ada
Ada banyak pendekatan untuk mencapai sasaran bisnis menggunakan AI dan ML. Terapkan pendekatan inkremental untuk pemilihan model dan pengembangan model. Hal ini membantu Anda menghindari biaya berlebihan yang terkait dengan memulai dari awal setiap saat. Untuk mengontrol biaya, mulailah dengan pendekatan sederhana: gunakan framework ML, layanan terkelola, dan model terlatih.
Pertimbangkan rekomendasi berikut:
- Mengaktifkan eksperimen ML eksplorasi dan cepat menggunakan lingkungan notebook.
- Gunakan model yang ada dan yang telah dilatih sebelumnya sebagai titik awal untuk mempercepat proses pemilihan dan pengembangan model Anda.
- Gunakan layanan terkelola untuk melatih atau menayangkan model Anda. AutoML dan layanan pelatihan model kustom terkelola dapat membantu mengurangi biaya pelatihan model. Layanan terkelola juga dapat membantu mengurangi biaya infrastruktur penyaluran model Anda.
Membina budaya kesadaran biaya dan pengoptimalan berkelanjutan
Ciptakan lingkungan kolaboratif yang mendorong komunikasi dan peninjauan teratur. Pendekatan ini membantu tim mengidentifikasi dan menerapkan peluang penghematan biaya sepanjang siklus proses ML.
Pertimbangkan rekomendasi berikut:
- Terapkan prinsip FinOps di seluruh siklus proses ML Anda.
- Pastikan semua biaya dan manfaat bisnis dari project AI dan ML telah menetapkan pemilik dengan akuntabilitas yang jelas.
Kontributor
Penulis:
- Isaac Lo | AI Business Development Manager
- Filipe Gracio, PhD | Customer Engineer
Kontributor lainnya:
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Marwan Al Shawi | Partner Customer Engineer
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
Perspektif AI dan ML: Pengoptimalan performa
Dokumen dalam Framework dengan Arsitektur yang Baik: perspektif AI dan ML ini memberikan ringkasan tentang prinsip dan rekomendasi untuk membantu Anda mengoptimalkan performa workload AI dan ML di Google Cloud. Rekomendasi dalam dokumen ini selaras dengan pilar pengoptimalan performa dari Google Cloud Framework dengan Arsitektur yang Baik.
Sistem AI dan ML memungkinkan kemampuan pengambilan keputusan dan otomatisasi baru untuk organisasi Anda. Performa sistem ini dapat secara langsung memengaruhi pendorong bisnis Anda seperti pendapatan, biaya, dan kepuasan pelanggan. Untuk mewujudkan potensi penuh sistem AI dan ML, Anda perlu mengoptimalkan performanya berdasarkan sasaran bisnis dan persyaratan teknis. Proses pengoptimalan performa sering kali melibatkan kompromi tertentu. Misalnya, pilihan desain yang memberikan performa yang diperlukan dapat menyebabkan biaya yang lebih tinggi. Rekomendasi dalam dokumen ini memprioritaskan performa daripada pertimbangan lain seperti biaya.
Untuk mengoptimalkan performa AI dan ML, Anda perlu membuat keputusan terkait faktor-faktor seperti arsitektur model, parameter, dan strategi pelatihan. Saat Anda membuat keputusan ini, pertimbangkan seluruh siklus proses sistem AI dan ML serta lingkungan deployment-nya. Misalnya, LLM yang sangat besar dapat berperforma sangat baik pada infrastruktur pelatihan yang masif, tetapi model yang sangat besar mungkin tidak berperforma baik di lingkungan yang dibatasi kapasitas seperti perangkat seluler.
Menerjemahkan sasaran bisnis menjadi tujuan performa
Untuk membuat keputusan arsitektur yang mengoptimalkan performa, mulailah dengan kumpulan sasaran bisnis yang jelas. Desain sistem AI dan ML yang memberikan performa teknis yang diperlukan untuk mendukung sasaran dan prioritas bisnis Anda. Tim teknis Anda harus memahami pemetaan antara tujuan performa dan tujuan bisnis.
Pertimbangkan rekomendasi berikut:
- Menerjemahkan tujuan bisnis menjadi persyaratan teknis: Terjemahkan tujuan bisnis sistem AI dan ML Anda menjadi persyaratan performa teknis tertentu dan nilai dampak dari tidak memenuhi persyaratan tersebut. Misalnya, untuk aplikasi yang memprediksi churn pelanggan, model ML harus berperforma baik pada metrik standar, seperti akurasi dan recall, dan aplikasi harus memenuhi persyaratan operasional seperti latensi rendah.
- Pantau performa di semua tahap siklus proses model: Selama eksperimen dan pelatihan setelah deployment model, pantau indikator performa utama (KPI) dan amati setiap penyimpangan dari tujuan bisnis.
- Otomatiskan evaluasi agar dapat direproduksi dan distandarisasi: Dengan platform dan metodologi yang standar dan sebanding untuk evaluasi eksperimen, engineer Anda dapat meningkatkan kecepatan peningkatan performa.
Menjalankan dan melacak eksperimen yang sering dilakukan
Untuk mengubah inovasi dan kreativitas menjadi peningkatan performa, Anda memerlukan budaya dan platform yang mendukung eksperimen. Peningkatan performa adalah proses yang berkelanjutan karena teknologi AI dan ML berkembang secara berkelanjutan dan cepat. Untuk mempertahankan proses iterasi yang cepat, Anda harus memisahkan ruang eksperimen dari platform pelatihan dan penayangan. Proses eksperimen yang standar dan andal sangatlah penting.
Pertimbangkan rekomendasi berikut:
- Mem-build lingkungan eksperimen: Peningkatan performa memerlukan lingkungan khusus, canggih, dan interaktif yang mendukung eksperimen dan pengembangan kolaboratif pipeline ML.
- Menanamkan eksperimen sebagai budaya: Jalankan eksperimen sebelum deployment produksi. Rilis versi baru secara iteratif dan selalu kumpulkan data performa. Bereksperimenlah dengan berbagai jenis data, transformasi fitur, algoritma, dan hyperparameter.
Membangun dan mengotomatiskan layanan pelatihan dan penyajian
Melatih dan menayangkan model AI adalah komponen inti dari layanan AI Anda. Anda memerlukan platform dan praktik yang andal yang mendukung pembuatan, deployment, dan penayangan model AI yang cepat dan andal. Investasikan waktu dan upaya untuk membuat platform dasar untuk tugas pelatihan dan penayangan AI inti Anda. Platform dasar ini membantu mengurangi waktu dan upaya tim Anda serta meningkatkan kualitas output dalam jangka menengah dan panjang.
Pertimbangkan rekomendasi berikut:
- Gunakan komponen khusus AI dari layanan pelatihan: Komponen tersebut mencakup komponen komputasi dan MLOps berperforma tinggi seperti feature store, registry model, penyimpanan metadata, dan layanan evaluasi performa model.
- Gunakan komponen khusus AI dari layanan prediksi: Komponen tersebut menyediakan resource yang skalabel dan berperforma tinggi, mendukung pemantauan fitur, dan memungkinkan pemantauan performa model. Untuk mencegah dan mengelola degradasi performa, terapkan strategi deployment dan rollback yang andal.
Mencocokkan pilihan desain dengan persyaratan performa
Saat Anda membuat pilihan desain untuk meningkatkan performa, timbang dengan cermat apakah pilihan tersebut mendukung persyaratan bisnis Anda atau sia-sia dan berlawanan dengan tujuan. Untuk memilih infrastruktur, model, atau konfigurasi yang sesuai, identifikasi bottleneck performa dan nilai bagaimana hal tersebut terkait dengan pengukuran performa Anda. Misalnya, bahkan pada akselerator GPU yang sangat canggih, tugas pelatihan Anda dapat mengalami bottleneck performa karena masalah I/O data dari lapisan penyimpanan atau karena batasan performa model itu sendiri.
Pertimbangkan rekomendasi berikut:
- Mengoptimalkan konsumsi hardware berdasarkan sasaran performa: Untuk melatih dan menayangkan model ML yang memenuhi persyaratan performa, Anda perlu mengoptimalkan infrastruktur di lapisan komputasi, penyimpanan, dan jaringan. Anda harus mengukur dan memahami variabel yang memengaruhi sasaran performa Anda. Variabel ini berbeda untuk pelatihan dan inferensi.
- Fokus pada persyaratan khusus workload: Fokuskan upaya optimasi performa pada persyaratan unik workload AI dan ML Anda. Mengandalkan layanan terkelola untuk performa infrastruktur yang mendasarinya.
- Memilih strategi pelatihan yang sesuai: Beberapa model dasar dan terlatih tersedia, dan lebih banyak model tersebut sering dirilis. Pilih strategi pelatihan yang dapat memberikan performa optimal untuk tugas Anda. Tentukan apakah Anda harus membuat model sendiri, menyesuaikan model terlatih pada data Anda, atau menggunakan API model terlatih.
- Pahami bahwa strategi pengoptimalan performa dapat memiliki tingkat pengembalian yang menurun: Jika strategi pengoptimalan performa tertentu tidak memberikan nilai bisnis inkremental yang terukur, berhentilah mengejar strategi tersebut.
Menautkan metrik performa ke pilihan desain dan konfigurasi
Untuk berinovasi, memecahkan masalah, dan menyelidiki masalah performa, buat kaitan yang jelas antara pilihan desain dan hasil performa. Selain eksperimen, Anda harus mencatat silsilah aset, deployment, output model, serta konfigurasi dan input yang menghasilkan output dengan andal.
Pertimbangkan rekomendasi berikut:
- Mem-build sistem garis keturunan data dan model: Semua aset yang di-deploy dan metrik performanya harus ditautkan kembali ke data, konfigurasi, kode, dan pilihan yang menghasilkan sistem yang di-deploy. Selain itu, output model harus ditautkan ke versi model tertentu dan cara output dihasilkan.
- Gunakan alat penjelasan untuk meningkatkan performa model: Gunakan dan standarkan alat serta tolok ukur untuk eksplorasi dan penjelasan model. Alat ini membantu engineer ML Anda memahami perilaku model dan meningkatkan performa atau menghapus bias.
Kontributor
Penulis:
- Benjamin Sadik | Customer Engineer Spesialis AI dan ML
- Filipe Gracio, PhD | Customer Engineer
Kontributor lainnya:
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Marwan Al Shawi | Partner Customer Engineer
- Zach Seils | Networking Specialist