Dokumen dalam Well-Architected Framework: Perspektif AI dan ML ini memberikan ringkasan prinsip dan rekomendasi untuk membangun dan mengoperasikan sistem AI dan ML yang andal di Google Cloud. Rekomendasi ini membantu Anda menyiapkan elemen dasar seperti kemampuan observasi, otomatisasi, dan skalabilitas. Rekomendasi dalam dokumen ini selaras dengan pilar keunggulan operasional dari Google Cloud Well-Architected Framework.
Keunggulan operasional dalam domain AI dan ML adalah kemampuan untuk men-deploy, mengelola, dan mengelola sistem serta pipeline AI dan ML yang membantu mendorong tujuan strategis organisasi Anda secara lancar. Keunggulan operasional memungkinkan Anda merespons perubahan secara efisien, mengurangi kompleksitas operasional, dan memastikan bahwa operasi Anda tetap selaras dengan sasaran bisnis.
Rekomendasi dalam dokumen ini dipetakan ke prinsip inti berikut:
- Membangun fondasi yang kuat untuk pengembangan model
- Mengotomatiskan siklus proses pengembangan model
- Menerapkan kemampuan observasi
- Membangun budaya keunggulan operasional
- Mendesain untuk skalabilitas
Membangun fondasi yang kuat untuk pengembangan model
Untuk mengembangkan dan men-deploy sistem AI yang skalabel dan andal yang membantu Anda mencapai sasaran bisnis, fondasi pengembangan model yang kuat sangatlah penting. Fondasi tersebut memungkinkan alur kerja yang konsisten, mengotomatiskan langkah-langkah penting untuk mengurangi kesalahan, dan memastikan bahwa model dapat diskalakan sesuai permintaan. Dasar pengembangan model yang kuat memastikan sistem ML Anda dapat diupdate, ditingkatkan, dan dilatih ulang dengan lancar. Dasar ini juga membantu Anda menyelaraskan performa model dengan kebutuhan bisnis, men-deploy solusi AI yang berdampak dengan cepat, dan beradaptasi dengan persyaratan yang berubah.
Untuk membangun fondasi yang kuat dalam mengembangkan model AI, pertimbangkan rekomendasi berikut.
Mendefinisikan masalah dan hasil yang diinginkan
Sebelum memulai project AI atau ML, Anda harus memahami dengan jelas masalah bisnis yang akan diselesaikan dan hasil yang diinginkan. Mulai dengan garis besar tujuan bisnis dan uraikan tujuan menjadi indikator performa utama (KPI) yang terukur. Untuk mengatur dan mendokumentasikan definisi masalah dan hipotesis Anda di lingkungan notebook Jupyter, gunakan alat seperti Vertex AI Workbench. Untuk menerapkan pembuatan versi untuk kode dan dokumen serta mendokumentasikan project, sasaran, dan asumsi Anda, gunakan alat seperti Git. Untuk mengembangkan dan mengelola perintah untuk aplikasi AI generatif, Anda dapat menggunakan Vertex AI Studio.
Kumpulkan dan lakukan prapemrosesan data yang diperlukan
Untuk menerapkan pra-pemrosesan dan transformasi data, Anda dapat menggunakan Dataflow (untuk Apache Beam), Dataproc (untuk Apache Spark), atau BigQuery jika proses berbasis SQL sesuai. Untuk memvalidasi skema dan mendeteksi anomali, gunakan TensorFlow Data Validation (TFDV) dan manfaatkan pemindaian kualitas data otomatis di BigQuery jika berlaku.
Untuk AI generatif, kualitas data mencakup akurasi, relevansi, keragaman, dan keselarasan dengan karakteristik output yang diperlukan. Jika data dunia nyata tidak mencukupi atau tidak seimbang, Anda dapat membuat data sintetis untuk membantu meningkatkan keandalan dan generalisasi model. Untuk membuat set data sintetis berdasarkan pola yang ada atau untuk meningkatkan data pelatihan agar performa model lebih baik, gunakan BigQuery DataFrames dan Gemini. Data sintetis sangat berharga untuk AI generatif karena dapat membantu meningkatkan keragaman perintah dan keandalan model secara keseluruhan. Saat Anda membuat set data untuk menyesuaikan model AI generatif, pertimbangkan untuk menggunakan kemampuan pembuatan data sintetis di Vertex AI.
Untuk tugas AI generatif seperti fine-tuning atau reinforcement learning from human feedback (RLHF), pastikan label secara akurat mencerminkan kualitas, relevansi, dan keamanan output yang dihasilkan.
Pilih pendekatan ML yang sesuai
Saat mendesain model dan parameter, pertimbangkan kompleksitas model dan kebutuhan komputasinya. Bergantung pada tugasnya (seperti klasifikasi, regresi, atau pembuatan), pertimbangkan untuk menggunakan pelatihan kustom Vertex AI untuk pembuatan model kustom atau AutoML untuk tugas ML yang lebih sederhana. Untuk aplikasi umum, Anda juga dapat mengakses model terlatih melalui Vertex AI Model Garden. Anda dapat bereksperimen dengan berbagai model dasar canggih untuk berbagai kasus penggunaan, seperti membuat teks, gambar, dan kode.
Anda mungkin ingin menyempurnakan model dasar terlatih untuk mencapai performa optimal bagi kasus penggunaan spesifik Anda. Untuk persyaratan performa tinggi dalam pelatihan kustom, konfigurasikan Cloud Tensor Processing Unit (TPU) atau resource GPU untuk mempercepat pelatihan dan inferensi model deep learning, seperti model bahasa besar (LLM) dan model difusi.
Menyiapkan kontrol versi untuk kode, model, dan data
Untuk mengelola dan men-deploy versi kode secara efektif, gunakan alat seperti GitHub atau GitLab. Alat ini menyediakan fitur kolaborasi yang andal, strategi percabangan, dan integrasi dengan pipeline CI/CD untuk memastikan proses pengembangan yang lancar.
Gunakan solusi yang sesuai untuk mengelola setiap artefak sistem ML Anda, seperti contoh berikut:
- Untuk artefak kode seperti image container dan komponen pipeline, Artifact Registry menyediakan solusi penyimpanan yang skalabel yang dapat membantu meningkatkan keamanan. Artifact Registry juga menyertakan pembuatan versi dan dapat berintegrasi dengan Cloud Build dan Cloud Deploy.
- Untuk mengelola artefak data, seperti set data yang digunakan untuk pelatihan dan evaluasi, gunakan solusi seperti BigQuery atau Cloud Storage untuk penyimpanan dan pembuatan versi.
- Untuk menyimpan metadata dan penunjuk ke lokasi data, gunakan sistem kontrol versi atau katalog data terpisah.
Untuk menjaga konsistensi dan pembuatan versi data fitur, gunakan Vertex AI Feature Store. Untuk melacak dan mengelola artefak model, termasuk biner dan metadata, gunakan Vertex AI Model Registry, yang memungkinkan Anda menyimpan, mengatur, dan men-deploy versi model dengan lancar.
Untuk memastikan keandalan model, terapkan Vertex AI Model Monitoring. Mendeteksi penyimpangan data, melacak performa, dan mengidentifikasi anomali dalam produksi. Untuk sistem AI generatif, pantau perubahan kualitas output dan kepatuhan terhadap keamanan.
Mengotomatiskan siklus proses pengembangan model
Otomatisasi membantu Anda menyederhanakan setiap tahap siklus proses AI dan ML. Otomatisasi mengurangi upaya manual dan menstandardisasi proses, yang menghasilkan peningkatan efisiensi operasional dan risiko kesalahan yang lebih rendah. Alur kerja otomatis memungkinkan iterasi yang lebih cepat, deployment yang konsisten di seluruh lingkungan, dan hasil yang lebih andal, sehingga sistem Anda dapat diskalakan dan disesuaikan dengan lancar.
Untuk mengotomatiskan siklus proses pengembangan sistem AI dan ML, pertimbangkan rekomendasi berikut.
Menggunakan sistem orkestrasi pipeline terkelola
Gunakan Vertex AI Pipelines untuk mengotomatiskan setiap langkah siklus proses ML—mulai dari persiapan data hingga pelatihan, evaluasi, dan deployment model. Untuk mempercepat deployment dan meningkatkan konsistensi di seluruh project, otomatiskan tugas berulang dengan eksekusi pipeline terjadwal, pantau alur kerja dengan metrik eksekusi, dan kembangkan template pipeline yang dapat digunakan kembali untuk alur kerja standar. Kemampuan ini mencakup model AI generatif, yang sering kali memerlukan langkah-langkah khusus seperti rekayasa perintah, pemfilteran respons, dan evaluasi human-in-the-loop. Untuk AI generatif, Vertex AI Pipelines dapat mengotomatiskan langkah-langkah ini, termasuk evaluasi output yang dihasilkan terhadap metrik kualitas dan pedoman keamanan. Untuk meningkatkan keragaman perintah dan keandalan model, alur kerja otomatis juga dapat mencakup teknik augmentasi data.
Menerapkan pipeline CI/CD
Untuk mengotomatiskan pembangunan, pengujian, dan deployment model ML, gunakan Cloud Build. Layanan ini sangat efektif saat Anda menjalankan rangkaian pengujian untuk kode aplikasi, yang memastikan infrastruktur, dependensi, dan pengemasan model memenuhi persyaratan deployment Anda.
Sistem ML sering kali memerlukan langkah-langkah tambahan di luar pengujian kode. Misalnya, Anda perlu melakukan uji beban pada model dalam berbagai beban, melakukan evaluasi massal untuk menilai performa model di berbagai set data, dan memvalidasi integritas data sebelum melatih ulang. Untuk menyimulasikan beban kerja yang realistis untuk pengujian daya tahan, Anda dapat menggunakan alat seperti Locust, Grafana k6, atau Apache JMeter. Untuk mengidentifikasi hambatan, pantau metrik utama seperti latensi, rasio error, dan pemanfaatan resource melalui Cloud Monitoring. Untuk AI generatif, pengujian juga harus mencakup evaluasi yang spesifik untuk jenis konten yang dihasilkan, seperti kualitas teks, kesetiaan gambar, atau fungsi kode. Evaluasi ini dapat melibatkan metrik otomatis seperti perplexitas untuk model bahasa atau evaluasi dengan campur tangan manusia untuk aspek yang lebih bernuansa seperti kreativitas dan keamanan.
Untuk menerapkan tugas pengujian dan evaluasi, Anda dapat mengintegrasikan Cloud Build dengan layanan Google Cloud lainnya. Misalnya, Anda dapat menggunakan Vertex AI Pipelines untuk evaluasi model otomatis, BigQuery untuk analisis data skala besar, dan validasi pipeline Dataflow untuk validasi fitur.
Anda dapat lebih meningkatkan kualitas pipeline CI/CD dengan menggunakan Vertex AI untuk pelatihan berkelanjutan guna mengaktifkan pelatihan ulang model secara otomatis pada data baru. Khusus untuk AI generatif, agar output yang dihasilkan tetap relevan dan beragam, proses pelatihan ulang mungkin melibatkan pembaruan model secara otomatis dengan data atau perintah pelatihan baru. Anda dapat menggunakan Vertex AI Model Garden untuk memilih model dasar terbaru yang tersedia untuk penyesuaian. Praktik ini memastikan model tetap terbaru dan dioptimalkan untuk kebutuhan bisnis Anda yang terus berkembang.
Menerapkan rilis model yang aman dan terkontrol
Untuk meminimalkan risiko dan memastikan deployment yang andal, terapkan pendekatan rilis model yang memungkinkan Anda mendeteksi masalah sejak dini, memvalidasi performa, dan melakukan roll back dengan cepat jika diperlukan.
Untuk mengemas model dan aplikasi ML Anda ke dalam image container dan men-deploy-nya, gunakan Cloud Deploy. Anda dapat men-deploy model ke endpoint Vertex AI.
Terapkan rilis terkontrol untuk aplikasi dan sistem AI Anda dengan menggunakan strategi seperti rilis uji coba. Untuk aplikasi yang menggunakan model terkelola seperti Gemini, sebaiknya rilis versi aplikasi baru secara bertahap kepada sebagian pengguna sebelum deployment penuh. Dengan pendekatan ini, Anda dapat mendeteksi potensi masalah sejak dini, terutama saat Anda menggunakan model AI generatif yang output-nya dapat bervariasi.
Untuk merilis model yang di-fine-tune, Anda dapat menggunakan Cloud Deploy untuk mengelola deployment versi model, dan menggunakan strategi rilis terbatas untuk meminimalkan risiko. Dengan model terkelola dan model yang di-fine-tune, tujuan rilis terkontrol adalah untuk menguji perubahan dengan audiens terbatas sebelum Anda merilis aplikasi dan model kepada semua pengguna.
Untuk validasi yang andal, gunakan Vertex AI Experiments untuk membandingkan model baru dengan model yang sudah ada, dan gunakan Vertex AI model evaluation untuk menilai performa model. Khusus untuk AI generatif, tentukan metrik evaluasi yang selaras dengan kasus penggunaan yang dimaksud dan potensi risikonya. Anda dapat menggunakan layanan evaluasi AI generatif di Vertex AI untuk menilai metrik seperti toksisitas, koherensi, akurasi faktual, dan kepatuhan terhadap pedoman keamanan.
Untuk memastikan keandalan deployment, Anda memerlukan rencana rollback yang andal. Untuk sistem ML tradisional, gunakan Vertex AI Model Monitoring untuk mendeteksi penyimpangan data dan penurunan performa. Untuk model AI generatif, Anda dapat melacak metrik yang relevan dan menyiapkan pemberitahuan untuk perubahan kualitas output atau munculnya konten berbahaya dengan menggunakan evaluasi model Vertex AI bersama dengan Cloud Logging dan Cloud Monitoring. Konfigurasi pemberitahuan berdasarkan metrik khusus AI generatif untuk memicu prosedur rollback jika diperlukan. Untuk melacak silsilah model dan mengembalikan ke versi stabil terbaru, gunakan insight dari Vertex AI Model Registry.
Menerapkan kemampuan observasi
Perilaku sistem AI dan ML dapat berubah seiring waktu karena perubahan pada data atau lingkungan dan update pada model. Sifat dinamis ini membuat kemampuan observasi menjadi sangat penting untuk mendeteksi masalah performa, bias, atau perilaku yang tidak terduga. Hal ini terutama berlaku untuk model AI generatif karena outputnya dapat sangat bervariasi dan subjektif. Dengan Observability, Anda dapat secara proaktif mengatasi perilaku yang tidak terduga dan memastikan sistem AI dan ML Anda tetap andal, akurat, dan adil.
Untuk menerapkan kemampuan observasi pada sistem AI dan ML, pertimbangkan rekomendasi berikut.
Memantau performa secara berkelanjutan
Gunakan metrik dan kriteria keberhasilan untuk evaluasi berkelanjutan model setelah deployment.
Anda dapat menggunakan Vertex AI Model Monitoring untuk secara proaktif melacak performa model, mengidentifikasi perbedaan performa pelatihan dan penayangan serta penyimpangan prediksi, dan menerima pemberitahuan untuk memicu pelatihan ulang model yang diperlukan atau intervensi lainnya. Untuk memantau secara efektif diferensiasi performa pelatihan dan penayangan, buat set data standar yang mewakili distribusi data ideal, dan gunakan TFDV untuk menganalisis data pelatihan dan membuat skema dasar.
Konfigurasi Model Monitoring untuk membandingkan distribusi data input dengan set data standar untuk deteksi skew otomatis. Untuk model ML tradisional, fokus pada metrik seperti akurasi, presisi, perolehan, skor F1, AUC-ROC, dan kerugian log. Tentukan nilai minimum kustom untuk pemberitahuan di Pemantauan Model. Untuk AI generatif, gunakan layanan evaluasi AI generatif untuk terus memantau output model dalam produksi. Anda juga dapat mengaktifkan metrik evaluasi otomatis untuk kualitas respons, keamanan, kepatuhan terhadap petunjuk, perujukan, gaya penulisan, dan panjang teks. Untuk menilai kualitas, relevansi, keamanan, dan kepatuhan terhadap pedoman output yang dihasilkan, Anda dapat menggabungkan evaluasi human-in-the-loop.
Buat loop umpan balik untuk melatih ulang model secara otomatis dengan Vertex AI Pipelines saat Pemantauan Model memicu pemberitahuan. Gunakan insight ini untuk terus meningkatkan kualitas model Anda.
Mengevaluasi model selama pengembangan
Sebelum men-deploy LLM dan model AI generatif lainnya, evaluasi model tersebut secara menyeluruh selama fase pengembangan. Gunakan evaluasi model Vertex AI untuk mencapai performa yang optimal dan mengurangi risiko. Gunakan evaluasi cepat Vertex AI untuk memungkinkan Google Cloud evaluasi berjalan secara otomatis berdasarkan set data dan perintah yang Anda berikan.
Anda juga dapat menentukan dan mengintegrasikan metrik kustom yang spesifik untuk kasus penggunaan Anda. Untuk mendapatkan masukan tentang konten yang dihasilkan, integrasikan alur kerja human-in-the-loop dengan menggunakan Vertex AI Model Evaluation.
Gunakan pengujian adversarial untuk mengidentifikasi kerentanan dan potensi mode kegagalan. Untuk mengidentifikasi dan mengurangi potensi bias, gunakan teknik seperti analisis subgrup dan pembuatan kontrafaktual. Gunakan insight yang dikumpulkan dari evaluasi yang diselesaikan selama fase pengembangan untuk menentukan strategi pemantauan model dalam produksi. Siapkan solusi Anda untuk pemantauan berkelanjutan seperti yang dijelaskan di bagian Pantau performa secara berkelanjutan dalam dokumen ini.
Memantau ketersediaan
Untuk mendapatkan visibilitas terkait kondisi dan performa endpoint dan infrastruktur yang di-deploy, gunakan Cloud Monitoring. Untuk endpoint Vertex AI, lacak metrik utama seperti rasio permintaan, rasio error, latensi, dan pemanfaatan resource, serta siapkan pemberitahuan untuk anomali. Untuk mengetahui informasi selengkapnya, lihat Metrik Cloud Monitoring untuk Vertex AI.
Pantau performa infrastruktur dasar, yang dapat mencakup instance Compute Engine, cluster Google Kubernetes Engine (GKE), serta TPU dan GPU. Dapatkan rekomendasi pengoptimalan otomatis dari Active Assist. Jika Anda menggunakan penskalaan otomatis, pantau perilaku penskalaan untuk memastikan penskalaan otomatis merespons perubahan pola traffic dengan tepat.
Lacak status deployment model, termasuk rilis canary dan rollback, dengan mengintegrasikan Cloud Deploy dengan Cloud Monitoring. Selain itu, pantau potensi ancaman dan kerentanan keamanan menggunakan Security Command Center.
Menyiapkan pemberitahuan kustom untuk nilai minimum khusus bisnis
Untuk mengidentifikasi dan memperbaiki anomali serta masalah secara tepat waktu, siapkan pemberitahuan kustom berdasarkan nilai minimum yang spesifik untuk tujuan bisnis Anda. Contoh produk yang dapat Anda gunakan untuk menerapkan sistem pemberitahuan kustom meliputi: Google Cloud
- Cloud Logging: Mengumpulkan, menyimpan, dan menganalisis log dari semua komponen sistem AI dan ML Anda.
- Cloud Monitoring: Buat dasbor kustom untuk memvisualisasikan metrik dan tren utama, serta tentukan metrik kustom berdasarkan kebutuhan Anda. Konfigurasi pemberitahuan untuk mendapatkan notifikasi tentang masalah penting, dan integrasikan pemberitahuan dengan alat pengelolaan insiden Anda seperti PagerDuty atau Slack.
- Error Reporting: Otomatis menangkap dan menganalisis error dan pengecualian.
- Cloud Trace: Menganalisis performa sistem terdistribusi dan mengidentifikasi bottleneck. Pelacakan sangat berguna untuk memahami latensi antara berbagai komponen pipeline AI dan ML Anda.
- Cloud Profiler: Terus menganalisis performa kode Anda dalam produksi dan mengidentifikasi hambatan performa dalam penggunaan CPU atau memori.
Membangun budaya keunggulan operasional
Mengalihkan fokus dari sekadar membangun model menjadi membangun solusi AI yang berkelanjutan, andal, dan berdampak. Memberdayakan tim untuk terus belajar, berinovasi, dan meningkatkan kualitas, yang menghasilkan siklus pengembangan yang lebih cepat, pengurangan kesalahan, dan peningkatan efisiensi. Dengan memprioritaskan otomatisasi, standardisasi, dan pertimbangan etis, Anda dapat memastikan bahwa inisiatif AI dan ML Anda secara konsisten memberikan nilai, mengurangi risiko, dan mempromosikan pengembangan AI yang bertanggung jawab.
Untuk membangun budaya keunggulan operasional bagi sistem AI dan ML Anda, pertimbangkan rekomendasi berikut.
Otomatisasi dan standardisasi juara
Untuk menekankan efisiensi dan konsistensi, sematkan otomatisasi dan praktik standar ke dalam setiap tahap siklus proses AI dan ML. Otomatisasi mengurangi kesalahan manual dan memungkinkan tim untuk berfokus pada inovasi. Standardisasi memastikan bahwa proses dapat diulang dan diskalakan di seluruh tim dan project.
Memprioritaskan pembelajaran dan peningkatan berkelanjutan
Menciptakan lingkungan yang menjadikan pendidikan dan eksperimen berkelanjutan sebagai prinsip inti. Dorong tim untuk terus mengikuti perkembangan AI dan ML, serta berikan kesempatan untuk belajar dari project sebelumnya. Budaya rasa ingin tahu dan adaptasi mendorong inovasi dan memastikan bahwa tim siap menghadapi tantangan baru.
Menumbuhkan akuntabilitas dan rasa memiliki
Bangun kepercayaan dan keselarasan dengan peran, tanggung jawab, dan metrik keberhasilan yang ditentukan dengan jelas. Mendorong tim untuk membuat keputusan yang tepat dalam batas-batas ini, dan menetapkan cara yang transparan untuk mengukur progres. Rasa kepemilikan memotivasi tim dan memastikan tanggung jawab kolektif atas hasil.
Menyematkan pertimbangan etika dan keamanan AI
Prioritaskan pertimbangan etika di setiap tahap pengembangan. Mendorong tim untuk berpikir kritis tentang dampak solusi AI mereka, dan memicu diskusi tentang keadilan, bias, dan dampak sosial. Prinsip yang jelas dan mekanisme akuntabilitas memastikan bahwa sistem AI Anda selaras dengan nilai-nilai organisasi dan meningkatkan kepercayaan.
Mendesain untuk skalabilitas
Untuk mengakomodasi volume data dan permintaan pengguna yang terus meningkat serta memaksimalkan nilai investasi AI, sistem AI dan ML Anda harus dapat diskalakan. Sistem harus beradaptasi dan bekerja secara optimal untuk menghindari hambatan performa yang menghambat efektivitas. Saat mendesain untuk skalabilitas, Anda memastikan bahwa infrastruktur AI dapat menangani pertumbuhan dan mempertahankan responsivitas. Gunakan infrastruktur yang skalabel, rencanakan kapasitas, dan terapkan strategi seperti penskalaan horizontal dan layanan terkelola.
Untuk mendesain sistem AI dan ML Anda agar dapat diskalakan, pertimbangkan rekomendasi berikut.
Merencanakan kapasitas dan kuota
Menilai pertumbuhan di masa mendatang, dan merencanakan kapasitas infrastruktur dan kuota resource Anda dengan tepat. Bekerja samalah dengan pemangku kepentingan bisnis untuk memahami pertumbuhan yang diproyeksikan, lalu tentukan persyaratan infrastruktur yang sesuai.
Gunakan Cloud Monitoring untuk menganalisis penggunaan resource historis, mengidentifikasi tren, dan memproyeksikan kebutuhan di masa mendatang. Lakukan pengujian beban secara rutin untuk menyimulasikan workload dan mengidentifikasi hambatan.
Pahami Google Cloud kuota untuk layanan yang Anda gunakan, seperti Compute Engine, Vertex AI, dan Cloud Storage. Minta peningkatan kuota secara proaktif melalui konsol Google Cloud , dan berikan alasan peningkatan tersebut dengan data dari perkiraan dan pengujian beban. Pantau penggunaan kuota dan siapkan pemberitahuan untuk mendapatkan notifikasi saat penggunaan mendekati batas kuota.
Untuk mengoptimalkan penggunaan resource berdasarkan permintaan, sesuaikan ukuran resource Anda, gunakan Spot VM untuk workload batch yang fault-tolerant, dan terapkan penskalaan otomatis.
Bersiap menghadapi peristiwa puncak
Pastikan sistem Anda dapat menangani lonjakan traffic atau workload yang tiba-tiba selama acara puncak. Dokumentasikan strategi acara puncak Anda dan lakukan latihan rutin untuk menguji kemampuan sistem Anda dalam menangani peningkatan beban.
Untuk meningkatkan skala resource secara agresif saat permintaan melonjak, konfigurasikan kebijakan penskalaan otomatis di Compute Engine dan GKE. Untuk pola puncak yang dapat diprediksi, pertimbangkan untuk menggunakan penskalaan otomatis prediktif. Untuk memicu penskalaan otomatis berdasarkan sinyal khusus aplikasi, gunakan metrik kustom di Cloud Monitoring.
Mendistribusikan traffic di beberapa instance aplikasi menggunakan Cloud Load Balancing. Pilih jenis load balancer yang sesuai berdasarkan kebutuhan aplikasi Anda. Untuk pengguna yang didistribusikan secara geografis, Anda dapat menggunakan load balancing global untuk merutekan traffic ke instance terdekat yang tersedia. Untuk arsitektur berbasis microservice yang kompleks, pertimbangkan untuk menggunakan Cloud Service Mesh.
Simpan konten statis ke dalam cache di edge jaringan Google menggunakan Cloud CDN. Untuk meng-cache data yang sering diakses, Anda dapat menggunakan Memorystore, yang menawarkan layanan dalam memori yang terkelola sepenuhnya untuk Redis, Valkey, atau Memcached.
Pisahkan komponen sistem Anda dengan menggunakan Pub/Sub untuk pengiriman pesan real-time dan Cloud Tasks untuk eksekusi tugas asinkron
Menskalakan aplikasi untuk produksi
Untuk memastikan penayangan yang skalabel dalam produksi, Anda dapat menggunakan layanan terkelola seperti Vertex AI distributed training dan Vertex AI Inference. Inferensi Vertex AI memungkinkan Anda mengonfigurasi jenis mesin untuk node prediksi saat men-deploy model ke endpoint atau meminta prediksi batch. Untuk beberapa konfigurasi, Anda dapat menambahkan GPU. Pilih jenis mesin dan akselerator yang sesuai untuk mengoptimalkan latensi, throughput, dan biaya.
Untuk menskalakan aplikasi AI dan Python yang kompleks serta workload kustom di seluruh resource komputasi terdistribusi, Anda dapat menggunakan Ray di Vertex AI. Fitur ini dapat membantu mengoptimalkan performa dan memungkinkan integrasi yang lancar dengan layananGoogle Cloud . Ray on Vertex AI menyederhanakan komputasi terdistribusi dengan menangani pengelolaan cluster, penjadwalan tugas, dan transfer data. Layanan ini terintegrasi dengan layanan Vertex AI lainnya seperti pelatihan, prediksi, dan pipeline. Ray menyediakan fault tolerance dan penskalaan otomatis, serta membantu Anda menyesuaikan infrastruktur dengan perubahan workload. Vertex AI menawarkan framework terpadu untuk pelatihan terdistribusi, penyesuaian hyperparameter, reinforcement learning, dan serving model. Gunakan Ray untuk pra-pemrosesan data terdistribusi dengan Dataflow atau Dataproc, pelatihan model yang dipercepat, penyesuaian hyperparameter yang dapat diskalakan, pembelajaran penguatan, dan prediksi batch yang diparalelkan.
Kontributor
Penulis:
- Charlotte Gistelinck, PhD | Partner Engineer
- Sannya Dang | AI Solution Architect
- Filipe Gracio, PhD | Customer Engineer
Kontributor lainnya:
- Gary Harmson | Principal Architect
- Kumar Dhanagopal | Cross-Product Solution Developer
- Marwan Al Shawi | Partner Customer Engineer
- Ryan Cox | Principal Architect
- Stef Ruinard | Generative AI Field Solutions Architect