Mengoptimalkan workload AI dan ML dengan Managed Lustre Google Cloud

Last reviewed 2025-06-02 UTC

Dokumen ini memberikan arsitektur referensi yang menunjukkan cara menggunakan Google Cloud Managed Lustre untuk mengoptimalkan performa workload AI dan ML yang di-deploy di Google Kubernetes Engine (GKE). Audiens yang dituju untuk dokumen ini mencakup arsitek dan praktisi teknis yang mendesain, menyediakan, dan mengelola penyimpanan untuk workload AI mereka di Google Cloud. Dokumen ini mengasumsikan bahwa Anda telah memahami siklus proses, proses, dan kemampuan ML.

Managed Lustre adalah sistem file paralel persisten yang terkelola sepenuhnya Google Clouddan didasarkan pada EXAScaler Lustre dari DDN. Managed Lustre sangat ideal untuk workload AI yang memenuhi kriteria berikut:

  • Memerlukan kapasitas penyimpanan hingga 8 PiB.
  • Menyediakan akses latensi sangat rendah (sub-milidetik) dengan throughput tinggi, hingga 1 TB/dtk.
  • Menyediakan operasi input/output per detik (IOPS) yang tinggi.

Managed Lustre menawarkan keuntungan berikut untuk workload AI:

  • Total biaya kepemilikan (TCO) yang lebih rendah untuk pelatihan: Managed Lustre mengurangi waktu pelatihan dengan secara efisien mengirimkan data ke node komputasi. Fungsi ini membantu mengurangi total biaya kepemilikan untuk pelatihan model AI dan ML.
  • TCO yang lebih rendah untuk penayangan: Managed Lustre menyediakan kemampuan berperforma tinggi yang memungkinkan pemuatan model yang lebih cepat dan penayangan inferensi yang dioptimalkan. Kemampuan ini membantu menurunkan biaya komputasi dan meningkatkan pemanfaatan resource.
  • Pemanfaatan resource yang efisien: Managed Lustre memungkinkan Anda menggabungkan pembuatan titik pemeriksaan dan pelatihan dalam satu instance. Berbagi resource ini membantu memaksimalkan penggunaan throughput baca dan tulis yang efisien dalam satu sistem penyimpanan berperforma tinggi.

Arsitektur

Diagram berikut menunjukkan contoh arsitektur untuk menggunakan Managed Lustre guna mengoptimalkan performa beban kerja pelatihan model dan beban kerja penayangan:

Arsitektur menggunakan Managed Lustre untuk mengoptimalkan performa workload pelatihan model dan workload penayangan.

Beban kerja yang ditampilkan dalam arsitektur sebelumnya dijelaskan secara mendetail di bagian selanjutnya. Arsitektur ini mencakup komponen berikut:

  • Cluster Google Kubernetes Engine: GKE mengelola host komputasi tempat proses pelatihan dan penayangan model AI dan ML Anda dijalankan. GKE mengelola infrastruktur pokok cluster, termasuk bidang kontrol, node, dan semua komponen sistem.
  • Penjadwal Kubernetes: Bidang kontrol GKE menjadwalkan workload dan mengelola siklus proses, penskalaan, dan upgrade-nya.
  • Jaringan Virtual Private Cloud (VPC): Semua resource Google Cloud yang ada dalam arsitektur menggunakan satu jaringan VPC.
  • Cloud Load Balancing: Dalam arsitektur ini, Cloud Load Balancing secara efisien mendistribusikan permintaan inferensi masuk dari pengguna aplikasi ke penampung penayangan di cluster GKE. Penggunaan Cloud Load Balancing membantu memastikan ketersediaan tinggi, skalabilitas, dan performa optimal untuk aplikasi AI dan ML. Untuk mengetahui informasi selengkapnya, lihat Memahami load balancing GKE.
  • Unit Pemrosesan Grafis (GPU) atau Tensor Processing Unit (TPU): GPU dan TPU adalah akselerator mesin khusus yang meningkatkan performa workload AI dan ML Anda. Untuk membantu memastikan efisiensi dan kompatibilitas yang optimal, gunakan jenis akselerator yang sama untuk seluruh workload AI dan ML Anda. Untuk mengetahui informasi selengkapnya tentang cara memilih jenis prosesor yang sesuai, lihat bagian Opsi akselerator di bagian selanjutnya dalam dokumen ini.
  • Managed Lustre: Managed Lustre mempercepat pelatihan dan inferensi AI dan ML dengan menyediakan sistem file paralel berperforma tinggi yang dioptimalkan untuk latensi rendah dan throughput tinggi. Dibandingkan dengan hanya menggunakan Cloud Storage, penggunaan Managed Lustre secara signifikan mengurangi waktu pelatihan dan meningkatkan responsivitas model Anda selama penayangan. Peningkatan ini terutama terlihat pada workload berat yang memerlukan akses cepat dan konsisten ke data bersama.
  • Cloud Storage FUSE: Cloud Storage FUSE menyediakan penyimpanan yang persisten dan hemat biaya untuk workload AI dan ML Anda. Cloud Storage berfungsi sebagai repositori pusat untuk set data pelatihan mentah, checkpoint model, dan cadangan model. Penggunaan Cloud Storage membantu memastikan ketahanan data, ketersediaan jangka panjang, dan efisiensi biaya untuk data yang tidak digunakan secara aktif dalam komputasi.

Workload pelatihan

Dalam arsitektur sebelumnya, berikut adalah langkah-langkah dalam alur data selama pelatihan model:

  1. Mengupload data pelatihan ke Cloud Storage: Anda mengupload data pelatihan ke bucket Cloud Storage, yang berfungsi sebagai repositori pusat yang aman dan skalabel serta sumber tepercaya.
  2. Menyalin data ke Managed Lustre: Korpus data pelatihan ditransfer melalui API untuk mengimpor data ke instance Managed Lustre dari Cloud Storage. Mentransfer data pelatihan memungkinkan Anda memanfaatkan kemampuan sistem file berperforma tinggi Managed Lustre untuk mengoptimalkan kecepatan pemuatan dan pemrosesan data selama pelatihan model.
  3. Menjalankan tugas pelatihan di GKE: Proses pelatihan model berjalan di node GKE. Dengan menggunakan Managed Lustre sebagai sumber data, bukan memuat data dari Cloud Storage secara langsung, node GKE dapat mengakses dan memuat data pelatihan dengan kecepatan yang meningkat secara signifikan dan latensi yang lebih rendah. Managed Lustre juga memungkinkan waktu yang lebih singkat untuk memulai transfer byte pertama sebagaimana diukur dengan time to first byte (TTFB). Penggunaan Managed Lustre membantu mengurangi waktu pemuatan data dan mempercepat keseluruhan proses pelatihan, terutama untuk set data besar yang memiliki file baca kecil dan model yang kompleks. Bergantung pada persyaratan workload, Anda dapat menggunakan GPU atau TPU. Untuk mengetahui informasi tentang cara memilih jenis prosesor yang sesuai, lihat Opsi akselerator di bagian selanjutnya dalam dokumen ini.
  4. Menyimpan checkpoint pelatihan ke Managed Lustre: Selama proses pelatihan, checkpoint disimpan ke Managed Lustre berdasarkan metrik atau interval yang Anda tentukan. Pos pemeriksaan merekam status model pada interval yang sering.

Menayangkan workload

Dalam arsitektur sebelumnya, berikut adalah langkah-langkah dalam alur data selama penyajian model:

  1. Memuat model untuk penayangan: Saat model Anda siap untuk di-deploy, Pod GKE akan memuat model terlatih dari instance Managed Lustre ke node penayangan. Jika instance Managed Lustre yang Anda gunakan selama pelatihan memiliki kapasitas IOPS yang memadai dan berada di zona yang sama dengan akselerator Anda, Anda dapat menggunakan instance Managed Lustre yang sama untuk menayangkan model Anda. Menggunakan kembali instance Managed Lustre memungkinkan berbagi resource yang efisien antara pelatihan dan inferensi. Untuk mempertahankan performa dan kompatibilitas yang optimal, gunakan jenis prosesor GPU atau TPU yang sama dengan yang Anda pilih untuk node GKE penyajian.
  2. Permintaan inferensi: Pengguna aplikasi mengirim permintaan inferensi melalui endpoint inferensi. Permintaan ini diarahkan ke layanan Cloud Load Balancing. Cloud Load Balancing mendistribusikan permintaan masuk di seluruh container penayangan di cluster GKE. Distribusi ini memastikan bahwa tidak ada satu pun penampung yang kewalahan dan permintaan diproses secara efisien.
  3. Menyajikan permintaan inferensi: Saat permintaan inferensi diterima, node komputasi mengakses model yang telah dimuat sebelumnya untuk melakukan komputasi yang diperlukan dan menghasilkan prediksi.
  4. Pengiriman respons: Container penyaluran mengirimkan respons kembali melalui Cloud Load Balancing. Cloud Load Balancing merutekan respons kembali ke pengguna aplikasi yang sesuai, yang menyelesaikan siklus permintaan inferensi.

Produk yang digunakan

Arsitektur referensi ini menggunakan produk Google Cloud berikut:

  • Virtual Private Cloud (VPC): Sistem virtual yang menyediakan fungsionalitas jaringan global yang skalabel untuk workload Google Cloud Anda. VPC mencakup Peering Jaringan VPC, Private Service Connect, akses layanan pribadi, dan Shared VPC.
  • Google Kubernetes Engine (GKE): Layanan Kubernetes yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container dalam skala besar menggunakan infrastruktur Google.
  • Cloud Storage: Penyimpanan objek berbiaya rendah dan tanpa batas untuk beragam jenis data. Data dapat diakses dari dalam dan luar Google Cloud, serta direplikasi di berbagai lokasi untuk redundansi.
  • Google Cloud Managed Lustre: Sistem file paralel terkelola sepenuhnya untuk AI, komputasi berperforma tinggi (HPC), dan aplikasi yang memproses banyak data.

Kasus penggunaan

Managed Lustre ideal untuk workload AI yang memerlukan kapasitas penyimpanan hingga 1 PiB dan yang perlu menyediakan akses latensi rendah (sub-milidetik) dengan throughput tinggi dan IOPS tinggi. Bagian ini memberikan contoh kasus penggunaan yang dapat Anda gunakan untuk Managed Lustre.

Pemrosesan berbasis teks dan pembuatan teks

LLM adalah model AI khusus yang dirancang secara khusus untuk memahami dan memproses data berbasis teks. LLM dilatih pada set data teks yang sangat besar, sehingga dapat melakukan berbagai tugas, termasuk terjemahan mesin, question answering, dan peringkasan teks. Untuk memfasilitasi pelatihan dan pemrosesan batch yang efisien, LLM Anda memerlukan akses berlatensi rendah ke set data. Managed Lustre unggul dalam aplikasi intensif data dengan memberikan throughput tinggi dan latensi rendah yang diperlukan untuk pelatihan dan inferensi, sehingga menghasilkan aplikasi yang didukung LLM yang lebih responsif.

Pemrosesan gambar atau video beresolusi tinggi

Aplikasi AI dan ML tradisional atau model generatif multi-modal yang memproses gambar atau video beresolusi tinggi, seperti analisis pencitraan medis atau sistem mengemudi otomatis, memerlukan kapasitas penyimpanan yang besar dan akses data yang cepat. Managed Lustre menyediakan sistem file persisten berperforma tinggi yang memungkinkan pemuatan data yang cepat untuk mempercepat performa aplikasi. Misalnya, Managed Lustre dapat menyimpan data pasien dalam volume besar, seperti hasil pemindaian MRI dan CT, serta memfasilitasi pemuatan data yang cepat ke node komputasi untuk pelatihan model. Fungsi ini memungkinkan model AI dan ML menganalisis data dengan cepat untuk diagnosis dan perawatan.

Alternatif desain

Bagian ini menyajikan pendekatan desain alternatif yang dapat Anda pertimbangkan untuk aplikasi AI dan ML di Google Cloud.

Alternatif infrastruktur komputasi

Arsitektur referensi dalam dokumen ini menggunakan GKE untuk beban kerja AI dan ML. Bergantung pada persyaratan workload, Anda juga dapat men-deploy instance Managed Lustre di Compute Engine dengan Slurm. Kami merekomendasikan pendekatan ini jika Anda perlu mengintegrasikan kekayaan intelektual (IP) AI eksklusif ke dalam lingkungan yang dapat diskalakan dan jika Anda memerlukan fleksibilitas dan kontrol untuk mengoptimalkan performa untuk workload khusus.

Compute Engine memungkinkan Anda memiliki kontrol yang lebih terperinci atas kontrol tingkat sistem operasi dibandingkan dengan GKE. Saat menggunakan Compute Engine, Anda dapat melakukan hal berikut:

  • Memilih, mengonfigurasi, dan mengelola lingkungan OS dalam virtual machine mereka untuk memenuhi persyaratan workload tertentu.
  • Sesuaikan infrastruktur dengan kebutuhan Anda, termasuk pemilihan jenis mesin VM tertentu.
  • Gunakan kelompok mesin yang dioptimalkan akselerator untuk meningkatkan performa dengan workload AI Anda.

Slurm adalah pengelola beban kerja dan resource open source yang sangat dapat dikonfigurasi. Slurm menawarkan opsi canggih untuk mengelola workload AI dan memungkinkan Anda mengontrol konfigurasi dan pengelolaan resource komputasi. Untuk menggunakan pendekatan ini, Anda memerlukan keahlian dalam administrasi Slurm dan pengelolaan sistem Linux. GKE menyediakan lingkungan Kubernetes terkelola yang mengotomatiskan pengelolaan cluster.

Untuk mengetahui informasi tentang cara men-deploy Slurm, lihat Men-deploy cluster HPC dengan Slurm. Anda juga dapat men-deploy menggunakan Cluster Toolkit dengan cetak biru awal Managed Lustre.

Opsi akselerator

Akselerator mesin adalah prosesor khusus yang dirancang untuk mempercepat komputasi yang diperlukan untuk workload AI dan ML. Anda dapat memilih GPU atau TPU.

  • Akselerator GPU memberikan performa yang sangat baik untuk berbagai tugas, termasuk rendering grafis, pelatihan deep learning, dan komputasi ilmiah. Google Cloud memiliki beragam pilihan GPU yang cocok dengan berbagai tingkat performa dan titik harga. Untuk mengetahui informasi tentang model dan harga GPU, lihat harga GPU.
  • TPU adalah akselerator AI yang dirancang khusus serta dioptimalkan untuk pelatihan dan inferensi model AI berskala besar. TPU ideal untuk berbagai kasus penggunaan, seperti chatbot, pembuatan kode, pembuatan konten media, ucapan sintetis, layanan visi, mesin pemberi saran, dan model personalisasi. Untuk mengetahui informasi selengkapnya tentang model dan harga TPU, lihat Harga TPU.

Menayangkan alternatif penyimpanan

Untuk membantu memastikan tingkat ketersediaan tertinggi, gunakan Cloud Storage FUSE dengan Anywhere Cache dan bucket multi-region atau dual-region. Konfigurasi ini membuat model AI terlatih Anda tersedia di beberapa region. Namun, dibandingkan dengan instance Managed Lustre, Cloud Storage FUSE dapat memiliki throughput per-VM yang lebih rendah. Untuk mengetahui informasi tentang cara meningkatkan performa dengan Cloud Storage FUSE, lihat Menggunakan caching file Cloud Storage FUSE.

Google Cloud Hyperdisk ML adalah solusi block storage berperforma tinggi yang dirancang untuk mempercepat workload AI dan ML skala besar yang memerlukan akses hanya baca ke set data besar. Hyperdisk ML dapat disediakan dengan throughput gabungan yang sedikit lebih tinggi dengan ukuran volume yang lebih kecil, tetapi mencapai throughput per-VM yang lebih rendah dibandingkan dengan Managed Lustre. Selain itu, volume Hyperdisk ML hanya dapat diakses oleh VM GPU atau TPU yang berada di zona yang sama. Oleh karena itu, untuk cluster GKE regional yang melayani dari beberapa zona, Anda harus menyediakan volume Hyperdisk ML terpisah di setiap zona. Penyediaan beberapa volume Hyperdisk ML dapat lebih mahal daripada menggunakan satu instance Lustre Terkelola regional.

Penting juga untuk diperhatikan bahwa Hyperdisk ML didesain agar setelah data ditulis, data tersebut tidak dapat diubah. Pendekatan tulis sekali baca berkali-kali (WORM) ini membantu mencegah kerusakan yang tidak disengaja atau modifikasi yang tidak sah. Namun, untuk memperbarui model penayangan, Anda tidak dapat mengganti model yang ada; sebaliknya, Anda harus membuat instance Hyperdisk ML baru. Untuk mengetahui informasi selengkapnya tentang penggunaan Hyperdisk ML dalam beban kerja AI, lihat Mempercepat pemuatan data AI/ML dengan Hyperdisk ML.

Pertimbangan desain

Untuk mendesain deployment Managed Lustre yang mengoptimalkan keamanan, keandalan, biaya, operasi, dan performa workload AI dan ML Anda di Google Cloud, gunakan panduan di bagian berikut.

Saat membangun arsitektur untuk workload Anda, pertimbangkan praktik terbaik dan rekomendasi dalam Google Cloud Framework yang Dirancang dengan Baik: Perspektif AI dan ML.

Keamanan, privasi, dan kepatuhan

Bagian ini menjelaskan pertimbangan untuk workload AI dan ML Anda di Google Cloud yang memenuhi persyaratan keamanan, privasi, dan kepatuhan Anda.

Keamanan SSH

Untuk memfasilitasi kontrol akses yang ditingkatkan untuk aplikasi yang berjalan di GKE, Anda dapat menggunakan Identity-Aware Proxy (IAP). IAP terintegrasi dengan resource Ingress GKE dan membantu memverifikasi bahwa hanya pengguna terautentikasi dengan peran Identity and Access Management (IAM) yang benar yang dapat mengakses aplikasi. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan IAP untuk GKE dan Kontrol akses dengan IAM.

Enkripsi data

Secara default, data Anda di GKE, termasuk data yang disimpan di instance Managed Lustre, dienkripsi saat disimpan dan saat dikirim dengan menggunakan Google-owned and Google-managed encryption keys. Sebagai lapisan keamanan tambahan untuk data sensitif, Anda dapat mengenkripsi data di lapisan aplikasi dengan menggunakan kunci yang Anda miliki dan kelola dengan Cloud Key Management Service (Cloud KMS). Untuk mengetahui informasi selengkapnya, lihat Mengenkripsi secret di lapisan aplikasi.

Jika Anda menggunakan cluster GKE Standard, Anda dapat menggunakan kemampuan enkripsi data tambahan berikut:

Isolasi data

Untuk meningkatkan keamanan dan meningkatkan perlindungan data, simpan data pelatihan di instance Managed Lustre yang terpisah dari checkpoint dan model terlatih. Penggunaan instance penyimpanan terpisah memberikan isolasi performa, meningkatkan keamanan dengan mengisolasi data pelatihan, dan meningkatkan perlindungan data. Meskipun daftar kontrol akses memungkinkan Anda mengelola keamanan dalam satu instance, penggunaan instance terpisah memberikan batas keamanan yang lebih kuat.

Pertimbangan keamanan lainnya

Dalam mode operasi Autopilot, GKE telah mengonfigurasi cluster Anda sebelumnya dan mengelola node sesuai dengan praktik terbaik keamanan, sehingga Anda dapat berfokus pada keamanan khusus workload. Untuk mengetahui informasi selengkapnya, lihat Kemampuan keamanan GKE Autopilot dan Keamanan Kubernetes yang siap digunakan dengan GKE Autopilot.

Untuk mengetahui informasi tentang mengamankan privasi data Anda, lihat Ringkasan Perlindungan Data Sensitif dan Memeriksa Google Cloud penyimpanan dan database untuk menemukan data sensitif.

Untuk mengetahui prinsip dan rekomendasi keamanan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keamanan dalam Well-Architected Framework.

Keandalan

Bagian ini menjelaskan faktor desain yang harus Anda pertimbangkan saat menggunakan arsitektur referensi ini untuk membangun dan mengoperasikan infrastruktur yang andal untuk deployment regional Anda di Google Cloud.

Ketahanan terhadap gangguan infrastruktur

Dengan mode operasi Autopilot yang digunakan dalam arsitektur ini, GKE menyediakan kemampuan keandalan bawaan berikut:

  • Beban kerja Anda menggunakan cluster GKE regional. Bidang kontrol dan node worker tersebar di tiga zona berbeda dalam suatu region. Workload Anda tahan terhadap pemadaman layanan zona. Cluster GKE regional memiliki waktu beroperasi yang lebih tinggi Perjanjian Tingkat Layanan (SLA) daripada cluster zonal.
  • Anda tidak perlu membuat node atau mengelola node pool. GKE akan otomatis membuat node pool dan menskalakannya secara otomatis berdasarkan persyaratan workload Anda.

Untuk meningkatkan ketersediaan aplikasi, Anda dapat menayangkannya dari beberapa zona dengan men-deploy instance Managed Lustre di setiap zona.

Perencanaan kapasitas cluster

Untuk membantu memastikan bahwa kapasitas GPU yang memadai tersedia saat diperlukan untuk menskalakan otomatis cluster GKE, Anda dapat membuat dan menggunakan reservasi. Reservasi memberikan kapasitas yang pasti di zona tertentu untuk resource yang ditentukan. Reservasi dapat bersifat khusus untuk satu project atau dibagikan di beberapa project. Anda dikenai biaya untuk resource yang dipesan meskipun resource tersebut tidak disediakan atau digunakan. Untuk mengetahui informasi selengkapnya, lihat Menggunakan resource zona yang dicadangkan.

Ketahanan data

Untuk mencadangkan dan memulihkan workload di GKE, aktifkan Pencadangan untuk GKE di setiap cluster. Pencadangan untuk GKE berguna untuk pemulihan dari bencana, pipeline CI/CD, cloning workload, dan rencana upgrade.

Anda dapat memilih workload tertentu atau semua workload yang ingin dicadangkan dan dipulihkan. Anda juga dapat mencadangkan workload dari satu cluster dan memulihkannya ke cluster lain. Untuk mengurangi periode nonaktif workload, Anda dapat menjadwalkan agar pencadangan otomatis dijalankan sehingga Anda dapat memulihkan workload dengan cepat jika terjadi insiden.

Pertimbangan keandalan lainnya

Untuk prinsip dan rekomendasi keandalan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keandalan dalam Well-Architected Framework.

Pengoptimalan biaya

Bagian ini berisi panduan untuk membantu Anda mengoptimalkan biaya penyiapan dan pengoperasian alur kerja AI dan ML di Google Cloud.

Tingkatan performa Managed Lustre

Saat membuat instance Managed Lustre, Anda harus memilih tingkat performa. Pilih tingkat yang sesuai berdasarkan persyaratan performa dan biaya workload Anda.

Model penyediaan node

Dalam mode Autopilot, GKE mengoptimalkan efisiensi infrastruktur cluster Anda berdasarkan persyaratan workload. Untuk mengontrol biaya, Anda tidak perlu terus-menerus memantau pemanfaatan resource atau mengelola kapasitas.

Jika dapat memprediksi penggunaan CPU, memori, dan penyimpanan sementara cluster Autopilot, Anda bisa mendapatkan diskon abonemen. Untuk mengurangi biaya menjalankan aplikasi, Anda dapat menggunakan Spot VM untuk node GKE. Spot VM memiliki harga yang lebih rendah daripada VM standar, tetapi tidak memberikan jaminan ketersediaan.

Pengelolaan resource

Untuk mengoptimalkan biaya dan performa melalui pengelolaan yang efisien, gunakan Dynamic Workload Scheduler. Dynamic Workload Scheduler adalah penjadwal tugas dan pengelolaan resource yang membantu Anda meningkatkan akses ke akselerator AI (GPU dan TPU). Dynamic Workload Scheduler menjadwalkan semua akselerator Anda secara bersamaan dan dapat berjalan di luar jam sibuk dengan pengelolaan kapasitas akselerator yang ditentukan. Dengan menjadwalkan tugas secara strategis, Dynamic Workload Scheduler membantu memaksimalkan pemanfaatan akselerator, mengurangi waktu tidak ada aktivitas, dan mengoptimalkan pembelanjaan cloud Anda.

Memanfaatkan sumber daya

Untuk memaksimalkan penggunaan resource, gunakan satu instance Managed Lustre untuk pelatihan dan penayangan. Menggabungkan workload pelatihan dan penayangan ke dalam satu instance Managed Lustre akan meminimalkan biaya dengan menghilangkan infrastruktur yang berlebihan dan menyederhanakan pengelolaan resource. Namun, ada potensi konflik resource jika kedua beban kerja memiliki permintaan throughput yang tinggi. Jika IOPS cadangan tersedia setelah pelatihan, penggunaan instance yang sama dapat mempercepat pemuatan model untuk penayangan. Gunakan Cloud Monitoring untuk membantu memverifikasi bahwa Anda mengalokasikan resource yang cukup untuk memenuhi permintaan throughput.

Untuk meminimalkan biaya penyimpanan, ekspor data dari instance Managed Lustre ke kelas Cloud Storage berbiaya lebih rendah setelah pelatihan dan pembuatan checkpoint. Mengekspor data Anda ke Cloud Storage juga memungkinkan Anda menghancurkan dan membuat ulang instance Managed Lustre sesuai kebutuhan untuk workload Anda.

Untuk membantu mengontrol biaya bucket Cloud Storage Anda, aktifkan pengelolaan siklus proses objek atau Autoclass. Object Lifecycle Management secara otomatis memindahkan data yang lebih lama atau kurang sering digunakan ke kelas penyimpanan yang lebih murah atau menghapus data tersebut, berdasarkan aturan yang Anda tetapkan. Autoclass memindahkan data antar-kelas penyimpanan berdasarkan pola akses Anda. Menggunakan pengelolaan siklus proses objek atau Autoclass membantu memastikan kelas penyimpanan yang paling hemat biaya untuk penggunaan data Anda dengan meminimalkan pengeluaran dan membantu mencegah biaya pengambilan yang tidak terduga.

Pertimbangan biaya lainnya

Untuk mengetahui prinsip dan rekomendasi pengoptimalan biaya yang khusus untuk beban kerja AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan biaya dalam Well-Architected Framework dan Praktik terbaik untuk menjalankan aplikasi Kubernetes yang hemat biaya di GKE.

Keunggulan operasional

Bagian ini memberikan panduan untuk membantu Anda mendesain infrastruktur bagi alur kerja AI dan ML yang dapat Anda operasikan secara efisien.

Pengelolaan model

Untuk melacak dan mengelola artefak model, termasuk biner dan metadata, gunakan Vertex AI Model Registry, yang memungkinkan Anda menyimpan, mengatur, dan men-deploy versi model dengan lancar.

Untuk mengoptimalkan keandalan model, terapkan Vertex AI Model Monitoring untuk mendeteksi penyimpangan data, melacak performa, dan mengidentifikasi anomali dalam produksi.

Penskalaan otomatis cluster GKE

Dengan cluster Autopilot, Anda tidak perlu menyediakan atau mengelola node pool. Node pool disediakan secara otomatis melalui penyediaan otomatis node, dan diskalakan secara otomatis untuk memenuhi persyaratan workload Anda.

Untuk cluster GKE Standar, autoscaler cluster secara otomatis mengubah ukuran jumlah node dalam node pool berdasarkan permintaan workload. Untuk mengontrol perilaku penskalaan otomatis dari autoscaler cluster, Anda dapat menentukan ukuran minimum dan maksimum untuk node pool.

Saat menggunakan penskalaan otomatis cluster GKE, jangan aktifkan penskalaan otomatis Compute Engine untuk grup instance terkelola (MIG) untuk node cluster Anda. Autoscaler cluster GKE terpisah dari autoscaler Compute Engine. Autoscaler cluster GKE dirancang untuk menskalakan workload Anda dengan menganalisis penggunaan resource di seluruh cluster GKE, termasuk MIG yang mendasarinya. Menggunakan kedua autoscaler dapat menyebabkan keputusan penskalaan yang bertentangan. Untuk mengetahui informasi selengkapnya, lihat Tentang penskalaan otomatis cluster GKE.

Pemantauan metrik

Untuk mengidentifikasi hambatan, pantau metrik utama seperti latensi, tingkat error, dan penggunaan resource menggunakan Cloud Monitoring. Cloud Monitoring memberikan visibilitas real-time untuk melacak pola penggunaan resource dan mengidentifikasi potensi inefisiensi.

Pengelolaan penyimpanan

Untuk mengotomatiskan pengelolaan data berdasarkan penggunaan untuk bucket Cloud Storage, aktifkan pengelolaan siklus proses objek atau Autoclass. Object Lifecycle Management secara otomatis memindahkan data yang lebih lama atau kurang sering digunakan ke kelas penyimpanan yang lebih murah atau menghapus data tersebut, berdasarkan aturan yang Anda tetapkan. Autoclass memindahkan data antar-kelas penyimpanan berdasarkan pola akses Anda. Menggunakan pengelolaan siklus proses objek atau Autoclass membantu memastikan penerapan kebijakan yang konsisten di seluruh infrastruktur penyimpanan Anda dan membantu mengurangi potensi kesalahan manusia, sehingga memberikan penghematan biaya dan performa tanpa intervensi manual.

Pertimbangan operasional lainnya

Untuk praktik terbaik dan rekomendasi efisiensi operasional yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: keunggulan operasional dalam Framework yang Dirancang dengan Baik.

Pengoptimalan performa

Bagian ini berisi panduan untuk membantu Anda mengoptimalkan performa alur kerja AI dan ML di Google Cloud. Panduan di bagian ini tidak lengkap. Untuk mengetahui informasi selengkapnya tentang cara mengoptimalkan performa untuk lingkungan Google Cloud Managed Lustre Anda, lihat Pertimbangan performa.

Pertimbangan pelatihan

Setiap VM A3 atau A4 dapat memberikan 20 GB/s, sekitar 2,5 GB/s per GPU, dari instance Lustre Terkelola. Sebelum pelatihan dimulai, data pelatihan harus diambil terlebih dahulu dari Cloud Storage dan diimpor ke Managed Lustre untuk meminimalkan latensi selama pelatihan. Untuk memaksimalkan throughput untuk workload pelatihan, sediakan instance Managed Lustre agar sesuai dengan kebutuhan throughput dan kapasitas penyimpanan Anda. Misalnya, instance Lustre Terkelola 20 TiB menyediakan throughput gabungan antara 2,5 GB/dtk dan 20 GB/dtk di semua klien, bergantung pada tingkat performa yang dipilih. Jika pelatihan Anda memerlukan throughput yang lebih tinggi, Anda harus meningkatkan ukuran instance Managed Lustre Anda.

Pertimbangan pembuatan checkpoint

Untuk memanfaatkan throughput tulis tinggi yang ditawarkan Managed Lustre dan meminimalkan waktu pelatihan, gunakan Managed Lustre untuk pelatihan dan pembuatan titik pemeriksaan. Pendekatan ini membantu mencapai pemanfaatan resource yang efisien dan membantu menurunkan TCO untuk resource GPU Anda dengan menjaga pelatihan dan pembuatan titik pemeriksaan secepat mungkin. Untuk mencapai pembuatan titik pemeriksaan yang cepat, Anda dapat menjalankan pembuatan titik pemeriksaan asinkron terdistribusi. Karena Managed Lustre bersifat persisten, Anda dapat menyimpan titik pemeriksaan dalam instance yang sama. Untuk pengoptimalan biaya tambahan dan penyimpanan jangka panjang, pertimbangkan untuk mengekspor titik pemeriksaan ke bucket Cloud Storage.

Pertimbangan penayangan

Untuk mencapai performa optimal selama penayangan, Anda perlu meminimalkan waktu yang diperlukan untuk memuat model ke dalam memori. Managed Lustre menawarkan throughput per VM yang tinggi, lebih dari 20 GB/dtk, yang memberikan throughput cluster gabungan yang tinggi. Kemampuan ini dapat membantu Anda meminimalkan waktu pemuatan model di ribuan VM. Untuk melacak metrik utama yang memungkinkan Anda mengidentifikasi hambatan, gunakan Cloud Monitoring dan pastikan Anda men-deploy kapasitas yang memadai karena performa meningkat seiring dengan kapasitas penyimpanan.

Penempatan resource

Untuk meminimalkan latensi dan memaksimalkan performa, buat instance Managed Lustre di region yang lokasinya dekat dengan klien komputasi GPU atau TPU Anda. Dalam arsitektur referensi yang dijelaskan dalam dokumen ini, container GKE dan sistem file ditempatkan bersama di zona yang sama.

  • Untuk pelatihan dan pembuatan titik pemeriksaan: Untuk hasil yang optimal, deploy klien dan instance Managed Lustre di zona yang sama. Kolokasi ini meminimalkan waktu transfer data dan memaksimalkan pemanfaatan throughput tulis Managed Lustre.
  • Untuk penayangan: Meskipun idealnya ditempatkan bersama klien komputasi di zona yang sama, satu instance Managed Lustre per region sudah cukup. Pendekatan ini menghindari biaya tambahan yang terkait dengan men-deploy beberapa instance dan membantu memaksimalkan performa komputasi. Namun, jika memerlukan kapasitas atau throughput tambahan, Anda dapat mempertimbangkan untuk men-deploy lebih dari satu instance per region.

Untuk mengetahui informasi tentang lokasi yang didukung untuk instance Managed Lustre, lihat Lokasi yang didukung.

Pertimbangan performa lainnya

Untuk prinsip dan rekomendasi pengoptimalan performa yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan performa dalam Well-Architected Framework.

Deployment

Untuk membuat dan memasang instance Managed Lustre, sebaiknya gunakan modul Managed Lustre yang tersedia di Cluster Toolkit. Cluster Toolkit adalah toolkit modular berbasis Terraform yang didesain untuk men-deploy lingkungan AI dan ML yang dapat diulang di Google Cloud.

Untuk mengetahui informasi tentang cara men-deploy Managed Lustre secara manual di GKE, lihat artikel Membuat instance Managed Lustre dan Menghubungkan ke instance Managed Lustre yang ada dari Google Kubernetes Engine.

Untuk mengetahui informasi tentang cara mengonfigurasi jaringan VPC untuk Managed Lustre, lihat Mengonfigurasi jaringan VPC.

Langkah berikutnya

Kontributor

Penulis: Samantha He | Technical Writer

Kontributor lainnya: