Tentang Ray di Google Kubernetes Engine (GKE)


Halaman ini memberikan ringkasan tentang Ray Operator dan resource kustom yang relevan untuk men-deploy dan mengelola cluster dan aplikasi Ray di Google Kubernetes Engine (GKE).

Ray adalah framework komputasi terpadu open source untuk menskalakan aplikasi AI/ML dan Python. Ray menyediakan serangkaian library untuk mendistribusikan runtime komputasi untuk AI/ML di beberapa node komputasi.

Untuk mempelajari cara mengaktifkan operator Ray di GKE, lihat Mengaktifkan operator Ray di GKE.

Alasan menggunakan Ray Operator di GKE

Ray Operator adalah cara yang direkomendasikan untuk men-deploy dan mengelola cluster Ray di GKE. Saat menjalankan Ray Operator di GKE, Anda mendapatkan manfaat dari dukungan Ray untuk Python dan keandalan, portabilitas, serta skalabilitas tingkat perusahaan GKE.

Ray Operator di GKE didasarkan pada KubeRay, yang menyediakan API Kubernetes deklaratif yang dirancang khusus untuk mengelola cluster Ray. Artinya, Anda dapat menyediakan, menskalakan, dan mengelola Deployment Ray dengan workload yang di-container lainnya di GKE.

Cara kerja Ray Operator di GKE

Saat Anda mengaktifkan Ray Operator di cluster GKE, GKE akan otomatis menginstal dan menghosting operator KubeRay.

KubeRay menyediakan resource kustom Kubernetes untuk mengelola Deployment Ray di Kubernetes, termasuk:

Resource kustom RayCluster

Resource kustom RayCluster memungkinkan Anda menentukan cluster Ray yang di-deploy GKE sebagai Pod Kubernetes. Cluster Ray biasanya terdiri dari satu Pod head dan beberapa Pod pekerja.

Resource kustom RayJob

Resource kustom RayJob memungkinkan Anda menjalankan satu tugas Ray. KubeRay membuat RayCluster untuk menyediakan resource komputasi bagi tugas, lalu membuat Tugas Kubernetes yang mengirimkan tugas Ray ke Pod head RayCluster.

Untuk pengelolaan resource yang efisien, Anda dapat mengonfigurasi KubeRay agar secara otomatis membersihkan RayCluster setelah tugas Anda berhasil diselesaikan.

Resource kustom RayService

Resource kustom RayService memungkinkan Anda mengonfigurasi aplikasi Ray Serve, seperti aplikasi untuk penyaluran dan inferensi model. KubeRay membuat RayCluster untuk menyediakan resource komputasi, lalu men-deploy aplikasi Ray Serve seperti yang ditentukan oleh konfigurasi Ray Serve.

Tanggung jawab bersama Ray di GKE

Saat Anda memilih untuk menjalankan workload Ray di GKE dengan operator Ray, Anda harus memahami cara pembagian tanggung jawab antara Google dan Anda, pelanggan: Google Cloud

Tanggung jawab Google

  • Mempertahankan keandalan dan waktu beroperasi operator KubeRay.
  • Mengelola upgrade versi untuk operator KubeRay.
  • Kemampuan khusus untuk KubeRay dalam mengelola resource kustom RayCluster, RayJob, dan RayService.

Tanggung jawab pelanggan

  • Memelihara image container yang digunakan untuk Pod Ray head dan Ray worker.
  • Mempertahankan pembuatan versi dan upgrade untuk Pod Ray head dan Ray worker.
  • Mengonfigurasi persyaratan resource (CPU, GPU, memori, dll.) untuk cluster Ray Anda.
  • Mengikuti praktik terbaik untuk mengamankan cluster Ray.
  • Keandalan dan pemantauan untuk aplikasi Ray Anda.

Lihat Tanggung jawab bersama GKE untuk mempelajari lebih lanjut.

Langkah berikutnya