Halaman ini memperkenalkan Google Kubernetes Engine (GKE) Inference Gateway, peningkatan pada GKE Gateway untuk penayangan aplikasi AI generatif yang dioptimalkan. Bagian ini menjelaskan konsep, fitur, dan cara kerja GKE Inference Gateway.
Halaman ini ditujukan untuk persona berikut:
- Engineer machine learning (ML), Admin dan operator platform, serta Spesialis data dan AI yang tertarik untuk menggunakan kemampuan orkestrasi penampung Kubernetes untuk menayangkan beban kerja AI/ML.
- Arsitek cloud dan spesialis Jaringan yang berinteraksi dengan jaringan Kubernetes.
Sebelum membaca halaman ini, pastikan Anda memahami hal-hal berikut:
- Orkestrasi AI/ML di GKE.
- Glosarium AI Generatif.
- Konsep jaringan GKE, termasuk Layanan, dan GKE Gateway API.
- Load balancing di Google Cloud, terutama cara load balancer berinteraksi dengan GKE.
Ringkasan
GKE Inference Gateway adalah ekstensi untuk GKE Gateway yang menyediakan perutean dan load balancing yang dioptimalkan untuk menayangkan workload Kecerdasan Buatan (AI) generatif. Hal ini menyederhanakan deployment, pengelolaan, dan observabilitas beban kerja inferensi AI.
Fitur dan manfaat
GKE Inference Gateway menyediakan kemampuan utama berikut untuk menayangkan model AI generatif secara efisien untuk aplikasi AI generatif di GKE:
- Load balancing yang dioptimalkan untuk inferensi: mendistribusikan permintaan untuk
mengoptimalkan performa penayangan model AI. Model ini menggunakan metrik dari server model,
seperti
KVCache Utilization
danqueue length of pending requests
, untuk menggunakan akselerator (seperti GPU dan TPU) secara lebih efisien untuk beban kerja AI generatif. - Penayangan model LoRA yang disesuaikan secara dinamis: mendukung penayangan model LoRA yang disesuaikan secara dinamis di akselerator umum. Hal ini mengurangi jumlah GPU dan TPU yang diperlukan untuk menayangkan model dengan melakukan multipleks beberapa model LoRA yang disesuaikan pada model dasar dan akselerator umum.
- Penskalaan otomatis yang dioptimalkan untuk inferensi: Autoscaler Pod Horizontal (HPA) GKE menggunakan metrik server model untuk melakukan penskalaan otomatis, yang membantu memastikan penggunaan resource komputasi yang efisien dan performa inferensi yang dioptimalkan.
- Pemilihan rute berbasis model: merutekan permintaan inferensi berdasarkan nama model
yang ditentukan dalam spesifikasi
OpenAI API
dalam cluster GKE Anda. Anda dapat menentukan kebijakan pemilihan rute Gateway, seperti pemisahan traffic dan pencerminan permintaan, untuk mengelola versi model yang berbeda dan menyederhanakan peluncuran model. Misalnya, Anda dapat me-rutekan permintaan untuk nama model tertentu ke objekInferencePool
yang berbeda, yang masing-masing menayangkan versi model yang berbeda. Criticality
penayangan khusus model: memungkinkan Anda menentukanCriticality
penayangan model AI. Prioritaskan permintaan yang sensitif terhadap latensi daripada tugas inferensi batch yang toleran terhadap latensi. Misalnya, Anda dapat memprioritaskan permintaan dari aplikasi yang sensitif terhadap latensi dan menghapus tugas yang tidak terlalu sensitif terhadap waktu saat resource dibatasi.- Keamanan AI terintegrasi: terintegrasi dengan Google Cloud Model Armor, layanan yang menerapkan pemeriksaan keamanan AI ke perintah dan respons di gateway. Model Armor menyediakan log permintaan, respons, dan pemrosesan untuk analisis dan pengoptimalan retrospektif. Antarmuka terbuka GKE Inference Gateway memungkinkan penyedia dan developer pihak ketiga mengintegrasikan layanan kustom ke dalam proses permintaan inferensi.
- Kemampuan observasi inferensi: memberikan metrik kemampuan observasi untuk permintaan inferensi, seperti kecepatan permintaan, latensi, error, dan saturasi. Pantau performa dan perilaku layanan inferensi Anda.
Memahami konsep utama
GKE Inference Gateway meningkatkan GKE Gateway yang ada yang menggunakan objek GatewayClass
. GKE Inference Gateway memperkenalkan Definisi Resource Kustom (CRD) Gateway API baru berikut, yang selaras dengan ekstensi OSS Kubernetes Gateway API untuk Inference:
- Objek
InferencePool
: mewakili grup Pod (penampung) yang berbagi konfigurasi komputasi, jenis akselerator, model bahasa dasar, dan server model yang sama. Tindakan ini secara logis mengelompokkan dan mengelola resource penayangan model AI Anda. Satu objekInferencePool
dapat menjangkau beberapa Pod di node GKE yang berbeda dan memberikan skalabilitas serta ketersediaan tinggi. - Objek
InferenceModel
: menentukan nama model penayangan dariInferencePool
sesuai dengan spesifikasiOpenAI API
. ObjekInferenceModel
juga menentukan properti penayangan model, sepertiCriticality
model AI. GKE Inference Gateway memberikan preferensi ke workload yang diklasifikasikan sebagaiCritical
. Hal ini memungkinkan Anda melakukan multipleks workload AI yang sensitif terhadap latensi dan toleran terhadap latensi di cluster GKE. Anda juga dapat mengonfigurasi objekInferenceModel
untuk menayangkan model LoRA yang disesuaikan. - Objek
TargetModel
: menentukan nama model target dan objekInferencePool
yang menayangkan model. Hal ini memungkinkan Anda menentukan kebijakan pemilihan rute Gateway, seperti pemisahan traffic dan pencerminan permintaan, serta menyederhanakan peluncuran versi model.
Diagram berikut mengilustrasikan GKE Inference Gateway dan integrasinya dengan keamanan, kemampuan observasi, dan penayangan model AI dalam cluster GKE.

Diagram berikut mengilustrasikan model resource yang berfokus pada dua persona yang berfokus pada inferensi baru dan resource yang mereka kelola.

Cara kerja GKE Inference Gateway
GKE Inference Gateway menggunakan ekstensi Gateway API dan logika pemilihan rute khusus model untuk menangani permintaan klien ke model AI. Langkah-langkah berikut menjelaskan alur permintaan.
Cara kerja alur permintaan
GKE Inference Gateway merutekan permintaan klien dari permintaan awal ke instance model. Bagian ini menjelaskan cara GKE Inference Gateway menangani permintaan. Alur permintaan ini umum untuk semua klien.
- Klien mengirimkan permintaan, yang diformat seperti yang dijelaskan dalam spesifikasi OpenAI API, ke model yang berjalan di GKE.
- GKE Inference Gateway memproses permintaan menggunakan ekstensi inferensi
berikut:
- Ekstensi pemilihan rute berbasis isi: mengekstrak ID model dari
isi permintaan klien dan mengirimkannya ke GKE Inference Gateway.
GKE Inference Gateway kemudian menggunakan ID ini untuk merutekan
permintaan berdasarkan aturan yang ditentukan dalam objek
HTTPRoute
Gateway API. Pemilihan rute isi permintaan mirip dengan pemilihan rute berdasarkan jalur URL. Perbedaannya adalah perutean isi permintaan menggunakan data dari isi permintaan. - Ekstensi keamanan: menggunakan Model Armor atau solusi pihak ketiga yang didukung untuk menerapkan kebijakan keamanan khusus model yang mencakup pemfilteran konten, deteksi ancaman, pembersihan, dan logging. Ekstensi keamanan menerapkan kebijakan ini ke jalur pemrosesan permintaan dan respons. Hal ini memungkinkan ekstensi keamanan untuk membersihkan dan mencatat permintaan serta respons.
- Ekstensi pemilih endpoint: memantau metrik utama dari server model
dalam
InferencePool
. Alat ini melacak penggunaan cache nilai kunci (KV-cache), panjang antrean permintaan yang tertunda, dan adaptor LoRA aktif di setiap server model. Kemudian, permintaan akan dirutekan ke replika model optimal berdasarkan metrik ini untuk meminimalkan latensi dan memaksimalkan throughput untuk inferensi AI.
- Ekstensi pemilihan rute berbasis isi: mengekstrak ID model dari
isi permintaan klien dan mengirimkannya ke GKE Inference Gateway.
GKE Inference Gateway kemudian menggunakan ID ini untuk merutekan
permintaan berdasarkan aturan yang ditentukan dalam objek
- GKE Inference Gateway merutekan permintaan ke replika model yang ditampilkan oleh ekstensi pemilih endpoint.
Diagram berikut mengilustrasikan alur permintaan dari klien ke instance model melalui GKE Inference Gateway.

Cara kerja distribusi traffic
GKE Inference Gateway mendistribusikan permintaan inferensi secara dinamis ke server
model dalam objek InferencePool
. Hal ini membantu mengoptimalkan penggunaan resource
dan mempertahankan performa dalam berbagai kondisi beban.
GKE Inference Gateway menggunakan dua mekanisme berikut untuk mengelola distribusi traffic:
Pemilihan endpoint: secara dinamis memilih server model yang paling sesuai untuk menangani permintaan inferensi. Fungsi ini memantau beban dan ketersediaan server, lalu membuat keputusan pemilihan rute.
Antrean dan penghapusan: mengelola alur permintaan dan mencegah kelebihan beban traffic. GKE Inference Gateway menyimpan permintaan masuk dalam antrean, memprioritaskan permintaan berdasarkan kriteria yang ditentukan, dan menghapus permintaan saat sistem kelebihan beban.
GKE Inference Gateway mendukung level Criticality
berikut:
Critical
: workload ini diprioritaskan. Sistem ini memastikan permintaan ini ditayangkan meskipun dalam batasan resource.Standard
: beban kerja ini ditayangkan saat resource tersedia. Jika resource terbatas, permintaan ini akan dihapus.Sheddable
: workload ini ditayangkan secara oportunistik. Jika resource langka, permintaan ini akan dihapus untuk melindungi workloadCritical
.
Saat sistem mengalami tekanan resource, permintaan Standard
dan Sheddable
akan langsung dihapus dengan kode error 429
untuk melindungi beban kerja Critical
.
Inferensi streaming
GKE Inference Gateway mendukung inferensi streaming untuk aplikasi seperti chatbot dan terjemahan langsung yang memerlukan pembaruan berkelanjutan atau mendekati real-time. Inferensi streaming mengirimkan respons dalam potongan atau segmen inkremental, bukan sebagai satu output lengkap. Jika error terjadi selama respons streaming, streaming akan dihentikan, dan klien akan menerima pesan error. GKE Inference Gateway tidak mencoba lagi respons streaming.
Menjelajahi contoh aplikasi
Bagian ini memberikan contoh untuk mengatasi berbagai skenario aplikasi AI generatif menggunakan GKE Inference Gateway.
Contoh 1: Menayangkan beberapa model AI generatif di cluster GKE
Sebuah perusahaan ingin men-deploy beberapa model bahasa besar (LLM) untuk melayani berbagai beban kerja. Misalnya, mereka mungkin ingin men-deploy model Gemma3
untuk antarmuka chatbot dan model Deepseek
untuk aplikasi rekomendasi. Perusahaan perlu memastikan performa penayangan yang optimal untuk LLM ini.
Dengan GKE Inference Gateway, Anda dapat men-deploy LLM ini di
cluster GKE dengan konfigurasi akselerator yang dipilih di
InferencePool
. Kemudian, Anda dapat merutekan permintaan berdasarkan nama model (seperti
chatbot
dan recommender
) dan properti Criticality
.
Diagram berikut menggambarkan cara GKE Inference Gateway
me-rutekan permintaan ke berbagai model berdasarkan nama model dan Criticality
.

Contoh 2: Menayangkan adaptor LoRA di akselerator bersama
Sebuah perusahaan ingin menayangkan LLM untuk analisis dokumen dan berfokus pada audiens dalam beberapa bahasa, seperti bahasa Inggris dan Spanyol. Mereka memiliki model yang disesuaikan untuk setiap bahasa, tetapi perlu menggunakan kapasitas GPU dan TPU secara efisien. Anda dapat menggunakan GKE Inference Gateway untuk men-deploy adaptor LoRA yang disesuaikan secara dinamis untuk setiap bahasa (misalnya, english-bot
dan spanish-bot
) pada model dasar umum (misalnya, llm-base
) dan akselerator. Hal ini memungkinkan Anda mengurangi jumlah akselerator yang diperlukan dengan memuat beberapa model secara rapat di akselerator umum.
Diagram berikut mengilustrasikan cara GKE Inference Gateway menayangkan beberapa adaptor LoRA di akselerator bersama.

Langkah berikutnya
- Men-deploy GKE Inference Gateway
- Menyesuaikan konfigurasi GKE Inference Gateway
- Menayangkan LLM dengan GKE Inference Gateway