Halaman ini diterjemahkan oleh Cloud Translation API.

Infrastruktur GraphRAG untuk AI generatif menggunakan Vertex AI dan Spanner Graph

Last reviewed 2025-07-01 UTC

Dokumen ini memberikan arsitektur referensi untuk membantu Anda mendesain infrastruktur untuk aplikasi AI generatif GraphRAG di Google Cloud. Audiens yang dituju mencakup arsitek, developer, dan administrator yang membangun dan mengelola sistem pengambilan informasi cerdas. Dokumen ini mengasumsikan pemahaman dasar tentang AI, pengelolaan data grafik, dan konsep pustaka pengetahuan. Dokumen ini tidak memberikan panduan khusus untuk mendesain dan mengembangkan aplikasi GraphRAG.

GraphRAG adalah pendekatan berbasis grafik untuk retrieval augmented generation (RAG). RAG membantu melakukan grounding respons yang dihasilkan AI dengan memperkaya perintah menggunakan data yang relevan secara kontekstual yang diambil menggunakan penelusuran vektor. GraphRAG menggabungkan penelusuran vektor dengan kueri grafik pengetahuan untuk mengambil data kontekstual yang lebih mencerminkan saling keterhubungan data dari berbagai sumber. Perintah yang di-augmentasi menggunakan GraphRAG dapat menghasilkan respons AI yang lebih detail dan relevan.

Arsitektur

Diagram berikut menunjukkan arsitektur untuk aplikasi AI generatif yang kompatibel dengan GraphRAG di Google Cloud:

Alur penyerapan dan penyajian data dalam arsitektur.

Arsitektur dalam diagram sebelumnya terdiri dari dua subsistem: penyerapan dan penyajian data. Bagian berikut menjelaskan tujuan subsistem dan aliran data di dalam dan di seluruh subsistem.

Subsistem penyerapan data

Subsistem penyerapan data menyerap data dari sumber eksternal, lalu menyiapkan data untuk GraphRAG. Alur penyerapan dan persiapan data mencakup langkah-langkah berikut:

Data diserap ke dalam bucket Cloud Storage. Data ini dapat diupload oleh analis data, diserap dari database, atau di-streaming dari sumber mana pun.
Saat data di-ingest, pesan akan dikirim ke topik Pub/Sub.
Pub/Sub memicu Cloud Run Function untuk memproses data yang diupload.
Fungsi Cloud Run membangun grafik pengetahuan dari file input menggunakan Gemini API di Vertex AI dan alat seperti LLMGraphTransformer LangChain.
Fungsi ini menyimpan grafik pengetahuan dalam database Spanner Graph.
Fungsi ini menyegmentasikan konten tekstual file data menjadi unit-unit terperinci menggunakan alat seperti RecursiveCharacterTextSplitter LangChain atau Pengurai Tata Letak Document AI.
Fungsi ini membuat embedding vektor segmen teks menggunakan Vertex AI Embeddings API.
Fungsi ini menyimpan penyematan vektor dan node grafik terkait di Spanner Graph.

Embedding vektor berfungsi sebagai dasar untuk pengambilan semantik. Node grafik pengetahuan memungkinkan penelusuran dan analisis pola dan hubungan data yang rumit.

Subsistem inferensi

Subsistem inferensi mengelola siklus proses kueri-respons antara aplikasi AI generatif dan penggunanya. Alur penayangan melibatkan langkah-langkah berikut:

Pengguna mengirimkan kueri bahasa alami ke agen AI, yang di-deploy di Vertex AI Agent Engine.
Agen memproses kueri sebagai berikut:
1. Mengonversi kueri menjadi embedding vektor menggunakan Vertex AI Embeddings API.
2. Mengambil node grafik yang terkait dengan kueri dengan melakukan penelusuran kemiripan vektor dalam database embedding.
3. Mengambil data yang terkait dengan kueri dengan menelusuri grafik pengetahuan.
4. Memperluas perintah dengan menggabungkan kueri asli dengan data grafik yang diambil.
5. Menggunakan Vertex AI Search Ranking API untuk memberi peringkat pada hasil, yang terdiri dari node dan edge yang diambil dari database grafik. Peringkat didasarkan pada relevansi semantik dengan kueri.
6. Meringkas hasil dengan memanggil Gemini API Vertex AI.
Kemudian, agen akan mengirimkan hasil ringkasan kepada pengguna.

Anda dapat menyimpan dan melihat log aktivitas kueri-respons di Cloud Logging dan menyiapkan pemantauan berbasis log menggunakan Cloud Monitoring.

Produk yang digunakan

Arsitektur referensi ini menggunakan produk dan alat Google berikut:

Spanner Graph: Database grafik yang menyediakan fitur skalabilitas, ketersediaan, dan konsistensi Spanner.
Vertex AI: Platform ML yang memungkinkan Anda melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
Fungsi Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan fungsi tujuan tunggal langsung di Google Cloud.
Cloud Storage: Penyimpanan objek berbiaya rendah dan tanpa batas untuk beragam jenis data. Data dapat diakses dari dalam dan luar Google Cloud, serta direplikasi di berbagai lokasi untuk redundansi.
Pub/Sub: Layanan pesan asinkron dan skalabel yang memisahkan layanan yang menghasilkan pesan dari layanan yang memproses pesan tersebut.
Cloud Logging: Sistem pengelolaan log real-time dengan penyimpanan, penelusuran, analisis, dan pemberitahuan.
Cloud Monitoring: Layanan yang memberikan visibilitas terkait performa, ketersediaan, dan kondisi aplikasi serta infrastruktur Anda.

Kasus penggunaan

GraphRAG memfasilitasi pengambilan data cerdas untuk kasus penggunaan di berbagai industri. Bagian ini menjelaskan beberapa kasus penggunaan dalam layanan kesehatan, keuangan, layanan hukum, dan manufaktur.

Kesehatan dan obat-obatan: Dukungan keputusan klinis

Dalam sistem pendukung keputusan klinis, GraphRAG mengintegrasikan data dalam jumlah besar dari literatur medis, rekam medis elektronik pasien, database interaksi obat, dan hasil uji klinis ke dalam grafik pengetahuan terpadu. Saat klinisi dan peneliti mengkueri gejala pasien dan obat-obatan saat ini, GraphRAG menjelajahi grafik pengetahuan untuk mengidentifikasi kondisi yang relevan dan potensi interaksi obat. Gemini juga dapat membuat rekomendasi perawatan yang dipersonalisasi berdasarkan data lain seperti profil genetik pasien. Pengambilan informasi jenis ini memberikan jawaban yang lebih kaya konteks dan berbasis bukti daripada pencocokan kata kunci.

Jasa keuangan: Menyatukan data keuangan

Perusahaan jasa keuangan menggunakan grafik pengetahuan untuk memberikan tampilan data yang terpadu dan terstruktur kepada analis mereka dari berbagai sumber seperti laporan analis, panggilan konferensi laporan laba, dan penilaian risiko. Grafik pengetahuan mengidentifikasi entitas data utama seperti perusahaan dan eksekutif, serta memetakan hubungan penting antara entitas. Pendekatan ini memberikan data yang kaya dan saling terhubung, yang memungkinkan analisis keuangan yang lebih mendalam dan efisien. Analis dapat menemukan insight yang sebelumnya tersembunyi, seperti dependensi rantai pasokan yang rumit, keanggotaan dewan yang tumpang-tindih di seluruh kompetitor, dan eksposur terhadap risiko geopolitik yang kompleks.

Layanan hukum: Riset kasus dan analisis preseden

Di sektor hukum, GraphRAG dapat digunakan untuk membuat rekomendasi hukum yang dipersonalisasi berdasarkan preseden, hukum, hukum kasus, pembaruan peraturan, dan dokumen internal. Saat mempersiapkan kasus, pengacara dapat mengajukan pertanyaan bernuansa tentang argumen hukum tertentu, putusan sebelumnya atas kasus serupa, atau implikasi legislasi baru. GraphRAG memanfaatkan keterkaitan pengetahuan hukum yang tersedia untuk mengidentifikasi preseden yang relevan dan menjelaskan penerapannya. Alat ini juga dapat menyarankan argumen balasan dengan melacak hubungan antara konsep hukum, hukum, dan interpretasi yudisial. Dengan pendekatan ini, praktisi hukum dapat memperoleh insight yang lebih menyeluruh dan tepat dibandingkan metode pengambilan informasi konvensional.

Manufaktur dan rantai pasok: Memanfaatkan pengetahuan institusional

Operasi manufaktur dan rantai pasokan memerlukan tingkat presisi yang tinggi. Pengetahuan yang diperlukan untuk mempertahankan tingkat presisi yang diperlukan sering kali tersembunyi dalam ribuan dokumen Prosedur Operasi Standar (SOP) statis yang padat. Saat jalur produksi atau mesin di pabrik gagal, atau jika terjadi masalah logistik, engineer dan teknisi sering kali membuang waktu berharga untuk mencari melalui dokumen PDF yang tidak terhubung guna mendiagnosis dan memecahkan masalah. Grafik pengetahuan dan AI percakapan dapat digabungkan untuk mengubah pengetahuan institusional yang terpendam menjadi partner diagnostik interaktif.

Alternatif desain

Arsitektur yang dijelaskan dalam dokumen ini bersifat modular. Anda dapat menyesuaikan komponen tertentu dari arsitektur untuk menggunakan produk, alat, dan teknologi alternatif, bergantung pada persyaratan Anda.

Membangun grafik pengetahuan

Anda dapat menggunakan alat LLMGraphTransformer LangChain untuk membuat grafik pengetahuan dari awal. Dengan menentukan skema grafik menggunakan parameter LLMGraphTransformer seperti allowed_nodes, allowed_relationships, node_properties, dan relationship_properties, Anda dapat meningkatkan kualitas grafik pengetahuan yang dihasilkan. Namun, LLMGraphTransformer dapat mengekstrak entitas dari domain umum, sehingga mungkin tidak cocok untuk domain khusus seperti kesehatan atau farmasi. Selain itu, jika organisasi Anda sudah memiliki proses yang andal untuk membangun grafik pengetahuan, maka subsistem penyerapan data yang ditampilkan dalam arsitektur referensi ini bersifat opsional.

Menyimpan grafik pengetahuan dan penyematan vektor

Arsitektur dalam dokumen ini menggunakan Spanner sebagai penyimpanan data untuk grafik pengetahuan dan embedding vektor. Jika grafik pengetahuan perusahaan Anda sudah ada di tempat lain (seperti di platform Neo4j), Anda dapat mempertimbangkan untuk menggunakan database vektor untuk penyematan. Namun, pendekatan ini memerlukan upaya pengelolaan tambahan dan mungkin lebih mahal. Spanner menyediakan penyimpanan data yang terkonsolidasi dan konsisten secara global untuk struktur grafik dan penyematan vektor. Datastore semacam itu memungkinkan pengelolaan data terpadu, yang membantu mengoptimalkan biaya, performa, tata kelola keamanan, dan efisiensi operasional.

Runtime agen

Dalam arsitektur referensi ini, agen di-deploy di Vertex AI Agent Engine, yang menyediakan runtime terkelola untuk agen AI. Opsi lain yang dapat Anda pertimbangkan meliputi Cloud Run dan Google Kubernetes Engine (GKE). Pembahasan opsi tersebut berada di luar cakupan dokumen ini.

Grounding menggunakan RAG

Seperti yang dibahas di bagian Kasus penggunaan, GraphRAG memungkinkan pengambilan data yang cerdas untuk perujukan dalam banyak skenario. Namun, jika data sumber yang Anda gunakan untuk meningkatkan kualitas perintah tidak memiliki inter-relasi yang kompleks, maka RAG mungkin merupakan pilihan yang tepat untuk aplikasi AI generatif Anda.

Arsitektur referensi berikut menunjukkan cara membangun infrastruktur yang diperlukan untuk RAG di Google Cloud dengan menggunakan database terkelola yang mendukung vektor atau produk penelusuran vektor khusus:

Pertimbangan desain

Bagian ini menjelaskan faktor desain, praktik terbaik, dan rekomendasi yang perlu dipertimbangkan saat Anda menggunakan arsitektur referensi ini untuk mengembangkan topologi yang memenuhi persyaratan spesifik Anda terkait keamanan, keandalan, biaya, dan performa.

Panduan di bagian ini tidak lengkap. Bergantung pada persyaratan beban kerja Anda dan produk serta fitur pihak ketiga yang Anda gunakan, mungkin ada faktor desain dan pertimbangan tambahan yang harus Anda pertimbangkan. Google Cloud

Keamanan, privasi, dan kepatuhan

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk merancang topologi di Google Cloud yang memenuhi persyaratan keamanan dan kepatuhan workload Anda.

Produk	Pertimbangan dan rekomendasi desain
Vertex AI	Vertex AI mendukung kontrol keamanan yang dapat Anda gunakan untuk memenuhi persyaratan Anda terkait residensi data, enkripsi data, keamanan jaringan, dan transparansi akses. Google Cloud Untuk informasi selengkapnya, lihat dokumentasi berikut: Kontrol keamanan untuk Vertex AI Kontrol keamanan untuk AI Generatif AI generatif dan tata kelola data Model AI generatif dapat menghasilkan respons yang berbahaya, terutama jika diminta secara eksplisit untuk memberikan respons tersebut. Untuk meningkatkan keamanan dan mengurangi potensi penyalahgunaan, Anda dapat mengonfigurasi filter konten agar berfungsi sebagai penghalang terhadap respons berbahaya. Untuk mengetahui informasi selengkapnya, lihat Filter keamanan dan konten.
Spanner Graph	Secara default, data yang disimpan di Spanner Graph dienkripsi menggunakan Google-owned and Google-managed encryption keys. Jika Anda perlu menggunakan kunci enkripsi yang Anda kontrol dan kelola, Anda dapat menggunakan kunci enkripsi yang dikelola pelanggan (CMEK). Untuk mengetahui informasi selengkapnya, lihat Tentang CMEK.
Cloud Run Functions	Secara default, Cloud Run mengenkripsi data menggunakan Google-owned and Google-managed encryption keys. Untuk melindungi container dengan menggunakan kunci yang Anda kontrol, Anda dapat menggunakan CMEK. Untuk informasi selengkapnya, lihat Menggunakan kunci enkripsi yang dikelola pelanggan. Untuk memastikan bahwa hanya image container resmi yang di-deploy ke Cloud Run, Anda dapat menggunakan Otorisasi Biner. Cloud Run membantu Anda memenuhi persyaratan residensi data. Fungsi Cloud Run Anda berjalan dalam region yang dipilih.
Cloud Storage	Secara default, data yang disimpan di Cloud Storage dienkripsi menggunakan Google-owned and Google-managed encryption keys. Jika diperlukan, Anda dapat menggunakan CMEK atau kunci Anda sendiri yang Anda kelola dengan menggunakan metode pengelolaan eksternal seperti kunci enkripsi yang disediakan pelanggan (CSEK). Untuk mengetahui informasi selengkapnya, lihat Opsi enkripsi data. Cloud Storage mendukung dua metode untuk memberi pengguna akses ke bucket dan objek Anda: Identity and Access Management (IAM) dan daftar kontrol akses (ACL). Dalam sebagian besar kasus, sebaiknya gunakan IAM, yang memungkinkan Anda memberikan izin di tingkat bucket dan project. Untuk mengetahui informasi selengkapnya, lihat Ringkasan kontrol akses. Data yang Anda muat ke dalam subsistem penyerapan data melalui Cloud Storage mungkin mencakup data sensitif. Anda dapat menggunakan Sensitive Data Protection untuk menemukan, mengklasifikasikan, dan melakukan de-identifikasi data sensitif. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Perlindungan Data Sensitif dengan Cloud Storage. Cloud Storage membantu Anda memenuhi persyaratan residensi data. Data disimpan atau direplikasi dalam region yang Anda tentukan.
Pub/Sub	Secara default, Pub/Sub mengenkripsi semua pesan, baik saat dalam penyimpanan maupun dalam pengiriman, dengan menggunakan Google-owned and Google-managed encryption keys. Pub/Sub mendukung penggunaan CMEK untuk enkripsi pesan di lapisan aplikasi. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi enkripsi pesan. Jika Anda memiliki persyaratan residensi data, untuk memastikan data pesan disimpan di lokasi tertentu, Anda dapat mengonfigurasi kebijakan penyimpanan pesan.
Cloud Logging	Log audit Aktivitas Admin diaktifkan secara default untuk semua layanan Google Cloud yang digunakan dalam arsitektur referensi ini. Log ini mencatat panggilan API atau tindakan lain yang mengubah konfigurasi atau metadata Google Cloud resource. Untuk Google Cloud layanan yang digunakan dalam arsitektur ini, Anda dapat mengaktifkan log audit Akses Data. Log ini memungkinkan Anda melacak panggilan API yang membaca konfigurasi atau metadata resource atau permintaan pengguna untuk membuat, mengubah, atau membaca data resource yang disediakan pengguna. Untuk membantu memenuhi persyaratan residensi data, Anda dapat mengonfigurasi Cloud Logging untuk menyimpan data log di region yang Anda tentukan. Untuk mengetahui informasi selengkapnya, lihat Mengelompokkan log berdasarkan wilayah.

Untuk mengetahui prinsip dan rekomendasi keamanan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keamanan dalam Google Cloud Framework yang Dirancang dengan Baik.

Keandalan

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk membangun dan mengoperasikan infrastruktur yang andal untuk deployment Anda di Google Cloud.

Produk	Pertimbangan dan rekomendasi desain
Vertex AI	Vertex AI mendukung kuota bersama dinamis (DSQ) untuk model Gemini. DSQ membantu mengelola permintaan bayar sesuai penggunaan secara fleksibel dan menghilangkan kebutuhan untuk mengelola kuota secara manual atau meminta penambahan kuota. DSQ mengalokasikan resource yang tersedia secara dinamis untuk model dan wilayah tertentu di seluruh pelanggan aktif. Dengan DSQ, tidak ada batas kuota yang telah ditentukan sebelumnya untuk setiap pelanggan. Jika jumlah permintaan Anda melebihi kapasitas yang dialokasikan, kode error 429 akan ditampilkan. Untuk beban kerja yang penting bagi bisnis dan secara konsisten memerlukan throughput tinggi, Anda dapat memesan throughput menggunakan Throughput yang Disediakan. Jika data dapat dibagikan di beberapa region atau negara, Anda dapat menggunakan endpoint global.
Spanner Graph	Spanner didesain untuk ketersediaan data yang tinggi dan skalabilitas global. Untuk membantu memastikan ketersediaan meskipun terjadi pemadaman layanan region, Spanner menawarkan konfigurasi multi-region, yang mereplikasi data di beberapa zona di beberapa region. Selain kemampuan ketahanan bawaan ini, Spanner menyediakan fitur berikut untuk mendukung strategi pemulihan dari bencana yang komprehensif: Perlindungan penghapusan database Kemampuan pencadangan dan pemulihan yang andal, termasuk salinan lintas region dan terjadwal Pemulihan point-in-time (PITR) untuk perlindungan terhadap kerusakan data logis, kesalahan operator, atau penulisan yang tidak disengaja hingga tujuh hari Untuk mengetahui informasi selengkapnya, lihat Ringkasan pemulihan dari bencana.
Cloud Run Functions	Cloud Run adalah layanan regional. Data disimpan secara sinkron di beberapa zona dalam satu region. Traffic akan otomatis di-load balanced di seluruh zona. Jika terjadi pemadaman layanan zona, Cloud Run akan terus berjalan dan data tidak akan hilang. Jika terjadi gangguan di suatu wilayah, layanan akan berhenti berjalan hingga Google menyelesaikan gangguan tersebut.
Cloud Storage	Anda dapat membuat bucket Cloud Storage di salah satu dari tiga jenis lokasi: regional, dual-region, atau multi-region. Data yang disimpan di bucket regional direplikasi secara sinkron di beberapa zona dalam satu region. Untuk ketersediaan yang lebih tinggi, Anda dapat menggunakan bucket dual-region atau multi-region, tempat data direplikasi secara asinkron di seluruh region.
Pub/Sub	Untuk menghindari error selama periode lonjakan sementara dalam traffic pesan, Anda dapat membatasi kecepatan permintaan publikasi dengan mengonfigurasi kontrol alur di setelan publisher. Untuk menangani upaya publikasi yang gagal, sesuaikan variabel retry-request seperlunya. Untuk mengetahui informasi selengkapnya, lihat Coba lagi permintaan.
Semua produk dalam arsitektur	Setelah men-deploy workload di Google Cloud, gunakan Active Assist untuk mendapatkan rekomendasi guna mengoptimalkan lebih lanjut keandalan resource cloud Anda. Tinjau rekomendasi dan terapkan sesuai kebutuhan untuk lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist.

Untuk prinsip dan rekomendasi keandalan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keandalan dalam Well-Architected Framework.

Pengoptimalan biaya

Bagian ini memberikan panduan untuk mengoptimalkan biaya penyiapan dan pengoperasian topologi Google Cloud yang Anda buat menggunakan arsitektur referensi ini.

Produk	Pertimbangan dan rekomendasi desain
Vertex AI	Untuk menganalisis dan mengelola biaya Vertex AI, sebaiknya Anda membuat tolok ukur kueri per detik (QPS) dan token per detik (TPS), lalu memantau metrik ini setelah deployment. Dasar pengukuran juga membantu perencanaan kapasitas. Misalnya, garis dasar membantu Anda menentukan kapan Throughput yang Disediakan diperlukan. Memilih model yang tepat untuk aplikasi AI generatif Anda adalah keputusan penting yang secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan secara bertahap beralih ke opsi yang lebih canggih. Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching. Jika relevan, pertimbangkan prediksi batch. Permintaan batch ditagih dengan harga yang lebih rendah daripada permintaan standar.
Spanner Graph	Gunakan penskalaan otomatis terkelola untuk menyesuaikan kapasitas komputasi secara dinamis untuk database Spanner Graph berdasarkan penggunaan CPU dan kebutuhan penyimpanan. Kapasitas minimum sering kali diperlukan, bahkan untuk workload kecil. Untuk kapasitas komputasi yang dapat diprediksi, stabil, atau dasar, beli diskon abonemen (CUD). DA menawarkan diskon signifikan sebagai imbalan atas komitmen untuk membelanjakan sejumlah tertentu per jam untuk kapasitas komputasi. Saat Anda menyalin cadangan ke region yang berbeda untuk pemulihan dari bencana atau kepatuhan, pertimbangkan biaya traffic keluar jaringan. Untuk membantu mengurangi biaya, salin hanya cadangan penting.
Cloud Run Functions	Saat membuat fungsi Cloud Run, Anda dapat menentukan jumlah memori dan CPU yang akan dialokasikan. Untuk mengontrol biaya, mulailah dengan alokasi CPU dan memori default (minimum). Untuk meningkatkan performa, Anda dapat meningkatkan alokasi dengan mengonfigurasi batas CPU dan batas memori. Untuk informasi selengkapnya, lihat dokumentasi berikut: Mengonfigurasi batas memori untuk layanan Mengonfigurasi batas CPU untuk layanan Jika dapat memprediksi persyaratan CPU dan memori, Anda dapat menghemat uang dengan CUD.
Cloud Storage	Untuk bucket Cloud Storage di subsistem penyerapan data, pilih kelas penyimpanan yang sesuai berdasarkan persyaratan retensi data dan frekuensi akses workload Anda. Misalnya, untuk mengontrol biaya penyimpanan, Anda dapat memilih kelas Standard dan menggunakan Object Lifecycle Management. Pendekatan ini memungkinkan penurunan kelas otomatis objek ke kelas penyimpanan berbiaya lebih rendah atau penghapusan otomatis objek berdasarkan kondisi yang ditentukan.
Cloud Logging	Untuk mengontrol biaya penyimpanan log, Anda dapat melakukan hal berikut: Kurangi volume log dengan mengecualikan atau memfilter entri log yang tidak diperlukan. Untuk mengetahui informasi selengkapnya, lihat Filter pengecualian. Kurangi periode retensi log. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi retensi kustom.
Semua produk dalam arsitektur	Setelah men-deploy workload di Google Cloud, gunakan Active Assist untuk mendapatkan rekomendasi guna mengoptimalkan lebih lanjut biaya resource cloud Anda. Tinjau rekomendasi dan terapkan sesuai kebutuhan untuk lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist.

Untuk memperkirakan biaya resource Google Cloud , gunakan Google Cloud Kalkulator Harga.

Untuk mengetahui prinsip dan rekomendasi pengoptimalan biaya yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan biaya dalam Well-Architected Framework.

Pengoptimalan performa

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk mendesain topologi di Google Cloud yang memenuhi persyaratan performa beban kerja Anda.

Produk	Pertimbangan dan rekomendasi desain
Vertex AI	Memilih model yang tepat untuk aplikasi AI generatif Anda adalah keputusan penting yang secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan secara bertahap beralih ke opsi yang lebih canggih. Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Pengoptimal perintah Vertex AI memungkinkan Anda meningkatkan dan mengoptimalkan performa perintah dengan cepat dalam skala besar dan menghilangkan kebutuhan untuk penulisan ulang manual. Pengoptimal membantu Anda menyesuaikan perintah secara efisien di berbagai model.
Spanner Graph	Untuk rekomendasi guna mengoptimalkan performa Spanner Graph, lihat dokumentasi berikut: Praktik terbaik untuk mendesain skema Grafik Spanner Praktik terbaik untuk menyesuaikan kueri Spanner Graph
Cloud Run Functions	Secara default, setiap instance fungsi Cloud Run dialokasikan satu CPU dan memori 256 MiB. Bergantung pada persyaratan performa, Anda dapat mengonfigurasi batas CPU dan memori. Untuk informasi selengkapnya, lihat dokumentasi berikut: Mengonfigurasi batas memori untuk layanan Mengonfigurasi batas CPU untuk layanan Untuk panduan pengoptimalan performa selengkapnya, lihat Tips pengembangan umum untuk Cloud Run.
Cloud Storage	Untuk mengupload file besar, Anda dapat menggunakan upload komposit paralel. Dengan strategi ini, file besar dibagi menjadi beberapa bagian. Bagian-bagian diupload ke Cloud Storage secara paralel, lalu data dikomposisi ulang di cloud. Jika bandwidth jaringan dan kecepatan disk tidak menjadi faktor pembatas, upload komposit paralel dapat lebih cepat daripada operasi upload reguler. Namun, strategi ini memiliki beberapa keterbatasan dan implikasi biaya. Untuk mengetahui informasi selengkapnya, lihat Upload komposit paralel.
Semua produk dalam arsitektur	Setelah men-deploy workload di Google Cloud, gunakan Active Assist untuk mendapatkan rekomendasi guna mengoptimalkan lebih lanjut performa resource cloud Anda. Tinjau rekomendasi dan terapkan sesuai kebutuhan untuk lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist.

Untuk prinsip dan rekomendasi pengoptimalan performa yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan performa dalam Well-Architected Framework.

Deployment

Untuk mempelajari cara kerja GraphRAG di Google Cloud, download dan jalankan notebook Jupyter berikut dari GitHub: GraphRAG di Google Cloud Dengan Spanner Graph dan Vertex AI Agent Engine.

Langkah berikutnya

Membangun aplikasi GraphRAG menggunakan Spanner Graph dan LangChain
Memilih model dan infrastruktur untuk aplikasi AI generatif Anda
Infrastruktur RAG untuk AI generatif menggunakan Vertex AI dan Penelusuran Vektor
Infrastruktur RAG untuk AI generatif menggunakan Vertex AI dan AlloyDB untuk PostgreSQL
Infrastruktur RAG untuk AI generatif menggunakan GKE dan Cloud SQL
Infrastruktur RAG untuk AI generatif menggunakan Google Agentspace dan Vertex AI
Untuk mempelajari prinsip dan rekomendasi arsitektur untuk workload AI di Google Cloud, tinjau Well-Architected Framework: Perspektif AI dan ML.
Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.

Kontributor

Penulis:

Tristan Li | Principal Architect, AI/ML
Kumar Dhanagopal | Cross-Product Solution Developer

Kontributor lainnya:

Ahsif Sheikh | AI Customer Engineer
Ashish Chauhan | AI Customer Engineer
Greg Brosman | Product Manager
Lukas Bruderer | Product Manager, Cloud AI
Nanditha Embar | AI Customer Engineer
Piyush Mathur | Product Manager, Spanner
Smitha Venkat | AI Customer Engineer