Dokumen ini memberikan arsitektur referensi untuk membantu Anda mendesain infrastruktur untuk aplikasi AI generatif GraphRAG di Google Cloud. Audiens yang dituju mencakup arsitek, developer, dan administrator yang membangun dan mengelola sistem penarikan informasi cerdas. Dokumen ini mengasumsikan pemahaman dasar tentang AI, pengelolaan data grafik, dan konsep grafik pengetahuan. Dokumen ini tidak memberikan panduan khusus untuk mendesain dan mengembangkan aplikasi GraphRAG.
GraphRAG adalah pendekatan berbasis grafik untuk retrieval augmented generation (RAG). RAG membantu melakukan grounding respons yang dihasilkan AI dengan memperkaya perintah menggunakan data yang relevan secara kontekstual yang diambil menggunakan penelusuran vektor. GraphRAG menggabungkan penelusuran vektor dengan kueri grafik pengetahuan untuk mengambil data kontekstual yang lebih mencerminkan saling keterhubungan data dari berbagai sumber. Perintah yang di-augmentasi menggunakan GraphRAG dapat menghasilkan respons AI yang lebih detail dan relevan.
Arsitektur
Diagram berikut menunjukkan arsitektur untuk aplikasi AI generatif yang kompatibel dengan GraphRAG di Google Cloud:
Arsitektur dalam diagram sebelumnya terdiri dari dua subsistem: penyerapan dan penyajian data. Bagian berikut menjelaskan tujuan subsistem dan aliran data di dalam dan di seluruh subsistem.
Subsistem penyerapan data
Subsistem penyerapan data menyerap data dari sumber eksternal, lalu menyiapkan data untuk GraphRAG. Alur penyerapan dan penyiapan data melibatkan langkah-langkah berikut:
- Data diserap ke dalam bucket Cloud Storage. Data ini dapat diupload oleh analis data, diserap dari database, atau di-streaming dari sumber mana pun.
- Saat data di-ingest, pesan akan dikirim ke topik Pub/Sub.
- Pub/Sub memicu fungsi Cloud Run untuk memproses data yang diupload.
- Fungsi Cloud Run membangun grafik pengetahuan dari
file input menggunakan Gemini API di Vertex AI dan alat seperti
LLMGraphTransformer
LangChain. - Fungsi ini menyimpan grafik pengetahuan dalam database Spanner Graph.
- Fungsi ini menyegmentasikan konten tekstual file data menjadi
unit-unit terperinci menggunakan alat seperti
RecursiveCharacterTextSplitter
LangChain atau Pengurai Tata Letak Document AI. - Fungsi ini membuat embedding vektor segmen teks menggunakan Vertex AI Embeddings API.
- Fungsi ini menyimpan penyematan vektor dan node grafik terkait di Spanner Graph.
Embedding vektor berfungsi sebagai dasar untuk pengambilan semantik. Node grafik pengetahuan memungkinkan penelusuran dan analisis pola serta hubungan data yang rumit.
Subsistem inferensi
Subsistem inferensi mengelola siklus proses kueri-respons antara aplikasi AI generatif dan penggunanya. Alur penayangan melibatkan langkah-langkah berikut:
- Pengguna mengirimkan kueri bahasa alami ke agen AI, yang di-deploy di Vertex AI Agent Engine.
- Agen memproses kueri sebagai berikut:
- Mengonversi kueri menjadi embedding vektor menggunakan Vertex AI Embeddings API.
- Mengambil node grafik yang terkait dengan kueri dengan melakukan penelusuran kemiripan vektor dalam database embedding.
- Mengambil data yang terkait dengan kueri dengan menjelajahi grafik pengetahuan.
- Memperluas perintah dengan menggabungkan kueri asli dengan data grafik yang diambil.
- Menggunakan AI Applications ranking API untuk memberi peringkat hasil, yang terdiri dari node dan edge yang diambil dari database grafik. Peringkat didasarkan pada relevansi semantik dengan kueri.
- Meringkas hasil dengan memanggil Gemini API Vertex AI.
- Kemudian, agen akan mengirimkan hasil ringkasan kepada pengguna.
Anda dapat menyimpan dan melihat log aktivitas kueri-respons di Cloud Logging dan menyiapkan pemantauan berbasis log menggunakan Cloud Monitoring.
Produk yang digunakan
Arsitektur referensi ini menggunakan produk dan alat Google berikut:
- Spanner Graph: Database grafik yang menyediakan fitur skalabilitas, ketersediaan, dan konsistensi Spanner.
- Vertex AI: Platform ML yang memungkinkan Anda melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
- Fungsi Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan fungsi tujuan tunggal langsung di Google Cloud.
- Cloud Storage: Penyimpanan objek berbiaya rendah dan tanpa batas untuk beragam jenis data. Data dapat diakses dari dalam dan luar Google Cloud, serta direplikasi di berbagai lokasi untuk redundansi.
- Pub/Sub: Layanan pesan asinkron dan skalabel yang memisahkan layanan yang menghasilkan pesan dari layanan yang memproses pesan tersebut.
- Cloud Logging: Sistem pengelolaan log real-time dengan penyimpanan, penelusuran, analisis, dan pemberitahuan.
- Cloud Monitoring: Layanan yang memberikan visibilitas terkait performa, ketersediaan, dan kondisi aplikasi serta infrastruktur Anda.
Kasus penggunaan
GraphRAG memfasilitasi pengambilan data cerdas untuk kasus penggunaan di berbagai industri. Bagian ini menjelaskan beberapa kasus penggunaan di bidang kesehatan, keuangan, layanan hukum, dan manufaktur.
Kesehatan dan obat-obatan: Dukungan keputusan klinis
Dalam sistem pendukung keputusan klinis, GraphRAG mengintegrasikan data dalam jumlah besar dari literatur medis, catatan kesehatan elektronik pasien, database interaksi obat, dan hasil uji klinis ke dalam grafik pengetahuan terpadu. Saat klinisi dan peneliti mengajukan kueri tentang gejala pasien dan obat-obatan saat ini, GraphRAG menjelajahi grafik pengetahuan untuk mengidentifikasi kondisi yang relevan dan potensi interaksi obat. AI juga dapat membuat rekomendasi pengobatan yang dipersonalisasi berdasarkan data lain seperti profil genetik pasien. Pengambilan informasi jenis ini memberikan jawaban yang lebih kaya konteks dan berbasis bukti daripada pencocokan kata kunci.
Jasa keuangan: Menyatukan data keuangan
Perusahaan jasa keuangan menggunakan grafik pengetahuan untuk memberikan tampilan data yang terpadu dan terstruktur kepada analis mereka dari berbagai sumber seperti laporan analis, panggilan konferensi laporan laba, dan penilaian risiko. Grafik pengetahuan mengidentifikasi entitas data utama seperti perusahaan dan eksekutif, serta memetakan hubungan penting antara entitas tersebut. Pendekatan ini memberikan data web yang kaya dan saling terhubung, yang memungkinkan analisis keuangan yang lebih mendalam dan efisien. Analis dapat menemukan insight yang sebelumnya tersembunyi, seperti dependensi rantai pasokan yang rumit, keanggotaan dewan yang tumpang-tindih di seluruh kompetitor, dan eksposur terhadap risiko geopolitik yang kompleks.
Layanan hukum: Riset kasus dan analisis preseden
Di sektor hukum, GraphRAG dapat digunakan untuk membuat rekomendasi hukum yang dipersonalisasi berdasarkan preseden, hukum, hukum kasus, pembaruan peraturan, dan dokumen internal. Saat mempersiapkan kasus, pengacara dapat mengajukan pertanyaan bernuansa tentang argumen hukum tertentu, putusan sebelumnya atas kasus serupa, atau implikasi legislasi baru. GraphRAG memanfaatkan keterkaitan pengetahuan hukum yang tersedia untuk mengidentifikasi preseden yang relevan dan menjelaskan penerapannya. Alat ini juga dapat menyarankan argumen balasan dengan melacak hubungan antara konsep hukum, hukum, dan interpretasi yudisial. Dengan pendekatan ini, praktisi hukum dapat memperoleh insight yang lebih menyeluruh dan tepat daripada metode pengambilan informasi konvensional.
Manufaktur dan rantai pasok: Memanfaatkan pengetahuan institusional
Operasi manufaktur dan rantai pasokan memerlukan presisi yang tinggi. Pengetahuan yang diperlukan untuk mempertahankan tingkat presisi yang diperlukan sering kali tersembunyi dalam ribuan dokumen Prosedur Operasi Standar (SOP) statis yang padat. Saat jalur produksi atau mesin di pabrik gagal, atau jika terjadi masalah logistik, teknisi dan teknisi sering kali membuang waktu berharga untuk mencari melalui dokumen PDF yang terputus untuk mendiagnosis dan memecahkan masalah. Grafik pengetahuan dan AI percakapan dapat digabungkan untuk mengubah pengetahuan institusional yang terpendam menjadi partner diagnostik interaktif.
Alternatif desain
Arsitektur yang dijelaskan dalam dokumen ini bersifat modular. Anda dapat menyesuaikan komponen arsitektur tertentu untuk menggunakan produk, alat, dan teknologi alternatif, bergantung pada persyaratan Anda.
Membangun grafik pengetahuan
Anda dapat menggunakan alat LLMGraphTransformer
LangChain untuk membuat grafik pengetahuan dari awal. Dengan menentukan skema grafik menggunakan parameter LLMGraphTransformer
seperti allowed_nodes
, allowed_relationships
, node_properties
, dan relationship_properties
, Anda dapat meningkatkan kualitas grafik pengetahuan yang dihasilkan. Namun, LLMGraphTransformer
mungkin mengekstrak entitas dari domain umum, sehingga mungkin tidak cocok untuk domain khusus seperti kesehatan atau farmasi. Selain itu, jika organisasi Anda sudah memiliki proses yang efektif untuk membangun grafik pengetahuan, maka subsistem penyerapan data yang ditampilkan dalam arsitektur referensi ini bersifat opsional.
Menyimpan grafik pengetahuan dan penyematan vektor
Arsitektur dalam dokumen ini menggunakan Spanner sebagai penyimpanan data untuk grafik pengetahuan dan embedding vektor. Jika grafik pengetahuan perusahaan Anda sudah ada di tempat lain (seperti di platform seperti Neo4j), Anda dapat mempertimbangkan untuk menggunakan database vektor untuk penyematan. Namun, pendekatan ini memerlukan upaya pengelolaan tambahan dan mungkin lebih mahal. Spanner menyediakan penyimpanan data yang terkonsolidasi dan konsisten secara global untuk struktur grafik dan penyematan vektor. Datastore tersebut memungkinkan pengelolaan data terpadu, yang membantu mengoptimalkan biaya, performa, tata kelola keamanan, dan efisiensi operasional.
Runtime agen
Dalam arsitektur referensi ini, agen di-deploy di Vertex AI Agent Engine, yang menyediakan runtime terkelola untuk agen AI. Opsi lain yang dapat Anda pertimbangkan meliputi Cloud Run dan Google Kubernetes Engine (GKE). Pembahasan opsi tersebut berada di luar cakupan dokumen ini.
Grounding menggunakan RAG
Seperti yang dibahas di bagian Kasus penggunaan, GraphRAG memungkinkan pengambilan data yang cerdas untuk perujukan dalam banyak skenario. Namun, jika data sumber yang Anda gunakan untuk meningkatkan kualitas perintah tidak memiliki inter-relasi yang kompleks, maka RAG mungkin merupakan pilihan yang tepat untuk aplikasi AI generatif Anda.
Arsitektur referensi berikut menunjukkan cara membangun infrastruktur yang diperlukan untuk RAG di Google Cloud dengan menggunakan database terkelola yang mendukung vektor atau produk penelusuran vektor khusus:
- Infrastruktur untuk aplikasi AI generatif berkemampuan RAG menggunakan Vertex AI dan Penelusuran Vektor
- Infrastruktur untuk aplikasi AI generatif berkemampuan RAG menggunakan Vertex AI dan AlloyDB untuk PostgreSQL
- Infrastruktur untuk aplikasi AI generatif berkemampuan RAG menggunakan GKE dan Cloud SQL
Pertimbangan desain
Bagian ini menjelaskan faktor desain, praktik terbaik, dan rekomendasi yang perlu dipertimbangkan saat Anda menggunakan arsitektur referensi ini untuk mengembangkan topologi yang memenuhi persyaratan spesifik Anda terkait keamanan, keandalan, biaya, dan performa.
Panduan di bagian ini tidak lengkap. Bergantung pada persyaratan beban kerja Anda dan produk serta fitur pihak ketiga yang Anda gunakan, mungkin ada faktor desain dan pertimbangan tambahan yang harus Anda pertimbangkan. Google Cloud
Keamanan, privasi, dan kepatuhan
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk merancang topologi di Google Cloud yang memenuhi persyaratan keamanan dan kepatuhan workload Anda.
Produk | Pertimbangan dan rekomendasi desain |
---|---|
Vertex AI | Vertex AI mendukung kontrol keamanan yang dapat Anda gunakan untuk memenuhi persyaratan Anda terkait residensi data, enkripsi data, keamanan jaringan, dan transparansi akses. Google Cloud Untuk informasi selengkapnya, lihat dokumentasi berikut:
Model AI generatif dapat menghasilkan respons yang berbahaya, terutama jika secara eksplisit diminta untuk memberikan respons tersebut. Untuk meningkatkan keamanan dan memitigasi potensi penyalahgunaan, Anda dapat mengonfigurasi filter konten agar berfungsi sebagai penghalang terhadap respons berbahaya. Untuk mengetahui informasi selengkapnya, lihat Filter keamanan dan konten. |
Spanner Graph | Secara default, data yang disimpan di Spanner Graph dienkripsi menggunakan Google-owned and Google-managed encryption keys. Jika Anda perlu menggunakan kunci enkripsi yang Anda kontrol dan kelola, Anda dapat menggunakan kunci enkripsi yang dikelola pelanggan (CMEK). Untuk mengetahui informasi selengkapnya, lihat Tentang CMEK. |
Cloud Run Functions | Secara default, Cloud Run mengenkripsi data menggunakan Google-owned and Google-managed encryption keys. Untuk melindungi container dengan menggunakan kunci yang Anda kontrol, Anda dapat menggunakan CMEK. Untuk informasi selengkapnya, lihat Menggunakan kunci enkripsi yang dikelola pelanggan. Untuk memastikan bahwa hanya image container resmi yang di-deploy ke Cloud Run, Anda dapat menggunakan Otorisasi Biner. Cloud Run membantu Anda memenuhi persyaratan residensi data. Fungsi Cloud Run Anda berjalan dalam region yang dipilih. |
Cloud Storage |
Secara default, data yang disimpan di Cloud Storage dienkripsi menggunakan Google-owned and Google-managed encryption keys. Jika diperlukan, Anda dapat menggunakan CMEK atau kunci Anda sendiri yang Anda kelola dengan menggunakan metode pengelolaan eksternal seperti kunci enkripsi yang disediakan pelanggan (CSEK). Untuk mengetahui informasi selengkapnya, lihat Opsi enkripsi data. Cloud Storage mendukung dua metode untuk memberi pengguna akses ke bucket dan objek Anda: Identity and Access Management (IAM) dan daftar kontrol akses (ACL). Dalam sebagian besar kasus, sebaiknya gunakan IAM, yang memungkinkan Anda memberikan izin di tingkat bucket dan project. Untuk mengetahui informasi selengkapnya, lihat Ringkasan kontrol akses. Data yang Anda muat ke dalam subsistem penyerapan data melalui Cloud Storage mungkin mencakup data sensitif. Anda dapat menggunakan Sensitive Data Protection untuk menemukan, mengklasifikasikan, dan melakukan de-identifikasi data sensitif. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Perlindungan Data Sensitif dengan Cloud Storage. Cloud Storage membantu Anda memenuhi persyaratan residensi data. Data disimpan atau direplikasi dalam region yang Anda tentukan. |
Pub/Sub | Secara default, Pub/Sub mengenkripsi semua pesan, baik saat dalam penyimpanan maupun dalam pengiriman, dengan menggunakan Google-owned and Google-managed encryption keys. Pub/Sub mendukung penggunaan CMEK untuk enkripsi pesan di lapisan aplikasi. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi enkripsi pesan. Jika Anda memiliki persyaratan residensi data, untuk memastikan data pesan disimpan di lokasi tertentu, Anda dapat mengonfigurasi kebijakan penyimpanan pesan. |
Cloud Logging | Log audit Aktivitas Admin diaktifkan secara default untuk semua layanan Google Cloud yang digunakan dalam arsitektur referensi ini. Log ini mencatat panggilan API atau tindakan lain yang mengubah konfigurasi atau metadata Google Cloud resource. Untuk Google Cloud layanan yang digunakan dalam arsitektur ini, Anda dapat mengaktifkan log audit Akses Data. Log ini memungkinkan Anda melacak panggilan API yang membaca konfigurasi atau metadata resource atau permintaan pengguna untuk membuat, mengubah, atau membaca data resource yang disediakan pengguna. Untuk membantu memenuhi persyaratan residensi data, Anda dapat mengonfigurasi Cloud Logging untuk menyimpan data log di region yang Anda tentukan. Untuk mengetahui informasi selengkapnya, lihat Mengelompokkan log berdasarkan wilayah. |
Untuk mengetahui prinsip dan rekomendasi keamanan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keamanan di Google Cloud Well-Architected Framework.
Keandalan
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk membangun dan mengoperasikan infrastruktur yang andal untuk deployment Anda di Google Cloud.
Produk | Pertimbangan dan rekomendasi desain |
---|---|
Vertex AI | Vertex AI mendukung kuota bersama dinamis (DSQ) untuk model Gemini. DSQ membantu mengelola permintaan bayar sesuai penggunaan secara fleksibel dan menghilangkan kebutuhan untuk mengelola kuota secara manual atau meminta penambahan kuota. DSQ mengalokasikan resource yang tersedia secara dinamis untuk model dan wilayah tertentu di seluruh pelanggan aktif. Dengan DSQ, tidak ada batas kuota yang telah ditentukan sebelumnya untuk setiap pelanggan. Jika jumlah permintaan Anda melebihi kapasitas yang dialokasikan, kode error 429 akan ditampilkan. Untuk beban kerja yang penting bagi bisnis dan secara konsisten memerlukan throughput tinggi, Anda dapat memesan throughput menggunakan Throughput yang Disediakan. Jika data dapat dibagikan di beberapa region atau negara, Anda dapat menggunakan endpoint global. |
Spanner Graph | Spanner didesain untuk ketersediaan data yang tinggi dan skalabilitas global. Untuk membantu memastikan ketersediaan meskipun terjadi pemadaman layanan region, Spanner menawarkan konfigurasi multi-region, yang mereplikasi data di beberapa zona di beberapa region. Selain kemampuan ketahanan bawaan ini, Spanner menyediakan fitur berikut untuk mendukung strategi pemulihan dari bencana yang komprehensif:
Untuk mengetahui informasi selengkapnya, lihat Ringkasan pemulihan dari bencana. |
Cloud Run Functions | Cloud Run adalah layanan regional. Data disimpan secara sinkron di beberapa zona dalam satu region. Traffic akan otomatis di-load balanced di seluruh zona. Jika terjadi pemadaman layanan zona, Cloud Run akan terus berjalan dan data tidak akan hilang. Jika terjadi gangguan di suatu wilayah, layanan akan berhenti berjalan hingga Google menyelesaikan gangguan tersebut. |
Cloud Storage | Anda dapat membuat bucket Cloud Storage di salah satu dari tiga jenis lokasi: regional, dual-region, atau multi-region. Data yang disimpan di bucket regional direplikasi secara sinkron di beberapa zona dalam satu region. Untuk ketersediaan yang lebih tinggi, Anda dapat menggunakan bucket dual-region atau multi-region, tempat data direplikasi secara asinkron di seluruh region. |
Pub/Sub | Untuk menghindari error selama periode lonjakan sementara dalam traffic pesan, Anda dapat membatasi kecepatan permintaan publikasi dengan mengonfigurasi kontrol alur di setelan publisher. Untuk menangani upaya publikasi yang gagal, sesuaikan variabel retry-request seperlunya. Untuk mengetahui informasi selengkapnya, lihat Coba lagi permintaan. |
Semua produk dalam arsitektur | Setelah men-deploy workload di Google Cloud, gunakan Active Assist untuk mendapatkan rekomendasi guna lebih mengoptimalkan keandalan resource cloud Anda. Tinjau rekomendasi dan terapkan sesuai kebutuhan untuk lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Hub Rekomendasi. |
Untuk prinsip dan rekomendasi keandalan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keandalan dalam Well-Architected Framework.
Pengoptimalan biaya
Bagian ini memberikan panduan untuk mengoptimalkan biaya penyiapan dan pengoperasian topologi Google Cloud yang Anda buat menggunakan arsitektur referensi ini.
Produk | Pertimbangan dan rekomendasi desain |
---|---|
Vertex AI | Untuk menganalisis dan mengelola biaya Vertex AI, sebaiknya Anda membuat tolok ukur kueri per detik (QPS) dan token per detik (TPS), lalu memantau metrik ini setelah deployment. Dasar ini juga membantu perencanaan kapasitas. Misalnya, garis dasar membantu Anda menentukan kapan Throughput yang Disediakan diperlukan. Memilih model yang tepat untuk aplikasi AI generatif Anda adalah keputusan penting yang secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya Anda memulai dengan model yang paling hemat biaya dan secara bertahap beralih ke opsi yang lebih canggih. Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching. Jika relevan, pertimbangkan prediksi batch. Permintaan batch ditagih dengan harga yang lebih rendah daripada permintaan standar. |
Spanner Graph | Gunakan penskalaan otomatis terkelola untuk menyesuaikan kapasitas komputasi secara dinamis untuk database Spanner Graph berdasarkan penggunaan CPU dan kebutuhan penyimpanan. Kapasitas minimum sering kali diperlukan, bahkan untuk workload kecil. Untuk kapasitas komputasi yang dapat diprediksi, stabil, atau dasar, beli diskon abonemen (CUD). DA menawarkan diskon signifikan sebagai imbalan atas komitmen untuk pengeluaran per jam tertentu pada kapasitas komputasi. Saat Anda menyalin cadangan ke region yang berbeda untuk pemulihan dari bencana atau kepatuhan, pertimbangkan biaya traffic keluar jaringan. Untuk membantu mengurangi biaya, salin hanya cadangan penting. |
Cloud Run Functions | Saat membuat fungsi Cloud Run, Anda dapat menentukan jumlah memori dan CPU yang akan dialokasikan. Untuk mengontrol biaya, mulailah dengan alokasi CPU dan memori default (minimum). Untuk meningkatkan performa, Anda dapat meningkatkan alokasi dengan mengonfigurasi batas CPU dan batas memori. Untuk informasi selengkapnya, lihat dokumentasi berikut: Jika dapat memprediksi persyaratan CPU dan memori, Anda dapat menghemat uang dengan CUD. |
Cloud Storage | Untuk bucket Cloud Storage di subsistem penyerapan data, pilih kelas penyimpanan yang sesuai berdasarkan persyaratan retensi data dan frekuensi akses workload Anda. Misalnya, untuk mengontrol biaya penyimpanan, Anda dapat memilih kelas Standard dan menggunakan Object Lifecycle Management. Pendekatan ini memungkinkan penurunan kelas otomatis objek ke kelas penyimpanan berbiaya lebih rendah atau penghapusan otomatis objek berdasarkan kondisi yang ditentukan. |
Cloud Logging | Untuk mengontrol biaya penyimpanan log, Anda dapat melakukan hal berikut:
|
Semua produk dalam arsitektur | Setelah men-deploy workload di Google Cloud, gunakan Active Assist untuk mendapatkan rekomendasi guna mengoptimalkan lebih lanjut biaya resource cloud Anda. Tinjau rekomendasi dan terapkan sesuai kebutuhan untuk lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Hub Rekomendasi. |
Untuk memperkirakan biaya resource Google Cloud , gunakan Google Cloud Kalkulator Harga.
Untuk prinsip dan rekomendasi pengoptimalan biaya yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan biaya dalam Well-Architected Framework.
Pengoptimalan performa
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk mendesain topologi di Google Cloud yang memenuhi persyaratan performa beban kerja Anda.
Produk | Pertimbangan dan rekomendasi desain |
---|---|
Vertex AI |
Memilih model yang tepat untuk aplikasi AI generatif Anda adalah keputusan penting yang secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya Anda memulai dengan model yang paling hemat biaya dan secara bertahap beralih ke opsi yang lebih canggih. Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Pengoptimal perintah Vertex AI memungkinkan Anda meningkatkan dan mengoptimalkan performa perintah dengan cepat dalam skala besar dan menghilangkan kebutuhan untuk penulisan ulang manual. Pengoptimal membantu Anda menyesuaikan perintah secara efisien di berbagai model. |
Spanner Graph | Untuk rekomendasi guna mengoptimalkan performa Spanner Graph, lihat dokumentasi berikut: |
Cloud Run Functions | Secara default, setiap instance fungsi Cloud Run dialokasikan satu CPU dan memori 256 MiB. Bergantung pada persyaratan performa, Anda dapat mengonfigurasi batas CPU dan memori. Untuk informasi selengkapnya, lihat dokumentasi berikut: Untuk panduan pengoptimalan performa selengkapnya, lihat Tips pengembangan umum untuk Cloud Run. |
Cloud Storage | Untuk mengupload file besar, Anda dapat menggunakan upload komposit paralel. Dengan strategi ini, file besar dibagi menjadi beberapa bagian. Bagian-bagian diupload ke Cloud Storage secara paralel, lalu data dikomposisi ulang di cloud. Jika bandwidth jaringan dan kecepatan disk tidak menjadi faktor pembatas, upload komposit paralel dapat lebih cepat daripada operasi upload reguler. Namun, strategi ini memiliki beberapa keterbatasan dan implikasi biaya. Untuk mengetahui informasi selengkapnya, lihat Upload komposit paralel. |
Semua produk dalam arsitektur | Setelah men-deploy workload di Google Cloud, gunakan Active Assist untuk mendapatkan rekomendasi guna mengoptimalkan lebih lanjut performa resource cloud Anda. Tinjau rekomendasi dan terapkan sesuai kebutuhan untuk lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Hub Rekomendasi. |
Untuk prinsip dan rekomendasi pengoptimalan performa yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan performa dalam Well-Architected Framework.
Deployment
Untuk mempelajari cara kerja GraphRAG di Google Cloud, download dan jalankan notebook Jupyter berikut dari GitHub: GraphRAG di Google Cloud Dengan Spanner Graph dan Vertex AI Agent Engine.
Langkah berikutnya
- Bangun aplikasi GraphRAG menggunakan Spanner Graph dan LangChain.
- Pilih model dan infrastruktur untuk aplikasi AI generatif Anda.
- Mendesain infrastruktur untuk aplikasi AI generatif berkemampuan RAG:
- Untuk mempelajari prinsip dan rekomendasi arsitektur untuk workload AI di Google Cloud, tinjau Well-Architected Framework: Perspektif AI dan ML.
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.
Kontributor
Penulis:
- Tristan Li | Principal Architect, AI/ML
- Kumar Dhanagopal | Cross-Product Solution Developer
Kontributor lainnya:
- Ahsif Sheikh | AI Customer Engineer
- Ashish Chauhan | AI Customer Engineer
- Greg Brosman | Product Manager
- Lukas Bruderer | Product Manager, Cloud AI
- Nanditha Embar | AI Customer Engineer
- Piyush Mathur | Product Manager, Spanner
- Smitha Venkat | AI Customer Engineer