Penyimpanan data digunakan oleh alat penyimpanan data untuk menemukan jawaban atas pertanyaan pengguna akhir dari data Anda. Penyimpanan data adalah kumpulan situs, dokumen, atau data dalam sistem pihak ketiga, yang masing-masing mereferensikan data Anda.
Saat pengguna akhir mengajukan pertanyaan kepada agen, agen akan menelusuri jawaban dari konten sumber tertentu dan merangkum temuan tersebut menjadi respons agen yang koheren. Di sini juga tersedia link dukungan ke sumber respons bagi pengguna akhir untuk mempelajari lebih lanjut. Agen dapat memberikan hingga lima cuplikan jawaban untuk pertanyaan tertentu.
Sumber penyimpanan data
Ada berbagai sumber yang dapat Anda berikan untuk data Anda:
- URL Situs: Meng-crawl konten situs secara otomatis dari daftar domain atau halaman web.
- BigQuery: Mengimpor data dari tabel BigQuery Anda.
- Cloud Storage: Impor data dari bucket Cloud Storage Anda.
- AlloyDB: Mengimpor data dari cluster AlloyDB Anda.
- Bigtable: Mengimpor data dari tabel Bigtable.
- Firestore: Mengimpor data dari koleksi Firestore Anda.
- Cloud SQL: Mengimpor data dari tabel Cloud SQL.
- Spanner: Mengimpor data dari tabel Spanner.
Sumber penyimpanan data akses terbatas
Google menawarkan banyak sumber penyimpanan data pihak pertama dan pihak ketiga tambahan sebagai fitur akses terbatas. Untuk melihat daftar sumber yang tersedia dan meminta akses, lihat bagian sumber penyimpanan data tambahan di halaman ini.
Konten situs
Saat menambahkan konten situs sebagai sumber,
Anda dapat menambahkan dan mengecualikan beberapa situs.
Saat menentukan situs,
Anda dapat menggunakan masing-masing halaman atau *
sebagai karakter pengganti untuk pola.
Semua konten HTML dan PDF akan diproses.
Anda harus memverifikasi domain Anda saat menggunakan konten situs sebagai sumber.
Batasan:
- File dari URL publik harus telah di-crawl oleh pengindeks Google Penelusuran, sehingga file tersebut ada dalam indeks penelusuran. Anda dapat memeriksanya dengan Google Search Console.
- Maksimal 200.000 halaman diindeks. Jika penyimpanan data berisi lebih banyak halaman, pengindeksan akan gagal pada saat itu. Semua konten yang sudah diindeks akan tetap ada.
Mengimpor data
Anda dapat mengimpor data dari BigQuery atau Cloud Storage. Data ini dapat berupa FAQ atau tidak terstruktur, dan dapat berupa metadata atau tanpa metadata.
Opsi Impor Data berikut tersedia:
- Menambahkan/Memperbarui Data: Dokumen yang diberikan ditambahkan ke penyimpanan data. Jika dokumen baru memiliki ID yang sama dengan dokumen lama, dokumen baru akan menggantikan dokumen lama.
- Ganti Data yang Ada: Semua data lama dihapus, lalu data baru diupload. Tindakan ini tidak dapat diurungkan.
Penyimpanan data FAQ
Penyimpanan data FAQ dapat menyimpan jawaban atas pertanyaan umum (FAQ). Jika pertanyaan pengguna cocok dengan tingkat keyakinan tinggi dengan pertanyaan yang diupload, agen akan menampilkan jawaban atas pertanyaan tersebut tanpa modifikasi apa pun. Anda dapat memberikan judul dan URL untuk setiap pasangan pertanyaan dan jawaban yang ditampilkan oleh agen.
Data harus diupload ke penyimpanan data dalam format CSV
. Setiap file harus memiliki
baris header yang menjelaskan kolom.
Contoh:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Kolom title
dan url
bersifat opsional dan dapat dihilangkan:
"answer","question"
"42","What is the meaning of life?"
Selama proses upload, Anda dapat memilih folder tempat setiap file diperlakukan sebagai file CSV
terlepas dari ekstensinya.
Batasan:
- Karakter spasi tambahan setelah
,
menyebabkan error. - Baris kosong (bahkan di akhir file) menyebabkan error.
Penyimpanan data tidak terstruktur
Penyimpanan data tidak terstruktur dapat berisi konten dalam format berikut:
HTML
PDF
TXT
CSV
Anda dapat mengimpor file dari bucket Cloud Storage project lain (meskipun jarang dilakukan). Untuk melakukannya, Anda harus memberikan akses eksplisit ke proses impor. Ikuti petunjuk dalam pesan error, yang akan berisi nama pengguna yang memerlukan akses baca ke bucket untuk melakukan impor.
Batasan:
- Ukuran file maksimum adalah 2,5 MB untuk format berbasis teks, 100 MB untuk format lainnya.
Penyimpanan data dengan metadata
Judul dan URL
dapat diberikan sebagai metadata.
Saat agen sedang dalam percakapan dengan pengguna, agen dapat memberikan informasi ini kepada pengguna.
Hal ini dapat membantu pengguna
menautkan dengan cepat ke halaman web internal yang tidak dapat diakses oleh pengindeks
Google Penelusuran.
Untuk mengimpor konten dengan metadata, Anda harus menyediakan satu atau beberapa file
JSON Lines. Setiap baris dalam file ini menjelaskan satu
dokumen. Anda tidak mengupload dokumen sebenarnya secara langsung; URIs
yang ditautkan ke
jalur Cloud Storage disediakan dalam file JSON Lines.
Untuk menyediakan file JSON Lines, Anda harus menyediakan folder Cloud Storage yang berisi file tersebut. Jangan masukkan file lain ke dalam folder ini.
Deskripsi kolom:
Kolom | Jenis | Deskripsi |
---|---|---|
id | string | ID unik untuk dokumen. |
content.mimeType | string | Jenis MIME dokumen. "application/pdf" dan "text/html" didukung. |
content.uri | string | URI untuk dokumen di Cloud Storage. |
structData | string | Objek JSON satu baris dengan kolom title dan url opsional. |
Contoh:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Penyimpanan data tanpa metadata
Jenis konten ini tidak memiliki metadata. Sebagai gantinya, Anda memberikan link URI ke dokumen individual. Jenis konten ditentukan oleh ekstensi file.
Konfigurasi penguraian dan pemotongan
Bergantung pada sumber data, Anda mungkin dapat mengonfigurasi setelan penguraian dan pengelompokan seperti yang ditentukan oleh Vertex AI Search.
Menggunakan Cloud Storage untuk dokumen penyimpanan data
Jika konten Anda tidak bersifat publik, menyimpan konten di
Cloud Storage adalah opsi yang direkomendasikan.
Saat membuat dokumen penyimpanan data,
Anda memberikan URL untuk objek Cloud Storage dalam bentuk:
gs://bucket-name/folder-name
.
Setiap dokumen dalam folder ditambahkan ke penyimpanan data.
Saat Anda membuat bucket Cloud Storage:
- Pastikan Anda telah memilih project yang Anda gunakan untuk agen.
- Gunakan kelas Standard Storage.
- Tetapkan lokasi bucket ke lokasi yang sama dengan agen Anda.
Ikuti petunjuk mulai cepat Cloud Storage untuk membuat bucket dan mengupload file.
Bahasa
Untuk bahasa yang didukung, lihat kolom penyimpanan data di referensi bahasa.
Untuk performa terbaik, sebaiknya penyimpanan data dibuat dalam satu bahasa.
Setelah membuat penyimpanan data, Anda dapat secara opsional menentukan bahasa penyimpanan data. Jika Anda menyetel bahasa penyimpanan data, Anda dapat menghubungkan penyimpanan data ke agen yang dikonfigurasi untuk bahasa lain. Misalnya, Anda dapat membuat penyimpanan data berbahasa Prancis yang terhubung ke agen berbahasa Inggris.
Region yang didukung
Untuk region yang didukung, lihat referensi region.
(Akses terbatas) Sumber penyimpanan data tambahan
Jenis penyimpanan data tambahan tercantum dalam tabel berikut. Fitur ini tersedia sebagai fitur akses terbatas. Anda dapat mengisi formulir daftar yang diizinkan untuk meminta akses. Setelah disetujui, Anda akan dapat melihat opsi ini saat membuat penyimpanan data baru di Aplikasi AI.
Sumber penyimpanan data Google
Sumber penyimpanan data | Deskripsi |
---|---|
Google Drive | Tautkan ke drive organisasi Anda. |
(Pratinjau) Google Gmail | Tautkan ke Gmail organisasi Anda. |
(Pratinjau) Google Sites | Tautkan ke Situs organisasi Anda. |
(Pratinjau) Google Kalender | Tautkan ke Kalender organisasi Anda. |
(Pratinjau) Google Grup | Tautkan ke Grup organisasi Anda. |
Sumber penyimpanan data pihak ketiga
Sumber penyimpanan data | Deskripsi |
---|---|
(Pratinjau) AODocs | Mengimpor data dari sistem pengelolaan dokumen AODocs Anda. |
Box | Mengimpor data dari situs Box organisasi Anda. |
Confluence Cloud | Mengimpor data dari ruang kerja Confluence Cloud Anda. |
(Pratinjau) Confluence Data Center | Mengimpor data dari ruang kerja Confluence Data Center Anda. |
Dropbox | Mengimpor data dari penyimpanan Dropbox Anda. |
EntraID | Mengimpor data dari sistem EntraID organisasi Anda. |
(Pratinjau) HubSpot | Mengimpor data dari situs HubSpot organisasi Anda. |
Jira Cloud | Mengimpor data dari sistem pengelolaan tugas Jira Anda. |
(Pratinjau) Jira Data Center | Mengimpor data dari situs Jira Data Center Anda. |
(Pratinjau) Marketo | Mengimpor data dari sistem pemasaran Marketo organisasi Anda. |
(Pratinjau) Notion | Mengimpor data dari ruang kerja Notion organisasi Anda. |
OneDrive | Mengimpor data dari penyimpanan OneDrive organisasi Anda. |
Microsoft Outlook | Impor data dari Microsoft Outlook. |
Salesforce | Mengimpor data dari Salesforce. |
ServiceNow | Impor data dari ServiceNow. |
SharePoint | Mengimpor data dari sistem SharePoint organisasi Anda. |
(Pratinjau) Shopify | Mengimpor data dari sistem Shopify organisasi Anda. |
Slack | Mengimpor data dari Slack. |
Microsoft Teams | Mengimpor data dari Microsoft Teams. |
(Pratinjau) WordPress | Mengimpor data dari situs WordPress organisasi Anda. |
Menyiapkan penyimpanan data pihak ketiga menggunakan konektor
Bagian ini menguraikan proses penyiapan penyimpanan data menggunakan data pihak ketiga. Petunjuk khusus untuk setiap sumber data pihak ketiga dapat ditemukan di dokumentasi AI generatif.
Penyedia identitas
Penyedia identitas memungkinkan Anda mengelola pengguna, grup, dan autentikasi. Saat menyiapkan penyimpanan data pihak ketiga, Anda memiliki opsi untuk menggunakan penyedia identitas Google atau penyedia identitas pihak ketiga.
Penyedia identitas Google:
- Setiap pengguna agen harus login menggunakan kredensial Google mereka. Alamat email ini dapat berupa alamat email
@gmail.com
atau akun apa pun yang menggunakan Google sebagai penyedia identitas (misalnya, Google Workspace). Langkah ini dilewati jika pengguna berbicara dengan agen menggunakan Google Cloud secara langsung, karena identitas Google otomatis dibuat ke dalam sistem. - Anda dapat menetapkan akses ke Akun Google menggunakan IAM.
Penyedia identitas pihak ketiga:
- Pengguna agen login menggunakan kredensial non-Google, misalnya alamat email Microsoft.
- Anda harus membuat Workforce Pool menggunakan Google Cloud yang berisi penyedia identitas non-Google. Kemudian, Anda dapat menggunakan IAM untuk memberikan akses ke seluruh kumpulan atau pengguna perorangan dalam kumpulan tersebut.
- Metode ini tidak dapat digunakan dengan project Google Cloud apa pun yang disiapkan di organisasi
@google.com
.
Konektor
Penyimpanan data pihak ketiga diterapkan menggunakan konektor. Setiap konektor dapat berisi beberapa penyimpanan data, yang disimpan sebagai entitas dalam sistem Agen Percakapan (Dialogflow CX).
Sebelum membuat penyimpanan data, Anda harus menyiapkan setiap region dengan penyedia identitas tunggal di Google Cloud -> Agent Builder -> Settings. Semua penyimpanan data di region tersebut akan menggunakan penyedia identitas yang sama. Anda dapat memilih identitas Google atau identitas pihak ketiga di kumpulan tenaga kerja. Kredensial Google yang sama dianggap sebagai identitas yang berbeda jika berada di workforce pool. Misalnya,
test@gmail.com
dianggap sebagai identitas yang berbeda denganworkforcePools/test-pool/subject/test@gmail.com
.- Buat workforce pool (jika diperlukan).
- Buka Agent Builder Settings, lalu pilih Google Identity atau 3rd Party Identity. Klik SIMPAN untuk menyimpan identitas ke wilayah.
- Sekarang Anda dapat membuat penyimpanan data di region tersebut.
Setiap penyimpanan data menyimpan data Daftar Kontrol Akses (ACL) dengan setiap dokumen. Ini adalah catatan pengguna atau grup mana yang memiliki akses baca ke entitas mana. Selama runtime, anggota pengguna atau grup hanya akan menerima respons dari agen yang berasal dari entitas yang memiliki akses baca. Jika pengguna tidak memiliki akses baca ke entitas apa pun di penyimpanan data, agen akan menampilkan respons kosong.
Karena data di penyimpanan data adalah salinan instance pihak ketiga, data tersebut perlu diperbarui secara berkala. Anda dapat mengonfigurasi interval pemuatan ulang pada skala waktu dalam jam atau hari.
Setelah Anda mengonfigurasi penyimpanan data dan mengklik Buat, diperlukan waktu hingga satu jam agar penyimpanan data muncul di daftar penyimpanan data Anda.
Pelacakan penyimpanan data
Fitur ini mencakup dua bagian:
- Menampilkan rekaman aktivitas eksekusi internal penyimpanan data dan latensi langkah di simulator agen.
- Ekspor data rekaman aktivitas dan latensi ke Cloud Logging dan BigQuery.
Melihat data di simulator
Untuk menampilkan data eksekusi dan pelacakan di data agen, luaskan detail tentang giliran percakapan dengan mengklik tanda panah perluasan di sebelah kanan respons agen.
Tab eksekusi menampilkan rekaman aktivitas eksekusi penyimpanan data internal, termasuk informasi berikut:
- Input pengguna asli.
- Kueri sebagaimana ditulis ulang oleh mesin penyimpanan data.
- Sinyal kualitas selama berbagai langkah eksekusi, termasuk status pemeriksaan keamanan, status pemeriksaan stabilitas, hasil pemeriksaan perujukan, dan status pemeriksaan keamanan.
- Cuplikan penelusuran dari penelusuran penyimpanan data.
- Daftar dokumen pendukung yang menjadi sumber cuplikan.
Tab latensi menampilkan grafik waktu untuk berbagai langkah eksekusi penyimpanan data. Daftar langkah dapat bervariasi bergantung pada cara penyimpanan data dikonfigurasi serta alur eksekusi. Data yang ditampilkan dapat mencakup hal berikut:
- Pencocokan FAQ: Penyimpanan data melakukan langkah pencocokan FAQ.
- Penulisan ulang kueri: Penyimpanan data menulis ulang kueri pengguna asli.
- Penelusuran: Penyimpanan data melakukan penelusuran cuplikan.
- Ringkasan: Penyimpanan data meringkas respons.
- Pemeriksaan keamanan: Penyimpanan data melakukan langkah-langkah pemeriksaan keamanan.
Melihat data rekaman aktivitas di lokasi lain
Jika agen percakapan dikonfigurasi dengan logging histori percakapan, Anda juga dapat melihat pelacakan penyimpanan data di Histori Percakapan.
Jika agen percakapan dikonfigurasi dengan Cloud Logging, Anda juga dapat melihat rekaman aktivitas dan latensi di Logs Explorer cloud.
Jika agen percakapan dikonfigurasi dengan BigQuery Export, Anda juga dapat melihat rekaman aktivitas dan latensi dalam tabel BigQuery yang diekspor.
Langkah berikutnya
Untuk mengetahui petunjuk tentang cara membuat penyimpanan data dan menggunakannya dengan agen, lihat dokumentasi alat penyimpanan data.