Penyimpanan data digunakan oleh alat penyimpanan data untuk menemukan jawaban atas pertanyaan pengguna akhir dari data Anda. Penyimpanan data adalah kumpulan situs, dokumen, atau data dalam sistem pihak ketiga, yang masing-masing mereferensikan data Anda.
Saat pengguna akhir mengajukan pertanyaan kepada agen, agen akan menelusuri jawaban dari konten sumber tertentu dan merangkum temuan tersebut menjadi respons agen yang koheren. Di sini juga tersedia link dukungan ke sumber respons bagi pengguna akhir untuk mempelajari lebih lanjut. Agen dapat memberikan hingga lima cuplikan jawaban untuk pertanyaan tertentu.
Sumber penyimpanan data
Ada berbagai sumber yang dapat Anda sediakan untuk data Anda:
- URL situs: Meng-crawl konten situs secara otomatis dari daftar domain atau halaman web.
- BigQuery: Impor data dari tabel BigQuery Anda.
- Cloud Storage: Impor data dari bucket Cloud Storage Anda.
Sumber penyimpanan data dengan akses terbatas
Google menawarkan banyak sumber penyimpanan data pihak pertama dan pihak ketiga tambahan sebagai fitur akses terbatas. Untuk melihat daftar sumber yang tersedia dan meminta akses, lihat bagian sumber penyimpanan data tambahan di halaman ini.
Konten situs
Saat menambahkan konten situs sebagai sumber,
Anda dapat menambahkan dan mengecualikan beberapa situs.
Saat menentukan situs,
Anda dapat menggunakan setiap halaman atau *
sebagai karakter pengganti untuk pola.
Semua konten HTML dan PDF akan diproses.
Anda harus memverifikasi domain saat menggunakan konten situs sebagai sumber.
Batasan:
- File dari URL publik harus telah di-crawl oleh pengindeksan Google Penelusuran, sehingga file tersebut ada di indeks penelusuran. Anda dapat memeriksanya dengan Google Search Console.
- Maksimal 200.000 halaman diindeks. Jika penyimpanan data berisi lebih banyak halaman, pengindeksan akan gagal pada saat itu. Semua konten yang sudah diindeks akan tetap ada.
Mengimpor data
Anda dapat mengimpor data dari BigQuery atau Cloud Storage. Data ini dapat berbentuk FAQ atau tidak terstruktur, dan dapat dengan metadata atau tanpa metadata.
Opsi Impor Data berikut tersedia:
- Tambahkan/Perbarui Data: Dokumen yang diberikan akan ditambahkan ke penyimpanan data. Jika dokumen baru memiliki ID yang sama dengan dokumen lama, dokumen baru akan menggantikan dokumen lama.
- Ganti Data yang Ada: Semua data lama akan dihapus, lalu data baru akan diupload. Tindakan ini tidak dapat dibatalkan.
Penyimpanan data FAQ
Penyimpanan data FAQ dapat menyimpan jawaban atas pertanyaan umum (FAQ). Jika pertanyaan pengguna cocok dengan tingkat keyakinan tinggi ke pertanyaan yang diupload, agen akan menampilkan jawaban untuk pertanyaan tersebut tanpa modifikasi apa pun. Anda dapat memberikan judul dan URL untuk setiap pasangan pertanyaan dan jawaban yang ditampilkan oleh agen.
Data harus diupload ke penyimpanan data dalam format CSV
. Setiap file harus memiliki
baris header yang menjelaskan kolom.
Contoh:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Kolom title
dan url
bersifat opsional dan dapat dihilangkan:
"answer","question"
"42","What is the meaning of life?"
Selama proses upload, Anda dapat memilih folder tempat setiap file diperlakukan sebagai file CSV
, terlepas dari ekstensi file tersebut.
Batasan:
- Karakter spasi tambahan setelah
,
akan menyebabkan error. - Baris kosong (bahkan di akhir file) menyebabkan error.
Penyimpanan data tidak terstruktur
Penyimpanan data tidak terstruktur dapat berisi konten dalam format berikut:
HTML
PDF
TXT
CSV
Anda dapat (tetapi jarang) mengimpor file dari bucket Cloud Storage project lain. Untuk melakukannya, Anda harus memberikan akses eksplisit ke proses impor. Ikuti petunjuk dalam pesan error, yang akan berisi nama pengguna yang memerlukan akses baca ke bucket untuk melakukan impor.
Batasan:
- Ukuran file maksimum adalah 2,5 MB untuk format berbasis teks, 100 MB untuk format lainnya.
Penyimpanan data dengan metadata
Judul dan URL
dapat diberikan sebagai metadata.
Saat agen sedang melakukan percakapan dengan pengguna,
agen dapat memberikan informasi ini kepada pengguna.
Hal ini dapat membantu pengguna
untuk dengan cepat menautkan ke halaman web internal yang tidak dapat diakses oleh pengindeksan
Google Penelusuran.
Untuk mengimpor konten dengan metadata, Anda harus menyediakan satu atau beberapa file JSON Lines. Setiap baris file ini menjelaskan satu dokumen. Anda tidak langsung mengupload dokumen yang sebenarnya; URIs
yang ditautkan ke
jalur Cloud Storage disediakan dalam file JSON Lines.
Untuk menyediakan file JSON Lines, Anda harus menyediakan folder Cloud Storage yang berisi file ini. Jangan masukkan file lain ke dalam folder ini.
Deskripsi kolom:
Kolom | Jenis | Deskripsi |
---|---|---|
id | string | ID unik untuk dokumen. |
content.mimeType | string | Jenis MIME dokumen. "application/pdf" dan "text/html" didukung. |
content.uri | string | URI untuk dokumen di Cloud Storage. |
structData | string | Objek JSON baris tunggal dengan kolom title dan url opsional. |
Contoh:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Penyimpanan data tanpa metadata
Jenis konten ini tidak memiliki metadata. Sebagai gantinya, Anda memberikan link URI ke setiap dokumen. Jenis konten ditentukan oleh ekstensi file.
Konfigurasi penguraian dan pemotongan
Bergantung pada sumber data, Anda mungkin dapat mengonfigurasi setelan penguraian dan pengelompokan seperti yang ditentukan oleh Vertex AI Search.
Menggunakan Cloud Storage untuk dokumen penyimpanan data
Jika konten Anda tidak bersifat publik, opsi yang direkomendasikan adalah menyimpan konten di
Cloud Storage.
Saat membuat dokumen penyimpanan data, Anda memberikan URL untuk objek Cloud Storage dalam bentuk: gs://bucket-name/folder-name
.
Setiap dokumen dalam folder ditambahkan ke penyimpanan data.
Saat Anda membuat bucket Cloud Storage:
- Pastikan Anda telah memilih project yang digunakan untuk agen.
- Gunakan Kelas Standard Storage.
- Tetapkan lokasi bucket ke lokasi yang sama dengan agen Anda.
Ikuti petunjuk mulai cepat Cloud Storage untuk membuat bucket dan mengupload file.
Bahasa
Untuk bahasa yang didukung, lihat kolom penyimpanan data di referensi bahasa.
Untuk performa terbaik, sebaiknya penyimpanan data dibuat dalam satu bahasa.
Setelah membuat penyimpanan data, Anda dapat menentukan bahasa penyimpanan data secara opsional. Jika menetapkan bahasa penyimpanan data, Anda dapat menghubungkan penyimpanan data ke agen yang dikonfigurasi untuk bahasa yang berbeda. Misalnya, Anda dapat membuat penyimpanan data bahasa Prancis yang terhubung ke agen bahasa Inggris.
Region yang didukung
Untuk region yang didukung, lihat referensi region.
(Akses terbatas) Sumber penyimpanan data tambahan
Jenis penyimpanan data tambahan tercantum dalam tabel berikut. Fitur ini tersedia sebagai fitur akses terbatas. Anda dapat mengisi formulir daftar yang diizinkan untuk meminta akses. Setelah disetujui, Anda akan dapat melihat opsi ini saat membuat penyimpanan data baru di Agent Builder.
Sumber penyimpanan data Google
Sumber penyimpanan data | Deskripsi |
---|---|
Cloud SQL | Mengimpor data dari tabel Cloud SQL. |
(Pratinjau) Spanner | Mengimpor data dari tabel Spanner. |
(Pratinjau) Bigtable | Mengimpor data dari tabel Bigtable. |
Firestore | Mengimpor data dari koleksi Firestore Anda. |
(Pratinjau) AlloyDB | Impor data dari cluster AlloyDB Anda. |
Google Drive | Tautkan ke drive organisasi Anda. |
(Pratinjau) Google Gmail | Tautkan ke Gmail organisasi Anda. |
(Pratinjau) Google Sites | Tautkan ke Situs organisasi Anda. |
(Pratinjau) Google Kalender | Tautkan ke Kalender organisasi Anda. |
(Pratinjau) Google Grup | Tautkan ke Grup organisasi Anda. |
Sumber penyimpanan data pihak ketiga
Sumber penyimpanan data | Deskripsi |
---|---|
(Pratinjau) AODocs | Mengimpor data dari sistem pengelolaan dokumen AODocs Anda. |
Box | Mengimpor data dari situs Box organisasi Anda. |
Confluence Cloud | Mengimpor data dari ruang kerja Confluence Cloud Anda. |
(Pratinjau) Pusat Data Confluence | Mengimpor data dari ruang kerja Confluence Data Center Anda. |
Dropbox | Mengimpor data dari penyimpanan Dropbox Anda. |
(Pratinjau) HubSpot | Mengimpor data dari situs HubSpot organisasi Anda. |
Jira Cloud | Mengimpor data dari sistem pengelolaan tugas Jira Anda. |
(Pratinjau) Pusat Data Jira | Mengimpor data dari situs Data Center Jira Anda. |
(Pratinjau) Marketo | Mengimpor data dari sistem pemasaran Marketo organisasi Anda. |
(Pratinjau) Notion | Mengimpor data dari ruang kerja Notion organisasi Anda. |
OneDrive | Mengimpor data dari penyimpanan OneDrive organisasi Anda. |
Microsoft Outlook | Mengimpor data dari Microsoft Outlook. |
Salesforce | Mengimpor data dari Salesforce. |
ServiceNow | Mengimpor data dari ServiceNow. |
SharePoint | Mengimpor data dari sistem SharePoint organisasi Anda. |
(Pratinjau) Shopify | Mengimpor data dari sistem Shopify organisasi Anda. |
Slack | Mengimpor data dari Slack. |
Microsoft Teams | Mengimpor data dari Microsoft Teams. |
(Pratinjau) WordPress | Mengimpor data dari situs WordPress organisasi Anda. |
Menyiapkan penyimpanan data pihak ketiga menggunakan konektor
Bagian ini menguraikan proses penyiapan penyimpanan data menggunakan data pihak ketiga. Petunjuk khusus untuk setiap sumber data pihak ketiga dapat ditemukan di dokumentasi AI generatif.
Penyedia identitas
Penyedia identitas memungkinkan Anda mengelola pengguna, grup, dan autentikasi. Saat menyiapkan penyimpanan data pihak ketiga, Anda memiliki opsi untuk menggunakan penyedia identitas Google atau penyedia identitas pihak ketiga.
Penyedia identitas Google:
- Setiap pengguna agen harus login menggunakan kredensial Google-nya. Alamat ini
dapat berupa alamat email
@gmail.com
atau akun apa pun yang menggunakan Google sebagai penyedia identitas (misalnya, Google Workspace). Langkah ini dilewati jika pengguna berbicara dengan agen menggunakan Google Cloud secara langsung, karena identitas Google otomatis disertakan dalam sistem. - Anda dapat menetapkan akses ke Akun Google menggunakan IAM.
Penyedia identitas pihak ketiga:
- Pengguna agen login menggunakan kredensial non-Google, misalnya alamat email Microsoft.
- Anda harus membuat Kumpulan Tenaga Kerja menggunakan Google Cloud yang berisi penyedia identitas non-Google. Kemudian, Anda dapat menggunakan IAM untuk memberikan akses ke seluruh kumpulan atau pengguna individu dalam kumpulan tersebut.
- Metode ini tidak dapat digunakan dengan project Google Cloud apa pun yang disiapkan di bawah organisasi
@google.com
.
Konektor
Penyimpanan data pihak ketiga diterapkan menggunakan konektor. Setiap konektor dapat berisi beberapa penyimpanan data, yang disimpan sebagai entity di sistem Agen Percakapan (Dialogflow CX).
Sebelum membuat penyimpanan data, Anda harus menyiapkan setiap region dengan satu penyedia identitas di Google Cloud -> Agent Builder -> Settings. Semua penyimpanan data di region tersebut akan menggunakan penyedia identitas yang sama. Anda dapat memilih identitas Google atau identitas pihak ketiga dalam kumpulan tenaga kerja. Kredensial Google yang sama dianggap sebagai identitas yang berbeda jika berada di kumpulan tenaga kerja. Misalnya,
test@gmail.com
dianggap sebagai identitas yang berbeda denganworkforcePools/test-pool/subject/test@gmail.com
.- Buat kumpulan tenaga kerja (jika diperlukan).
- Buka Setelan Agent Builder, lalu pilih Identitas Google atau Identitas Pihak Ketiga. Klik SIMPAN untuk menyimpan identitas ke wilayah.
- Sekarang Anda dapat membuat penyimpanan data di region tersebut.
Setiap penyimpanan data menyimpan data Daftar Kontrol Akses (ACL) dengan setiap dokumen. Ini adalah catatan pengguna atau grup mana yang memiliki akses baca ke entitas mana. Selama runtime, pengguna atau anggota grup akan hanya menerima respons dari agen yang bersumber dari entitas yang akses bacanya mereka miliki. Jika pengguna tidak memiliki akses baca ke entitas apa pun di penyimpanan data, agen akan menampilkan respons kosong.
Karena data dalam penyimpanan data adalah salinan instance pihak ketiga, data tersebut perlu diperbarui secara berkala. Anda dapat mengonfigurasi interval refresh pada skala waktu jam atau hari.
Setelah Anda mengonfigurasi penyimpanan data dan mengklik Create, perlu waktu hingga satu jam agar penyimpanan data muncul di daftar penyimpanan data Anda.
Langkah berikutnya
Untuk petunjuk tentang cara membuat penyimpanan data dan menggunakannya dengan agen, lihat dokumentasi alat penyimpanan data.