Untuk membuat penyimpanan data dan menyerap data untuk penelusuran, buka bagian untuk sumber yang ingin Anda gunakan:
- Membuat penyimpanan data menggunakan konten situs
- Mengimpor dari BigQuery
- Mengimpor dari Cloud Storage
- Menyinkronkan dari Google Drive
- Sinkronkan dari Gmail (Pratinjau publik)
- Menyinkronkan dari Google Sites (Pratinjau publik)
- Menyinkronkan dari Google Kalender (Pratinjau publik)
- Menyinkronkan dari Google Grup (Pratinjau publik)
- Impor dari Cloud SQL
- Impor dari Spanner (Pratinjau publik)
- Mengimpor dari Firestore
- Impor dari Bigtable (Pratinjau Publik)
- Impor dari AlloyDB untuk PostgreSQL (Pratinjau Publik)
- Mengupload data JSON terstruktur dengan API
- Membuat penyimpanan data menggunakan Terraform
Untuk menyinkronkan data dari sumber data pihak ketiga, lihat Menghubungkan sumber data pihak ketiga.
Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah penyerapan data.
Membuat penyimpanan data menggunakan konten situs
Gunakan prosedur berikut untuk membuat penyimpanan data dan mengindeks situs.
Untuk menggunakan penyimpanan data situs setelah membuatnya, Anda harus melampirkannya ke aplikasi yang mengaktifkan fitur Enterprise. Anda dapat mengaktifkan Edisi Enterprise untuk aplikasi saat Anda membuatnya. Tindakan ini akan menimbulkan biaya tambahan. Lihat Membuat aplikasi penelusuran dan Tentang fitur lanjutan.
Sebelum memulai
Jika Anda menggunakan file robots.txt
di situs Anda, perbarui file tersebut.
Untuk mengetahui informasi selengkapnya, lihat cara
menyiapkan file robots.txt
situs Anda.
Prosedur
Konsol
Untuk menggunakan konsol Google Cloud guna membuat penyimpanan data dan mengindeks situs, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Di menu navigasi, klik Data Stores.
Klik Create data store.
Di halaman Sumber, pilih Konten Situs.
Pilih apakah akan mengaktifkan Pengindeksan situs lanjutan untuk penyimpanan data ini. Opsi ini tidak dapat diaktifkan atau dinonaktifkan nanti.
Pengindeksan situs lanjutan menyediakan fitur tambahan seperti ringkasan penelusuran, penelusuran dengan tindak lanjut, dan jawaban ekstraktif. Pengindeksan situs lanjutan menimbulkan biaya tambahan, dan mengharuskan Anda memverifikasi kepemilikan domain untuk situs yang Anda indeks. Untuk mengetahui informasi selengkapnya, lihat Pengindeksan situs lanjutan dan Harga.
Di kolom Sites to include, masukkan pola URL yang cocok dengan situs yang ingin Anda sertakan dalam penyimpanan data. Sertakan satu pola URL per baris, tanpa pemisah koma. Sebagai contoh,
example.com/docs/*
Opsional: Di kolom Situs yang akan dikecualikan, masukkan pola URL yang ingin Anda kecualikan dari penyimpanan data.
Situs yang dikecualikan lebih diprioritaskan daripada situs yang disertakan. Jadi, jika Anda menyertakan
example.com/docs/*
, tetapi mengecualikanexample.com
, tidak ada situs yang akan diindeks. Untuk mengetahui informasi selengkapnya, lihat Data situs.Klik Lanjutkan.
Pilih lokasi untuk penyimpanan data Anda.
- Saat Anda membuat penyimpanan data penelusuran situs dasar, setelan ini selalu ditetapkan ke global (Global).
- Saat membuat penyimpanan data dengan pengindeksan situs lanjutan, Anda dapat memilih lokasi. Karena situs yang diindeks harus bersifat publik, Google sangat menyarankan agar Anda memilih global (Global) sebagai lokasi Anda. Hal ini memastikan ketersediaan maksimum semua layanan penelusuran dan jawaban serta menghilangkan batasan penyimpanan data regional.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat. Vertex AI Search akan membuat penyimpanan data dan menampilkan penyimpanan data Anda di halaman Data Stores.
Untuk melihat informasi tentang penyimpanan data, klik nama penyimpanan data Anda di kolom Nama. Halaman penyimpanan data Anda akan muncul.
- Jika Anda mengaktifkan Pengindeksan situs lanjutan, peringatan akan muncul yang meminta Anda untuk memverifikasi domain di penyimpanan data Anda.
- Jika Anda mengalami kekurangan kuota (jumlah halaman di situs yang Anda tentukan melebihi kuota "Jumlah dokumen per project" untuk project Anda), peringatan tambahan akan muncul yang meminta Anda mengupgrade kuota.
Untuk memverifikasi domain untuk pola URL di penyimpanan data Anda, ikuti petunjuk di halaman Verifikasi domain situs.
Untuk mengupgrade kuota, ikuti langkah-langkah berikut:
- Klik Upgrade kuota. Halaman IAM dan Admin di konsol Google Cloud akan muncul.
- Ikuti petunjuk di bagian Meminta penyesuaian kuota dalam dokumentasi Google Cloud . Kuota yang akan ditingkatkan adalah Jumlah dokumen di layanan Discovery Engine API.
- Setelah mengirimkan permintaan untuk batas kuota yang lebih tinggi, kembali ke halaman AI Applications, lalu klik Data Stores di menu navigasi.
- Klik nama penyimpanan data Anda di kolom Nama. Kolom Status menunjukkan bahwa pengindeksan sedang berlangsung untuk situs yang telah melampaui kuota. Jika kolom Status untuk URL menampilkan Diindeks, fitur pengindeksan situs tingkat lanjut tersedia untuk URL atau pola URL tersebut.
Untuk mengetahui informasi selengkapnya, lihat Kuota untuk pengindeksan halaman web di halaman "Kuota dan batas".
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor situs
Langkah berikutnya
Untuk melampirkan penyimpanan data situs Anda ke aplikasi, buat aplikasi dengan fitur Enterprise diaktifkan dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Jika telah mengaktifkan pengindeksan situs lanjutan, Anda dapat menggunakan data terstruktur untuk memperbarui skema.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Impor dari BigQuery
Vertex AI Search mendukung penelusuran di seluruh data BigQuery.
Anda dapat membuat penyimpanan data dari tabel BigQuery dengan dua cara:
Penyerapan satu kali: Anda mengimpor data dari tabel BigQuery ke penyimpanan data. Data di penyimpanan data tidak akan berubah kecuali jika Anda memuat ulang data secara manual.
Penyerapan berkala: Anda mengimpor data dari satu atau beberapa tabel BigQuery, dan menetapkan frekuensi sinkronisasi yang menentukan seberapa sering data toko diperbarui dengan data terbaru dari set data BigQuery.
Tabel berikut membandingkan dua cara yang dapat Anda gunakan untuk mengimpor data BigQuery ke penyimpanan data Vertex AI Search.
Penyerapan satu kali | Penyerapan berkala |
---|---|
Tersedia secara umum (GA). | Pratinjau publik. |
Data harus diperbarui secara manual. | Data diperbarui secara otomatis setiap 1, 3, atau 5 hari. Data tidak dapat dimuat ulang secara manual. |
Vertex AI Search membuat satu penyimpanan data dari satu tabel di BigQuery. | Vertex AI Search membuat konektor data untuk set data BigQuery dan penyimpanan data (disebut penyimpanan data entitas) untuk setiap tabel yang ditentukan. Untuk setiap konektor data, tabel harus memiliki jenis data yang sama (misalnya, terstruktur) dan berada dalam set data BigQuery yang sama. |
Data dari beberapa tabel dapat digabungkan dalam satu penyimpanan data dengan terlebih dahulu menyerahkan data dari satu tabel, lalu lebih banyak data dari sumber atau tabel BigQuery lain. | Karena impor data manual tidak didukung, data di penyimpanan data entitas hanya dapat bersumber dari satu tabel BigQuery. |
Kontrol akses sumber data didukung. | Kontrol akses sumber data tidak didukung. Data yang diimpor dapat berisi kontrol akses, tetapi kontrol ini tidak akan dipatuhi. |
Anda dapat membuat penyimpanan data menggunakan konsolGoogle Cloud atau API. | Anda harus menggunakan konsol untuk membuat konektor data dan penyimpanan data entitasnya. |
Kompatibel dengan CMEK. | Kompatibel dengan CMEK. |
Mengimpor satu kali dari BigQuery
Untuk menyerap data dari tabel BigQuery, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan konsol atau API. Google Cloud
Sebelum mengimpor data, tinjau Menyiapkan data untuk penyerapan.
Konsol
Untuk menggunakan konsol Google Cloud guna menyerap data dari BigQuery, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Buka halaman Data Stores.
Klik
Buat penyimpanan data.Di halaman Sumber, pilih BigQuery.
Pilih jenis data yang akan Anda impor dari bagian Jenis data yang Anda impor.
Pilih Satu kali di bagian Frekuensi sinkronisasi.
Di kolom BigQuery path, klik Browse, pilih tabel yang telah Anda siapkan untuk penyerapan, lalu klik Select. Atau, masukkan lokasi tabel langsung di kolom jalur BigQuery.
Klik Lanjutkan.
Jika Anda melakukan impor data terstruktur satu kali:
Petakan kolom ke properti utama.
Jika ada kolom penting yang tidak ada dalam skema, gunakan Tambahkan kolom baru untuk menambahkannya.
Untuk mengetahui informasi selengkapnya, lihat Tentang deteksi otomatis dan pengeditan.
Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat.
Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan selesai.
Bergantung pada ukuran data Anda, penyerapan data dapat memerlukan waktu beberapa menit hingga beberapa jam.
REST
Untuk menggunakan command line guna membuat penyimpanan data dan mengimpor data dari BigQuery, ikuti langkah-langkah berikut.
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DATA_STORE_DISPLAY_NAME
: nama tampilan penyimpanan data Vertex AI Search yang ingin Anda buat.
Opsional: Jika Anda mengupload data tidak terstruktur dan ingin mengonfigurasi penguraian dokumen atau mengaktifkan pengelompokan dokumen untuk RAG, tentukan objek
documentProcessingConfig
dan sertakan dalam permintaan pembuatan penyimpanan data Anda. Sebaiknya konfigurasi parser OCR untuk PDF jika Anda menyerap PDF yang dipindai. Untuk mengetahui cara mengonfigurasi opsi penguraian atau pengelompokan, lihat Mengurai dan mengelompokkan dokumen.Mengimpor data dari BigQuery.
Jika Anda menentukan skema, pastikan data sesuai dengan skema tersebut.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search.DATASET_ID
: ID set data BigQuery.TABLE_ID
: ID tabel BigQuery.- Jika tabel BigQuery tidak berada di bawah
PROJECT_ID, Anda harus memberikan izin
"BigQuery Data Viewer" kepada akun layanan
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
untuk tabel BigQuery. Misalnya, jika Anda mengimpor tabel BigQuery dari project sumber "123" ke project tujuan "456", berikan izinservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
untuk tabel BigQuery di project "123".
- Jika tabel BigQuery tidak berada di bawah
PROJECT_ID, Anda harus memberikan izin
"BigQuery Data Viewer" kepada akun layanan
DATA_SCHEMA
: optional. Nilainya adalahdocument
dancustom
. Defaultnya adalahdocument
.document
: tabel BigQuery yang Anda gunakan harus sesuai dengan skema BigQuery default yang disediakan di Menyiapkan data untuk penyerapan. Anda dapat menentukan sendiri ID setiap dokumen, sambil membungkus semua data dalam string jsonData.custom
: Skema tabel BigQuery apa pun diterima, dan Vertex AI Search otomatis membuat ID untuk setiap dokumen yang diimpor.
ERROR_DIRECTORY
: optional. Direktori Cloud Storage untuk informasi error tentang impor—misalnya,gs://<your-gcs-bucket>/directory/import_errors
. Google merekomendasikan agar Anda mengosongkan kolom ini agar Vertex AI Search dapat membuat direktori sementara secara otomatis.RECONCILIATION_MODE
: optional. Nilainya adalahFULL
danINCREMENTAL
. Default-nya adalahINCREMENTAL
. MenentukanINCREMENTAL
akan menyebabkan pembaruan data inkremental dari BigQuery ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan mengganti dokumen yang ada dengan dokumen yang telah diupdate dengan ID yang sama. MenentukanFULL
akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di BigQuery akan dihapus dari penyimpanan data Anda. ModeFULL
berguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.AUTO_GENERATE_IDS
: optional. Menentukan apakah ID dokumen akan dibuat secara otomatis. Jika disetel ketrue
, ID dokumen dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa kali impor. Jika Anda membuat ID secara otomatis di beberapa impor, Google sangat merekomendasikan agar Anda menyetelreconciliationMode
keFULL
untuk mempertahankan ID dokumen yang konsisten.Tentukan
autoGenerateIds
hanya jikabigquerySource.dataSchema
disetel kecustom
. Jika tidak, errorINVALID_ARGUMENT
akan ditampilkan. Jika Anda tidak menentukanautoGenerateIds
atau menyetelnya kefalse
, Anda harus menentukanidField
. Jika tidak, dokumen akan gagal diimpor.ID_FIELD
: optional. Menentukan kolom mana yang merupakan ID dokumen. Untuk file sumber BigQuery,idField
menunjukkan nama kolom dalam tabel BigQuery yang berisi ID dokumen.Tentukan
idField
hanya jika: (1)bigquerySource.dataSchema
ditetapkan kecustom
, dan (2)auto_generate_ids
ditetapkan kefalse
atau tidak ditentukan. Jika tidak, errorINVALID_ARGUMENT
akan ditampilkan.Nilai nama kolom BigQuery harus berupa jenis string, harus terdiri dari 1 hingga 63 karakter, dan harus sesuai dengan RFC-1034. Jika tidak, dokumen akan gagal diimpor.
C#
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API C# Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Go
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Java
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Node.js
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Ruby
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Ruby Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Menghubungkan ke BigQuery dengan sinkronisasi berkala
Sebelum mengimpor data, tinjau Menyiapkan data untuk penyerapan.
Prosedur berikut menjelaskan cara membuat konektor data yang mengaitkan set data BigQuery dengan konektor data Vertex AI Search dan cara menentukan tabel pada set data untuk setiap penyimpanan data yang ingin Anda buat. Penyimpanan data yang merupakan turunan dari konektor data disebut penyimpanan data entitas.
Data dari set data disinkronkan secara berkala ke penyimpanan data entity. Anda dapat menentukan sinkronisasi harian, setiap tiga hari, atau setiap lima hari.
Konsol
Untuk menggunakan konsol Google Cloud guna membuat konektor yang secara berkala menyinkronkan data dari set data BigQuery ke Vertex AI Search, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Di menu navigasi, klik Data Stores.
Klik Create data store.
Di halaman Sumber, pilih BigQuery.
Pilih jenis data yang Anda impor.
Klik Berkala.
Pilih Frekuensi sinkronisasi, seberapa sering Anda ingin konektor Vertex AI Search disinkronkan dengan set data BigQuery. Anda dapat mengubah frekuensi nanti.
Di kolom BigQuery dataset path, klik Browse, pilih set data yang berisi tabel yang telah Anda siapkan untuk penyerapan. Atau, masukkan lokasi tabel secara langsung di kolom jalur BigQuery. Format untuk jalur adalah
projectname.datasetname
.Di kolom Tabel yang akan disinkronkan, klik Telusuri, lalu pilih tabel yang berisi data yang Anda inginkan untuk penyimpanan data.
Jika ada tabel tambahan dalam set data yang ingin Anda gunakan untuk penyimpanan data, klik Tambahkan tabel dan tentukan tabel tersebut juga.
Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda, masukkan nama untuk penghubung data Anda, lalu klik Buat.
Anda kini telah membuat konektor data, yang akan menyinkronkan data secara berkala dengan set data BigQuery. Selain itu, Anda telah membuat satu atau beberapa penyimpanan data entitas. Penyimpanan data memiliki nama yang sama dengan tabel BigQuery.
Untuk memeriksa status penyerapan, buka halaman Data Stores, lalu klik nama penghubung data Anda untuk melihat detailnya di halaman Data > tab Data ingestion activity. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi berhasil, penyerapan pertama selesai.
Bergantung pada ukuran data Anda, penyerapan data dapat memerlukan waktu beberapa menit hingga beberapa jam.
Setelah Anda menyiapkan sumber data dan mengimpor data untuk pertama kalinya, penyimpanan data akan menyinkronkan data dari sumber tersebut pada frekuensi yang Anda pilih selama penyiapan. Sekitar satu jam setelah konektor data dibuat, sinkronisasi pertama akan terjadi. Sinkronisasi berikutnya akan terjadi sekitar 24 jam, 72 jam, atau 120 jam kemudian.
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Mengimpor dari Cloud Storage
Anda dapat membuat penyimpanan data dari tabel Cloud Storage dengan dua cara:
Penyerapan satu kali: Anda mengimpor data dari folder atau file Cloud Storage ke dalam penyimpanan data. Data di penyimpanan data tidak berubah kecuali jika Anda memuat ulang data secara manual.
Penyerapan berkala: Anda mengimpor data dari folder atau file Cloud Storage, dan menetapkan frekuensi sinkronisasi yang menentukan seberapa sering penyimpanan data diperbarui dengan data terbaru dari lokasi Cloud Storage tersebut.
Tabel berikut membandingkan dua cara Anda dapat mengimpor data Cloud Storage ke penyimpanan data Vertex AI Search.
Penyerapan satu kali | Penyerapan berkala |
---|---|
Tersedia secara umum (GA). | Pratinjau publik. |
Data harus diperbarui secara manual. | Data diperbarui secara otomatis setiap satu, tiga, atau lima hari. Data tidak dapat dimuat ulang secara manual. |
Vertex AI Search membuat satu penyimpanan data dari satu folder atau file di Cloud Storage. | Vertex AI Search membuat konektor data, dan mengaitkan penyimpanan data (yang disebut penyimpanan data entitas) dengannya untuk file atau folder yang ditentukan. Setiap konektor data Cloud Storage dapat memiliki satu penyimpanan data entity. |
Data dari beberapa file, folder, dan bucket dapat digabungkan dalam satu penyimpanan data dengan terlebih dahulu menyerap data dari satu lokasi Cloud Storage, lalu lebih banyak data dari lokasi lain. | Karena impor data manual tidak didukung, data di penyimpanan data entitas hanya dapat bersumber dari satu file atau folder Cloud Storage. |
Kontrol akses sumber data didukung. Untuk mengetahui informasi selengkapnya, lihat Kontrol akses sumber data. | Kontrol akses sumber data tidak didukung. Data yang diimpor dapat berisi kontrol akses, tetapi kontrol ini tidak akan dipatuhi. |
Anda dapat membuat penyimpanan data menggunakan konsolGoogle Cloud atau API. | Anda harus menggunakan konsol untuk membuat konektor data dan penyimpanan data entitasnya. |
Kompatibel dengan CMEK. | Kompatibel dengan CMEK. |
Mengimpor sekali dari Cloud Storage
Untuk menyerap data dari Cloud Storage, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan konsol atau API. Google Cloud
Sebelum mengimpor data, tinjau Menyiapkan data untuk penyerapan.
Konsol
Untuk menggunakan konsol guna menyerap data dari bucket Cloud Storage, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Buka halaman Data Stores.
Klik
Buat penyimpanan data.Di halaman Source, pilih Cloud Storage.
Di bagian Pilih folder atau file yang ingin Anda impor, pilih Folder atau File.
Klik Jelajahi, lalu pilih data yang telah Anda siapkan untuk penyerapan, lalu klik Pilih. Atau, masukkan lokasi langsung di kolom
gs://
.Pilih jenis data yang Anda impor.
Klik Lanjutkan.
Jika Anda melakukan impor data terstruktur satu kali:
Petakan kolom ke properti utama.
Jika ada kolom penting yang tidak ada dalam skema, gunakan Tambahkan kolom baru untuk menambahkannya.
Untuk mengetahui informasi selengkapnya, lihat Tentang deteksi otomatis dan pengeditan.
Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Opsional: Jika Anda memilih dokumen tidak terstruktur, Anda dapat memilih opsi penguraian dan pengelompokan untuk dokumen Anda. Untuk membandingkan parser, lihat Mem-parsing dokumen. Untuk mengetahui informasi tentang chunking, lihat Mengelompokkan dokumen untuk RAG.
Parser OCR dan parser tata letak dapat menimbulkan biaya tambahan. Lihat Harga fitur Document AI.
Untuk memilih parser, luaskan Opsi pemrosesan dokumen dan tentukan opsi parser yang ingin Anda gunakan.
Klik Buat.
Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan selesai.
Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit atau beberapa jam.
REST
Untuk menggunakan command line guna membuat penyimpanan data dan menyerap data dari Cloud Storage, ikuti langkah-langkah berikut.
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DATA_STORE_DISPLAY_NAME
: nama tampilan penyimpanan data Vertex AI Search yang ingin Anda buat.
Opsional: Jika Anda mengupload data tidak terstruktur dan ingin mengonfigurasi penguraian dokumen atau mengaktifkan pengelompokan dokumen untuk RAG, tentukan objek
documentProcessingConfig
dan sertakan dalam permintaan pembuatan penyimpanan data Anda. Sebaiknya konfigurasi parser OCR untuk PDF jika Anda menyerap PDF yang dipindai. Untuk mengetahui cara mengonfigurasi opsi penguraian atau pengelompokan, lihat Mengurai dan mengelompokkan dokumen.Mengimpor data dari Cloud Storage.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search.INPUT_FILE_PATTERN
: pola file di Cloud Storage yang berisi dokumen Anda.Untuk data terstruktur atau data tidak terstruktur dengan metadata, contoh pola file input adalah
gs://<your-gcs-bucket>/directory/object.json
dan contoh pencocokan pola satu atau beberapa file adalahgs://<your-gcs-bucket>/directory/*.json
.Untuk dokumen tidak terstruktur, contohnya adalah
gs://<your-gcs-bucket>/directory/*.pdf
. Setiap file yang cocok dengan pola akan menjadi dokumen.Jika
<your-gcs-bucket>
tidak berada di bawah PROJECT_ID, Anda harus memberikan izin "Storage Object Viewer" kepada akun layananservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
untuk bucket Cloud Storage. Misalnya, jika Anda mengimpor bucket Cloud Storage dari project sumber "123" ke project tujuan "456", berikan izinservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
pada bucket Cloud Storage di project "123".DATA_SCHEMA
: optional. Nilainya adalahdocument
,custom
,csv
, dancontent
. Defaultnya adalahdocument
.document
: Upload data tidak terstruktur dengan metadata untuk dokumen tidak terstruktur. Setiap baris file harus mengikuti salah satu format berikut. Anda dapat menentukan ID setiap dokumen:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: Upload JSON untuk dokumen terstruktur. Data diatur sesuai dengan skema. Anda dapat menentukan skema; jika tidak, skema akan terdeteksi secara otomatis. Anda dapat menempatkan string JSON dokumen dalam format yang konsisten langsung di setiap baris, dan Vertex AI Search akan otomatis membuat ID untuk setiap dokumen yang diimpor.content
: Upload dokumen tidak terstruktur (PDF, HTML, DOC, TXT, PPTX). ID setiap dokumen dibuat secara otomatis sebagai 128 bit pertama SHA256(GCS_URI) yang dienkode sebagai string hex. Anda dapat menentukan beberapa pola file input selama file yang cocok tidak melebihi batas 100 ribu file.csv
: Sertakan baris header dalam file CSV Anda, dengan setiap header dipetakan ke kolom dokumen. Tentukan jalur ke file CSV menggunakan kolominputUris
.
ERROR_DIRECTORY
: optional. Direktori Cloud Storage untuk informasi error tentang impor—misalnya,gs://<your-gcs-bucket>/directory/import_errors
. Google merekomendasikan agar kolom ini dikosongkan agar Vertex AI Search dapat membuat direktori sementara secara otomatis.RECONCILIATION_MODE
: optional. Nilainya adalahFULL
danINCREMENTAL
. Default-nya adalahINCREMENTAL
. MenentukanINCREMENTAL
akan menyebabkan refresh data inkremental dari Cloud Storage ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan menggantikan dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama. MenentukanFULL
akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di Cloud Storage akan dihapus dari penyimpanan data Anda. ModeFULL
berguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.AUTO_GENERATE_IDS
: optional. Menentukan apakah ID dokumen akan dibuat secara otomatis. Jika disetel ketrue
, ID dokumen dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa kali impor. Jika Anda membuat ID secara otomatis di beberapa impor, Google sangat menganjurkan untuk menyetelreconciliationMode
keFULL
guna mempertahankan ID dokumen yang konsisten.Tentukan
autoGenerateIds
hanya jikagcsSource.dataSchema
ditetapkan kecustom
ataucsv
. Jika tidak, errorINVALID_ARGUMENT
akan ditampilkan. Jika Anda tidak menentukanautoGenerateIds
atau menyetelnya kefalse
, Anda harus menentukanidField
. Jika tidak, dokumen akan gagal diimpor.ID_FIELD
: optional. Menentukan kolom mana yang merupakan ID dokumen. Untuk dokumen sumber Cloud Storage,idField
menentukan nama di kolom JSON yang merupakan ID dokumen. Misalnya, jika{"my_id":"some_uuid"}
adalah kolom ID dokumen di salah satu dokumen Anda, tentukan"idField":"my_id"
. Ini mengidentifikasi semua kolom JSON dengan nama"my_id"
sebagai ID dokumen.Tentukan kolom ini hanya jika: (1)
gcsSource.dataSchema
ditetapkan kecustom
ataucsv
, dan (2)auto_generate_ids
ditetapkan kefalse
atau tidak ditentukan. Jika tidak, errorINVALID_ARGUMENT
akan ditampilkan.Perhatikan bahwa nilai kolom JSON Cloud Storage harus berupa jenis string, harus antara 1-63 karakter, dan harus sesuai dengan RFC-1034. Jika tidak, dokumen akan gagal diimpor.
Perhatikan bahwa nama kolom JSON yang ditentukan oleh
id_field
harus berupa jenis string, harus terdiri dari 1 hingga 63 karakter, dan harus sesuai dengan RFC-1034. Jika tidak, dokumen akan gagal diimpor.
C#
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API C# Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Go
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Java
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Node.js
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Ruby
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Ruby Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Menghubungkan ke Cloud Storage dengan sinkronisasi berkala
Sebelum mengimpor data, tinjau Menyiapkan data untuk penyerapan.
Prosedur berikut menjelaskan cara membuat konektor data yang mengaitkan lokasi Cloud Storage dengan konektor data Vertex AI Search dan cara menentukan folder atau file di lokasi tersebut untuk penyimpanan data yang ingin Anda buat. Penyimpanan data yang merupakan turunan dari konektor data disebut penyimpanan data entitas.
Data disinkronkan secara berkala ke penyimpanan data entitas. Anda dapat menentukan sinkronisasi harian, setiap tiga hari, atau setiap lima hari.
Konsol
Di konsol Google Cloud , buka halaman AI Applications.
Buka halaman Data Stores.
Klik Create data store.
Di halaman Source, pilih Cloud Storage.
Pilih jenis data yang Anda impor.
Klik Berkala.
Pilih Frekuensi sinkronisasi, seberapa sering Anda ingin konektor Vertex AI Search disinkronkan dengan lokasi Cloud Storage. Anda dapat mengubah frekuensi nanti.
Di bagian Pilih folder atau file yang ingin Anda impor, pilih Folder atau File.
Klik Jelajahi, lalu pilih data yang telah Anda siapkan untuk penyerapan, lalu klik Pilih. Atau, masukkan lokasi langsung di kolom
gs://
.Klik Lanjutkan.
Pilih region untuk konektor data Anda.
Masukkan nama untuk konektor data Anda.
Opsional: Jika Anda memilih dokumen tidak terstruktur, Anda dapat memilih opsi penguraian dan pengelompokan untuk dokumen Anda. Untuk membandingkan parser, lihat Mem-parsing dokumen. Untuk mengetahui informasi tentang chunking, lihat Mengelompokkan dokumen untuk RAG.
Parser OCR dan parser tata letak dapat menimbulkan biaya tambahan. Lihat Harga fitur Document AI.
Untuk memilih parser, luaskan Opsi pemrosesan dokumen dan tentukan opsi parser yang ingin Anda gunakan.
Klik Buat.
Anda kini telah membuat konektor data, yang akan menyinkronkan data secara berkala dengan lokasi Cloud Storage. Anda juga telah membuat penyimpanan data entitas, yang diberi nama
gcs_store
.Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama konektor data untuk melihat detailnya di halaman Data
Tab Aktivitas penyerapan data. Saat kolom status pada tab Aktivitas penyerapan data berubah dari Sedang berlangsung menjadi berhasil, penyerapan pertama selesai.
Bergantung pada ukuran data Anda, penyerapan data dapat memerlukan waktu beberapa menit hingga beberapa jam.
Setelah Anda menyiapkan sumber data dan mengimpor data untuk pertama kalinya, data akan disinkronkan dari sumber tersebut dengan frekuensi yang Anda pilih selama penyiapan. Sekitar satu jam setelah konektor data dibuat, sinkronisasi pertama akan terjadi. Sinkronisasi berikutnya akan terjadi sekitar 24 jam, 72 jam, atau 120 jam kemudian.
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Menghubungkan ke Google Drive
Aplikasi AI dapat menelusuri data dari Google Drive menggunakan federasi data, yang secara langsung mengambil informasi dari sumber data yang ditentukan. Karena data tidak disalin ke indeks Vertex AI Search, Anda tidak perlu khawatir tentang penyimpanan data.
Sebelum memulai
- Anda harus login ke konsol Google Cloud dengan akun yang sama dengan yang Anda gunakan untuk instance Google Drive yang ingin Anda hubungkan. Aplikasi AI menggunakan ID pelanggan Google Workspace Anda untuk terhubung ke Google Drive.
- Untuk menerapkan kontrol akses sumber data dan mengamankan data di Aplikasi AI, pastikan Anda telah mengonfigurasi penyedia identitas Anda.
Pastikan semua dokumen dapat diakses, baik dengan menempatkannya di drive bersama yang dimiliki oleh domain atau dengan menetapkan kepemilikan kepada pengguna di domain.
Aktifkan fitur smart Google Workspace untuk menghubungkan data Google Drive ke Aplikasi AI. Untuk mengetahui informasinya, lihat Mengaktifkan atau menonaktifkan fitur smart Google Workspace.
Jika Anda menggunakan kontrol keamanan, perhatikan batasannya terkait data di Google Drive, seperti yang dibahas dalam tabel berikut:
Kontrol keamanan Perhatikan hal berikut Residensi Data (DRZ) Aplikasi AI hanya menjamin residensi data di Google Cloud. Untuk mengetahui informasi tentang residensi data dan Google Drive, lihat panduan dan dokumentasi kepatuhan Google Workspace—misalnya, Memilih region tempat data disimpan dan Kedaulatan digital. Kunci enkripsi yang dikelola pelanggan (CMEK) Kunci Anda hanya mengenkripsi data dalam Google Cloud. Kontrol Cloud Key Management Service tidak berlaku untuk data yang disimpan di Google Drive. Transparansi Akses Transparansi Akses mencatat tindakan yang dilakukan oleh staf Google di Google Cloud project. Anda juga perlu meninjau log Transparansi Akses yang dibuat oleh Google Workspace. Untuk informasi selengkapnya, lihat Peristiwa log Transparansi Akses dalam dokumentasi Bantuan Admin Google Workspace.
Membuat penyimpanan data Google Drive
Konsol
Untuk menggunakan konsol agar data Google Drive dapat ditelusuri, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Di menu navigasi, klik Data stores.
Klik
Buat penyimpanan data.Di halaman Pilih sumber data, pilih Google Drive.
Tentukan sumber drive untuk penyimpanan data Anda.
- Semua: Untuk menambahkan seluruh drive Anda ke penyimpanan data.
- Drive bersama tertentu: Tambahkan ID folder drive bersama.
- Folder bersama tertentu: Tambahkan ID folder bersama.
Untuk menemukan ID folder drive bersama atau ID folder tertentu, buka drive bersama atau folder, lalu salin ID dari URL. URL mengikuti format ini:
https://drive.google.com/corp/drive/folders/ID
.Misalnya,
https://drive.google.com/corp/drive/folders/123456789012345678901
.Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Opsional: Untuk mengecualikan data di penyimpanan data ini agar tidak digunakan untuk konten AI generatif saat Anda membuat kueri data menggunakan aplikasi, klik Opsi AI generatif dan pilih Kecualikan dari fitur AI generatif.
Klik Buat.
Pesan error
Tabel berikut menjelaskan pesan error yang mungkin Anda temukan saat bekerja dengan sumber data Google ini, dan mencakup kode error HTTP serta langkah-langkah pemecahan masalah yang disarankan.
Kode error | Pesan error | Deskripsi | Pemecahan masalah |
---|---|---|---|
403 (Permission Denied) | Penelusuran menggunakan kredensial akun layanan tidak didukung untuk penyimpanan data Google Workspace. | Mesin yang ditelusuri memiliki penyimpanan data Google Workspace, dan kredensial yang diteruskan adalah akun layanan. Penelusuran menggunakan kredensial akun layanan di penyimpanan data Google Workspace tidak didukung. | Panggil penelusuran menggunakan kredensial pengguna, atau hapus penyimpanan data Google Workspace dari mesin. |
403 (Permission Denied) | Akun konsumen tidak didukung untuk penyimpanan data Google Workspace. | Penelusuran dipanggil menggunakan kredensial akun konsumen (@gmail.com), yang tidak didukung untuk penyimpanan data Google Workspace. | Hapus penyimpanan data Google Workspace dari mesin atau gunakan Akun Google terkelola. |
403 (Permission Denied) | ID pelanggan tidak cocok untuk datastore | Penelusuran hanya diizinkan untuk pengguna yang tergabung dalam organisasi yang sama dengan penyimpanan data Google Workspace. | Hapus penyimpanan data Google Workspace dari mesin atau hubungi dukungan jika pengguna dan penyimpanan data Google Workspace seharusnya berada di organisasi yang berbeda. |
400 (Argumen Tidak Valid) | Mesin tidak boleh berisi penyimpanan data Google Drive default dan bersamaan. | Anda tidak dapat menghubungkan penyimpanan data yang memiliki semua drive Anda (default) dan penyimpanan data yang memiliki drive bersama tertentu ke aplikasi yang sama. | Untuk menghubungkan sumber data Google Drive baru ke aplikasi Anda, batalkan tautan penyimpanan data yang tidak diperlukan terlebih dahulu, lalu tambahkan penyimpanan data baru yang ingin Anda gunakan. |
Pemecahan masalah
Jika penelusuran Anda tidak menampilkan file yang Anda cari, hal ini mungkin disebabkan oleh batasan indeks penelusuran berikut:
Hanya 1 MB data teks dan pemformatan yang dapat diekstrak dari file Anda agar file tersebut dapat ditelusuri.
Untuk sebagian besar jenis file, ukuran file tidak boleh melebihi 10 MB. Berikut adalah pengecualiannya:
- Jenis file XLSX tidak boleh melebihi 20 MB.
- Ukuran file PDF tidak boleh lebih dari 30 MB.
- Ukuran file teks tidak boleh lebih dari 100 MB.
Pengenalan karakter optik dalam file PDF dibatasi hingga 80 halaman. PDF yang berukuran lebih dari 50 MB atau 80 halaman tidak diindeks, dan kata kunci yang melebihi batas indeks 1 MB tidak dapat ditelusuri.
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk mendapatkan hasil penelusuran setelah aplikasi dan penyimpanan data Anda disiapkan, lihat Mendapatkan hasil penelusuran.
Hubungkan ke Gmail
Gunakan langkah-langkah berikut untuk membuat penyimpanan data yang terhubung ke Gmail di konsol Google Cloud . Setelah menghubungkan penyimpanan data, Anda dapat melampirkan penyimpanan data ke aplikasi penelusuran dan menelusuri data Gmail Anda.
Sebelum memulai
- Anda harus login ke konsol Google Cloud dengan akun yang sama yang Anda gunakan untuk instance Google Workspace yang ingin Anda hubungkan. Vertex AI Search menggunakan ID pelanggan Google Workspace Anda untuk terhubung ke Gmail.
- Untuk menerapkan kontrol akses sumber data dan mengamankan data di Aplikasi AI, pastikan Anda telah mengonfigurasi penyedia identitas Anda.
Batasan
Jika Anda menggunakan kontrol keamanan, perhatikan batasannya terkait data di Gmail, seperti yang dibahas dalam tabel berikut:
Kontrol keamanan Perhatikan hal berikut Residensi Data (DRZ) Aplikasi AI hanya menjamin residensi data di Google Cloud. Untuk mengetahui informasi tentang residensi data dan Gmail, lihat panduan dan dokumentasi kepatuhan Google Workspace—misalnya, Memilih region tempat data disimpan dan Kedaulatan digital. Kunci enkripsi yang dikelola pelanggan (CMEK) Kunci Anda hanya mengenkripsi data dalam Google Cloud. Kontrol Cloud Key Management Service tidak berlaku untuk data yang disimpan di Gmail. Transparansi Akses Transparansi Akses mencatat tindakan yang dilakukan oleh staf Google di Google Cloud project. Anda juga perlu meninjau log Transparansi Akses yang dibuat oleh Google Workspace. Untuk informasi selengkapnya, lihat Peristiwa log Transparansi Akses dalam dokumentasi Bantuan Admin Google Workspace.
Membuat penyimpanan data Gmail
Konsol
Untuk menggunakan konsol agar data Gmail dapat ditelusuri, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Di menu navigasi, klik Data stores.
Klik
Buat penyimpanan data.Di halaman Pilih sumber data, pilih Google Gmail.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat.
Ikuti langkah-langkah di Membuat aplikasi penelusuran dan lampirkan penyimpanan data yang dibuat ke aplikasi Vertex AI Search.
Pesan error
Tabel berikut menjelaskan pesan error yang mungkin Anda temukan saat bekerja dengan sumber data Google ini, dan mencakup kode error HTTP serta langkah-langkah pemecahan masalah yang disarankan.
Kode error | Pesan error | Deskripsi | Pemecahan masalah |
---|---|---|---|
403 (Permission Denied) | Penelusuran menggunakan kredensial akun layanan tidak didukung untuk penyimpanan data Google Workspace. | Mesin yang ditelusuri memiliki penyimpanan data Google Workspace, dan kredensial yang diteruskan adalah akun layanan. Penelusuran menggunakan kredensial akun layanan di penyimpanan data Google Workspace tidak didukung. | Panggil penelusuran menggunakan kredensial pengguna, atau hapus penyimpanan data Google Workspace dari mesin. |
403 (Permission Denied) | Akun konsumen tidak didukung untuk penyimpanan data Google Workspace. | Penelusuran dipanggil menggunakan kredensial akun konsumen (@gmail.com), yang tidak didukung untuk penyimpanan data Google Workspace. | Hapus penyimpanan data Google Workspace dari mesin atau gunakan Akun Google terkelola. |
403 (Permission Denied) | ID pelanggan tidak cocok untuk datastore | Penelusuran hanya diizinkan untuk pengguna yang tergabung dalam organisasi yang sama dengan penyimpanan data Google Workspace. | Hapus penyimpanan data Google Workspace dari mesin atau hubungi dukungan jika pengguna dan penyimpanan data Google Workspace seharusnya berada di organisasi yang berbeda. |
400 (Argumen Tidak Valid) | Mesin tidak boleh berisi penyimpanan data Google Drive default dan bersamaan. | Anda tidak dapat menghubungkan penyimpanan data yang memiliki semua drive Anda (default) dan penyimpanan data yang memiliki drive bersama tertentu ke aplikasi yang sama. | Untuk menghubungkan sumber data Google Drive baru ke aplikasi Anda, batalkan tautan penyimpanan data yang tidak diperlukan terlebih dahulu, lalu tambahkan penyimpanan data baru yang ingin Anda gunakan. |
Langkah berikutnya
- Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data Anda disiapkan, lihat Melihat pratinjau hasil penelusuran.
Menghubungkan ke Google Sites
Untuk menelusuri data dari Google Sites, gunakan langkah-langkah berikut untuk membuat konektor menggunakan konsol Google Cloud .
Sebelum memulai:
Anda harus login ke konsol Google Cloud dengan akun yang sama yang Anda gunakan untuk instance Google Workspace yang ingin Anda hubungkan. Vertex AI Search menggunakan ID pelanggan Google Workspace Anda untuk terhubung ke Google Sites.
Untuk menerapkan kontrol akses sumber data dan mengamankan data di Aplikasi AI, pastikan Anda telah mengonfigurasi penyedia identitas Anda.
Jika Anda menggunakan kontrol keamanan, perhatikan batasannya terkait data di Google Sites, seperti yang dibahas dalam tabel berikut:
Kontrol keamanan Perhatikan hal berikut Residensi Data (DRZ) Aplikasi AI hanya menjamin residensi data di Google Cloud. Untuk mengetahui informasi tentang residensi data dan Google Sites, lihat panduan dan dokumentasi kepatuhan Google Workspace—misalnya, Memilih region tempat data disimpan dan Kedaulatan digital. Kunci enkripsi yang dikelola pelanggan (CMEK) Kunci Anda hanya mengenkripsi data dalam Google Cloud. Kontrol Cloud Key Management Service tidak berlaku untuk data yang disimpan di Google Sites. Transparansi Akses Transparansi Akses mencatat tindakan yang dilakukan oleh staf Google di Google Cloud project. Anda juga perlu meninjau log Transparansi Akses yang dibuat oleh Google Workspace. Untuk informasi selengkapnya, lihat Peristiwa log Transparansi Akses dalam dokumentasi Bantuan Admin Google Workspace.
Konsol
Untuk menggunakan konsol agar data Google Sites dapat ditelusuri, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Buka halaman Data Stores.
Klik New data store.
Di halaman Sumber, pilih Google Sites.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat.
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Menghubungkan ke Google Kalender
Untuk menelusuri data dari Google Kalender, gunakan langkah-langkah berikut untuk membuat konektor menggunakan konsol Google Cloud .
Sebelum memulai
- Anda harus login ke konsol Google Cloud dengan akun yang sama yang Anda gunakan untuk instance Google Workspace yang ingin Anda hubungkan. Vertex AI Search menggunakan ID pelanggan Google Workspace Anda untuk terhubung ke Google Kalender.
- Untuk menerapkan kontrol akses sumber data dan mengamankan data di Aplikasi AI, pastikan Anda telah mengonfigurasi penyedia identitas Anda.
Jika Anda menggunakan kontrol keamanan, perhatikan batasannya terkait data di Google Kalender, seperti yang dibahas dalam tabel berikut:
Kontrol keamanan Perhatikan hal berikut Residensi Data (DRZ) Aplikasi AI hanya menjamin residensi data di Google Cloud. Untuk mengetahui informasi tentang residensi data dan Google Kalender, lihat panduan dan dokumentasi kepatuhan Google Workspace—misalnya, Memilih region tempat data disimpan dan Kedaulatan digital. Kunci enkripsi yang dikelola pelanggan (CMEK) Kunci Anda hanya mengenkripsi data dalam Google Cloud. Kontrol Cloud Key Management Service tidak berlaku untuk data yang disimpan di Google Kalender. Transparansi Akses Transparansi Akses mencatat tindakan yang dilakukan oleh staf Google di Google Cloud project. Anda juga perlu meninjau log Transparansi Akses yang dibuat oleh Google Workspace. Untuk informasi selengkapnya, lihat Peristiwa log Transparansi Akses dalam dokumentasi Bantuan Admin Google Workspace.
Membuat penyimpanan data Google Kalender
Konsol
Untuk menggunakan konsol agar data Google Kalender dapat dicari, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Di menu navigasi, klik Data stores.
Klik
Buat penyimpanan data.Di halaman Pilih sumber data, pilih Google Kalender.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat.
Pesan error
Tabel berikut menjelaskan pesan error yang mungkin Anda temukan saat bekerja dengan sumber data Google ini, dan mencakup kode error HTTP serta langkah-langkah pemecahan masalah yang disarankan.
Kode error | Pesan error | Deskripsi | Pemecahan masalah |
---|---|---|---|
403 (Permission Denied) | Penelusuran menggunakan kredensial akun layanan tidak didukung untuk penyimpanan data Google Workspace. | Mesin yang ditelusuri memiliki penyimpanan data Google Workspace, dan kredensial yang diteruskan adalah akun layanan. Penelusuran menggunakan kredensial akun layanan di penyimpanan data Google Workspace tidak didukung. | Panggil penelusuran menggunakan kredensial pengguna, atau hapus penyimpanan data Google Workspace dari mesin. |
403 (Permission Denied) | Akun konsumen tidak didukung untuk penyimpanan data Google Workspace. | Penelusuran dipanggil menggunakan kredensial akun konsumen (@gmail.com), yang tidak didukung untuk penyimpanan data Google Workspace. | Hapus penyimpanan data Google Workspace dari mesin atau gunakan Akun Google terkelola. |
403 (Permission Denied) | ID pelanggan tidak cocok untuk datastore | Penelusuran hanya diizinkan untuk pengguna yang tergabung dalam organisasi yang sama dengan penyimpanan data Google Workspace. | Hapus penyimpanan data Google Workspace dari mesin atau hubungi dukungan jika pengguna dan penyimpanan data Google Workspace seharusnya berada di organisasi yang berbeda. |
400 (Argumen Tidak Valid) | Mesin tidak boleh berisi penyimpanan data Google Drive default dan bersamaan. | Anda tidak dapat menghubungkan penyimpanan data yang memiliki semua drive Anda (default) dan penyimpanan data yang memiliki drive bersama tertentu ke aplikasi yang sama. | Untuk menghubungkan sumber data Google Drive baru ke aplikasi Anda, batalkan tautan penyimpanan data yang tidak diperlukan terlebih dahulu, lalu tambahkan penyimpanan data baru yang ingin Anda gunakan. |
Langkah berikutnya
Untuk menghubungkan penyimpanan data ke aplikasi, buat aplikasi, lalu pilih penyimpanan data dengan mengikuti petunjuk di bagian Membuat aplikasi penelusuran.
Untuk mendapatkan hasil penelusuran setelah aplikasi dan penyimpanan data Anda disiapkan, lihat Mendapatkan hasil penelusuran.
Menghubungkan ke Google Grup
Untuk menelusuri data dari Google Grup, gunakan langkah-langkah berikut untuk membuat konektor menggunakan konsol Google Cloud .
Sebelum memulai:
Anda harus login ke konsol Google Cloud dengan akun yang sama yang Anda gunakan untuk instance Google Workspace yang ingin Anda hubungkan. Vertex AI Search menggunakan ID pelanggan Google Workspace Anda untuk terhubung ke Google Grup.
Untuk menerapkan kontrol akses sumber data dan mengamankan data di Aplikasi AI, pastikan Anda telah mengonfigurasi penyedia identitas Anda.
Jika Anda menggunakan kontrol keamanan, perhatikan batasannya terkait data di Google Grup, seperti yang dibahas dalam tabel berikut:
Kontrol keamanan Perhatikan hal berikut Residensi Data (DRZ) Aplikasi AI hanya menjamin residensi data di Google Cloud. Untuk mengetahui informasi tentang residensi data dan Google Grup, lihat panduan dan dokumentasi kepatuhan Google Workspace—misalnya, Memilih region tempat data disimpan dan Kedaulatan digital. Kunci enkripsi yang dikelola pelanggan (CMEK) Kunci Anda hanya mengenkripsi data dalam Google Cloud. Kontrol Cloud Key Management Service tidak berlaku untuk data yang disimpan di Google Grup. Transparansi Akses Transparansi Akses mencatat tindakan yang dilakukan oleh staf Google di Google Cloud project. Anda juga perlu meninjau log Transparansi Akses yang dibuat oleh Google Workspace. Untuk informasi selengkapnya, lihat Peristiwa log Transparansi Akses dalam dokumentasi Bantuan Admin Google Workspace.
Konsol
Untuk menggunakan konsol agar data Google Grup dapat ditelusuri, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Buka halaman Data Stores.
Klik New data store.
Di halaman Sumber, pilih Grup Google.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat. Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit hingga beberapa jam. Tunggu setidaknya satu jam sebelum menggunakan penyimpanan data untuk penelusuran.
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Mengimpor dari Cloud SQL
Untuk menyerap data dari Cloud SQL, gunakan langkah-langkah berikut untuk menyiapkan akses Cloud SQL, membuat penyimpanan data, dan menyerap data.
Menyiapkan akses bucket penyiapan untuk instance Cloud SQL
Saat menyerap data dari Cloud SQL, data pertama-tama diatur ke bucket Cloud Storage. Ikuti langkah-langkah berikut untuk memberikan akses instance Cloud SQL ke bucket Cloud Storage.
Di konsol Google Cloud , buka halaman SQL.
Klik instance Cloud SQL yang akan Anda gunakan sebagai sumber impor.
Salin ID untuk akun layanan instance, yang terlihat seperti alamat email—misalnya,
p9876-abcd33f@gcp-sa-cloud-sql.iam.gserviceaccount.com
.Buka halaman IAM & Admin.
Klik Grant access.
Untuk New principals, masukkan ID akun layanan instance dan pilih peran Cloud Storage > Storage Admin.
Klik Simpan.
Berikutnya:
Jika data Cloud SQL Anda berada di project yang sama dengan Vertex AI Search: Buka Mengimpor data dari Cloud SQL.
Jika data Cloud SQL Anda berada di project yang berbeda dengan project Vertex AI Search Anda: Buka Menyiapkan akses Cloud SQL dari project lain.
Menyiapkan akses Cloud SQL dari project lain
Untuk memberikan akses Vertex AI Search ke data Cloud SQL yang ada di project lain, ikuti langkah-langkah berikut:
Ganti variabel
PROJECT_NUMBER
berikut dengan nomor project Vertex AI Search Anda, lalu salin konten blok kode. Berikut adalah ID akun layanan Vertex AI Search Anda:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com`
Buka halaman IAM & Admin.
Beralih ke project Cloud SQL Anda di halaman IAM & Admin lalu klik Grant Access.
Untuk New principals, masukkan ID akun layanan dan pilih peran Cloud SQL > Cloud SQL Viewer.
Klik Simpan.
Selanjutnya, buka Mengimpor data dari Cloud SQL.
Mengimpor data dari Cloud SQL
Konsol
Untuk menggunakan konsol guna menyerap data dari Cloud SQL, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Buka halaman Data Stores.
Klik New data store.
Di halaman Sumber, pilih Cloud SQL.
Tentukan project ID, instance ID, database ID, dan table ID data yang akan Anda impor.
Klik Telusuri dan pilih lokasi Cloud Storage perantara untuk mengekspor data, lalu klik Pilih. Atau, masukkan lokasi langsung di kolom
gs://
.Pilih apakah akan mengaktifkan ekspor serverless. Ekspor serverless menimbulkan biaya tambahan. Untuk mengetahui informasi tentang ekspor serverless, lihat Meminimalkan dampak performa ekspor dalam dokumentasi Cloud SQL.
Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat.
Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan selesai.
Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit atau beberapa jam.
REST
Untuk menggunakan command line guna membuat penyimpanan data dan menyerap data dari Cloud SQL, ikuti langkah-langkah berikut:
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], }'
Ganti kode berikut:
PROJECT_ID
: ID project Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DISPLAY_NAME
: nama tampilan penyimpanan data. Hal ini mungkin ditampilkan di konsol Google Cloud .
Mengimpor data dari Cloud SQL.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "cloudSqlSource": { "projectId": "SQL_PROJECT_ID", "instanceId": "INSTANCE_ID", "databaseId": "DATABASE_ID", "tableId": "TABLE_ID", "gcsStagingDir": "STAGING_DIRECTORY" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Ganti kode berikut:
PROJECT_ID
: ID project Vertex AI Search Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.SQL_PROJECT_ID
: ID project Cloud SQL Anda.INSTANCE_ID
: ID instance Cloud SQL Anda.DATABASE_ID
: ID database Cloud SQL Anda.TABLE_ID
: ID tabel Cloud SQL Anda.STAGING_DIRECTORY
: optional. Direktori Cloud Storage, misalnya,gs://<your-gcs-bucket>/directory/import_errors
.RECONCILIATION_MODE
: optional. Nilainya adalahFULL
danINCREMENTAL
. Default-nya adalahINCREMENTAL
. MenentukanINCREMENTAL
akan menyebabkan refresh data inkremental dari Cloud SQL ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan menggantikan dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama. MenentukanFULL
akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di Cloud SQL akan dihapus dari penyimpanan data Anda. ModeFULL
berguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Mengimpor dari Spanner
Untuk menyerap data dari Spanner, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan konsol atau API. Google Cloud
Menyiapkan akses Spanner dari project lain
Jika data Spanner Anda berada dalam project yang sama dengan Vertex AI Search, lanjutkan ke Mengimpor data dari Spanner.
Untuk memberikan akses Vertex AI Search ke data Spanner yang ada di project lain, ikuti langkah-langkah berikut:
Ganti variabel
PROJECT_NUMBER
berikut dengan nomor project Vertex AI Search Anda, lalu salin konten blok kode ini. Berikut adalah ID akun layanan Vertex AI Search Anda:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
Buka halaman IAM & Admin.
Beralih ke project Spanner Anda di halaman IAM & Admin, lalu klik Grant Access.
Untuk New principals, masukkan ID akun layanan dan pilih salah satu opsi berikut:
- Jika Anda tidak akan menggunakan peningkatan data selama impor, pilih peran Cloud Spanner > Cloud Spanner Database Reader.
- Jika Anda berencana menggunakan peningkatan data selama impor, pilih peran Cloud Spanner > Cloud Spanner Database Admin, atau peran kustom dengan izin Cloud Spanner Database Reader dan spanner.databases.useDataBoost. Untuk mengetahui informasi tentang Data Boost, lihat Ringkasan Data Boost di dokumentasi Spanner.
Klik Simpan.
Selanjutnya, buka Mengimpor data dari Spanner.
Mengimpor data dari Spanner
Konsol
Untuk menggunakan konsol guna menyerap data dari Spanner, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Buka halaman Data Stores.
Klik New data store.
Di halaman Sumber, pilih Cloud Spanner.
Tentukan project ID, instance ID, database ID, dan table ID data yang akan Anda impor.
Pilih apakah akan mengaktifkan Data Boost atau tidak. Untuk mengetahui informasi tentang Data Boost, lihat Ringkasan Data Boost di dokumentasi Spanner.
Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat.
Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan selesai.
Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit atau beberapa jam.
REST
Untuk menggunakan command line guna membuat penyimpanan data dan menyerap data dari Spanner, ikuti langkah-langkah berikut:
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], "contentConfig": "CONTENT_REQUIRED", }'
Ganti kode berikut:
PROJECT_ID
: ID project Vertex AI Search Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DISPLAY_NAME
: nama tampilan penyimpanan data. Hal ini mungkin ditampilkan di konsol Google Cloud .
Impor data dari Spanner.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "cloudSpannerSource": { "projectId": "SPANNER_PROJECT_ID", "instanceId": "INSTANCE_ID", "databaseId": "DATABASE_ID", "tableId": "TABLE_ID", "enableDataBoost": "DATA_BOOST_BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Ganti kode berikut:
PROJECT_ID
: ID project Vertex AI Search Anda.DATA_STORE_ID
: ID penyimpanan data.SPANNER_PROJECT_ID
: ID project Spanner Anda.INSTANCE_ID
: ID instance Spanner Anda.DATABASE_ID
: ID database Spanner Anda.TABLE_ID
: ID tabel Spanner Anda.DATA_BOOST_BOOLEAN
: optional. Apakah akan mengaktifkan Data Boost. Untuk mengetahui informasi tentang Data Boost, lihat Ringkasan Data Boost dalam dokumentasi Spanner.RECONCILIATION_MODE
: optional. Nilainya adalahFULL
danINCREMENTAL
. Default-nya adalahINCREMENTAL
. MenentukanINCREMENTAL
akan menyebabkan refresh data inkremental dari Spanner ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan mengganti dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama. MenentukanFULL
akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di Spanner akan dihapus dari penyimpanan data Anda. ModeFULL
berguna jika Anda ingin menghapus dokumen secara otomatis yang tidak lagi Anda perlukan.AUTO_GENERATE_IDS
: optional. Menentukan apakah ID dokumen akan dibuat secara otomatis. Jika disetel ketrue
, ID dokumen dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa kali impor. Jika Anda membuat ID secara otomatis di beberapa impor, Google sangat merekomendasikan agar Anda menyetelreconciliationMode
keFULL
untuk mempertahankan ID dokumen yang konsisten.ID_FIELD
: optional. Menentukan kolom mana yang merupakan ID dokumen.
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Mengimpor dari Firestore
Untuk menyerap data dari Firestore, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan Google Cloud konsol atau API.
Jika data Firestore Anda berada dalam project yang sama dengan Vertex AI Search, buka Mengimpor data dari Firestore.
Jika data Firestore Anda berada di project yang berbeda dengan project Vertex AI Search, buka Menyiapkan akses Firestore.
Menyiapkan akses Firestore dari project lain
Untuk memberikan akses Vertex AI Search ke data Firestore yang ada di project lain, ikuti langkah-langkah berikut:
Ganti variabel
PROJECT_NUMBER
berikut dengan nomor project Vertex AI Search Anda, lalu salin konten blok kode ini. Berikut adalah ID akun layanan Vertex AI Search Anda:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
Buka halaman IAM & Admin.
Beralih ke project Firestore Anda di halaman IAM & Admin lalu klik Grant Access.
Untuk New principals, masukkan ID akun layanan instance dan pilih peran Datastore > Cloud Datastore Import Export Admin.
Klik Simpan.
Beralih kembali ke project Vertex AI Search Anda.
Selanjutnya, buka Mengimpor data dari Firestore.
Mengimpor data dari Firestore
Konsol
Untuk menggunakan konsol guna menyerap data dari Firestore, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Buka halaman Data Stores.
Klik New data store.
Di halaman Source, pilih Firestore.
Tentukan project ID, database ID, dan ID koleksi data yang akan Anda impor.
Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat.
Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan selesai.
Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit atau beberapa jam.
REST
Untuk menggunakan command line guna membuat penyimpanan data dan menyerap data dari Firestore, ikuti langkah-langkah berikut:
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], }'
Ganti kode berikut:
PROJECT_ID
: ID project Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DISPLAY_NAME
: nama tampilan penyimpanan data. Hal ini mungkin ditampilkan di konsol Google Cloud .
Mengimpor data dari Firestore.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "firestoreSource": { "projectId": "FIRESTORE_PROJECT_ID", "databaseId": "DATABASE_ID", "collectionId": "COLLECTION_ID", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Ganti kode berikut:
PROJECT_ID
: ID project Vertex AI Search Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.FIRESTORE_PROJECT_ID
: ID project Firestore Anda.DATABASE_ID
: ID database Firestore Anda.COLLECTION_ID
: ID koleksi Firestore Anda.RECONCILIATION_MODE
: optional. Nilainya adalahFULL
danINCREMENTAL
. Default-nya adalahINCREMENTAL
. MenentukanINCREMENTAL
akan menyebabkan refresh data inkremental dari Firestore ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan menggantikan dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama. MenentukanFULL
akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di Firestore akan dihapus dari penyimpanan data Anda. ModeFULL
berguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.AUTO_GENERATE_IDS
: optional. Menentukan apakah ID dokumen akan dibuat secara otomatis. Jika disetel ketrue
, ID dokumen dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa kali impor. Jika Anda membuat ID secara otomatis di beberapa impor, Google sangat merekomendasikan agar Anda menyetelreconciliationMode
keFULL
untuk mempertahankan ID dokumen yang konsisten.ID_FIELD
: optional. Menentukan kolom mana yang merupakan ID dokumen.
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Mengimpor dari Bigtable
Untuk menyerap data dari Bigtable, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan API.
Menyiapkan akses Bigtable
Untuk memberikan akses Vertex AI Search ke data Bigtable yang ada di project lain, ikuti langkah-langkah berikut:
Ganti variabel
PROJECT_NUMBER
berikut dengan nomor project Vertex AI Search Anda, lalu salin konten blok kode ini. Berikut adalah ID akun layanan Vertex AI Search Anda:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com`
Buka halaman IAM & Admin.
Beralih ke project Bigtable Anda di halaman IAM & Admin lalu klik Grant Access.
Untuk New principals, masukkan ID akun layanan instance dan pilih peran Bigtable > Bigtable Reader.
Klik Simpan.
Beralih kembali ke project Vertex AI Search Anda.
Selanjutnya, buka Mengimpor data dari Bigtable.
Mengimpor data dari Bigtable
REST
Untuk menggunakan command line guna membuat penyimpanan data dan menyerap data dari Bigtable, ikuti langkah-langkah berikut:
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], }'
Ganti kode berikut:
PROJECT_ID
: ID project Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DISPLAY_NAME
: nama tampilan penyimpanan data. Hal ini mungkin ditampilkan di konsol Google Cloud .
Impor data dari Bigtable.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigtableSource ": { "projectId": "BIGTABLE_PROJECT_ID", "instanceId": "INSTANCE_ID", "tableId": "TABLE_ID", "bigtableOptions": { "keyFieldName": "KEY_FIELD_NAME", "families": { "key": "KEY", "value": { "fieldName": "FIELD_NAME", "encoding": "ENCODING", "type": "TYPE", "columns": [ { "qualifier": "QUALIFIER", "fieldName": "FIELD_NAME", "encoding": "COLUMN_ENCODING", "type": "COLUMN_VALUES_TYPE" } ] } } ... } }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Ganti kode berikut:
PROJECT_ID
: ID project Vertex AI Search Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.BIGTABLE_PROJECT_ID
: ID project Bigtable Anda.INSTANCE_ID
: ID instance Bigtable Anda.TABLE_ID
: ID tabel Bigtable Anda.KEY_FIELD_NAME
: opsional, tetapi direkomendasikan. Nama kolom yang akan digunakan untuk nilai kunci baris setelah melakukan penyerapan ke Vertex AI Search.KEY
: wajib diisi. Nilai string untuk kunci grup kolom.ENCODING
: optional. Mode encoding nilai saat jenisnya bukan STRING.Mode ini dapat diganti untuk kolom tertentu dengan mencantumkan kolom tersebut dicolumns
dan menentukan encoding untuknya.COLUMN_TYPE
: optional. Jenis nilai dalam grup kolom ini.QUALIFIER
: wajib diisi. Penentu kolom.FIELD_NAME
: opsional, tetapi direkomendasikan. Nama kolom yang akan digunakan untuk kolom ini setelah di-ingest ke Vertex AI Search.COLUMN_ENCODING
: optional. Mode encoding nilai untuk kolom tertentu saat jenisnya bukan STRING.RECONCILIATION_MODE
: optional. Nilainya adalahFULL
danINCREMENTAL
. Default-nya adalahINCREMENTAL
. MenentukanINCREMENTAL
akan menyebabkan refresh inkremental data dari Bigtable ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan menggantikan dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama. MenentukanFULL
akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di Bigtable dihapus dari penyimpanan data Anda. ModeFULL
berguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.AUTO_GENERATE_IDS
: optional. Menentukan apakah ID dokumen akan dibuat secara otomatis. Jika disetel ketrue
, ID dokumen dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa kali impor. Jika Anda membuat ID secara otomatis di beberapa impor, Google sangat merekomendasikan agar Anda menyetelreconciliationMode
keFULL
untuk mempertahankan ID dokumen yang konsisten.Tentukan
autoGenerateIds
hanya jikabigquerySource.dataSchema
disetel kecustom
. Jika tidak, errorINVALID_ARGUMENT
akan ditampilkan. Jika Anda tidak menentukanautoGenerateIds
atau menyetelnya kefalse
, Anda harus menentukanidField
. Jika tidak, dokumen akan gagal diimpor.ID_FIELD
: optional. Menentukan kolom mana yang merupakan ID dokumen.
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Mengimpor dari AlloyDB untuk PostgreSQL
Untuk menyerap data dari AlloyDB for PostgreSQL, gunakan langkah-langkah berikut untuk membuat penyimpanan data dan menyerap data menggunakan konsol atau API. Google Cloud
Jika data AlloyDB untuk PostgreSQL Anda berada di project yang sama dengan project Vertex AI Search, buka Mengimpor data dari AlloyDB untuk PostgreSQL.
Jika data AlloyDB untuk PostgreSQL Anda berada di project yang berbeda dengan project Vertex AI Search Anda, buka Menyiapkan akses AlloyDB untuk PostgreSQL.
Menyiapkan akses AlloyDB untuk PostgreSQL dari project lain
Untuk memberikan akses Vertex AI Search ke data AlloyDB untuk PostgreSQL yang ada di project lain, ikuti langkah-langkah berikut:
Ganti variabel
PROJECT_NUMBER
berikut dengan nomor project Vertex AI Search Anda, lalu salin konten blok kode ini. Berikut adalah ID akun layanan Vertex AI Search Anda:service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
Beralih ke Google Cloud project tempat data AlloyDB for PostgreSQL Anda berada.
Buka halaman IAM.
Klik Grant Access.
Untuk New principals, masukkan ID akun layanan Vertex AI Search dan pilih peran Cloud AlloyDB > Cloud AlloyDB Admin.
Klik Simpan.
Beralih kembali ke project Vertex AI Search Anda.
Selanjutnya, buka Mengimpor data dari AlloyDB untuk PostgreSQL.
Mengimpor data dari AlloyDB untuk PostgreSQL
Konsol
Untuk menggunakan konsol guna menyerap data dari AlloyDB untuk PostgreSQL, ikuti langkah-langkah berikut:
Di konsol Google Cloud , buka halaman AI Applications.
Di menu navigasi, klik Data Stores.
Klik Create data store.
Di halaman Sumber, pilih AlloyDB.
Tentukan project ID, ID lokasi, ID cluster, ID database, dan ID tabel data yang ingin Anda impor.
Klik Lanjutkan.
Pilih region untuk penyimpanan data Anda.
Masukkan nama untuk penyimpanan data Anda.
Klik Buat.
Untuk memeriksa status penyerapan, buka halaman Data Stores dan klik nama penyimpanan data Anda untuk melihat detailnya di halaman Data. Saat kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan selesai.
Bergantung pada ukuran data Anda, penyerapan dapat memerlukan waktu beberapa menit atau beberapa jam.
REST
Untuk menggunakan command line guna membuat penyimpanan data dan menyerap data dari AlloyDB untuk PostgreSQL, ikuti langkah-langkah berikut:
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], }'
Ganti kode berikut:
PROJECT_ID
: ID project Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DISPLAY_NAME
: nama tampilan penyimpanan data. Hal ini mungkin ditampilkan di konsol Google Cloud .
Mengimpor data dari AlloyDB untuk PostgreSQL.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "alloydbSource": { "projectId": "ALLOYDB_PROJECT_ID", "locationId": "LOCATION_ID", "clusterId": "CLUSTER_ID", "databaseId": "DATABASE_ID", "tableId": "TABLE_ID", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", }'
Ganti kode berikut:
PROJECT_ID
: ID project Vertex AI Search Anda.DATA_STORE_ID
: ID penyimpanan data. ID hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.ALLOYDB_PROJECT_ID
: ID project AlloyDB untuk PostgreSQL Anda.LOCATION_ID
: ID lokasi AlloyDB untuk PostgreSQL Anda.CLUSTER_ID
: ID cluster AlloyDB untuk PostgreSQL Anda.DATABASE_ID
: ID database AlloyDB untuk PostgreSQL Anda.TABLE_ID
: ID tabel AlloyDB untuk PostgreSQL Anda.RECONCILIATION_MODE
: optional. Nilainya adalahFULL
danINCREMENTAL
. Default-nya adalahINCREMENTAL
. MenentukanINCREMENTAL
akan menyebabkan refresh data inkremental dari AlloyDB untuk PostgreSQL ke penyimpanan data Anda. Operasi ini melakukan operasi upsert, yang menambahkan dokumen baru dan menggantikan dokumen yang ada dengan dokumen yang diperbarui dengan ID yang sama. MenentukanFULL
akan menyebabkan rebase penuh dokumen di penyimpanan data Anda. Dengan kata lain, dokumen baru dan yang diperbarui ditambahkan ke penyimpanan data Anda, dan dokumen yang tidak ada di AlloyDB untuk PostgreSQL akan dihapus dari penyimpanan data Anda. ModeFULL
berguna jika Anda ingin menghapus dokumen yang tidak lagi diperlukan secara otomatis.AUTO_GENERATE_IDS
: optional. Menentukan apakah ID dokumen akan dibuat secara otomatis. Jika disetel ketrue
, ID dokumen dibuat berdasarkan hash payload. Perhatikan bahwa ID dokumen yang dibuat mungkin tidak tetap konsisten selama beberapa kali impor. Jika Anda membuat ID secara otomatis di beberapa impor, Google sangat merekomendasikan agar Anda menyetelreconciliationMode
keFULL
untuk mempertahankan ID dokumen yang konsisten.ID_FIELD
: optional. Menentukan kolom mana yang merupakan ID dokumen.
Python
Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Aplikasi AI.
Untuk melakukan autentikasi ke Aplikasi AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Membuat penyimpanan data
Mengimpor dokumen
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Mengupload data JSON terstruktur dengan API
Untuk mengupload dokumen atau objek JSON secara langsung menggunakan API, ikuti langkah-langkah berikut.
Sebelum mengimpor data Anda, Siapkan data untuk penyerapan.
REST
Untuk menggunakan command line guna membuat penyimpanan data dan mengimpor data JSON terstruktur, ikuti langkah-langkah berikut.
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DATA_STORE_DISPLAY_NAME
: nama tampilan penyimpanan data Vertex AI Search yang ingin Anda buat.
Mengimpor data terstruktur.
Ada beberapa pendekatan yang dapat Anda gunakan untuk mengupload data, termasuk:
Upload dokumen JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Ganti kode berikut:
DOCUMENT_ID
: ID unik untuk dokumen. ID ini dapat memiliki panjang hingga 63 karakter dan hanya berisi huruf kecil, angka, garis bawah, dan tanda hubung.JSON_DOCUMENT_STRING
: dokumen JSON sebagai satu string. Nilai ini harus sesuai dengan skema JSON yang Anda berikan di langkah sebelumnya—misalnya:{ \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"}
Upload objek JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Ganti
JSON_DOCUMENT_OBJECT
dengan dokumen JSON sebagai objek JSON. Nilai ini harus sesuai dengan skema JSON yang Anda berikan di langkah sebelumnya—misalnya:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Perbarui dengan dokumen JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Perbarui dengan objek JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Langkah berikutnya
Untuk melampirkan penyimpanan data ke aplikasi, buat aplikasi dan pilih penyimpanan data Anda dengan mengikuti langkah-langkah di Membuat aplikasi penelusuran.
Untuk melihat pratinjau tampilan hasil penelusuran setelah aplikasi dan penyimpanan data disiapkan, lihat Mendapatkan hasil penelusuran.
Memecahkan masalah penyerapan data
Jika Anda mengalami masalah terkait penyerapan data, tinjau tips berikut:
Jika Anda menggunakan kunci enkripsi yang dikelola pelanggan dan impor data gagal (dengan pesan error
The caller does not have permission
), pastikan peran IAM Pengenkripsi/Pendekripsi CryptoKey (roles/cloudkms.cryptoKeyEncrypterDecrypter
) pada kunci telah diberikan kepada agen layanan Cloud Storage. Untuk mengetahui informasi selengkapnya, lihat Sebelum memulai di "Kunci enkripsi yang dikelola pelanggan".Jika Anda menggunakan pengindeksan situs tingkat lanjut dan Penggunaan dokumen untuk penyimpanan data jauh lebih rendah dari yang Anda harapkan, tinjau pola URL yang Anda tentukan untuk pengindeksan dan pastikan pola URL yang ditentukan mencakup halaman yang ingin Anda indeks dan perluas jika diperlukan. Misalnya, jika Anda menggunakan
*.en.example.com/*
, Anda mungkin perlu menambahkan*.example.com/*
ke situs yang ingin diindeks.
Membuat penyimpanan data menggunakan Terraform
Anda dapat menggunakan Terraform untuk membuat penyimpanan data kosong. Setelah penyimpanan data kosong dibuat, Anda dapat memasukkan data ke dalam penyimpanan data menggunakan perintah Google Cloud konsol atau API.
Untuk mempelajari cara menerapkan atau menghapus konfigurasi Terraform, lihat Perintah dasar Terraform.
Untuk membuat penyimpanan data kosong menggunakan Terraform, lihat
google_discovery_engine_data_store
.