Halaman ini menjelaskan cara membuat penyimpanan data untuk media dan mengimpor data ke dalamnya.
Sebelum memulai
Pastikan Anda melakukan hal berikut:
Tinjau konsep yang terkait dengan data dan skema media:
Tentukan apakah Anda menggunakan skema Google standar untuk data media atau skema Anda sendiri.
Jika Anda menggunakan skema Anda sendiri, pastikan skema Anda memiliki kolom yang dipetakan dengan baik ke properti kunci media:
title
,url
,category
, dan seterusnya.Masukkan dokumen media Anda ke dalam skema JSON dan upload data ke BigQuery atau Cloud Storage.
Tinjau Tentang peristiwa pengguna dan persiapkan peristiwa pengguna Anda untuk diimpor. Peristiwa pengguna diperlukan untuk rekomendasi media dan direkomendasikan untuk penelusuran media.
Pilih prosedur sesuai sumber data Anda
Untuk membuat penyimpanan data media dan mengimpor dokumen, buka bagian untuk sumber yang ingin Anda gunakan:
Impor dari BigQuery
Konsol
Untuk menggunakan konsol Google Cloud guna membuat penyimpanan data media dan mengimpor dokumen serta peristiwa pengguna dari BigQuery, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Agent Builder.
Buka halaman Penyimpanan Data.
Klik Create data store.
Di halaman Source, pilih BigQuery.
Pilih Media - Tabel BigQuery dengan data media terstruktur sebagai jenis data yang Anda impor.
Di kolom BigQuery path, klik Browse, pilih data BigQuery yang telah Anda siapkan untuk ditransfer, lalu klik Select. Atau, masukkan lokasi langsung di kolom BigQuery path.
Jika data Anda ada dalam skema Google standar, pilih Skema standar Google, klik Lanjutkan, lalu lanjutkan ke langkah 11.
Jika data Anda ada dalam skema Anda sendiri, pilih Skema kustom, lalu klik Lanjutkan.
Tinjau skema yang terdeteksi dan gunakan menu Key properties untuk menetapkan properti ke kolom skema Anda.
Klik Lanjutkan.
Anda tidak dapat melanjutkan hingga properti kunci yang diperlukan dipetakan, yang ditunjukkan dengan tanda centang hijau
, bukan tanda peringatan oranye .Masukkan nama untuk penyimpanan data Anda, lalu klik Create.
Mengimpor dari Cloud Storage
Konsol
Untuk menggunakan konsol Google Cloud guna membuat penyimpanan data media dan mengimpor dokumen dari Cloud Storage, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Agent Builder.
Buka halaman Penyimpanan Data.
Klik Create data store.
Di halaman Source, pilih Cloud Storage.
Pilih Data media terstruktur (JSONL yang berisi file media) sebagai jenis data yang Anda impor.
Di bagian Pilih folder atau file yang ingin Anda impor, pilih Folder atau File.
Klik Browse dan pilih data yang telah Anda siapkan untuk ditransfer, lalu klik Select. Atau, masukkan lokasi secara langsung di kolom
gs://
.Jika data Anda ada dalam skema Google standar, pilih Skema standar Google, klik Lanjutkan, lalu lanjutkan ke langkah 11.
Jika data Anda ada dalam skema Anda sendiri, pilih Skema kustom, lalu klik Lanjutkan.
Tinjau skema yang terdeteksi dan gunakan menu Key properties untuk menetapkan properti ke kolom skema Anda.
Klik Lanjutkan.
Anda tidak dapat melanjutkan hingga properti kunci yang diperlukan dipetakan, yang ditunjukkan dengan tanda centang hijau
, bukan tanda peringatan oranye .Masukkan nama untuk penyimpanan data Anda, lalu klik Create.
Mengimpor dokumen menggunakan API
Jika menggunakan skema standar Google, Anda dapat mengimpor dokumen dengan membuat permintaan POST
ke metode REST Documents:import
, menggunakan objek InlineSource
untuk menentukan data Anda.
Untuk contoh format dokumen JSON, lihat Format dokumen JSON.
Persyaratan impor
Berikut adalah persyaratan untuk mengimpor dokumen media menggunakan API:
Setiap dokumen harus berada di barisnya masing-masing.
Jumlah maksimum dokumen dalam satu impor adalah 100.
Prosedur
Untuk mengimpor dokumen media menggunakan API, lakukan hal berikut:
Buat penyimpanan data.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "MEDIA" }'
Ganti kode berikut:
PROJECT_ID
: ID project Google Cloud Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DATA_STORE_DISPLAY_NAME
: nama tampilan penyimpanan data Vertex AI Search yang ingin Anda buat.
Buat file JSON untuk dokumen Anda dan beri nama
./data.json
:{ "inlineSource": { "documents": [ { DOCUMENT_1 }, { DOCUMENT_2 } ] } }
Panggil metode POST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data @./data.json \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
- PROJECT_ID: ID project Anda.
- DATA_STORE_ID: ID penyimpanan data Anda.
Format dokumen JSON
Contoh berikut menunjukkan entri Document
dalam format JSON.
Berikan seluruh dokumen dalam satu baris. Setiap dokumen harus berada di barisnya sendiri.
Kolom minimum yang wajib diisi:
{ "id": "sample-01", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Objek lengkap:
{ "id": "child-sample-0", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Memantau impor dan melihat data
Untuk memeriksa status penyerapan, buka halaman Penyimpanan Data dan klik nama penyimpanan data untuk melihat detailnya di halaman Data.
Klik tab Aktivitas.
Jika kolom status di tab Aktivitas berubah dari Sedang berlangsung menjadi Impor selesai, penyerapan akan selesai.
Bergantung pada ukuran data Anda, proses transfer dapat memerlukan waktu beberapa menit atau beberapa jam.
Klik Dokumen untuk melihat data yang Anda impor.
Mengimpor peristiwa pengguna
Peristiwa pengguna diperlukan jika Anda ingin menggunakan penyimpanan data dengan aplikasi rekomendasi media.
Meskipun peristiwa pengguna tidak diperlukan untuk aplikasi penelusuran media, sertakan peristiwa pengguna untuk mendapatkan hasil penelusuran yang lebih berkualitas.
Untuk mengimpor peristiwa pengguna ke penyimpanan data media:
- Ikuti petunjuk di Mengimpor peristiwa pengguna historis.
Langkah selanjutnya
Buat aplikasi rekomendasi media atau aplikasi penelusuran media.
Pastikan data dokumen Anda selalu diperbarui.
Idealnya, Anda harus memperbarui penyimpanan data setiap hari, dengan mengimpor data baru. Menjadwalkan impor berkala akan mencegah kualitas model menurun seiring waktu. Anda dapat menggunakan Google Cloud Scheduler untuk mengotomatiskan impor.
Anda hanya dapat memperbarui dokumen baru atau yang telah diubah, atau Anda dapat mengimpor seluruh penyimpanan data. Jika Anda mengimpor dokumen yang sudah ada di penyimpanan data, dokumen tersebut tidak akan ditambahkan lagi. Setiap dokumen yang telah diubah akan diperbarui.
Pastikan data peristiwa pengguna Anda selalu diperbarui.
Anda harus memastikan agar peristiwa pengguna tetap aktual. Aplikasi rekomendasi berhenti berfungsi jika tidak ada cukup peristiwa pengguna baru untuk memenuhi persyaratan data.
Untuk informasi tentang cara mengimpor data peristiwa pengguna secara real-time, lihat Merekam peristiwa pengguna real-time.
Untuk informasi tentang cara memantau persyaratan peristiwa pengguna, lihat Memeriksa kualitas data untuk rekomendasi media.