Fitur set data Insight Penyimpanan membantu Anda memahami, mengatur, dan mengelola data dalam skala besar. Anda dapat memilih organisasi, atau satu atau beberapa project atau folder yang berisi bucket dan objek yang ingin Anda perbarui metadatanya. Indeks metadata yang dapat dikueri untuk bucket dan objek yang disertakan dalam project tersebut, tersedia sebagai set data tertaut BigQuery.
Jika Anda ingin mendapatkan insight untuk resource Cloud Storage yang diekspor ke BigQuery, gunakan set data Storage Insights. Insight ini dapat membantu Anda dalam eksplorasi data, pengoptimalan biaya, penerapan keamanan, dan implementasi tata kelola. Set data Storage Insights adalah fitur eksklusif yang hanya tersedia melalui langganan Storage Intelligence.
Ringkasan
Set data Storage Insights adalah snapshot bergulir metadata untuk semua bucket dan objek dalam satu atau beberapa project sumber yang ditentukan dalam organisasi. Informasi yang diberikan oleh set data memungkinkan Anda memahami dan mengaudit data Cloud Storage secara rutin dengan lebih baik.
Untuk membuat set data, Anda harus membuat konfigurasi set data terlebih dahulu dalam project. Anda dapat memilih organisasi, atau satu atau beberapa project atau folder yang berisi bucket dan objek yang ingin Anda lihat metadatanya. Konfigurasi set data membuat set data setiap hari. Konfigurasi set data dan set data adalah resource yang disimpan dalam Cloud Storage.
Untuk melihat set data, Anda harus menautkan set data ke BigQuery terlebih dahulu.
Properti konfigurasi set data
Saat membuat konfigurasi set data, Anda menetapkan properti set data ini. Anda mungkin memerlukan waktu hingga 48 jam untuk melihat data pertama yang diisi sebagai set data tertaut di BigQuery setelah mengonfigurasi set data. Setiap objek atau bucket yang baru ditambahkan akan disertakan dalam snapshot harian berikutnya.
Nama: nama yang digunakan untuk merujuk set data. Nama digunakan sebagai ID konfigurasi set data dan tidak dapat diubah setelah konfigurasi dibuat. Nama berisi hingga 128 karakter menggunakan huruf, angka, dan garis bawah. Nama harus diawali dengan huruf.
Deskripsi (opsional): deskripsi set data. Anda dapat mengedit deskripsi kapan saja.
Cakupan set data: kolom wajib diisi yang menentukan organisasi, project, atau folder yang berisi bucket dan objek yang metadatanya Anda inginkan. Anda dapat menentukan project atau folder satu per satu atau sebagai file CSV, dengan setiap project atau nomor folder pada baris terpisah. Anda dapat menentukan hingga 10.000 project atau folder dalam satu konfigurasi set data. Set data dikonfigurasi untuk cakupan set data yang ditentukan. Hanya satu cakupan set data yang dapat ditentukan untuk setiap konfigurasi set data. Anda dapat memperbarui cakupan set data saat mengedit konfigurasi set data.
Filter bucket (opsional): filter yang digunakan untuk menyertakan dan mengecualikan bucket tertentu dari set data menurut nama bucket atau menurut wilayah.
Periode retensi data: jumlah hari saat set data mengambil dan menyimpan data, termasuk tanggal pembuatan set data. Kumpulan data diperbarui dengan metadata setiap 24 jam dan dapat menyimpan data hingga 90 hari. Data yang diambil di luar periode retensi akan otomatis dihapus. Misalnya, Anda memiliki set data yang dibuat pada 1 Oktober 2023 dengan jangka waktu retensi yang ditetapkan ke 30. Pada 30 Oktober, set data akan mencerminkan data 30 hari terakhir, dari 1 Oktober hingga 30 Oktober. Pada 31 Oktober, set data akan mencerminkan data dari 2 Oktober hingga 31 Oktober. Anda dapat mengubah periode retensi kapan saja.
Lokasi: lokasi untuk menyimpan set data dan datanya. Contoh,
us-central1
. Lokasi harus didukung oleh BigQuery. Sebaiknya pilih lokasi tabel BigQuery Anda, jika Anda memilikinya.Jenis agen layanan: agen layanan cakupan konfigurasi atau agen layanan cakupan project.
Membuat konfigurasi set data akan menyediakan agen layanan untuk Anda. Untuk membaca set data, agen layanan harus diberi izin yang diperlukan untuk membaca data dari bucket Cloud Storage.
Agen layanan cakupan project dapat mengakses dan menulis set data yang dihasilkan dari semua konfigurasi set data dalam project. Misalnya, jika Anda memiliki beberapa konfigurasi set data dalam project, maka Anda hanya perlu memberikan izin yang diperlukan kepada agen layanan yang tercakup dalam project sekali agar ia dapat membaca dan menulis set data untuk semua konfigurasi set data dalam project. Untuk mengetahui informasi selengkapnya tentang izin yang diperlukan untuk membaca dan menulis set data, lihat Izin. Jika konfigurasi set data dihapus, agen layanan cakupan project tidak akan dihapus.
Agen layanan cakupan konfigurasi hanya dapat mengakses dan menulis set data yang dihasilkan oleh konfigurasi set data tertentu. Artinya, jika Anda memiliki beberapa konfigurasi set data, Anda harus memberikan izin yang diperlukan kepada setiap agen layanan yang tercakup dalam konfigurasi. Jika konfigurasi set data dihapus, agen layanan yang tercakup dalam konfigurasi akan dihapus.
Tautkan set data ke BigQuery setelah membuat konfigurasi set data. Menautkan set data ke BigQuery akan membuat set data tertaut di BigQuery untuk kueri. Anda dapat menautkan atau membatalkan tautan set data kapan saja.
Untuk mengetahui informasi selengkapnya tentang properti yang Anda tetapkan saat membuat atau memperbarui konfigurasi set data, lihat resource DatasetConfigs di dokumentasi JSON API.
Lokasi yang didukung
Lokasi BigQuery berikut didukung untuk membuat set data tertaut:
EU
US
asia-southeast1
europe-west1
us-central1
us-east1
us-east4
Skema metadata set data
Kolom metadata berikut disertakan dalam set data. Untuk mengetahui informasi selengkapnya tentang mode kolom BigQuery, lihat Mode. Mode kolom menentukan cara BigQuery menyimpan dan mengkueri data.
Kolom snapshotTime
menyimpan waktu refresh snapshot metadata bucket
dalam format RFC 3339.
Metadata bucket
Kecuali jika dinyatakan lain, Anda dapat menemukan deskripsi yang lebih mendetail tentang kolom metadata bucket berikut dengan merujuk ke Representasi resource bucket untuk JSON API.
Kolom metadata | Mode | Jenis |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
name |
NULLABLE |
STRING |
location |
NULLABLE |
STRING |
project |
NULLABLE |
INTEGER |
storageClass |
NULLABLE |
STRING |
versioning |
NULLABLE |
BOOLEAN |
lifecycle |
NULLABLE |
BOOLEAN |
metageneration |
NULLABLE |
INTEGER |
timeCreated |
NULLABLE |
TIMESTAMP |
public |
NULLABLE |
RECORD |
public.bucketPolicyOnly |
NULLABLE |
BOOLEAN |
public.publicAccessPrevention |
NULLABLE |
STRING |
autoclass |
NULLABLE |
RECORD |
autoclass.enabled |
NULLABLE |
BOOLEAN |
autoclass.toggleTime |
NULLABLE |
TIMESTAMP |
softDeletePolicy |
NULLABLE |
OBJECT |
softDeletePolicy.effectiveTime |
NULLABLE |
DATETIME |
softDeletePolicy.retentionDurationSeconds |
NULLABLE |
LONG |
tags* |
NULLABLE |
RECORD |
tags.lastUpdatedTime |
NULLABLE |
TIMESTAMP |
tags.tagMap |
REPEATED |
RECORD |
tags.tagMap.key |
NULLABLE |
STRING |
tags.tagMap.value |
NULLABLE |
STRING |
labels |
REPEATED |
RECORD |
labels.key |
NULLABLE |
STRING |
labels.value |
NULLABLE |
STRING |
* Tag bucket. Untuk mengetahui informasi selengkapnya, lihat Cloud Resource Manager API.
Metadata objek
Kecuali jika dinyatakan lain, Anda dapat menemukan deskripsi yang lebih mendetail tentang kolom metadata objek berikut dengan melihat Representasi resource objek untuk JSON API.
Kolom metadata | Mode | Jenis |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
bucket |
NULLABLE |
STRING |
location |
NULLABLE |
STRING |
componentCount |
NULLABLE |
INTEGER |
contentDisposition |
NULLABLE |
STRING |
contentEncoding |
NULLABLE |
STRING |
contentLanguage |
NULLABLE |
STRING |
contentType |
NULLABLE |
STRING |
crc32c |
NULLABLE |
INTEGER |
customTime |
NULLABLE |
TIMESTAMP |
etag |
NULLABLE |
STRING |
eventBasedHold |
NULLABLE |
BOOLEAN |
generation |
NULLABLE |
INTEGER |
md5Hash |
NULLABLE |
STRING |
mediaLink |
NULLABLE |
STRING |
metageneration |
NULLABLE |
INTEGER |
name |
NULLABLE |
STRING |
selfLink |
NULLABLE |
STRING |
size |
NULLABLE |
INTEGER |
storageClass |
NULLABLE |
STRING |
temporaryHold |
NULLABLE |
BOOLEAN |
timeCreated |
NULLABLE |
TIMESTAMP |
timeDeleted |
NULLABLE |
TIMESTAMP |
updated |
NULLABLE |
TIMESTAMP |
timeStorageClassUpdated |
NULLABLE |
TIMESTAMP |
retentionExpirationTime |
NULLABLE |
TIMESTAMP |
softDeleteTime |
NULLABLE |
DATETIME |
hardDeleteTime |
NULLABLE |
DATETIME |
metadata |
REPEATED |
RECORD |
metadata.key |
NULLABLE |
STRING |
metadata.value |
NULLABLE |
STRING |
Metadata project
Metadata project ditampilkan sebagai tampilan bernama project_attributes_view
di
set data tertaut:
Kolom metadata | Mode | Jenis |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
name |
NULLABLE |
STRING |
id |
NULLABLE |
STRING |
number |
NULLABLE |
NUMBER |
Skema set data untuk peristiwa dan error
Di set data tertaut, Anda juga dapat melihat peristiwa dan
error pemrosesan snapshot dalam tampilan events_view
dan error_attributes_view
. Untuk mempelajari cara
memecahkan masalah error pemrosesan snapshot, lihat Memecahkan masalah error set data.
Log peristiwa
Anda dapat melihat log peristiwa di tampilan events_view
dalam set data tertaut:
Nama kolom | Mode | Jenis | Deskripsi |
---|---|---|---|
manifest.snapshotTime |
NULLABLE |
TIMESTAMP |
Waktu dalam format RFC 3339 saat snapshot peristiwa diperbarui. |
manifest.viewName |
NULLABLE |
STRING |
Nama tampilan yang di-refresh. |
manifest.location |
NULLABLE |
STRING |
Lokasi sumber data yang diperbarui. |
eventTime |
NULLABLE |
STRING |
Waktu terjadinya acara. |
eventCode |
NULLABLE |
STRING |
Kode peristiwa yang terkait dengan entri yang sesuai. Kode peristiwa
1 mengacu pada tampilan manifest.viewName yang dimuat ulang dengan semua
entri untuk lokasi sumber manifest.location dalam snapshot
manifest.snapshotTime . |
Kode error
Anda dapat melihat kode error di tampilan error_attributes_view
dalam set data tertaut:
Nama kolom | Mode | Jenis | Deskripsi |
---|---|---|---|
errorCode |
NULLABLE |
INTEGER |
Kode error yang terkait dengan entri ini. Untuk mengetahui daftar nilai yang valid dan cara menyelesaikannya, lihat Memecahkan masalah error set data. |
errorSource |
NULLABLE |
STRING |
Sumber error. Nilai yang valid: CONFIGURATION_PREPROCESSING . |
errorTime |
NULLABLE |
TIMESTAMP |
Waktu terjadinya error. |
sourceGcsLocation |
NULLABLE |
STRING |
Lokasi Cloud Storage sumber error. Untuk project, kolom ini bernilai null karena project tidak memiliki lokasi. |
bucketErrorRecord.bucketName |
NULLABLE |
STRING |
Nama bucket yang terlibat dalam error. Anda dapat menggunakan informasi ini untuk men-debug error bucket. |
bucketErrorRecord.serviceAccount |
NULLABLE |
STRING |
Akun layanan yang memerlukan izin untuk menyerap objek dari bucket. Anda dapat menggunakan informasi ini untuk men-debug error bucket. |
projectErrorRecord.projectNumber |
NULLABLE |
INTEGER |
Jumlah project yang terlibat dalam error. Anda dapat menggunakan informasi ini untuk men-debug error project. |
projectErrorRecord.organizationName |
NULLABLE |
STRING |
Jumlah organisasi yang harus dimiliki project agar dapat diproses. Nilai 0 menunjukkan bahwa set data tidak ada di organisasi. Anda dapat menggunakan informasi ini untuk men-debug error project. |
Memecahkan masalah error set data
Untuk mempelajari cara memecahkan masalah error pemrosesan snapshot yang dicatat ke dalam
tampilan error_attributes_view
di set data tertaut, lihat tabel berikut:
Kode Error | Kasus Error | Pesan Error | Pemecahan masalah |
---|---|---|---|
1 | Project sumber tidak termasuk dalam organisasi | Project sumber projectErrorRecord.projectNumber bukan milik organisasi projectErrorRecord.organizationName . |
Tambahkan project sumber projectErrorRecord.projectNumber ke organisasi projectErrorRecord.organizationName . Untuk mengetahui petunjuk tentang cara memigrasikan project antar-organisasi, lihat Memigrasikan project antar-organisasi. |
2 | Error otorisasi bucket | Izin ditolak untuk menyerap objek untuk bucket bucketErrorRecord.bucketName . |
Berikan izin Identity and Access Management (IAM) bucketErrorRecord.serviceAccount akun layanan untuk mengizinkan penyerapan objek untuk bucket bucketErrorRecord.bucketName . Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan ke agen layanan. |
3 | Project tujuan bukan milik organisasi | Project tujuan projectErrorRecord.projectNumber tidak ada di organisasi projectErrorRecord.organizationName . |
Tambahkan project tujuan projectErrorRecord.projectNumber ke organisasi projectErrorRecord.organizationName . Untuk mengetahui petunjuk tentang cara memigrasikan project antar-organisasi, lihat Memigrasikan project antar-organisasi. |
4 | Project sumber tidak mengonfigurasi Storage Intelligence. | Project sumber projectErrorRecord.projectNumber tidak mengonfigurasi Storage Intelligence. |
Konfigurasi Storage Intelligence untuk project sumber projectErrorRecord.projectNumber . Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi dan mengelola Storage Intelligence. |
5 | Bucket tidak mengonfigurasi Storage Intelligence. | Bucket bucketErrorRecord.bucketName tidak memiliki Storage Intelligence yang dikonfigurasi. |
Konfigurasi Storage Intelligence untuk bucket bucketErrorRecord.bucketName . Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi dan mengelola Storage Intelligence. |
Pertimbangan
Pertimbangkan hal berikut untuk konfigurasi set data:
Saat Anda mengganti nama folder di bucket dengan namespace hierarkis diaktifkan, nama objek di bucket tersebut akan diperbarui. Saat diserap oleh set data tertaut, snapshot objek ini dianggap sebagai entri baru dalam set data tertaut.
Set data hanya didukung di lokasi BigQuery berikut.
Langkah berikutnya
- Menggunakan set data Insight Penyimpanan.
- Pelajari Kecerdasan Penyimpanan.
- Jalankan kueri SQL pada set data di BigQuery.
- Pelajari analisis BigQuery.