Fitur set data Insight Penyimpanan membantu Anda memahami, mengatur, dan mengelola data dalam skala besar. Anda dapat memilih organisasi, atau satu atau beberapa project atau folder yang berisi bucket dan objek yang metadata-nya ingin Anda perbarui. Indeks metadata yang dapat dikueri untuk bucket dan objek yang disertakan dalam project tersebut tersedia sebagai set data tertaut BigQuery.
Jika Anda ingin mendapatkan insight untuk resource Cloud Storage yang diekspor ke BigQuery, gunakan set data Storage Insights. Insight ini dapat membantu Anda dalam eksplorasi data, pengoptimalan biaya, penerapan keamanan, dan penerapan tata kelola. Set data Storage Insights adalah fitur eksklusif yang hanya tersedia melalui langganan Storage Intelligence.
Ringkasan
Set data Storage Insights adalah snapshot metadata berkelanjutan untuk semua bucket dan objek dalam satu atau beberapa project sumber yang ditentukan dalam organisasi. Informasi yang diberikan oleh set data memungkinkan Anda memahami dan mengaudit data Cloud Storage secara rutin dengan lebih baik.
Untuk membuat set data, Anda harus membuat konfigurasi set data terlebih dahulu dalam project. Anda dapat memilih organisasi, atau satu atau beberapa project atau folder yang berisi bucket dan objek yang metadatanya ingin Anda lihat. Konfigurasi set data membuat set data setiap hari. Konfigurasi set data dan set data adalah resource yang disimpan dalam Cloud Storage.
Untuk melihat set data, Anda harus menautkan set data ke BigQuery terlebih dahulu.
Properti konfigurasi set data
Saat membuat konfigurasi set data, Anda menetapkan properti set data berikut:
Nama: nama yang digunakan untuk mereferensikan set data. Nama digunakan sebagai ID konfigurasi set data dan tidak dapat diubah setelah konfigurasi dibuat. Nama ini berisi maksimal 128 karakter menggunakan huruf, angka, dan garis bawah. Nama harus diawali dengan huruf.
Deskripsi (opsional): deskripsi set data. Anda dapat mengedit deskripsi kapan saja.
Cakupan set data: organisasi, project, atau folder yang berisi bucket dan objek yang metadatanya Anda inginkan. Anda dapat menentukan project atau folder satu per satu atau sebagai file CSV, dengan setiap nomor project atau folder di baris terpisah. Anda dapat menentukan hingga 10.000 project atau folder dalam satu konfigurasi set data.
Filter bucket (opsional): filter yang digunakan untuk menyertakan dan mengecualikan bucket tertentu dari set data berdasarkan nama bucket atau menurut wilayah.
Periode retensi data: jumlah hari yang digunakan set data untuk mengambil dan menyimpan data, termasuk tanggal pembuatan set data. Set data diperbarui dengan metadata setiap 24 jam dan dapat menyimpan data hingga 90 hari. Data yang diambil di luar periode retensi akan otomatis dihapus. Misalnya, Anda memiliki set data yang dibuat pada 1 Oktober 2023 dengan periode retensi yang ditetapkan ke 30. Pada 30 Oktober, set data akan mencerminkan data selama 30 hari terakhir, dari 1 Oktober hingga 30 Oktober. Pada 31 Oktober, set data akan mencerminkan data dari 2 Oktober hingga 31 Oktober. Anda dapat mengubah periode retensi kapan saja.
Lokasi: lokasi untuk menyimpan set data dan datanya. Contoh,
us-central1
. Lokasi harus didukung oleh BigQuery. Sebaiknya pilih lokasi tabel BigQuery, jika ada.Jenis agen layanan: agen layanan cakupan konfigurasi atau agen layanan cakupan project.
Membuat konfigurasi set data akan menyediakan agen layanan untuk Anda. Untuk membaca set data, agen layanan harus diberi izin yang diperlukan untuk membaca data dari bucket Cloud Storage.
Agen layanan cakupan project dapat mengakses dan menulis set data yang dihasilkan dari semua konfigurasi set data dalam project. Misalnya, jika Anda memiliki beberapa konfigurasi set data dalam project, Anda hanya perlu memberikan izin yang diperlukan ke agen layanan cakupan project satu kali agar dapat membaca dan menulis set data untuk semua konfigurasi set data dalam project. Untuk informasi selengkapnya tentang izin yang diperlukan untuk membaca dan menulis set data, lihat Izin. Saat konfigurasi set data dihapus, agen layanan cakupan project tidak akan dihapus.
Agen layanan cakupan konfigurasi hanya dapat mengakses dan menulis set data yang dihasilkan oleh konfigurasi set data tertentu. Artinya, jika memiliki beberapa konfigurasi set data, Anda harus memberikan izin yang diperlukan ke setiap agen layanan cakupan konfigurasi. Saat konfigurasi set data dihapus, agen layanan cakupan konfigurasi akan dihapus.
Tautkan set data ke BigQuery setelah membuat konfigurasi set data. Menautkan set data ke BigQuery akan membuat set data tertaut di BigQuery untuk kueri. Anda dapat menautkan atau membatalkan tautan set data kapan saja.
Untuk informasi selengkapnya tentang properti yang Anda tetapkan saat membuat atau memperbarui konfigurasi set data, lihat resource DatasetConfigs dalam dokumentasi JSON API.
Lokasi yang didukung
Lokasi BigQuery berikut didukung untuk membuat set data tertaut:
EU
US
asia-southeast1
europe-west1
us-central1
us-east1
us-east4
Skema metadata set data
Kolom metadata berikut disertakan dalam set data. Untuk mengetahui informasi selengkapnya tentang mode kolom BigQuery, lihat Mode. Mode kolom menentukan cara BigQuery menyimpan dan membuat kueri data.
Kolom snapshotTime
menyimpan waktu pembaruan snapshot metadata bucket
dalam format RFC 3339.
Metadata bucket
Kecuali jika dinyatakan lain, Anda dapat menemukan deskripsi yang lebih mendetail tentang kolom metadata bucket berikut dengan melihat Representasi resource bucket untuk JSON API.
Kolom metadata | Mode | Jenis |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
name |
NULLABLE |
STRING |
location |
NULLABLE |
STRING |
project |
NULLABLE |
INTEGER |
storageClass |
NULLABLE |
STRING |
versioning |
NULLABLE |
BOOLEAN |
lifecycle |
NULLABLE |
BOOLEAN |
metageneration |
NULLABLE |
INTEGER |
timeCreated |
NULLABLE |
TIMESTAMP |
public |
NULLABLE |
RECORD |
public.bucketPolicyOnly |
NULLABLE |
BOOLEAN |
public.publicAccessPrevention |
NULLABLE |
STRING |
autoclass |
NULLABLE |
RECORD |
autoclass.enabled |
NULLABLE |
BOOLEAN |
autoclass.toggleTime |
NULLABLE |
TIMESTAMP |
softDeletePolicy |
NULLABLE |
OBJECT |
softDeletePolicy.effectiveTime |
NULLABLE |
DATETIME |
softDeletePolicy.retentionDurationSeconds |
NULLABLE |
LONG |
tags* |
NULLABLE |
RECORD |
tags.lastUpdatedTime |
NULLABLE |
TIMESTAMP |
tags.tagMap |
REPEATED |
RECORD |
tags.tagMap.key |
NULLABLE |
STRING |
tags.tagMap.value |
NULLABLE |
STRING |
labels |
REPEATED |
RECORD |
labels.key |
NULLABLE |
STRING |
labels.value |
NULLABLE |
STRING |
* Tag bucket. Untuk informasi selengkapnya, lihat Cloud Resource Manager API.
Metadata objek
Kecuali jika dinyatakan lain, Anda dapat menemukan deskripsi yang lebih mendetail tentang kolom metadata objek berikut dengan merujuk ke Representasi resource objek untuk JSON API.
Kolom metadata | Mode | Jenis |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
bucket |
NULLABLE |
STRING |
location |
NULLABLE |
STRING |
componentCount |
NULLABLE |
INTEGER |
contentDisposition |
NULLABLE |
STRING |
contentEncoding |
NULLABLE |
STRING |
contentLanguage |
NULLABLE |
STRING |
contentType |
NULLABLE |
STRING |
crc32c |
NULLABLE |
INTEGER |
customTime |
NULLABLE |
TIMESTAMP |
etag |
NULLABLE |
STRING |
eventBasedHold |
NULLABLE |
BOOLEAN |
generation |
NULLABLE |
INTEGER |
md5Hash |
NULLABLE |
STRING |
mediaLink |
NULLABLE |
STRING |
metageneration |
NULLABLE |
INTEGER |
name |
NULLABLE |
STRING |
selfLink |
NULLABLE |
STRING |
size |
NULLABLE |
INTEGER |
storageClass |
NULLABLE |
STRING |
temporaryHold |
NULLABLE |
BOOLEAN |
timeCreated |
NULLABLE |
TIMESTAMP |
timeDeleted |
NULLABLE |
TIMESTAMP |
updated |
NULLABLE |
TIMESTAMP |
timeStorageClassUpdated |
NULLABLE |
TIMESTAMP |
retentionExpirationTime |
NULLABLE |
TIMESTAMP |
softDeleteTime |
NULLABLE |
DATETIME |
hardDeleteTime |
NULLABLE |
DATETIME |
metadata |
REPEATED |
RECORD |
metadata.key |
NULLABLE |
STRING |
metadata.value |
NULLABLE |
STRING |
Metadata project
Metadata project ditampilkan sebagai tampilan bernama project_attributes_view
dalam set data tertaut:
Kolom metadata | Mode | Jenis |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
name |
NULLABLE |
STRING |
id |
NULLABLE |
STRING |
number |
NULLABLE |
NUMBER |
Skema set data untuk peristiwa dan error
Dalam set data tertaut, Anda juga dapat melihat peristiwa pemrosesan snapshot dan error di tampilan events_view
dan error_attributes_view
. Untuk mempelajari cara
memecahkan masalah error pemrosesan snapshot, lihat Memecahkan masalah error set data.
Log peristiwa
Anda dapat melihat log aktivitas di tampilan events_view
dalam set data tertaut:
Nama kolom | Mode | Jenis | Deskripsi |
---|---|---|---|
manifest.snapshotTime |
NULLABLE |
TIMESTAMP |
Waktu dalam format RFC 3339 saat snapshot peristiwa diperbarui. |
manifest.viewName |
NULLABLE |
STRING |
Nama tampilan yang dimuat ulang. |
manifest.location |
NULLABLE |
STRING |
Lokasi sumber data yang diperbarui. |
eventTime |
NULLABLE |
STRING |
Waktu terjadinya peristiwa. |
eventCode |
NULLABLE |
STRING |
Kode peristiwa yang terkait dengan entri yang sesuai. Kode peristiwa
1 mengacu pada tampilan manifest.viewName yang dimuat ulang dengan semua
entri untuk lokasi sumber manifest.location dalam snapshot
manifest.snapshotTime . |
Kode error
Anda dapat melihat kode error di tampilan error_attributes_view
dalam set data tertaut:
Nama kolom | Mode | Jenis | Deskripsi |
---|---|---|---|
errorCode |
NULLABLE |
INTEGER |
Kode error yang terkait dengan entri ini. Untuk mengetahui daftar nilai yang valid dan cara mengatasinya, lihat Memecahkan masalah error set data. |
errorSource |
NULLABLE |
STRING |
Sumber error. Nilai yang valid: CONFIGURATION_PREPROCESSING . |
errorTime |
NULLABLE |
TIMESTAMP |
Waktu terjadinya error. |
sourceGcsLocation |
NULLABLE |
STRING |
Lokasi Cloud Storage sumber error. Untuk project, kolom ini bernilai null karena tidak memiliki lokasi. |
bucketErrorRecord.bucketName |
NULLABLE |
STRING |
Nama bucket yang terlibat dalam error. Anda dapat menggunakan informasi ini untuk men-debug error bucket. |
bucketErrorRecord.serviceAccount |
NULLABLE |
STRING |
Akun layanan yang memerlukan izin untuk menyerap objek dari bucket. Anda dapat menggunakan informasi ini untuk men-debug error bucket. |
projectErrorRecord.projectNumber |
NULLABLE |
INTEGER |
Nomor project yang terlibat dalam error. Anda dapat menggunakan informasi ini untuk men-debug error project. |
projectErrorRecord.organizationName |
NULLABLE |
STRING |
Nomor organisasi yang harus dimiliki project agar dapat diproses. Nilai 0 menunjukkan bahwa set data tidak ada di organisasi. Anda dapat menggunakan informasi ini untuk men-debug error project. |
Memecahkan masalah error set data
Untuk mempelajari cara memecahkan masalah error pemrosesan snapshot yang dicatat ke dalam log di tampilan error_attributes_view
dalam set data tertaut, lihat tabel berikut:
Kode Error | Kasus Error | Pesan Error | Pemecahan masalah |
---|---|---|---|
1 | Project sumber bukan milik organisasi | Project sumber projectErrorRecord.projectNumber bukan milik organisasi projectErrorRecord.organizationName . |
Tambahkan project sumber projectErrorRecord.projectNumber ke organisasi projectErrorRecord.organizationName . Untuk petunjuk tentang cara memigrasikan project antar-organisasi, lihat Memigrasikan project antar-organisasi. |
2 | Error otorisasi bucket | Izin ditolak untuk menyerap objek untuk bucket bucketErrorRecord.bucketName . |
Berikan izin Identity and Access Management (IAM) bucketErrorRecord.serviceAccount akun layanan untuk mengizinkan penyerapan objek untuk bucket bucketErrorRecord.bucketName . Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan ke agen layanan. |
3 | Project tujuan bukan milik organisasi | Project tujuan projectErrorRecord.projectNumber tidak ada di organisasi projectErrorRecord.organizationName . |
Tambahkan project tujuan projectErrorRecord.projectNumber ke organisasi projectErrorRecord.organizationName . Untuk petunjuk tentang cara memigrasikan project antar-organisasi, lihat Memigrasikan project antar-organisasi. |
4 | Project sumber tidak memiliki Storage Intelligence yang dikonfigurasi. | Project sumber projectErrorRecord.projectNumber tidak memiliki Storage Intelligence yang dikonfigurasi. |
Konfigurasikan Storage Intelligence untuk project sumber projectErrorRecord.projectNumber . Untuk informasi selengkapnya, lihat Mengonfigurasi dan mengelola Storage Intelligence. |
5 | Bucket tidak memiliki Storage Intelligence yang dikonfigurasi. | Bucket bucketErrorRecord.bucketName tidak memiliki Storage Intelligence yang dikonfigurasi. |
Konfigurasikan Storage Intelligence untuk bucket bucketErrorRecord.bucketName . Untuk informasi selengkapnya, lihat Mengonfigurasi dan mengelola Storage Intelligence. |
Pertimbangan
Pertimbangkan hal berikut untuk konfigurasi set data:
Saat Anda mengganti nama folder di bucket dengan namespace hierarkis diaktifkan, nama objek di bucket tersebut akan diperbarui. Saat diserap oleh set data tertaut, snapshot objek ini dianggap sebagai entri baru dalam set data tertaut.
Set data hanya didukung di lokasi BigQuery ini.
Langkah berikutnya
- Menggunakan set data Storage Insights.
- Pelajari Storage Intelligence.
- Menjalankan kueri SQL pada set data di BigQuery.
- Pelajari analisis BigQuery.