Set data Storage Insights

Fitur set data Insight Penyimpanan membantu Anda memahami, mengatur, dan mengelola data dalam skala besar. Anda dapat memilih organisasi, atau satu atau beberapa project atau folder yang berisi bucket dan objek yang metadata-nya ingin Anda perbarui. Indeks metadata yang dapat dikueri untuk bucket dan objek yang disertakan dalam project tersebut tersedia sebagai set data tertaut BigQuery.

Jika Anda ingin mendapatkan insight untuk resource Cloud Storage yang diekspor ke BigQuery, gunakan set data Storage Insights. Insight ini dapat membantu Anda dalam eksplorasi data, pengoptimalan biaya, penerapan keamanan, dan penerapan tata kelola. Set data Storage Insights adalah fitur eksklusif yang hanya tersedia melalui langganan Storage Intelligence.

Ringkasan

Set data Storage Insights adalah snapshot metadata berkelanjutan untuk semua bucket dan objek dalam satu atau beberapa project sumber yang ditentukan dalam organisasi. Informasi yang diberikan oleh set data memungkinkan Anda memahami dan mengaudit data Cloud Storage secara rutin dengan lebih baik.

Untuk membuat set data, Anda harus membuat konfigurasi set data terlebih dahulu dalam project. Anda dapat memilih organisasi, atau satu atau beberapa project atau folder yang berisi bucket dan objek yang metadatanya ingin Anda lihat. Konfigurasi set data membuat set data setiap hari. Konfigurasi set data dan set data adalah resource yang disimpan dalam Cloud Storage.

Untuk melihat set data, Anda harus menautkan set data ke BigQuery terlebih dahulu.

Properti konfigurasi set data

Saat membuat konfigurasi set data, Anda menetapkan properti set data berikut:

  • Nama: nama yang digunakan untuk mereferensikan set data. Nama digunakan sebagai ID konfigurasi set data dan tidak dapat diubah setelah konfigurasi dibuat. Nama ini berisi maksimal 128 karakter menggunakan huruf, angka, dan garis bawah. Nama harus diawali dengan huruf.

  • Deskripsi (opsional): deskripsi set data. Anda dapat mengedit deskripsi kapan saja.

  • Cakupan set data: organisasi, project, atau folder yang berisi bucket dan objek yang metadatanya Anda inginkan. Anda dapat menentukan project atau folder satu per satu atau sebagai file CSV, dengan setiap nomor project atau folder di baris terpisah. Anda dapat menentukan hingga 10.000 project atau folder dalam satu konfigurasi set data.

  • Filter bucket (opsional): filter yang digunakan untuk menyertakan dan mengecualikan bucket tertentu dari set data berdasarkan nama bucket atau menurut wilayah.

  • Periode retensi data: jumlah hari yang digunakan set data untuk mengambil dan menyimpan data, termasuk tanggal pembuatan set data. Set data diperbarui dengan metadata setiap 24 jam dan dapat menyimpan data hingga 90 hari. Data yang diambil di luar periode retensi akan otomatis dihapus. Misalnya, Anda memiliki set data yang dibuat pada 1 Oktober 2023 dengan periode retensi yang ditetapkan ke 30. Pada 30 Oktober, set data akan mencerminkan data selama 30 hari terakhir, dari 1 Oktober hingga 30 Oktober. Pada 31 Oktober, set data akan mencerminkan data dari 2 Oktober hingga 31 Oktober. Anda dapat mengubah periode retensi kapan saja.

  • Lokasi: lokasi untuk menyimpan set data dan datanya. Contoh, us-central1. Lokasi harus didukung oleh BigQuery. Sebaiknya pilih lokasi tabel BigQuery, jika ada.

  • Jenis agen layanan: agen layanan cakupan konfigurasi atau agen layanan cakupan project.

    Membuat konfigurasi set data akan menyediakan agen layanan untuk Anda. Untuk membaca set data, agen layanan harus diberi izin yang diperlukan untuk membaca data dari bucket Cloud Storage.

    Agen layanan cakupan project dapat mengakses dan menulis set data yang dihasilkan dari semua konfigurasi set data dalam project. Misalnya, jika Anda memiliki beberapa konfigurasi set data dalam project, Anda hanya perlu memberikan izin yang diperlukan ke agen layanan cakupan project satu kali agar dapat membaca dan menulis set data untuk semua konfigurasi set data dalam project. Untuk informasi selengkapnya tentang izin yang diperlukan untuk membaca dan menulis set data, lihat Izin. Saat konfigurasi set data dihapus, agen layanan cakupan project tidak akan dihapus.

    Agen layanan cakupan konfigurasi hanya dapat mengakses dan menulis set data yang dihasilkan oleh konfigurasi set data tertentu. Artinya, jika memiliki beberapa konfigurasi set data, Anda harus memberikan izin yang diperlukan ke setiap agen layanan cakupan konfigurasi. Saat konfigurasi set data dihapus, agen layanan cakupan konfigurasi akan dihapus.

Tautkan set data ke BigQuery setelah membuat konfigurasi set data. Menautkan set data ke BigQuery akan membuat set data tertaut di BigQuery untuk kueri. Anda dapat menautkan atau membatalkan tautan set data kapan saja.

Untuk informasi selengkapnya tentang properti yang Anda tetapkan saat membuat atau memperbarui konfigurasi set data, lihat resource DatasetConfigs dalam dokumentasi JSON API.

Lokasi yang didukung

Lokasi BigQuery berikut didukung untuk membuat set data tertaut:

  • EU
  • US
  • asia-southeast1
  • europe-west1
  • us-central1
  • us-east1
  • us-east4

Skema metadata set data

Kolom metadata berikut disertakan dalam set data. Untuk mengetahui informasi selengkapnya tentang mode kolom BigQuery, lihat Mode. Mode kolom menentukan cara BigQuery menyimpan dan membuat kueri data.

Kolom snapshotTime menyimpan waktu pembaruan snapshot metadata bucket dalam format RFC 3339.

Metadata bucket

Kecuali jika dinyatakan lain, Anda dapat menemukan deskripsi yang lebih mendetail tentang kolom metadata bucket berikut dengan melihat Representasi resource bucket untuk JSON API.

Kolom metadata Mode Jenis
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
location NULLABLE STRING
project NULLABLE INTEGER
storageClass NULLABLE STRING
versioning NULLABLE BOOLEAN
lifecycle NULLABLE BOOLEAN
metageneration NULLABLE INTEGER
timeCreated NULLABLE TIMESTAMP
public NULLABLE RECORD
public.bucketPolicyOnly NULLABLE BOOLEAN
public.publicAccessPrevention NULLABLE STRING
autoclass NULLABLE RECORD
autoclass.enabled NULLABLE BOOLEAN
autoclass.toggleTime NULLABLE TIMESTAMP
softDeletePolicy NULLABLE OBJECT
softDeletePolicy.effectiveTime NULLABLE DATETIME
softDeletePolicy.retentionDurationSeconds NULLABLE LONG
tags* NULLABLE RECORD
tags.lastUpdatedTime NULLABLE TIMESTAMP
tags.tagMap REPEATED RECORD
tags.tagMap.key NULLABLE STRING
tags.tagMap.value NULLABLE STRING
labels REPEATED RECORD
labels.key NULLABLE STRING
labels.value NULLABLE STRING

* Tag bucket. Untuk informasi selengkapnya, lihat Cloud Resource Manager API.

Metadata objek

Kecuali jika dinyatakan lain, Anda dapat menemukan deskripsi yang lebih mendetail tentang kolom metadata objek berikut dengan merujuk ke Representasi resource objek untuk JSON API.

Kolom metadata Mode Jenis
snapshotTime NULLABLE TIMESTAMP
bucket NULLABLE STRING
location NULLABLE STRING
componentCount NULLABLE INTEGER
contentDisposition NULLABLE STRING
contentEncoding NULLABLE STRING
contentLanguage NULLABLE STRING
contentType NULLABLE STRING
crc32c NULLABLE INTEGER
customTime NULLABLE TIMESTAMP
etag NULLABLE STRING
eventBasedHold NULLABLE BOOLEAN
generation NULLABLE INTEGER
md5Hash NULLABLE STRING
metageneration NULLABLE INTEGER
name NULLABLE STRING
size NULLABLE INTEGER
storageClass NULLABLE STRING
temporaryHold NULLABLE BOOLEAN
timeCreated NULLABLE TIMESTAMP
timeDeleted NULLABLE TIMESTAMP
updated NULLABLE TIMESTAMP
timeStorageClassUpdated NULLABLE TIMESTAMP
retentionExpirationTime NULLABLE TIMESTAMP
softDeleteTime NULLABLE DATETIME
hardDeleteTime NULLABLE DATETIME
metadata REPEATED RECORD
metadata.key NULLABLE STRING
metadata.value NULLABLE STRING

Metadata project

Metadata project ditampilkan sebagai tampilan bernama project_attributes_view dalam set data tertaut:

Kolom metadata Mode Jenis
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
id NULLABLE STRING
number NULLABLE NUMBER

Skema set data untuk peristiwa dan error

Dalam set data tertaut, Anda juga dapat melihat peristiwa pemrosesan snapshot dan error di tampilan events_view dan error_attributes_view. Untuk mempelajari cara memecahkan masalah error pemrosesan snapshot, lihat Memecahkan masalah error set data.

Log peristiwa

Anda dapat melihat log aktivitas di tampilan events_view dalam set data tertaut:

Nama kolom Mode Jenis Deskripsi
manifest.snapshotTime NULLABLE TIMESTAMP Waktu dalam format RFC 3339 saat snapshot peristiwa diperbarui.
manifest.viewName NULLABLE STRING Nama tampilan yang dimuat ulang.
manifest.location NULLABLE STRING Lokasi sumber data yang diperbarui.
eventTime NULLABLE STRING Waktu terjadinya peristiwa.
eventCode NULLABLE STRING Kode peristiwa yang terkait dengan entri yang sesuai. Kode peristiwa 1 mengacu pada tampilan manifest.viewName yang dimuat ulang dengan semua entri untuk lokasi sumber manifest.location dalam snapshot manifest.snapshotTime.

Kode error

Anda dapat melihat kode error di tampilan error_attributes_view dalam set data tertaut:

Nama kolom Mode Jenis Deskripsi
errorCode NULLABLE INTEGER Kode error yang terkait dengan entri ini. Untuk mengetahui daftar nilai yang valid dan cara mengatasinya, lihat Memecahkan masalah error set data.
errorSource NULLABLE STRING Sumber error. Nilai yang valid: CONFIGURATION_PREPROCESSING.
errorTime NULLABLE TIMESTAMP Waktu terjadinya error.
sourceGcsLocation NULLABLE STRING Lokasi Cloud Storage sumber error. Untuk project, kolom ini bernilai null karena tidak memiliki lokasi.
bucketErrorRecord.bucketName NULLABLE STRING Nama bucket yang terlibat dalam error. Anda dapat menggunakan informasi ini untuk men-debug error bucket.
bucketErrorRecord.serviceAccount NULLABLE STRING Akun layanan yang memerlukan izin untuk menyerap objek dari bucket. Anda dapat menggunakan informasi ini untuk men-debug error bucket.
projectErrorRecord.projectNumber NULLABLE INTEGER Nomor project yang terlibat dalam error. Anda dapat menggunakan informasi ini untuk men-debug error project.
projectErrorRecord.organizationName NULLABLE STRING Nomor organisasi yang harus dimiliki project agar dapat diproses. Nilai 0 menunjukkan bahwa set data tidak ada di organisasi. Anda dapat menggunakan informasi ini untuk men-debug error project.

Memecahkan masalah error set data

Untuk mempelajari cara memecahkan masalah error pemrosesan snapshot yang dicatat ke dalam log di tampilan error_attributes_view dalam set data tertaut, lihat tabel berikut:

Kode Error Kasus Error Pesan Error Pemecahan masalah
1 Project sumber bukan milik organisasi Project sumber projectErrorRecord.projectNumber bukan milik organisasi projectErrorRecord.organizationName. Tambahkan project sumber projectErrorRecord.projectNumber ke organisasi projectErrorRecord.organizationName. Untuk petunjuk tentang cara memigrasikan project antar-organisasi, lihat Memigrasikan project antar-organisasi.
2 Error otorisasi bucket Izin ditolak untuk menyerap objek untuk bucket bucketErrorRecord.bucketName. Berikan izin Identity and Access Management (IAM) bucketErrorRecord.serviceAccount akun layanan untuk mengizinkan penyerapan objek untuk bucket bucketErrorRecord.bucketName. Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan ke agen layanan.
3 Project tujuan bukan milik organisasi Project tujuan projectErrorRecord.projectNumber tidak ada di organisasi projectErrorRecord.organizationName. Tambahkan project tujuan projectErrorRecord.projectNumber ke organisasi projectErrorRecord.organizationName. Untuk petunjuk tentang cara memigrasikan project antar-organisasi, lihat Memigrasikan project antar-organisasi.
4 Project sumber tidak memiliki Storage Intelligence yang dikonfigurasi. Project sumber projectErrorRecord.projectNumber tidak memiliki Storage Intelligence yang dikonfigurasi. Konfigurasikan Storage Intelligence untuk project sumber projectErrorRecord.projectNumber. Untuk informasi selengkapnya, lihat Mengonfigurasi dan mengelola Storage Intelligence.
5 Bucket tidak memiliki Storage Intelligence yang dikonfigurasi. Bucket bucketErrorRecord.bucketName tidak memiliki Storage Intelligence yang dikonfigurasi. Konfigurasikan Storage Intelligence untuk bucket bucketErrorRecord.bucketName. Untuk informasi selengkapnya, lihat Mengonfigurasi dan mengelola Storage Intelligence.

Pertimbangan

Pertimbangkan hal berikut untuk konfigurasi set data:

  • Saat Anda mengganti nama folder di bucket dengan namespace hierarkis diaktifkan, nama objek di bucket tersebut akan diperbarui. Saat diserap oleh set data tertaut, snapshot objek ini dianggap sebagai entri baru dalam set data tertaut.

  • Set data hanya didukung di lokasi BigQuery ini.

Langkah berikutnya