Kemungkinan kecocokan

Hasil pemindaian dikategorikan berdasarkan kemungkinan kecocokannya. Sensitive Data Protection menggunakan representasi kemungkinan yang dikelompokkan, yang dimaksudkan untuk menunjukkan seberapa besar kemungkinan sepotong data cocok dengan infoType tertentu.

Cara kerja kemungkinan

Saat mengonfigurasi pemindaian Sensitive Data Protection, Anda menetapkan infoType yang ingin dipindai oleh Sensitive Data Protection. Untuk mempersempit hasil pemindaian, Anda dapat menetapkan tingkat kemungkinan minimum dalam permintaan.

Untuk setiap potensi kecocokan (temuan) yang terdeteksi selama pemindaian, Perlindungan Data Sensitif menetapkan tingkat kemungkinan. Tingkat kemungkinan temuan menjelaskan seberapa besar kemungkinan temuan tersebut cocok dengan infoType yang Anda pindai. Misalnya, Perlindungan Data Sensitif dapat menetapkan kemungkinan LIKELY pada temuan yang terlihat seperti alamat email.

Saat menampilkan hasil, Perlindungan Data Sensitif akan memfilter semua temuan yang memiliki kemungkinan lebih rendah daripada tingkat kemungkinan minimum yang Anda tetapkan dalam permintaan. Misalnya, jika Anda menetapkan kemungkinan minimum ke POSSIBLE, Anda hanya akan mendapatkan temuan yang dievaluasi sebagai POSSIBLE, LIKELY, dan VERY_LIKELY. Jika Anda menyetel kemungkinan minimum ke VERY_LIKELY, Anda akan mendapatkan jumlah temuan terkecil.

Tingkat kemungkinan

Tabel berikut mencantumkan kemungkinan nilai probabilitas yang dapat ditetapkan oleh Perlindungan Data Sensitif ke temuan.

ENUM Deskripsi
VERY_UNLIKELY Ditandai dengan hal-hal berikut:
  • Sinyal lemah.
  • Tidak adanya petunjuk kontekstual.
  • Sinyal negatif untuk infoType tertentu.
UNLIKELY Ditandai dengan hal-hal berikut:
  • Satu atau beberapa sinyal lemah.
  • Sinyal yang lebih kuat untuk infoType lain.
POSSIBLE Ditandai dengan hal-hal berikut:
  • Satu atau beberapa sinyal menuju infoType tertentu. Sinyal dapat mencakup checksum yang lulus.
  • Kurangnya petunjuk kontekstual yang kuat dan pemformatan yang unik dan spesifik.
LIKELY Ditandai dengan satu atau beberapa sinyal kuat untuk infoType tertentu. Sinyal dapat mencakup checksum yang lulus, petunjuk kontekstual yang kuat, dan pemformatan yang unik dan spesifik.
VERY_LIKELY Ditandai dengan memiliki banyak sinyal kuat untuk infoType tertentu. Sinyal dapat mencakup checksum yang lulus, petunjuk kontekstual yang kuat, dan pemformatan yang unik dan spesifik.

Memilih tingkat kemungkinan minimum untuk hasil pemindaian

Secara umum, jika Anda menetapkan tingkat kemungkinan minimum yang lebih tinggi dalam permintaan Perlindungan Data Sensitif, hasilnya akan memiliki jumlah positif palsu yang lebih rendah (terkadang disebut noise). Namun, hasilnya juga dapat mengecualikan lebih banyak positif benar. Memilih tingkat probabilitas minimum melibatkan penemuan keseimbangan yang tepat antara perolehan dan presisi.

Misalnya, anggaplah ada 10 alamat jalan dalam dokumen dan Sensitive Data Protection mengidentifikasi 5 alamat jalan. Namun, di antara temuan yang diidentifikasi oleh Sensitive Data Protection, sebenarnya hanya ada 4 alamat jalan.

  • Perolehan adalah jumlah instance positif benar dari jumlah total instance yang relevan. Dalam contoh ini, recall-nya adalah 4/10.
  • Presisi adalah jumlah instance positif benar dari total jumlah instance yang diidentifikasi oleh Sensitive Data Protection. Dalam contoh ini, presisinya adalah 4/5.

Dalam contoh ini, presisinya tinggi, tetapi perolehannya relatif rendah.

Tingkat kemungkinan minimum yang Anda tetapkan memengaruhi tingkat ingatan dan presisi yang Anda dapatkan dalam hasil pemindaian. Tabel berikut menjelaskan kapan setiap tingkat kemungkinan minimum berguna dan bagaimana recall dan presisi bervariasi di setiap tingkat.

Tingkat kemungkinan minimum Deskripsi
LIKELIHOOD_UNSPECIFIED Nilai default; sama dengan POSSIBLE.
VERY_UNLIKELY Berguna jika Anda memerlukan perolehan kembali tertinggi. Tingkat probabilitas minimum ini menghasilkan noise paling banyak.
UNLIKELY Berguna jika Anda memerlukan perolehan yang lebih tinggi. Tingkat kemungkinan minimum ini menghasilkan beberapa gangguan.
POSSIBLE Berguna jika Anda menginginkan keseimbangan presisi dan perolehan.
LIKELY Berguna jika Anda memerlukan presisi yang lebih tinggi dengan mengorbankan perolehan.
VERY_LIKELY Berguna jika Anda menginginkan presisi tertinggi dengan mengorbankan perolehan.

Kemungkinan minimum default

Jika Anda tidak menetapkan kemungkinan minimum dalam permintaan, atau jika Anda menetapkannya ke LIKELIHOOD_UNSPECIFIED, Perlindungan Data Sensitif hanya akan menampilkan temuan dengan kemungkinan POSSIBLE dan yang lebih tinggi.