De-identifikasi

Sensitive Data Protection menggunakan jenis informasi—atau infoType—untuk menentukan apa yang dipindai. InfoType adalah jenis data sensitif, seperti nama, alamat email, nomor telepon, nomor identifikasi, nomor kartu kredit, dan sebagainya.

Setiap infoType yang ditentukan di Sensitive Data Protection memiliki detektor yang sesuai. Perlindungan Data Sensitif menggunakan pendeteksi infoType dalam konfigurasi untuk pemindaiannya guna menentukan apa yang harus diperiksa dan cara mengubah temuan. Nama InfoType juga digunakan saat menampilkan atau melaporkan hasil pemindaian.

Topik ini menjelaskan infoType dan pendeteksi infoType secara mendetail, serta memberikan panduan tentang cara menggunakan pendeteksi infoType saat memindai konten untuk mencari data sensitif menggunakan Sensitive Data Protection.

Menentukan pendeteksi infoType

Saat menyiapkan Perlindungan Data Sensitif untuk memindai konten, Anda menyertakan pendeteksi infoType yang akan digunakan dalam konfigurasi pemindaian.

Misalnya, JSON berikut menunjukkan permintaan pemindaian sederhana ke DLP API. Perhatikan bahwa detektor PHONE_NUMBER ditentukan dalam inspectConfig, yang menginstruksikan Perlindungan Data Sensitif untuk memindai string yang diberikan untuk nomor telepon.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

Permintaan sebelumnya akan menampilkan hal berikut:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Selalu tentukan infoTypes dalam konfigurasi pemindaian Anda. Jika Anda tidak menentukan infoType apa pun, Sensitive Data Protection akan menggunakan daftar infoType default. Bergantung pada jumlah konten yang akan dipindai, pemindaian untuk infoType default dapat memakan waktu atau biaya yang sangat besar.

Untuk mengetahui informasi selengkapnya tentang cara menggunakan detektor infoType untuk memindai konten Anda, lihat salah satu topik cara penggunaan tentang memeriksa, menyamarkan, atau menghilangkan identitas.

Jenis pendeteksi infoType

Detektor jenis informasi (atau "infoType") adalah mekanisme yang digunakan Sensitive Data Protection untuk menemukan data sensitif.

Sensitive Data Protection mencakup beberapa jenis detektor infoType, yang semuanya diringkas di sini:

  • Detektor infoType bawaan sudah terintegrasi dalam Sensitive Data Protection. Detektor ini mencakup jenis data sensitif khusus negara atau wilayah serta jenis data yang berlaku secara global.
  • Detektor infoType kustom adalah detektor yang Anda buat sendiri. Ada tiga jenis pendeteksi infoType kustom:
    • Pendeteksi kamus kustom reguler adalah daftar kata sederhana yang dicocokkan oleh Perlindungan Data Sensitif. Gunakan pendeteksi kamus kustom reguler jika Anda memiliki daftar hingga puluhan ribu kata atau frasa. Detektor kamus kustom reguler lebih disarankan jika Anda tidak memperkirakan daftar kata Anda akan berubah secara signifikan.
    • Detektor kamus kustom tersimpan dibuat oleh Sensitive Data Protection menggunakan daftar besar kata atau frasa yang disimpan di Cloud Storage atau BigQuery. Gunakan detektor kamus kustom tersimpan jika Anda memiliki daftar kata atau frasa yang besar—hingga puluhan juta.
    • Pendeteksi ekspresi reguler (regex) memungkinkan Perlindungan Data Sensitif mendeteksi kecocokan berdasarkan pola ekspresi reguler.

Selain itu, Sensitive Data Protection mencakup konsep aturan inspeksi, yang memungkinkan Anda menyesuaikan hasil pemindaian menggunakan hal berikut:

  • Aturan pengecualian memungkinkan Anda mengurangi jumlah temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom.
  • Aturan frasa pengaktif memungkinkan Anda meningkatkan kuantitas atau mengubah nilai kemungkinan temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom.

Pendeteksi infoType bawaan

Detektor infoType bawaan dibuat ke dalam Perlindungan Data Sensitif, dan mencakup detektor untuk jenis data sensitif khusus negara atau wilayah seperti Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR) Prancis, nomor surat izin mengemudi (UK_DRIVERS_LICENSE_NUMBER) Inggris Raya, dan nomor Jaminan Sosial (US_SOCIAL_SECURITY_NUMBER) Amerika Serikat. Detektor ini juga mencakup jenis data yang berlaku secara global seperti nama orang (PERSON_NAME), nomor telepon (PHONE_NUMBER), alamat email (EMAIL_ADDRESS), dan nomor kartu kredit (CREDIT_CARD_NUMBER).Untuk mendeteksi konten yang sesuai dengan infoType, Perlindungan Data Sensitif memanfaatkan berbagai teknik, termasuk pencocokan pola, checksum, machine learning, analisis konteks, dan lainnya.

Daftar pendeteksi infoType bawaan selalu diperbarui. Untuk mengetahui daftar lengkap detektor infoType bawaan yang saat ini didukung, lihat Referensi detektor infoType.

Anda juga dapat melihat daftar lengkap semua detektor infoType bawaan dengan memanggil metode infoTypes.list Sensitive Data Protection.

Pendeteksi infoType kustom

Ada tiga jenis pendeteksi infoType kustom:

Selain itu, Sensitive Data Protection mencakup aturan pemeriksaan, yang memungkinkan Anda menyempurnakan hasil pemindaian dengan menambahkan hal berikut ke pendeteksi yang ada:

Pendeteksi kamus kustom reguler

Gunakan detektor kamus kustom reguler untuk mencocokkan daftar kata atau frasa pendek (hingga beberapa puluh ribu). Kamus kustom reguler dapat bertindak sebagai detektor uniknya sendiri.

Pendeteksi kamus kustom berguna saat Anda ingin memindai daftar kata atau frasa yang tidak mudah dicocokkan dengan ekspresi reguler atau pendeteksi bawaan. Misalnya, Anda ingin memindai ruang konferensi yang biasanya disebut dengan nama ruang yang ditetapkan, bukan nomor ruangnya, seperti nama negara bagian atau wilayah, landmark, karakter fiktif, dan sebagainya. Anda dapat membuat pendeteksi kamus kustom reguler yang berisi daftar nama ruangan ini. Sensitive Data Protection dapat memindai konten Anda untuk setiap nama ruangan dan menampilkan kecocokan saat menemukan salah satunya dalam konteks. Pelajari lebih lanjut cara Perlindungan Data Sensitif mencocokkan kata dan frasa kamus di bagian "Kekhususan pencocokan kamus" dalam Membuat Detektor Kamus Kustom Reguler.

Untuk mengetahui detail selengkapnya tentang cara kerja detektor infoType kustom kamus reguler, serta contoh penggunaannya, lihat Membuat Detektor Kamus Kustom Reguler.

Pendeteksi kamus kustom tersimpan

Gunakan detektor kamus kustom tersimpan jika Anda memiliki lebih dari beberapa kata atau frasa untuk dipindai, atau jika daftar kata atau frasa Anda sering berubah. Pendeteksi kamus kustom tersimpan dapat mencocokkan hingga puluhan juta kata atau frasa.

Pendeteksi kamus kustom tersimpan, karena sifatnya sebagai pendeteksi kustom yang sangat besar, dibuat secara berbeda dari pendeteksi kustom ekspresi reguler dan pendeteksi kamus kustom reguler. Setiap kamus kustom yang disimpan memiliki dua komponen:

  • Daftar frasa yang Anda buat dan tentukan. Daftar disimpan sebagai file teks dalam Cloud Storage atau kolom dalam tabel BigQuery.
  • File kamus yang dihasilkan, yang dibuat oleh Sensitive Data Protection berdasarkan daftar frasa Anda. File kamus disimpan di Cloud Storage, dan terdiri dari salinan data frasa sumber ditambah filter Bloom, yang membantu dalam penelusuran dan pencocokan. Anda tidak dapat mengedit file ini secara langsung.

Setelah membuat daftar kata, lalu menggunakan Perlindungan Data Sensitif untuk membuat kamus kustom, Anda dapat memulai atau menjadwalkan pemindaian menggunakan detektor kamus kustom tersimpan dengan cara yang sama seperti detektor infoType lainnya.

Untuk mengetahui detail selengkapnya tentang cara kerja detektor kamus kustom tersimpan, serta contoh penggunaannya, lihat Membuat Detektor Kamus Kustom Tersimpan.

Ekspresi reguler

Detektor infoType kustom ekspresi reguler (regex) memungkinkan Anda membuat detektor infoType sendiri yang memungkinkan Sensitive Data Protection mendeteksi kecocokan berdasarkan pola regex. Misalnya, Anda memiliki nomor catatan medis dalam formulir ###-#-#####. Anda dapat menentukan pola regex seperti berikut:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Kemudian, Sensitive Data Protection akan mencocokkan item seperti ini:

123-4-56789

Anda juga dapat menentukan kemungkinan yang akan ditetapkan ke setiap kecocokan infoType kustom. Artinya, saat Sensitive Data Protection mencocokkan urutan yang Anda tentukan, Sensitive Data Protection akan menetapkan kemungkinan yang telah Anda tunjukkan. Hal ini berguna karena jika regex kustom Anda menentukan urutan yang cukup umum sehingga dapat dengan mudah cocok dengan urutan acak lainnya, Anda tidak ingin Sensitive Data Protection melabeli setiap kecocokan sebagai VERY_LIKELY. Tindakan ini akan mengurangi keyakinan terhadap hasil pemindaian dan berpotensi menyebabkan informasi yang salah dihapus identitasnya.

Untuk mengetahui informasi selengkapnya tentang detektor infoType kustom ekspresi reguler, dan untuk melihat cara kerjanya, lihat Membuat Detektor Regex Kustom.

Aturan inspeksi

Anda menggunakan aturan inspeksi untuk mempertajam hasil yang ditampilkan oleh pendeteksi infoType yang ada—baik bawaan maupun kustom. Aturan pemeriksaan dapat berguna untuk saat hasil yang ditampilkan Sensitive Data Protection perlu ditambah dengan cara tertentu, baik dengan menambahkan ke dan mengecualikan dari detektor infoType yang ada.

Dua jenis aturan inspeksi adalah:

  • Aturan pengecualian
  • Aturan frasa pengaktif

Untuk mengetahui informasi selengkapnya tentang aturan pemeriksaan, lihat Mengubah Detektor InfoType untuk Memperbaiki Hasil Pemindaian.

Aturan pengecualian

Aturan pengecualian memungkinkan Anda mengurangi kuantitas atau presisi temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom. Aturan pengecualian dapat membantu Anda mengurangi derau atau temuan lain yang tidak diinginkan agar tidak ditampilkan oleh detektor infoType.

Misalnya, jika Anda memindai database untuk menemukan alamat email, Anda dapat menambahkan aturan pengecualian dalam bentuk ekspresi reguler kustom yang menginstruksikan Sensitive Data Protection untuk mengecualikan semua temuan yang diakhiri dengan "@example.com".

Aturan pengecualian tidak dapat diterapkan ke infoType objek.

Untuk mengetahui informasi selengkapnya tentang aturan pengecualian, lihat Mengubah Detektor InfoType untuk Memperbaiki Hasil Pemindaian.

Aturan frasa pengaktif

Aturan frasa pengaktif memungkinkan Anda meningkatkan kuantitas atau akurasi temuan yang ditampilkan dengan menambahkan aturan ke detektor infoType bawaan atau kustom. Aturan frasa pengaktif dapat secara efektif membantu Anda melonggarkan aturan detektor infoType yang ada.

Misalnya, Anda ingin memindai database medis untuk mencari nama pasien. Anda dapat menggunakan detektor PERSON_NAMEinfoType bawaan Sensitive Data Protection, tetapi hal itu akan menyebabkan Sensitive Data Protection mencocokkan semua nama orang, bukan hanya nama pasien. Untuk memperbaikinya, Anda dapat menyertakan aturan frasa pengaktif dalam bentuk infoType kustom regex yang mencari kata "pasien" dalam jarak karakter tertentu dari karakter pertama kecocokan potensial. Kemudian, Anda dapat menetapkan temuan yang cocok dengan pola ini sebagai kemungkinan "sangat mungkin", karena sesuai dengan kriteria khusus Anda.

Untuk mengetahui informasi selengkapnya tentang aturan frasa pengaktif, lihat Memodifikasi Detektor InfoType untuk Memperbaiki Hasil Pemindaian.