カスタムの infoType 検出器

機密データの保護には多くの infoType 検出器がありますが、独自に作成することもできます。独自のカスタム infoType 検出器を定義すると、検出の動作をカスタマイズできます。これにより、指定したパターンと一致する機密データが機密データの保護によって検査、匿名化されます。カスタム infoType 検出器のタイプは次のとおりです。

  • 標準のカスタム辞書検出器は、機密データの保護が照合の対象する単純な単語とフレーズのリストです。単語数が最大で数十万個ある場合、標準のカスタム辞書検出器を使用します。
  • 大規模なカスタム辞書検出器は、Cloud Storage または BigQuery に保存されている単語やフレーズの大規模なリストを使用して、機密データの保護によって生成されます。含まれる単語やフレーズの数が数千万個までの大規模なリストでは、格納されるカスタム辞書検出器を使用します。
  • 正規表現(regex)検出器により、機密データの保護を使用して正規表現パターンに基づいて一致を検出できます。
  • サロゲート infoType 検出器は、機密データの保護の匿名化変換 CryptoReplaceFfxFpeConfig からの出力を検出します。このカスタム infoType 検出器を使用するのは、content:reidentify メソッドで、FFX モードのフォーマット保持暗号化(FPE)を使用して匿名化を元に戻す場合のみです。このため、サロゲートについては、ここでは詳しく説明しません。サロゲート カスタム infoType 検出器をいつどのように使用するかについては、仮名化をご覧ください。

機密データの保護には、検査ルールのコンセプトも含まれています。次の検査ルールを使用してスキャン結果を細かく調整できます。

  • 除外ルールを組み込みまたはカスタムの infoType 検出器に追加すると、誤った結果や不要な結果を除外できます。
  • ホットワード ルールを組み込みまたはカスタムの infoType 検出器に追加すると、返される結果の数を増やしたり精度を高くしたりできます。

カスタム infoType 検出器の詳細については、infoType と infoType 検出器の概念のページをご覧ください。必要に応じて使用または変更できる例については、カスタム infoType 検出器の例をご覧ください。この後のトピックでは、機密データの保護を使用して独自のカスタム infoType 検出器を作成する方法について説明します。

カスタム infoType 検出器を使用する場所

カスタム infoType 検出器は CustomInfoType オブジェクトで定義します。以下を構成するときには、InspectConfig オブジェクトに CustomInfoType を指定します。

API の概要

CustomInfoType オブジェクトを使用すると、新しいコンテンツのためにカスタム infoType 検出器を作成することや、事前定義済みの infoType 検出器から返される結果の微調整が可能です。

CustomInfoType オブジェクトは次のフィールドで構成され、それぞれの記述内容に従って設定します。

  • "infotype": InfoType オブジェクトに含まれるカスタム infoType 検出器の名前。
  • "likelihood": このカスタム infoType 検出器に対して返すデフォルトの Likelihood 値。検出結果がルールで指定された基準を満たしている場合、この基本の Likelihood に優先する代替 Likelihood 値を "detectionRules" に指定できます。"likelihood" フィールドを含めない場合、カスタム infoType 検出器はデフォルトの VERY_LIKELY になります。可能性の詳細については、可能性のコンセプト ページをご覧ください。
  • "detectionRules": このカスタム infoType 検出器のすべての検出結果に追加で適用される一連の DetectionRule オブジェクト。ここに起動ワードルールを HotwordRule オブジェクトとして指定します。ルールは指定された順序で適用されます。このフィールドは SurrogateType オブジェクトには適用されません。
  • "sensitivityScore": このカスタム infoType 検出器に対して返す SensitivityScore 値。"sensitivityScore" フィールドを含めない場合、カスタム infoType 検出器はデフォルトの VERY_LIKELY になります。

    機密性スコアはデータ プロファイルで使用されます。データのプロファイリング時に、機密データの保護は、infoType の機密性スコアを使用して機密性レベルを計算します。

  • 作成するカスタム infoType 検出器の種類に応じた、次のいずれかのフィールド。

    • "dictionary": Dictionary オブジェクト。検索対象の単語やフレーズのリストが含まれます。
    • "regex": Regex オブジェクト。正規表現を定義する単一のパターンが含まれます。
    • "surrogateType": SurrogateType オブジェクト。このオブジェクトが存在する場合、カスタム infoType 検出器がサロゲートであることを示します。サロゲート カスタム infoType 検出器の使用方法については、仮名化をご覧ください。
    • "storedType": 既存の StoredInfoType オブジェクトへの参照。このフィールドは、大規模なカスタム辞書検出器を作成する場合に必須です。このフィールドを定義することで正規辞書検出器または正規表現検出器を作成できますが、dictionary フィールドまたは regex フィールドをそれぞれ定義することでそれらをより簡単に作成できます。

次のステップ

カスタム infoType の作成方法については、次のトピックをご覧ください。