ジョブとジョブトリガー

ジョブは、機密データがないかコンテンツをスキャンするため、または再識別のリスクを計算するために機密データの保護により実行されるアクションです。機密データの保護は、ユーザーにデータの検査を指示されるたびに、ジョブリソースを作成して実行します。

現在、機密データの保護のジョブには次の 2 つのタイプがあります。

  • 検査ジョブは、基準に従って機密データがないかコンテンツを検査し、どこにどのような種類の機密データが存在するかについて要約レポートを生成します。
  • リスク分析ジョブは、匿名化されたデータを分析し、そのデータが再識別される可能性に関する指標を返します。

ジョブトリガーを作成することで、機密データの保護がジョブを実行するタイミングをスケジュールできます。ジョブトリガーは、Cloud Storage バケット、BigQuery テーブル、Datastore の種類など、Google Cloud ストレージ リポジトリをスキャンする機密データの保護のジョブの作成を自動化するイベントです。

ジョブトリガーを使用すると、各トリガーを起動する間隔を構成してスキャンジョブをスケジュールできます。前回のスキャン以降の新しい検出結果を検索してコンテンツの変更や追加を監視することや、最新の検出結果レポートの生成ができます。スケジュールされたトリガーは、1 日から 60 日の間で設定した間隔で実行されます。

次のステップ

以下のトピックでは、ジョブおよびジョブトリガーを作成、編集、実行する方法について詳しく説明します。

さらに、次のクイック スタートも利用できます。

JobTrigger オブジェクト

ジョブトリガーは、DLP API で JobTrigger オブジェクトとして記述します。

ジョブトリガーの構成フィールド

JobTrigger には次のような構成フィールドがあります。

  • トリガーの名前、表示名、説明。
  • Trigger オブジェクトのコレクション。それぞれ Schedule オブジェクトを含み、スキャンの繰り返しが秒単位で定義されます。
  • InspectJobConfig オブジェクト。トリガーされるジョブの構成情報が含まれます。
  • Status 列挙。トリガーが現在アクティブかどうかを表します。
  • タイムスタンプ フィールド。作成、更新、最終実行時間を表します。
  • Error オブジェクトのコレクション。存在する場合は、トリガーがアクティブの間にエラーが発生しています。

ジョブトリガー メソッド

JobTrigger オブジェクトには、いくつかの組み込みメソッドがあります。これらのメソッドを使用すると、次の操作を実行できます。

ジョブのレイテンシ

ジョブとジョブトリガーに対するサービスレベル目標(SLO)は保証されません。レイテンシは、スキャンするデータの量、スキャン対象のストレージ リポジトリ、スキャン対象の infoType のタイプと数、ジョブが処理されるリージョン、そのリージョンで使用可能なコンピューティング リソースなどさまざまな要因に影響を受けます。したがって、検査ジョブのレイテンシは事前に決定できません。

ジョブのレイテンシを短縮するため、次の方法を試すことができます。

  • ジョブまたはジョブトリガーでサンプリングを利用できる場合は、有効にします。
  • 不要な infoType は有効にしないでください。以下は特定のシナリオで有用ですが、これらの infoType により、リクエストの実行速度がこれらを含まないリクエストよりもはるかに遅くなる可能性があります。

    • PERSON_NAME
    • FEMALE_NAME
    • MALE_NAME
    • FIRST_NAME
    • LAST_NAME
    • DATE_OF_BIRTH
    • LOCATION
    • STREET_ADDRESS
    • ORGANIZATION_NAME
  • infoType は常に明示的に指定します。空の infoType リストを使用しないでください。

  • 可能であれば、処理を行う別のリージョンを使用します。

これらの手法を試してもジョブに関するレイテンシの問題が解決しない場合は、ジョブではなく content.inspect リクエストまたは content.deidentify リクエストの使用を検討してください。これらの方法にはサービスレベル契約が適用されます。詳細については、機密データの保護のサービスレベル契約をご覧ください。

スキャンを新しいコンテンツのみに制限する

Cloud Storage または BigQuery に保存されるファイルのタイムスパンの日付を自動的に設定するジョブトリガーを構成できます。TimespanConfig オブジェクトを自動入力に設定すると、機密データの保護は、トリガーが最後に実行されてから追加または変更されたデータのみをスキャンします。

...
  timespan_config {
        enable_auto_population_of_timespan_config: true
      }
...

BigQuery 検査については、3 時間以上経過した行のみがスキャン対象となります。このオペレーションに関連する既知の問題をご覧ください。

ファイルのアップロード時にジョブをトリガーする

機密データの保護に組み込まれているジョブトリガーのサポートに加えて、Google Cloud には機密データの保護のジョブの統合やトリガーに使用できるさまざまなコンポーネントがあります。たとえば、ファイルを Cloud Storage にアップロードするたびに、Cloud Run 関数を使用して機密データの保護のスキャンを開始できます。

このオペレーションの設定方法については、Cloud Storage にアップロードされたデータの分類の自動化をご覧ください。