このページでは、データ プロファイルに収集される全指標の一覧を記載します。
データ プロファイルには、プロジェクト データ プロファイル、テーブル データ プロファイル、列データ プロファイルの 3 種類があります。
プロジェクト データ プロファイル
各プロジェクト データ プロファイルには、次のフィールドがあります。これらのフィールドの値は、プロジェクト内でプロファイリングされたリソースに基づいて集計されます。
Insights
プロジェクト データ プロファイルでは、次の分析情報を確認できます。
- データリスク
- 現状態のデータに関連付けられるリスクのレベル。詳細については、機密性とデータリスク レベルをご覧ください。
- 機密性
- このプロジェクトの機密レベルを示すスコア。詳細については、機密性とデータリスク レベルをご覧ください。
メタデータ
プロジェクト データ プロファイルは、次のメタデータを提供します。
- プロファイルが最後に生成された日時
- プロファイルが最後に生成された日時。
- プロジェクト ID
- プロファイリングされたプロジェクトの ID。
- リソース名
- データ プロファイルの完全修飾名。
- ステータス
- プロファイリング オペレーションのステータスを示すアイコン。
テーブルデータ プロファイル
各テーブルデータ プロファイルには、次のフィールドがあります。
Insights
テーブルデータ プロファイルでは、次の分析情報を確認できます。
- データリスク
- 現状態のデータに関連付けられるリスクのレベル。詳細については、機密性とデータリスク レベルをご覧ください。
- 機密性
- このテーブルの機密レベルを示すスコア。詳細については、機密性とデータリスク レベルをご覧ください。
メタデータ
テーブルデータ プロファイルは、次のメタデータを提供します。
- データベース
- プロファイリングされたテーブルを含むデータベース。このフィールドは、Cloud SQL 検出にのみ適用されます。
- データセット ID
- このテーブルを含むデータセットの ID。
- 暗号化
- このテーブルの暗号化が Google によって管理されているか、組織によって管理されているか。
- 有効期限
- 省略可。このテーブルの有効期限。
- エラーが発生した列の数
- このテーブルでエラーのためにスキップされた列の数。
- 検査構成のスナップショット
- プロファイルの生成時に使用した検査テンプレートのスナップショット。詳細については、データ プロファイルのスナップショットをご覧ください。
- インスタンス
- プロファイリングされたテーブルを含むインスタンス。このフィールドは、Cloud SQL 検出にのみ適用されます。
- プロファイルが最後に生成された日時
- プロファイルが最後に生成された日時。
- BigQuery での最新の更新日時
- このテーブルが最後に更新された日時。
- プロジェクト ID
- このテーブルを含むプロジェクトの ID。
- 公開
このテーブルをすべてのユーザーが使用できるか、特定のユーザーに制限されているか。
- リソースラベル
プロファイルの生成時にテーブルに含まれていたラベル。
- リソースタグ
プロファイルの生成時にテーブルに含まれていたタグ。
- リソース名
データ プロファイルの完全修飾名。
- 行数
プロファイルが生成されたときの、このテーブルの行数。
- スキャンされた列の数
このテーブルでプロファイリングされた列の数。
- サービス アカウント
このテーブルにアクセスする IAM 権限を持つサービス アカウントの数。
- ステータス
プロファイルの生成が成功したかどうかを示します。
- テーブル ID
このテーブルの ID。
- テーブルの作成日時
テーブルが作成された日時。
- テーブルのサイズ
プロファイルが生成されたときのこのテーブルのサイズ。
- タイプ
実施する検出のタイプ。
列データ プロファイル
各列データ プロファイルには、次のフィールドがあります。
Insights
列データ プロファイルでは、次の分析情報を確認できます。
- データリスク
- 現状態のデータに関連付けられるリスクのレベル。詳細については、機密性とデータリスク レベルをご覧ください。
- 機密性
- この列の機密レベルを示すスコア。詳細については、機密性とデータリスク レベルをご覧ください。
- 予測済み infoType
単一の組み込み infoType またはカスタム infoType が列内の他の infoType よりも明確に優先される場合、機密データの保護では、このフィールドがその infoType に設定されます。それ以外の場合、このフィールドには値がありません。
この列で検出されたすべての infoTypes のリストを表示するには、その他の infoType フィールドをご覧ください。
機密データの保護は、検査テンプレートで指定した infoType のみをスキャンします。したがって、[予測済み infoType] フィールドには、これらの infoType だけが表示されます。たとえば、列にメールアドレスがあるが、検査テンプレートに
EMAIL_ADDRESS
infoType 検出器を含めていない場合、このフィールドにはEMAIL_ADDRESS
は含まれません。列データが、同じ一般カテゴリに属する密接に関連する複数の infoType と主に一致する場合、機密データの保護では、このフィールドがより一般的な infoType に設定されます。たとえば、列に主に
PASSPORT
、AUSTRALIA_PASSPORT
、CANADA_PASSPORT
の infoType が混在している場合、[予測済み infoType] フィールドはPASSPORT
に設定されます。[その他の infoType] フィールドには、より具体的な infoType とその推定頻度が表示されます。- その他の infoType
列で検出された、その列の予測済み infoType と見なすことができる十分なシグナルがない infoType。このドキュメントでは、予測済み infoType をご覧ください。
2022 年 10 月 13 日以降に生成されたデータ プロファイルの場合、このフィールドにリストされている各 infoType には推定出現率があります。推定頻度は、infoType が検出された null 以外の行のおおよその割合です。
たとえば、次のような指標を含む列があるとします。
- 予測済み infoType:
FDA_CODE
- その他の infoType:
PERSON_NAME (2%)
、STREET_ADDRESS (1%)
この例では、列に FDA コードが含まれている可能性が高いことがわかります。また、機密データの保護は、この列内の null 以外の行の約 2% に人名が含まれ、1% に住所が含まれている可能性があることも確認しました。
機密データの保護は、検査テンプレートで指定した infoType のみをスキャンします。したがって、[その他の infoType] フィールドには、これらの infoType だけが表示されます。たとえば、列にメールアドレスがあるが、検査テンプレートに
EMAIL_ADDRESS
infoType 検出器を含めていない場合、このフィールドにはEMAIL_ADDRESS
は含まれません。- 予測済み infoType:
- 推定の null 割合
この列の null 値の概算割合。高、中、低、極低に分類されます。この列のエントリの大部分が null の場合、この値は「高」になります。
- 推定の一意性
この列で一意であるデータ量の推定値。高、中、低に分類されます。高い一意性レベルは、列に個別の値が含まれることを示します。個別の値が多い場合は、列に識別子が含まれている可能性があります。
低い一意性レベルは、列に列挙型やブール値などの一般的な値が多数含まれることを意味します。
機密データの保護によって、この指標を計算するのに十分な行がテーブル内にないと判断された場合、この値は空白になります。
- 自由テキストのスコア
この列が自由形式のテキストで構成されている確率。値が 1 に近い場合、列が自由形式のテキストまたは自然言語のテキストで構成されている可能性があります。有効な値の範囲は 0~1 です。
フリーテキスト スコアが高いと、列のデータリスクと機密性レベルが増加する可能性があります。
メタデータ
列データ プロファイルには、次のメタデータが含まれます。
- データベース
- プロファイリングされたテーブル列を含むデータベース。このフィールドは、Cloud SQL 検出にのみ適用されます。
- データ型
- この列のコンテンツのデータ型。
- データセット ID
- このテーブル列を含むデータセットの ID。
- フィールド ID
- 列の名前。
- インスタンス
- プロファイリングされたテーブル列を含むインスタンス。このフィールドは、Cloud SQL 検出にのみ適用されます。
- インスタンスのロケーション
- プロファイリングされたテーブル列を含むインスタンスのロケーション。このフィールドは、Cloud SQL 検出にのみ適用されます。
- プロファイルが最後に生成された日時
- プロファイルが最後に生成された日時。
- ポリシータグ
- ポリシータグが列に適用されているかどうかを示します。ポリシータグの使用に関するベスト プラクティスについては、BigQuery でのポリシータグの使用をご覧ください。
- プロジェクト ID
- このテーブル列を含むプロジェクトの ID。
- リソース名
- データ プロファイルの完全修飾名。
- ステータス
- プロファイリング オペレーションのステータスを示すアイコン。
- テーブル ID
- この列を含むテーブルの ID。
ファイルストアのデータ プロファイル
Sensitive Data Protection では、ファイル ストレージ バケットをファイル ストアという用語で参照します。
各ファイルストア データ プロファイルには、次のフィールドがあります。
分析情報
ファイルストアのデータ プロファイルは、次の分析情報を提供します。
- データリスク
- 現状態のデータに関連付けられるリスクのレベル。詳細については、機密性とデータリスク レベルをご覧ください。
- ファイル クラスタ
- このファイル ストアのプロファイリング時に検出された各ファイル クラスタの概要を提供します。各サマリーの詳細については、このページのファイルクラスタのサマリーをご覧ください。
- 機密性
- このファイルストアの機密レベルを示すスコア。詳細については、機密性とデータリスク レベルをご覧ください。
メタデータ
ファイルストアのデータ プロファイルは、次のメタデータを提供します。
- データ ストレージ ロケーション
デュアルリージョン Cloud Storage バケットのプロファイルを作成した場合、このフィールドには 2 つのリージョンが一覧表示されます。
Amazon S3 バケットのプロファイリングを行った場合、この値はバケットが保存されている AWS リージョンです。
- 暗号化
このファイル ストアの暗号化が Google によって管理されているか、組織によって管理されているか。
- ファイルのストアタイプ
プロファイリングされたデータのタイプ(Cloud Storage データまたは Amazon S3 データ)。
- Filestore パス
ファイル ストアの名前。
- 検査構成のスナップショット
プロファイルの生成時に使用した検査テンプレートのスナップショット。詳細については、データ プロファイルのスナップショットをご覧ください。
- ロケーション タイプ
ファイルストアが保存されているロケーションのタイプ(
region
、dual-region
、multi-region
)。- 最初に作成されたプロファイル
プロファイルが初めて作成された日時。
- プロファイルの最終生成時刻
プロファイルが最後に生成された日時。
- 親 ID
プロファイリングされたデータを所有するリソース。
- データ プロファイルが Google Cloud リソース用の場合は、データを含むプロジェクトの ID です。
- データ プロファイルが Amazon S3 バケット用の場合、これはバケットを含む AWS アカウントの ID です。
- 公開
このファイル ストアをすべてのユーザーが使用できるか、特定のユーザーに制限されているか。
- リソースラベル
プロファイルの生成時にファイル ストアに含まれていたラベル。
- リソースタグ
プロファイルの生成時にファイル ストアに含まれていたタグ。
- リソース ロケーション
ファイル ストアを含むリージョンまたはマルチリージョン。
デュアルリージョンの Cloud Storage バケットのプロファイルを作成した場合、この値は、バケットが事前定義されたデュアルリージョンに保存されているかどうかによって異なります。
- 事前定義のデュアルリージョンの場合、Sensitive Data Protection は、この値を事前定義のデュアルリージョン名に設定します。
- 標準のデュアルリージョンの場合、Sensitive Data Protection は、この値をデュアルリージョンを含むマルチリージョンに設定します。リージョンがマルチリージョンにマッピングされる方法については、デュアルリージョンをご覧ください。
- リソース名
データ プロファイルの完全修飾名。
- ステータス
プロファイルの生成が成功したかどうかを示します。
ファイル クラスタの概要
ファイルストアのデータ プロファイルが生成されると、ファイルはファイルクラスタにグループ化されます。Sensitive Data Protection は、各ファイルクラスタの概要を提供します。
各ファイルクラスタの概要には、次のフィールドがあります。
- データリスク
- このファイルクラスタ内のデータに関連付けられるリスクのレベル。詳細については、機密性とデータリスク レベルをご覧ください。
- エラー
- ファイルストアのデータ プロファイルの生成時に検出されたエラー。
- スキャンされたファイル拡張子
- ファイルストア データ プロファイルを生成するために検出およびスキャンされたファイル形式のリスト。
- 検出されたファイル拡張子
- 検出されたファイル形式のリスト。ただし、必ずしもスキャンされるとは限りません。
- infoType
- このファイルクラスタで検出された組み込みとカスタムの infoType のリスト。
- 機密性
- このファイルクラスタの機密レベルを示すスコア。詳細については、機密性とデータリスク レベルをご覧ください。
- タイプ
- このクラスタ内のファイルのカテゴリを示します。サポートされているすべてのファイルクラスタの詳細については、ファイルクラスタをご覧ください。