この一連のドキュメントでは、組織内のデータリスクを評価して軽減するための戦略について説明します。また、現在のデータ セキュリティ対策を確認するうえで役に立つ 2 つの機密データの保護サービスについて説明し、比較します。
データリスク管理の目標
データリスクの管理では、ビジネスにとって適切なリスクレベルの範囲内でデータを保存、処理、使用する必要があります。データリスク管理を行う際は、次の目標をめざすことをおすすめします。
- データが適切に検出、分類されている。
- データ漏洩のリスクが適切に把握される。
- データは適切な管理によって保護されるか、難読化によってリスク回避される。
データ ワークロードを評価する際は、まず次の質問をしてください。
- このワークロードはどのようなデータを扱い、その中に機密性が高いデータはあるか?
- このデータは適切に公開されているか?たとえば、データへのアクセスは適切なユーザー、適切な環境、承認された目的に制限されているか?
- データの最小化や難読化の戦略によってこのデータのリスクを低減できるか?
十分な情報を得たうえでリスクベースのアプローチを取ることで、ユーザーのプライバシーを侵害することなくデータを最大限に活用できます。
分析の例
この例では、データチームが商品レビューの顧客フィードバックに基づいて機械学習モデルを構築しようとしているとします。
このワークロードはどのようなデータを扱い、その中に機密性が高いデータはあるか?
データ ワークロードで、使用されている主キーが顧客のメールアドレスであることがわかりました。顧客のメールアドレスに顧客の名前が含まれていることはよくあります。 さらに、実際の商品レビューには、顧客が送信した非構造化データ(自由形式のデータ)が含まれています。非構造化データには、電話番号や住所などの機密データが断続的に含まれていることがあります。
このデータは適切に公開されているか?
プロダクト チームしかデータにアクセスできないことはわかりました。しかし、データをデータ分析チームと共有し、そのデータを使用して機械学習モデルを構築できるようにしたいと考えています。データをより多くの人に公開すると、そのデータが保存され、処理されるより多くの開発環境にも公開することになります。漏洩のリスクが増大すると判断しました。
データの最小化や難読化の戦略によってこのデータのリスクを低減できるか?
分析チームがデータセット内の実際の個人情報(PII)を必要としないことはわかっています。ただし、顧客ごとにデータを集計する必要があります。どのレビューが同じ顧客のものかを判断する手段が必要なのです。このニーズに対処するために、構造化された PII(顧客のメールアドレス)をすべてトークン化してデータの参照整合性を保つことにしました。また、非構造化データ(レビュー)を検査してその中に断続的にある機密データをマスクすることにしました。
次のステップ
- データについて学習するうえで役立つ機密データの保護サービスを比較する(このシリーズの次のドキュメント)