注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
データ基盤のセキュリティで見たように、さまざまなプロジェクトのデータへのアクセスは、プロジェクトのオーナーによって管理されます。これは、任意アクセス制御として知られています。しかし、機密データに関しては、より強力で、集中化されたアクセス制御モデルが必要となります。
この例では、概念的なデータセットに、個人を特定できる情報(PII)である乗客の生年月日(DOB)が含まれています。このPIIを厳密に制御し、PIIトレーニングを受けた人だけがこのデータにアクセスできるようにしたい場合があります。これはマーキングを使って解決できます。
マーキングは、Foundryの強制アクセス制御の実装です。マーキングは、指定されたユーザーやグループがアクセス可能なデータの種類(例:PII)を表します。マーキングがデータセットに適用されると、そのマーキングへのアクセスがないユーザーは、プロジェクトのオーナーがそれを共有しようとしても、そのデータにアクセスできないことが保証されます。重要なのは、この制限がプラットフォーム内のどこかでこのデータセットから派生したすべてのデータにも適用されることです。
この機能はデータガバナンスに非常に強力であり、データ保護責任者がデータのカテゴリーにアクセスできる人を一元管理し、監査することができます。
エンドユーザーにアプリケーションを導入する前に、機密データを保護することを確認したいと思います。再度、この例では、データパイプラインで乗客の生年月日(DOB)をロックダウンしたいと考えています。
マーキングカテゴリーを作成する必要があります。これは、一連のマーキングの名前です。この場合、「情報」というマーキングカテゴリーを作成します。これは、将来的に他の情報関連のマーキングが必要になる可能性があるためです(例:個人保護健康情報(PHI))。カテゴリーを作成したら、PIIマーキングを作成できます。次に、PIIデータを閲覧する権限を持つ人をマーキングのメンバーに追加し、管理者チームをマーキングの管理者に追加します。
マーキングは、データフローに沿って伝播する強力な挙動を持っています。したがって、既存のパイプラインに新しいマーキングを適用することで、予期せずに下流のユーザーがロックアウトされるリスクがあるため、パイプラインにマーキングを適用する前に常にシミュレーションを行うことがベストプラクティスです。これを行うには、パイプラインのデータフローを開いてシミュレーションモードをオンにします。raw/passengersデータセットのマーキングを編集し、作成したPIIマーキングを適用します。次に、PIIマーキングが適用されると影響を受けるすべての下流のデータセットが表示されます。
すべてのデータの消費者にPIIアクセスを持たせる必要はないので、パイプライン内のどこかで機密性の高いDOB行を削除したいと考えています。これを行うには、パイプラインをクリックし、PIIマーキングを削除するのに最適な場所を確認しながら進めます。通常、これはデータセットを選択して下部のプレビュービューを開くことで行われ、データと行が表示されるようにします。
この概念的な例では、PIIマーキングがオントロジーデータセットまで伝播し、PIIにアクセスできないエンドユーザーすべてがロックアウトされることがわかります。そのため、パイプライン内で可能な限り機密データを保持しつつ、乗客データのオントロジー版(すなわち、/Sky Industries/Customer Metrics [オントロジー]/passengers)で「dob」行を削除することが最善だと判断しました。
データフロービューで、Customer Metrics [オントロジー]/passengersデータセットをクリックし、コードをクリックしてリポジトリで表示をクリックします。これにより、この概念的なデータセットの作成に使用されたコードリポジトリが開きます。コードリポジトリでは、1)ブランチを作成し、2)機密行(つまり、dob
行を削除)を削除し、3)入力データセットからまもなく継承されるPIIマーキングを削除し、4)プルリクエストを作成することが求められます。継承されたマーキングと組織を削除する方法に関するドキュメントの確認をお勧めします。
PIIマーキングの伝播を止めるために、同僚がプルリクエストを承認したら、このデータセットとそれより下流のすべてのものをビルドする必要があります。これにより、最新のデータセットトランザクションがすべて「伝播停止」の状態になります。また、APPENDやUPDATEトランザクションタイプには特別な注意が必要です。しかし、この例では、すべてがFoundryのデフォルトのトランザクションタイプであるSNAPSHOTとしてビルドされています。
マーキングを適用する前に、予想されるデータセットにのみ伝播し、他のデータセットには影響しないことを再確認したいと思います。これを行うには、再度パイプラインのデータフロービューを開き、シミュレーションモードをオンにして、raw/passengerデータセットにマーキングを適用し、ontology/passengerデータセットに影響を与えないことを確認します。これは、前のセクションで適用されたstop_propagatingロジックが正しく機能していることを意味します。
これで、マーキングを適用する準備が整いました。概念的なデータのスクリーンショットに示されているように、これを行うには、raw/passengerデータセットに移動し、セキュリティヘルパーを開いてマーキングを適用します。保存をクリックすると、PIIマーキングがすぐに適用され、すぐに下流に伝播されます。データフローを見ると、マーキングがあるデータセットにマーキングバッジが表示されています。これで、機密なPIIデータを正常に保護できました。