注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このコンテンツは learn.palantir.com ↗ でも利用できますが、アクセシビリティのためにここに掲載しています。
データエンジニアリングのラーニングパスでは、変換プロジェクト を作成しました。オントロジーのオブジェクトタイプやリンクタイプに使用されるデータセットは、コードリポジトリから オントロジープロジェクト に出力される必要があります。
このタスクでは、オントロジープロジェクトのフォルダーとリポジトリを設定し、準備されたデータセットを出力するコードを生成します。まず、Data Lineage グラフを開いた状態で、flight_alerts_clean
と passengers_clean
のデータセットを調べ、追加の準備が必要かどうかを判断しましょう。
開いている Data Lineage グラフで、flight_alerts_clean
データセットノードをクリックし、画面の左下にある プレビュー ヘルパータブを開きます。
flight_date
列を除いてすべての列が文字列です。プレビュー ヘルパーの alert_display_name
の隣にある "▾" をクリックし、統計を表示 を選択してプライマリキーの一意性を確認します。値のヒストグラムで、1回以上現れる値がないことを確認してください。
データセットの列を確認し、「フライトアラートのオブジェクトタイプには、すべての既知のワークフローをサポートするために、これらの列のすべてがオブジェクトプロパティとしてマッピングされる必要があるか?」と尋ねます。
category
列は不要であり、このデータセットから削除しても運用上の問題はないとしましょう。これらのレビューステップを passengers_clean
データセットに対しても繰り返します。このデータセットも、最適な命名とスキーマの適用方法に従っており、列が必要なプロパティに完全にマッピングされていると仮定しましょう。
オントロジープロジェクト フォルダーと関連する変換作成物を作成しましょう。../Data Engineering Tutorials/
フォルダーに戻り、オントロジープロジェクト:フライトアラート という新しいフォルダーを作成します。
ベストプラクティス に従って、少なくとも以下のサブフォルダーを作成します。
/data
/transformed
/ontology
/analysis
/documentation
.../オントロジープロジェクト:フライトアラート/data/ontology
フォルダーに Pipeline Builder を使用して、新しいバッチパイプラインを作成し、ontology_flight_alerts_logic
と命名します。