注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
データエンジニアリングのラーニングパスで Transform Project を作成したところまで進みました。オントロジーのオブジェクトタイプとリンクタイプをバックアップするために使用されるデータセットは、コードリポジトリから オントロジープロジェクト に出力される必要があります。
このタスクでは、オントロジープロジェクトのフォルダーとリポジトリを設定し、準備されたデータセットを出力するコードを生成します。まず、データフローグラフを開いた状態で、flight_alerts_clean
および passengers_clean
データセットを確認して、追加の準備が必要かどうかを判断しましょう。
開いているデータフローグラフで、flight_alerts_clean
データセットノードをクリックし、画面の左下にある Preview ヘルパータブを開きます。
flight_date
列を除く)。Preview ヘルパーで alert_display_name
の横にある "▾" をクリックし、View stats を選択して主キーの一意性を確認します。値のヒストグラムで、1回以上表示される値がないことを確認します。
データセットの列を確認し、"フライトアラートオブジェクトタイプには、すべての既知のワークフローをサポートするために、これらの列すべてがオブジェクトプロパティとしてマップされる必要があるか?" と尋ねます。
category
列は必要ないとし、このデータセットから削除しても運用上の問題はないとしましょう。これらのレビューステップを passengers_clean
データセットに対しても繰り返します。このデータセットも、ベストプラクティスに従った命名とスキーマが適用されており、必要なプロパティに列が完全にマップされていると仮定しましょう。
オントロジープロジェクト フォルダーと関連する変換作成物を作成しましょう。../Data Engineering Tutorials/
フォルダーに戻り、Ontology Project: Flight Alerts という新しいフォルダーを作成します。
ベストプラクティス に従って、少なくとも以下のサブフォルダーを作成します。
/data
/transformed
/ontology
/analysis
/documentation
.../Ontology Project: Flight Alerts/data/ontology
フォルダーに Pipeline Builder を使って、ontology_flight_alerts_logic
という新しいバッチパイプラインを作成します。