注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Preparation は Pipeline Builder に置き換えられ、データのクリーニングと準備にはもはや推奨されません。Pipeline Builder では、データをパイプラインにクリーニングし、準備するだけでなく、Marketplace サポートも簡単に提供できます。
このチュートリアルでは、Preparation を使用して、生のデータのスプレッドシートを解析の準備ができたクリーンで整理されたデータセットに変換する方法を説明します。
このチュートリアルでは、Meteoritical Society のデータを NASA Data Portal を使用しています。以下のサンプルデータセットを使用して、独自の Preparation インスタンスで手順に従ってください。
meteorite_landings_raw のダウンロード
このデータセットには、地球上で見つかった隕石に関する生のデータが含まれています。
データセットには、各隕石の名前、質量、分類、およびその他の識別情報が含まれており、それが発見された年と見つかった場所の座標が記載されています。
Foundry に アップロードする 前に、CSV を開いてデータを確認することをお勧めします。
まず、新しいプレパレーションを作成することから始めます。
まず、meteorite_landings_raw.csv
ファイルを Foundry にアップロードします。
次に、meteorite_landings_raw
データセットに移動し、右クリックして Preparation でクリーン を選択します。
これにより、新しい プレパレーション が作成されます。ファイル内で再度見つけやすくするために、意味のある名前でプレパレーションを保存する必要があります。
明示的に保存しなかったプレパレーションは、デフォルトで ファイル > .auto-save に保存されます。
次に、データセットを確認し、見つけたデータ品質の問題を特定して修正します。
下のパネルには、行内のデータに関する情報が表示されます。統計、グラフなどです。
統計パネルから、いくつかの値が Needs trim としてフラグされていることがわかります。これは、値の前後に余分な空白があることを意味します。
行の統計が更新されると、Needs trim の数がゼロになり、行が正常にクリーニングされたことがわかります。また、画面の右側にある Dataset Changes のリストに Trim whitespace の変更が追加されます。
year
行を日付に変換する次に、year 行に移ります。テーブルで行のデータタイプが Timestamp であることがわかります。しかし、Date にしたいのです。
まず、Change type ボタンをクリックし、ドロップダウンリストから Date (whole days) を選択します。
Change type ボタンをクリックします。
null
に設定する最後に、GeoLocation 行を見てみましょう。ヒストグラムでは、多くの行が (0.000000,0.000000) の値を持っており、これは有効なジオロケーションではありません。
これらの値を修正するために、null
に設定しましょう。
/NULL
を入力し、適用 をクリックしてこれらの値を null
に設定します。データ品質の問題が解決されたので、このデータセットの新しいクリーンなバージョンを保存できます。
Output: によって新しいデータセットへのリンクが表示されます。プレパレーションに変更を加えると、Update ボタンを使用して出力データセットを更新できます。
新しいデータセットを保存せずに Contour でクリーニングの結果を試すには、画面上部の Analyze ボタンをクリックします。