シンプルな Preparation を作成する

Preparation は Pipeline Builder に取って代わられ、データのクリーニングや準備においてもはや推奨されていません。Pipeline Builder は、パイプライン用のデータをクリーニングおよび準備しやすくし、Marketplace サポートも提供しています。

このチュートリアルでは、Preparation を使って、生のデータが含まれるスプレッドシートを、解析に使用できるクリーニング済みおよび準備済みのデータセットに変換する方法を説明します。

このチュートリアルでは、Meteoritical Society のデータを使用しています。このデータは、NASA Data Portal ↗から入手できます。以下のサンプルデータセットを使用して、ユーザーの Preparation インスタンスで進めることができます。

このデータセットには、地球上で見つかった隕石に関する生データが含まれています。

データセットには、各隕石の名前、質量、分類、その他の識別情報が含まれており、発見された年や見つかった場所の座標も記載されています。

Foundry にアップロードする前に、CSV を開いてデータを確認することをお勧めします。

1. Preparation を作成する

まず、新しい Preparation を作成します。

これにより、新しい Preparation が作成されます。ファイル内で再度見つけやすくするために、意味のある名前で Preparation を保存することができます。

作成した Preparation は、明示的に保存しない限り、デフォルトで ファイル > .auto-save に保存されます。

次に、データセットを確認し、見つかったデータ品質の問題を修正します。

下のパネルには、行内のデータに関する情報が表示されます。統計、グラフなどです。

統計パネルから、一部の値が トリムが必要 としてフラグされていることがわかります。これは、値の先頭や末尾に余分な空白があることを意味します。

行の統計が更新されると、トリムが必要 のカウントがゼロになり、行が正常にクリーニングされたことがわかります。また、画面の右側にある データセットの変更 リストに 空白をトリムする の変更が追加されます。

次に、year 行に進みましょう。テーブルでは、この行のデータタイプが タイムスタンプ であることがわかります。しかし、私たちはそれを日付にしたいだけです。

最後に、ジオロケーション 行を見てみましょう。ヒストグラムでは、多くの行が (0.000000,0.000000) の値を持っており、これは有効なジオロケーションではありません。

これらの値を null に設定することで修正しましょう。

データ品質の問題が解決されたので、新しいクリーニング済みのデータセットを保存できます。

出力: によって新しいデータセットへのリンクが示されます。Preparation に変更を加えると、更新ボタンを使って出力データセットを更新できます。

新しいデータセットを保存せずに Contour でクリーニングの結果を試すには、画面上部の解析ボタンをクリックしてください。