注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

シンプルなプレパレーションの作成

Preparation は Pipeline Builder に置き換えられ、データのクリーニングと準備にはもはや推奨されません。Pipeline Builder では、データをパイプラインにクリーニングし、準備するだけでなく、Marketplace サポートも簡単に提供できます。

このチュートリアルでは、Preparation を使用して、生のデータのスプレッドシートを解析の準備ができたクリーンで整理されたデータセットに変換する方法を説明します。

このチュートリアルでは、Meteoritical Society のデータを NASA Data Portal を使用しています。以下のサンプルデータセットを使用して、独自の Preparation インスタンスで手順に従ってください。

meteorite_landings_raw のダウンロード

このデータセットには、地球上で見つかった隕石に関する生のデータが含まれています。

データセットには、各隕石の名前、質量、分類、およびその他の識別情報が含まれており、それが発見された年と見つかった場所の座標が記載されています。

Foundry に アップロードする 前に、CSV を開いてデータを確認することをお勧めします。

1. プレパレーションの作成

まず、新しいプレパレーションを作成することから始めます。

  1. まず、meteorite_landings_raw.csv ファイルを Foundry にアップロードします。

  2. 次に、meteorite_landings_raw データセットに移動し、右クリックして Preparation でクリーン を選択します。

これにより、新しい プレパレーション が作成されます。ファイル内で再度見つけやすくするために、意味のある名前でプレパレーションを保存する必要があります。

  1. 最後に、保存 をクリックし、プレパレーションの名前と保存場所を選択します。

明示的に保存しなかったプレパレーションは、デフォルトで ファイル > .auto-save に保存されます。

2. データのクリーニング

次に、データセットを確認し、見つけたデータ品質の問題を特定して修正します。

余分な空白のトリミング

  1. まず、テーブルのname行をクリックします。

下のパネルには、行内のデータに関する情報が表示されます。統計、グラフなどです。

統計パネルから、いくつかの値が Needs trim としてフラグされていることがわかります。これは、値の前後に余分な空白があることを意味します。

  1. ピンクの電球アイコンにカーソルを合わせ、余白をトリミング ボタンをクリックしてこの問題を修正します。

行の統計が更新されると、Needs trim の数がゼロになり、行が正常にクリーニングされたことがわかります。また、画面の右側にある Dataset Changes のリストに Trim whitespace の変更が追加されます。

year 行を日付に変換する

次に、year 行に移ります。テーブルで行のデータタイプが Timestamp であることがわかります。しかし、Date にしたいのです。

  1. まず、Change type ボタンをクリックし、ドロップダウンリストから Date (whole days) を選択します。

  2. Change type ボタンをクリックします。

ジオロケーションの値を null に設定する

最後に、GeoLocation 行を見てみましょう。ヒストグラムでは、多くの行が (0.000000,0.000000) の値を持っており、これは有効なジオロケーションではありません。

これらの値を修正するために、null に設定しましょう。

  1. まず、ヒストグラムの (0.000000, 0.000000) の値を選択します。
  2. 次に、Change data (for selected rows) の下にある New value アクションをクリックします。
  3. 最後に、テキストボックスに /NULL を入力し、適用 をクリックしてこれらの値を null に設定します。

3. クリーンなバージョンのデータセットを保存する

データ品質の問題が解決されたので、このデータセットの新しいクリーンなバージョンを保存できます。

  1. まず、画面上部の Save as dataset ボタンをクリックします。
  2. 次に、新しいクリーンなデータセットの名前と場所を選択します。新しいデータセットが作成されていることを示すポップアップが表示されます。

Output: によって新しいデータセットへのリンクが表示されます。プレパレーションに変更を加えると、Update ボタンを使用して出力データセットを更新できます。

新しいデータセットを保存せずに Contour でクリーニングの結果を試すには、画面上部の Analyze ボタンをクリックします。