分析Contourボードボードの説明

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

ボードの説明

Contour における探索と分析は、一連のボードを使用して行われます。ボードの中には、チャートを作成したり計算を行ったりするものもありますし、フィルター処理、行の削除などによりユーザーのデータセットを操作するものもあります。

この要約表のリンクを使用して、このページ上のボードタイプ間を移動します。

ボード説明ビジュアライズ行のフィルター処理集計行の操作重複の削除
Summaryユーザーのテーブルの行数を報告します。はいいいえいいえいいえいいえ
Filter数値、テキスト、または日付と時刻の値によってユーザーのデータセットをフィルター処理します。いいえはいいいえいいえはい
Expression式言語を使用して新しい行を導き出すか、複雑なフィルタリングを行います。いいえはいいいえはいいいえ
Table生のデータの一部を表示し、スキーマを探索し、データカバレッジメトリクスを計算します。はいいいえいいえいいえいいえ
Histogramユーザーのデータのヒストグラムを作成し、特定のグループにフィルター処理します。はいはいはいはい、Pivot オプション経由でいいえ
Distributionユーザーのデータの分布図を作成します。はいはいいいえいいえいいえ
Time seriesx 軸に日付/時間を持つチャートを作成し、特定のグループにフィルター処理します。はいはいいいえいいえいいえ
Edit columns結合、複製、削除、リネーム、または列を分割します。いいえいいえいいえはいいいえ
Transform dataデータを難読化し、値を検索して置換するか、日付を解析します。いいえいいえいいえはいいいえ
Chartカスタマイズ可能な、多層チャートを作成します。はいはいはいいいえいいえ
Grid2つのカテゴリー行のマトリックスを作成します。セルはフィルター処理可能で、ヒートマップとして表示されます。はいはいいいえいいえいいえ
Heatmap座標データに基づくヒートマップを表示します。はいはいいいえいいえいいえ
Pivot table1つまたは複数のメトリクスのピボットテーブルを作成します。はいはいはいはい、Pivot オプション経由でいいえ
Column editor新しい行を導き出したり、不要な行を削除します。いいえいいえいいえはいはい
Multi-column editor行の名前を変更、削除、再配置するか、データの重複した行を削除します。いいえいいえいいえいいえいいえ
Enrich別のデータセットを用いてデータを豊かにし、両方のデータセットからの行を返します。いいえいいえいいえはいはい
Link別のデータセットに結合し、そのデータセットの一致するレコードを返します。いいえいいえいいえはいはい
Set math外部データセットに基づいて行を保持、追加、または削除します。いいえはいいいえいいえいいえ
Joinキュレーションされた結合を行います。いいえはいいいえいいえいいえ
Export最終的にフィルター処理された観測値セットを CSV や XLS にエクスポートします。いいえいいえいいえいいえいいえ
Reorder columnsテーブル内の行の順序を変更します。いいえいいえいいえいいえいいえ
Macroテンプレート化された変換をユーザーのパスに適用します。いいえいいえいいえいいえいいえ
Sort1つ以上の行に基づいてデータの行を並べ替えます。いいえいいえいいえいいえいいえ
Calculation複数の集計計算を表示します。はいいいえはいいいえいいえ
Unpivot一部の行を行に変換することでユーザーのデータを再形成します。いいえいいえいいえはいいいえ

サマリー

サマリーボードでは、現在のパス内のテーブルの行数と行数が表示されます。

データをまったくフィルター処理していない場合、これはユーザーの開始セット内の行数です。 ヒストグラムを追加して特定のバーを選択するなどのフィルターを適用した場合、これはフィルター後に残った行数です。


フィルター

フィルターボードの目的は、データセットにカスタマイズ可能なフィルターを適用することです。 他のボード(ディストリビューション、ヒストグラム)でもフィルターを適用できますが、フィルターボードでは複数の変数を含む複雑なフィルターを1か所で構築できます。

フィルターボードでリストを使用することは、SQL の WHERE IN (x,y,z) 句に似ています。 Contour はフィルターボードで数千のアイテムのリストを処理できます。ただし、大きなリストはブラウザに負担をかけ、サイズが大きすぎるリストはおそらくブラウザの故障を引き起こします。 このような場合、リストは Contour に別のセットとしてインポートされ、フィルターはリンクまたはセット数学ボードを使用して実装されるべきです。 リンクまたはセット数学ボードの使い方を学ぶ。

設定

フィルターを追加 をクリックし、フィルターを適用する行を選択し、ドロップダウンからフィルタータイプを選択します。選択した列に基づいて、Contour は適切なカテゴリーのフィルター(たとえば、数値列の場合は数値)を選択します。

filter-config

ヒント

テキストフィルターの一部では、ワイルドカードを使用できます:* は複数の文字に置き換えられ、? は1つの文字に置き換えられます。

"matches"(正規表現)テキストフィルターでは、正規表現を直接入力できます(引用符や文字列インジケータは必要ありません)。

別のフィルターを追加するには、再度 フィルターを追加 をクリックします。 すべてのフィルター または 任意のフィルター に一致させることができます。 フィルターを削除するには、フィルターの横にあるゴミ箱ボタンをクリックします。 フィルターを適用するには、保存 をクリックします。

テキストフィルターの詳細

現在、テキストフィルターには次のオプションがあります。

  • contains: これは、検索条件のいずれかを含む行を返します。検索条件にはテキストのみが含まれる必要があります。たとえば、「hello」という条件は、「hihellohi」を含む行と一致します。
  • contains (with wildcards): これは、検索条件のいずれかを含む行を返します。検索条件には、1 文字のワイルドカードを示す ? または複数文字のワイルドカードを示す * を含めることができます。たとえば、h?l*o という条件は、「hi hello hi」または「hi halqqqqqo hi」と一致します。
  • is: これは、検索条件のいずれかと等しい行を返します。検索条件にはテキストのみが含まれる必要があります。たとえば、「hello」という条件は、「hello」と一致しますが、「hi hello hi」とは一致しません。
  • is (with wildcards): これは、検索条件のいずれかと等しい行を返します。検索条件には、1 文字のワイルドカードを示す ? または複数文字のワイルドカードを示す * を含めることができます。たとえば、h?l*o という条件は、「hello」または「halqqqqqo」と一致します。
  • matches: これは、任意の条件に一致する行を返します。条件は正規表現です。このオプションは、Java Pattern を使用して正規表現を評価します。

ヒストグラムやチャートのような視覚的なツールに加えて、Contour には、Contour の豊富な式言語を使ってデータから新しい列を導出したり、複雑なフィルタリングを実行したり、複雑な集計を実行したりできる式ボードも用意されています。

  • 式エディタを使用する場合、? アイコンをクリックして式言語のクイックリファレンスを表示します。
  • 入力すると、ドロップダウンで提案された関数が表示されます。クリックするか、Enter キーを使用して目的の関数を選択します。

列名は大文字と小文字が区別されます。また、列を選択する場合、列名をダブルクォートで囲むことも、囲まないこともできます。たとえば、year("birthdate_col")year(birthdate_col) と同じです。このドキュメントでは、一貫性を持たせるために、列名はダブルクォートで記述されています。


テーブル

テーブルボードは、データセットのスナップショットを表形式で表示します。データセット内の最初の limit(デフォルト:1,000)行のみが表示されます。これは、ブラウザのパフォーマンス問題を防ぐためです。

テーブルボードは、データが期待通りに見えるかどうかをスポットチェックするのに役立ちます。テーブルを操作できます:列をドラッグアンドドロップして並べ替えたり、各列のドロップダウンから選択したりできます。これらのテーブルへの書式変更は、基本データには影響しません(列のサブセットのみを表示しても、基本データ内にはすべての列が存在します)。

table-column-operations

Shift キーを押しながら複数の列を選択すると、一度に複数の列を移動できます。 また、設定 パネルを使用して、一度に複数の列を変更することもできます。

table-configure

条件付き書式設定

列のドロップダウンをクリックして、テーブルボードに条件付き書式設定を追加できます。

conditional-formatting-action

次に、ダイアログを使用して、特定の列にルールを追加します。条件付き書式設定されたセルは、選択した色のテキストと背景で表示されます。日付列に対しては Rules はサポートされていません。

conditional-formatting-dialog

テーブルボード vs. テーブルパネル

パス内の任意の地点でテーブルボードを追加して、その瞬間のデータのクイックプレビューを表示することができます。また、パスビューからテーブルパネルに切り替えることもできます。

テーブルパネルは、テーブル(ボードではなく)を中心に据えて、データが各ボードを追加するたびにどのように変化するかを確認できます。これは、 を記述する際に特に役立ちます。

table-view

右上の テーブル をクリックしてテーブルパネルに切り替えます。再度ボタンをクリックするか、テーブルを非表示 をクリックしてパスビューに戻ります。

テーブルパネルでは条件付き書式設定はサポートされていません。


ヒストグラム

ヒストグラムボードは、指定された列の異なる値を集計し、結果を棒グラフで表示します。

たとえば、次のヒストグラムは、ニューヨークのどの地域で始まったかによって、タクシーの乗車時間の平均を計算しています。

histogram-taxi-example

表示されるのは上位 10 のバーのみです。さらにバーを表示するには、+ もっと見る をクリックしてください。一度に最大 50 の値を表示できます。値が 50 を超える場合は、ドロップダウンを使用して範囲の他の部分に移動します。

SQL 相当

ヒストグラムボードは、SQL の GROUP BY 句の視覚化です。 上記の例のヒストグラムは、次の SQL クエリに相当します。

Copied!
1 2 3 4 5 -- 開始地区と旅行時間(秒)の平均値を選択します SELECT start_neighborhood, mean(trip_time_in_secs) FROM <table name> -- テーブル名を指定します -- 開始地区でグループ化します GROUP BY start_neighborhood

設定

  • Y軸
    • データをグループ化する行を選択します。この行の離散値に基づいてデータがグループ化され、その後、集計が計算されます。
  • X軸
    • 計算する集計を選択し、集計が Count でない場合は、適用する行を選択してください。
  • 集計
    • 利用可能な集計指標は、Count(レコード数)、Unique CountMinMaxSumMeanApprox. MedianStandard Deviation、および Variance です。
      • Count を除くすべての集計について、集計が適用される行を指定する必要があります。Unique Count では、任意の行を選択できます。
      • MinMaxSumMeanApprox. MedianStandard Deviation、および Variance は数値行にのみ適用されます。
      • 集計は、Y軸として選択された行の各異なる値に対して計算されます。
Approximate median

Approx. Median 集計は概算値です。Contour は、パーセンテージ値 0.5 およびデフォルトの精度を持つ percentile_approx 関数を呼び出します。

Pivoted Data に切り替える

Switch to Pivoted Data をクリックすると、ヒストグラムの後に追加するボードは、元のデータセットではなく、テーブルで計算された集計データを使用します。

新しいデータセットには、元のヒストグラム設定で Y軸に選択した行と、集計の行が含まれます。例えば:

histogram-pivot

ソート

ヒストグラムは、デフォルトで集計を降順でソートします。非常に大きなヒストグラムの場合、集計の最大 1,000 個の値に対してソートが実行されます。

ドロップダウンを使用して、Y軸の行値でソートするよう変更するか、またはソート方向を変更することができます。

フィルタリング

ヒストグラム上のデータを選択して、今後のボードのデータセットをフィルター処理します。

選択モード:

  • Y軸として選択した行の 1 つまたは複数の異なる値でフィルター処理するには、Bar を選択します。

histogram-bar-selection

  • 集計値でフィルター処理するには、Range を選択します。たとえば、Range 選択を使用して、特定の閾値を超える値を持つカテゴリーのみを選択することができます。

histogram-range-selection

次に、選択した値のみをフィルター処理するには Keep を選択し、選択されていない値のみを保持するには Remove を選択します。

histogram-keep-remove


分布

分布ボードは、集計指標の数値変数の分布を表示します。

分布ボードはヒストグラムに似ていますが、特定の値ではなく、値の 範囲 に基づいて集計データを表示します。たとえば、次の分布では、顧客の年齢に関するデータが表示されます。年齢は、10 の範囲(または「バケット」)に分けられます。

distribution

SQL 相当

分布ボードの計算では、まず X軸の最小値と最大値を見つけ、バケットを計算する関数を作成します。次に、分布の SQL 相当は、以下のようにほぼ同等となります。

Copied!
1 2 3 4 -- X_AXIS_BUCKET_FUNCTION([x-axis-column])と<AGGREGATE_METRIC>([aggregate-column])を選択します SELECT X_AXIS_BUCKET_FUNCTION([x-axis-column]), <AGGREGATE_METRIC>([aggregate-column]) FROM <PARENT_BOARD> -- <PARENT_BOARD>からデータを取得します GROUP BY X_AXIS_BUCKET_FUNCTION([x-axis-column]) -- X_AXIS_BUCKET_FUNCTION([x-axis-column])に基づいてグループ化します

設定

  • X軸
    • 数値の行を選択します。この行の値は等幅範囲にグループ化され(つまり、データが10、100、1000の「バケツ」に等しく分割される)、次に集約が適用されます。また、この軸のスケール(線形または対数)も設定できます。
  • Y軸
    • それぞれの範囲で計算する集約メトリックを選択します。
      • 使用できる集約メトリックは、カウント(レコード数)、ユニークカウント最小最大合計平均おおよその中央値標準偏差分散です。カウントを除いて、集約が適用される行を指定する必要があります。
    • Y軸のスケールも設定できます(線形または対数)。
おおよその中央値

おおよその中央値の集約は近似です。Contourはpercentile_approx関数をパーセンテージ値0.5とデフォルトの精度で呼び出します。

フィルタリング

フィルターする範囲を選択するには、チャートで目的の間隔をクリックしてドラッグします。

distribution-select

次に、編集可能なボードフッターで間隔をより細かく調整できます。

distribution-footer

選択した間隔内の値を保持するか、選択されていない値のみを保持して選択した値を削除するかを選択できます。選択をクリアするには、クリアボタン(x)をクリックします。


タイムシリーズ

タイムシリーズボードでは、時間間隔ごとにデータをグループ化し、そのデータに対して集約メトリックを計算できます。

例えば、顧客の個人情報を含むデータセットがある場合、次のタイムシリーズボードは、それぞれの年に生まれた人の数を計算します。

time series

さらに、シリーズとして使用する行を指定できます。上記の例では、性別をシリーズとして使用できます。すると、タイムシリーズボードは、シリーズ行内のそれぞれの値に対して1つの線が分割されます。この場合、F(女性)またはM(男性)です。

time series-series

タイムシリーズは、全体のデータセットで集約を実行し、表示する際に出力を最初の1000個の値に縮小します。

設定

  • X軸
    • データを時間的にグループ化するDateTime行を選択します。次に、時間の単位を選択します。データはその長さの間隔でグループ化されます。利用可能な単位は、時間です。
  • 集約
    • 各時間間隔に適用する集約を定義します。
    • 使用できる集約メトリックは、カウント(レコード数)、ユニークカウント最小最大合計平均標準偏差分散です。
      • カウントを除いて、集約が適用される行を指定する必要があります。ユニークカウントでは、任意の行を選択できます。
      • 最小最大合計平均おおよその中央値標準偏差分散は数値行にのみ適用されます。
  • シリーズ
    • データをシリーズに分割する行を選択します。行の離散値ごとに1つのシリーズ(チャート内の線として表される)が作成されます。
おおよその中央値

おおよその中央値の集約は近似です。Contourはpercentile_approx関数をパーセンテージ値0.5とデフォルトの精度で呼び出します。

フィルタリング

タイムシリーズで日付範囲を選択し、データセットを今後のボードにフィルタリングできます。select-rangeをクリックし、目的の間隔をクリックしてドラッグします(編集可能なボードフッターで間隔をより細かく調整できます)。選択をクリアするには、clear-selectionアイコンをクリックします。

ドロップダウンから保持を選択して、選択した値のみをフィルタリングするか、選択していない値のみを保持して選択した値を削除するかを選択できます。

time series-select-range


列の編集

Contourでは、次のボードで列を編集できます。

  • 2つ以上の列を結合する。
  • 列を複製する(例えば、元のデータに影響を与えずにその列で操作を試すため)。
  • テーブルから列を削除する。
  • 列の名前を変更する。
  • 区切り文字で列を分割する。

データの変換

次のボードを使用して、列内のデータを変換できます。

難読化

  • セル値のハッシュ化(例えば、名前のような機密データを不明瞭にするため)。列内の各値は、SHA-1ハッシュ関数を使用してハッシュ化された値に置き換えられます。

SHA-1ハッシュは復号化可能であり、完全に安全とは見なされていません。そのため、データコンプライアンス目的には使用しないでください。

  • 値の一部の文字数をマスクする(例えば、電話番号の最後の2桁以外すべてをマスクする)。
  • データの再識別リスクを減らすために、データセットに適用する閾値(k)を設定するプライバシー技術として、データの列をk-匿名化する。このプロセスは、「抑制」と呼ばれる特定のフィールドを「抑制」することで行われます。これは、データの再識別に役立つ可能性があるフィールドです。

使用事例に適したk値は、コンテキストによって決まります。組織は、分析のコンテキストおよび再識別の統計リスクに基づいて、k値の設定に関する独自のポリシーを設定することが一般的です。例として、National Center for Education StatisticsU.S Department of Health & Human Services があります。最低限、k値は1より大きく、データセットの行数より小さくする必要があります。

k-匿名化機能を使用して、ボードはk-匿名化する列、k値ターゲット、抑制の戦略、および抑制後のk値に達しない行の処理方法を尋ねます。

  1. : 個人を一意に識別するための外部データとリンクできる属性または「準識別子」を表します。

  2. k値: 同じ一連の機密情報を持つ k 個のインスタンスが少なくともあるところの閾値 k を表します。

  3. 戦略: データがどのように抑制され、どの順序で抑制されるかを表します。指定されたk値に達するための操作の順序を設定できます。リストされた各列では、k値に達するためにデータに適用されるいくつかの戦略の中から選べます。

    • バケット: 整数を範囲に置き換える。数値型の列が選択された場合にのみ利用可能。
    • マスク: 最後のn文字を*に置き換える。
    • 置換: 値全体を文字列に置き換える。デフォルトの動作では、置換値として***が提案されますが、ユーザーが提供する値に置き換えることができます。
    • 抑制列フラグがチェックされた列では、k値に達しているかどうかに関係なく、すべての値に対して戦略が適用されます。この動作は、すべての値に対して一貫したバケット戦略が適用される年齢のバケット分けのような場合に特に関連しています。
  4. 抑制後のk値に達しない行: 抑制を行ってもk値が k を超えないいくつかの行がある場合、次のオプションが利用可能です。

    • 保持: データが失われないように行を保持します。これらの行を保持すると、データセットはk-匿名化されません。これは、k-匿名化の結果を確認するための有益なステップです。
    • 削除: k値に達しないすべての行を削除します。削除を選択する場合は、難読化の前後で行数を計算して、削除された行数を把握してください。
    • 隠蔽: テーブル内のすべての値を *** で難読化します。このオプションは、行数を同じに保ちたい場合に特に関連しています。

    k-匿名化の設定が必要な手順を示す番号でラベル付けされた難読化インターフェース。

  5. 検索および置換で、列内のテキストを見つけて置換するか、空またはnullのセルを見つけることができます。このボードは、StringまたはNumericタイプのプロパティに対応しています。

  6. 日付の解析から文字列。

parse-date

チャート

Contour のチャートボードでは、データを分析するためのカスタムチャートを作成できます。

設定

メインチャートレイヤーのチャートタイプを選択し、x 軸と y 軸を設定します。現在、チャートボードでは以下のタイプのチャートが提供されています。

棒グラフ

chart-board-bar

横棒グラフ

chart-board-horizontal-bar

折れ線グラフ

chart-board-line

散布図

chart-board-scatter

ヒートグリッド

chart-board-heat-grid

円グラフ

chart-board-pie

セグメント分け

ヒートグリッドと円グラフ以外のチャートタイプでは、データをシリーズにセグメント分けすることも選択できます。

並び替え

オプション セクションを展開して、チャートデータの並び替え方を変更できます。 メインレイヤーの値でチャートデータを並べ替えることができます。

  • X 値
  • Y 値
  • カスタム行値。この並び替え値は、データセット内の任意の行(チャートにプロットされていないものも含む)を使用できます。

以下の例では、棒グラフをオリンピックで各国が獲得した金メダルの数で並べ替えています。

chart-board-custom-sort

データは昇順または降順で並べ替えることができます。オーバーレイプロットの値は、チャートデータの並べ替えに使用できません。

書式設定

書式設定タブでチャートを設定します。X 軸および Y 軸のタイトル、軸の書式設定、凡例の位置、シリーズの並び替え、シリーズの色を変更できます。

オーバーレイの追加

+ オーバーレイを追加 をクリックして、オーバーレイプロットを追加できます。たとえば、棒グラフの上に折れ線グラフを重ねることができます。

オーバーレイを追加すると、現在のパス内のデータを使用するか、別のデータセットから使用するかを選択できます。

別のデータセットからのデータをプロットしても、そのデータセットが作業セットと結合されるわけではありません。データセットを結合するには、結合ボードを使用してください。

データパスの一部であるのはメインチャートレイヤーのみであり、他のレイヤーはプレゼンテーション目的のみです。つまり、オーバーレイレイヤー上で選択を行ったり、データを操作したりしても、パス内の下流データには影響しません

個々のレイヤーの値が関連していない場合や、データ範囲やプロットスケールが大幅に異なる場合は、チャートレイヤーを別の y 軸にプロットできます。

chart-board-separate-y-axis

バケット選択

グループ化列(例:x 軸上)およびセグメント分け列を設定するときに、データポイントをどのようにバケット化するかを選択できます。数値、日付、または時刻の列のみがバケット化できます。たとえば、棒グラフを作成し、x 軸のグループ化列として日付列を選択し、バケットタイプとしてを選択すると、結果のチャートには毎年の棒が表示されます。以下に、使用可能なバケットタイプを示します。

数値列のバケットタイプ:

  • 正確な値: データはバケット化されず、正確な値が表示されます。
  • 最適: バケットの数は、基礎データ範囲内のポイントの平方根に等しいです。データ範囲は、列の最大値と最小値の差です。
  • 最も詳細: チャートは、結果制限内に収まる最大のバケット数を使用します。可能な場合は、正確な値が使用されます。
  • カスタム: バケット数を手動で選択できます。ただし、バケット数は結果制限を超えることはできません。

chart-numeric-bucket-selector

日付と時刻の列のバケットタイプ:

  • 正確な時刻: データはバケット化されず、正確な値が表示されます。
  • 丸め: データは選択されたに最も近い値にバケット化されます。たとえば、でバケット化する場合、2018 年 6 月 15 日のデータポイントは 2018 年のバケットに入ります。
  • 序数: データは序数の日付にバケット化されます。たとえば、曜日を選択した場合、データは曜日ごとに 7 つのバケットに分けられます。

chart-date-bucket-selector

バケット選択が結果制限に収まらない場合、収まる最も詳細なオプションが適用され、データが削除されません。詳細については、結果制限をご覧ください。

結果制限

Contour は、ブラウザ上に表示されるデータポイントの数を制限します。実際には、Contour は画面上のピクセル数よりも多くのデータポイントを表示することはできません。正確なチャートを作成し、データを落とさないようにするため、チャートボードは結果制限内に収まる最も詳細なバケット選択にチャート設定を再バケット化します。

結果制限は、Palantir 管理者によって設定され、デフォルトでは 1000 ポイントになっています。数値、日付、または時刻の列で再バケット化が行われます。

再バケット化を説明するために、次の例を考えてみましょう。

  • データセットに含まれる誕生日を含むチャートボードが作成されます。
  • ボードは、x 軸に誕生日の列を設定した棒グラフに設定されます。たとえば、同じ誕生日の人数をカウントします。
  • 誕生日の列は、秒単位までの日付を指定しているため、バケットタイプとして秒が選択されます。
  • このデータセットでは、秒ごとの一意の誕生日の数が結果制限を超えています。
  • したがって、計算時にチャートボードは、この特定のデータセットに対して結果制限内に収まる最も詳細なバケットサイズである「時」を使用して、データを自動的にバケット化します。

chart-rebucket-example

フィルタリング

チャート上でデータを選択して、今後のボードのためのデータセットをフィルター処理します。複数選択するには、Ctrl+クリックまたは Cmd+クリックを使用してください。

チャート上でパンおよびズームを行うことで、データをより簡単に確認できます。また、チャート上の棒やポイントにマウスを置くと、ツールチップが表示され、確認している内容が強調表示されます。


グリッド

グリッドボードは、ヒストグラムに似ていますが、グリッドボードは 1 つの列ではなく 2 つの列でデータを集計し、結果をヒートグリッドチャートで表示します(2 つ以上の列の場合は、ピボットテーブルを使用できます)。たとえば、次のグリッドでは、教育レベルと年収を比較しています。

grid

SQL 相当

グリッドボードは、集約クエリの可視化であり、ヒストグラムおよびピボットテーブルボードと同様です。 グリッドは、以下の SQL クエリに近いものです。

Copied!
1 2 3 SELECT [x-axis-column], [y-axis-column], <AGGREGATE_METRIC>([aggregate-column]) FROM <PARENT_BOARD> GROUP BY [x-axis-column], [y-axis-column]

このSQLクエリは、親テーブル<PARENT_BOARD>から特定の列を選択し、それらをグループ化して集約メトリックを適用します。

  • SELECT [x-axis-column], [y-axis-column], <AGGREGATE_METRIC>([aggregate-column]) は、選択したい列を指定します。 [x-axis-column][y-axis-column]は、それぞれx軸とy軸の列を示しています。<AGGREGATE_METRIC>([aggregate-column])は、選択した列に適用する集約関数(SUM、COUNT、AVGなど)を示しています。

  • FROM <PARENT_BOARD> は、データを取得する親テーブルを指定します。

  • GROUP BY [x-axis-column], [y-axis-column] は、指定した列(この場合はx軸とy軸の列)に基づいて結果をグループ化します。これにより、各グループで集約関数が適用されます。

設定

  • X軸Y軸
    • 2つの行を選択します。それらの行のユニークな値の組み合わせが、グリッドのセルを形成します。
  • 集計
    • グリッド内の各セルに対して集計メトリックを計算します。集計の結果がセルの色を決定します。
    • 利用可能な集計メトリックは、カウント(レコード数)、ユニークカウント最小最大合計平均おおよその中央値標準偏差、および分散です。
      • カウント を除くすべての項目で、集計が適用される行を指定する必要があります。ユニークカウント の場合、任意の行を選択できます。
      • 最小最大合計平均おおよその中央値標準偏差、および分散 は数値行にのみ適用されます。
おおよその中央値

おおよその中央値 集計はおおよそのものです。Contourは、パーセンテージ値0.5とデフォルトの精度で percentile_approx 関数を呼び出します。

フィルタリング

グリッド上の1つまたは複数のセルを選択して、今後のボードのデータセットをフィルタリングします。セルをもう一度クリックして選択を解除します。

選択した値のみをフィルタリングするには 保持 を選択し、選択されていない値のみを保持するには 削除 を選択します。

grid-selection


ヒートマップ

ヒートマップボードでは、地理情報が付加されたデータを地図上に表示し、値に応じた色でコード化されます。 heatmap

設定

  • 緯度/経度データを持つ行を指定します。
  • 必要に応じて、ジオハッシュ行を指定します。
  • 次に、集計メトリックを計算します。
    • 利用可能な集計メトリックは、カウント(レコード数)、ユニークカウント最小最大合計平均おおよその中央値標準偏差、および分散です。
      • カウント を除くすべての項目で、集計が適用される行を指定する必要があります。ユニークカウント の場合、任意の行を選択できます。
      • 最小最大合計平均おおよその中央値標準偏差、および分散 は数値行にのみ適用されます。
おおよその中央値

おおよその中央値 集計はおおよそのものです。Contourは、パーセンテージ値0.5とデフォルトの精度で percentile_approx 関数を呼び出します。

フィルタリング

ヒートマップ上に半径を描画して、その半径内にある地理データを含むすべての行を選択できます。

draw-circle をクリックし、マップ上で円を描画するためにクリックしてドラッグします。

heatmap-selection

選択した半径内の値を 保持 するか、それらの値を 削除 して、選択されていない値のみを保持するかを選択します。

選択をクリアしてフィルターを削除するには、マップ上の円の外側をクリックします。


ピボットテーブル

ピボットテーブルボードを使用すると、データの複数の集計値を複数の次元で素早く計算できます。この計算の結果はサンプリングされるため、表に表示される内容が不完全になることがあります。このサンプリングについては、以下で詳しく述べています。

顧客の人口統計情報に関するデータセットが与えられた場合、以下のピボットテーブルでは、結婚している女性、結婚している男性、独身の女性、独身の男性の顧客数(年齢別)を計算します。

pivot-table

サンプリングに関する重要な注意事項

フロントエンドおよびバックエンドのパフォーマンスを低下させないように、計算する行数には制限があります。制限は設定可能で、デフォルトの maxRows 値は1,000行に設定されています。

pivot_table_example

上のスクリーンショットのように、ピボットテーブルの行の集計が PERIOD および PRACTICE で、列の集計が POSTCODE だと仮定しましょう。各組み合わせに対して、行のカウントと NAME 行の最大値を取得したいとします。maxRows 設定値が1,000の場合、1,000行分の完全な行を計算します。各行は完全であることが保証されていますが、一部の行が表示されない場合があります。

ピボットテーブルの列を並べ替えると、プレビュー上でソートが実行されますが、データセット全体ではソートされません。データセット全体を並べ替えるには、ソートボードを使用してください。詳細については、並べ替え を参照してください。

ピボットデータ全体と対話するには、ボード上の ピボットデータに切り替え オプションを使用して、Contour分析をピボットテーブルボードの下にあるすべてのボードに対して完全に計算されたピボットデータに切り替えます。代わりに、ピボットテーブルの上流でデータをさらにフィルタリングすることで、セル制限を回避しようとすることもできます。

設定

Tip

列集計を指定する場合、列内の値は大文字小文字を区別せずに一意である必要があります。たとえば、「Borough」列に「Brooklyn」と「brooklyn」の値が含まれていて、「Borough」を列集計として指定すると、ピボットテーブルの計算が失敗します。この問題を回避するには、すべての値を一貫したケースにキャストすることを検討してください。

    • 元のデータセットから1つ以上の行を選択して、ピボットテーブルの列を定義します。元のデータセットで選択した行の値の組み合わせごとに、ピボットテーブルの列が形成されます。
    • 元のデータセットから1つ以上の行を選択して、ピボットテーブルの行を定義します。元のデータセットで選択した行の値の組み合わせごとに、ピボットテーブルの行が形成されます。
  • 集計
    • 利用可能な集計メトリックは、カウント(レコード数)、ユニークカウント最小最大合計平均おおよその中央値標準偏差、および分散です。
      • カウント を除くすべての項目で、集計が適用される行を指定する必要があります。ユニークカウント の場合、任意の行を選択できます。
      • 最小最大合計平均おおよその中央値標準偏差、および分散 は数値行にのみ適用されます。
おおよその中央値

おおよその中央値 集計はおおよそのものです。Contourは、パーセンテージ値0.5とデフォルトの精度で percentile_approx 関数を呼び出します。

列、行、集計の間でドラッグアンドドロップができます。

ピボットテーブルに複数の集計を指定できます。選択した行と列の組み合わせごとに、各集計が計算されます。

行、列、または両方のグランドトータルも計算できます。グランドトータルは、データセット全体で集計を実行することで計算されます(言い換えると、ユニークカウントのグランドトータルは、データセット全体でのユニークカウントの合計であり、平均のグランドトータルは、データセット全体の平均です)。

ピボット(集計データに切り替え)

ピボット(集計データに切り替え)をクリックすると、ヒストグラムの次に追加されるボードは、表で計算された集計データを使用します。

新しいデータセットには、元のヒストグラムの設定でY軸に選択した行と、集計の行が含まれます。たとえば:

pivottable-pivot


列エディタ

列エディタボードを使用すると、データセットから列を簡単に削除したり、新しい列を導出したりできます。後続のボードは、保持することを選択した列のセットを消費します。

新しい列の追加

データセットの既存の列に対して二項演算を実行して新しい導出列を作成するか、文字列の列を数値または日付形式の列に解析できます。

SQLと同等

導出列は、SQLやSparkのオペレータを使用するのと同等です。たとえば、次のようにして1人当たりの収入の列を導出します。

Copied!
1 2 3 4 5 SELECT [世帯のメンバー], -- Household Members [婚姻状況], -- Marital Status [所得のカラム] / [世帯のメンバー] AS [一人当たりの所得] -- Income per person FROM [テーブル名] -- Table Name

既存の行

行を削除するには、既存の行を表示を選択し、削除したい行の名前を選択します。行を再追加するには、再度選択します。多くの行を削除したい場合は、すべて削除を選択し、保持したい行を選択します。

重複行の削除

行エディターボードの重複行の削除オプションを使用して、重複行を削除することができます。

重複行の削除オプションが選択されています。

SQLとの対応

行エディターボードを通じて行を削除することは、SQLで行名を選択することと同等です。例えば、A-Eの5つの行を持つテーブルがある場合、以下は行DとEを削除します:

Copied!
1 2 3 4 -- columnA, columnB, columnCを選択します SELECT columnA, columnB, columnC -- <tableName>からデータを取得します FROM <tableName>

マルチ行エディター

マルチ行エディターボードは、データから行を並べ替え、名前を変更し、削除し、重複する行を削除することができます。後続のボードは、ユーザーが保持することを選んだ行のセットを消費します。

ボードの左側には すべての行 が表示され、右側には 保持された行 が表示されます。 保持された行 セクションでは、保持された行の名前を変更したり並べ替えたり、または一括名前変更機能を使用することができます。

multi-column-editor

SQL相当

行の並べ替え、名前の変更、及び削除は、SQLで行名を選択するのと同等です。例えば、A-Eの5つの行を持つテーブルがある場合、以下のコードは行DとEを削除し、AをA_1に名前を変更します:

Copied!
1 2 3 4 -- カラムAをcolumnA_1として選択し、カラムBとカラムCを選択します。 SELECT columnA as columnA_1, columnB, columnC -- 以下のテーブルから上記の情報を取得します。 FROM <tableName>

データ強化

データ強化ボードでは、現在作業中のデータセットを別のデータセットと結合し、一致する結果をデータにマージすることができます。

データ強化ボードの使い方を学ぶ。


リンク

リンクボードでは、別のデータセットと結合し、そのデータセットの一致するレコードを返します。これは、リンクされた(右側の)テーブルからのみ行を返すという点で、セット数学の保持のみの操作とは異なります。

リンクボードの使い方を学ぶ。


セット数学

セット数学ボードを使用すると、別のセットに基づいて現在のデータセットを変更することができます。他のデータセットに存在するデータのみを保持してデータセットをフィルター処理する(保持のみ);別のデータセットからデータを追加する(追加);または、別のデータセットの結果に基づいてデータを削除する(削除)ことができます。

セット数学ボードの使い方を学ぶ。


結合

結合ボードは、Palantir管理者によってキュレーションされた推奨の結合テンプレートを提示します。推奨の結合を追加または変更したい場合は、管理者に連絡してください。

結合ボードの使い方を学ぶ。


エクスポート

エクスポートボードを使用すると、分析セットをCSVまたはXLSファイルとしてダウンロードすることができます。

ドロップダウンからcsvまたはxlsを選択し、エクスポートをクリックします。ボードがサーバー上で操作を終了した後、ファイル名をカスタマイズするオプションが提供されます。次に、ダウンロード <#> レコードをクリックしてファイルをダウンロードします。

export-prepare

export-download


列の並び替え

列の並び替えボードを使用すると、テーブル内の列を異なる順序にドラッグアンドドロップで並び替えることができます。

reorder-columns


マクロ

マクロボードを使用すると、以前に作成したマクロをパスに適用することができます。


ソート

ソートボードを使用すると、データセット内のすべてのデータをソートすることができます。このソートは分析に限定され、保存されたデータセットには維持されません。ソートは、ダウンストリームの集約(結合や重複行の削除など)によって失われる可能性があるため、ソートの前にそのような集約を行うことを推奨します。


計算

計算ボードを使用すると、カードやリストの形でデータに複数の集約計算を表示することができます。利用可能な集約メトリクスは、ユニーク数最小最大合計平均中央値標準偏差分散です。

calculation-overview

計算ボードは、カードまたはリストとしてフォーマットすることができます。

カードフォーマットには、水平または垂直方向およびメトリクスサイズの追加フォーマットオプションがあります。

calculation-format

最後に、各計算には、指定されたルール(条件)に基づいて条件付きのフォーマットを持つことができます。これは、条件が満たされると、フォントの色と背景色が変わることを意味します。

calculation-conditional-formatting


アンピボット

アンピボットボードを使用すると、一部の列を行に変換することでデータを再形成することができます。選択した列は、二つの新しい列に再フォーマットされます:ヘッダー列(元の列名を含む)と値列(元のデータ値を含む)。