Python • PySpark 一覧 • 集約関数 • Palantir

+

K

APIリファレンス ↗Send feedback

データ接続と統合PythonPySpark 一覧集約関数

Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

equipment	sensor	value
A	temperature	60
A	temperature	40
B	speed	6
A	speed	3

equipment	temperature	speed
A	50	3
B	null	7

集約関数

PySpark の集約関数について詳しく学ぶ。↗

`avg(行)` / `mean(行)`

`collect_list(行)`

すべての値を配列にまとめる

`collect_set(行)`

重複を削除した配列にすべての値をまとめる

`count(行)`

`corr(x, y)`

列 x と y のピアソン相関係数。

`covar_pop(col1, col2)`

`covar_samp(col1, col2)`

`countDistinct(行, *cols)`

`first(行, ignorenulls=False)`

グループ内の列の最初の値。一つの値が存在するだけであると予想されるピボットテーブルに役立ちますが、集約を選択する必要があります。

`grouping(行)`

`grouping_id(*cols)`

`kurtosis(行)`

`last(行, ignorenulls=False)`

`max(行)`

`min(行)`

`skewness(行)`

`stddev(行)`

`stddev_pop(行)`

母集団標準偏差

`stddev_samp(行)`

不偏標本標準偏差

`sum(行)`

`sumDistinct(行)`

`var_pop(行)`

母集団分散

`var_samp(行)`

不偏標本分散

`variance(行)`

NEXTウィンドウ