Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

equipmentsensorvalue
Atemperature60
Atemperature40
Bspeed6
Aspeed3
equipmenttemperaturespeed
A503
Bnull7

集約関数

PySpark の集約関数について詳しく学ぶ。↗

avg(行) / mean(行)

collect_list(行)

  • すべての値を配列にまとめる

collect_set(行)

  • 重複を削除した配列にすべての値をまとめる

count(行)

corr(x, y)

  • xy のピアソン相関係数。

covar_pop(col1, col2)

covar_samp(col1, col2)

countDistinct(行, *cols)

first(行, ignorenulls=False)

  • グループ内の列の最初の値。一つの値が存在するだけであると予想されるピボットテーブルに役立ちますが、集約を選択する必要があります。

grouping(行)

grouping_id(*cols)

kurtosis(行)

last(行, ignorenulls=False)

max(行)

min(行)

skewness(行)

stddev(行)

stddev_pop(行)

  • 母集団標準偏差

stddev_samp(行)

  • 不偏標本標準偏差

sum(行)

sumDistinct(行)

var_pop(行)

  • 母集団分散

var_samp(行)

  • 不偏標本分散

variance(行)