注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

コンセプト: クエリ

ディスティンクト、重複の削除

DataFrame.distinct()

元の DataFrame の中で異なる行を含む新しい DataFrame を返します。

Copied!
1 2 # 重複する行を削除します df = df.distinct()

DataFrame.drop_duplicates(subset=None)

重複した行を削除した新しいDataFrameを返します。オプションで特定の行だけを考慮することができます。

Copied!
1 2 3 4 # 重複する行を削除します df = df.drop_duplicates() # "firstname" と "lastname" の組み合わせが重複する行を削除します df = df.drop_duplicates(["firstname", "lastname"])

null 値を削除する

DataFrame.dropna(how='any', thresh=None, subset=None)

エイリアス: DataFrame.na.dropna(how='any', thresh=None, subset=None)

null 値を含む行を省いた新しい DataFrame を返します。DataFrame.dropna()DataFrameNaFunctions.drop() は互いのエイリアスです。

パラメーター:

  • how'any' または 'all'
    • 'any' の場合、null を含む行を削除します。
    • 'all' の場合、すべての値が null の行のみを削除します。
  • thresh – 整数、デフォルトは None。指定された場合、thresh よりも少ない非 null 値を持つ行を削除します。(これにより how パラメーターが上書きされます)。
  • subset – オプションの行名のリストを考慮します。

行数を制限する

DataFrame.limit(number)

並び替え

DataFrame.sort(*cols, **kwargs)

エイリアス: DataFrame.orderBy(*cols, **kwargs)

  • Column.asc() または F.asc(col)
  • Column.desc() または F.desc(col)