DataFrame.distinct()
원래 DataFrame
에서 고유한 행을 포함하는 새로운 DataFrame
을 반환합니다.
Copied!1 2
# 중복 값을 제거하기 위해 distinct() 메서드를 사용합니다. 이렇게 하면 df 데이터 프레임에 있는 모든 중복 행이 제거됩니다. df = df.distinct()
DataFrame.drop_duplicates(subset=None)
특정 열만 고려하여 중복 행을 제거한 새로운 DataFrame
을 반환합니다.
Copied!1 2 3 4
# 중복된 행 제거 df = df.drop_duplicates() # "firstname"과 "lastname" 열을 기준으로 중복된 행 제거 df = df.drop_duplicates(["firstname", "lastname"])
DataFrame.dropna(how='any', thresh=None, subset=None)
별칭: DataFrame.na.dropna(how='any', thresh=None, subset=None)
널 값을 포함하는 행이 제거된 새로운 DataFrame
을 반환합니다. DataFrame.dropna()
와 DataFrameNaFunctions.drop()
은 서로의 별칭입니다.
파라미터:
'any'
또는 'all'
.
'any'
인 경우, 널 값이 하나라도 있는 행을 제거합니다.'all'
인 경우, 모든 값이 널인 행만 제거합니다.None
. 지정된 경우, thresh 미만의 널이 아닌 값이 있는 행을 제거합니다. (이것은 how 파라미터를 덮어쓰게 됩니다).DataFrame.limit(number)
DataFrame.sort(*cols, **kwargs)
별칭: DataFrame.orderBy(*cols, **kwargs)
Column.asc()
또는 F.asc(col)
Column.desc()
또는 F.desc(col)