본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

개념: 쿼리

원래 DataFrame에서 고유한 행을 포함하는 새로운 DataFrame을 반환합니다.

Copied!1
2
# 중복 값을 제거하기 위해 distinct() 메서드를 사용합니다. 이렇게 하면 df 데이터 프레임에 있는 모든 중복 행이 제거됩니다.
df = df.distinct()

특정 열만 고려하여 중복 행을 제거한 새로운 DataFrame을 반환합니다.

Copied!1
2
3
4
# 중복된 행 제거
df = df.drop_duplicates()
# "firstname"과 "lastname" 열을 기준으로 중복된 행 제거
df = df.drop_duplicates(["firstname", "lastname"])

별칭: DataFrame.na.dropna(how='any', thresh=None, subset=None)

널 값을 포함하는 행이 제거된 새로운 DataFrame을 반환합니다. DataFrame.dropna()와 DataFrameNaFunctions.drop()은 서로의 별칭입니다.

파라미터:

how – 'any' 또는 'all'.
- 'any' 인 경우, 널 값이 하나라도 있는 행을 제거합니다.
- 'all' 인 경우, 모든 값이 널인 행만 제거합니다.
thresh – 정수, 기본값은 None. 지정된 경우, thresh 미만의 널이 아닌 값이 있는 행을 제거합니다. (이것은 how 파라미터를 덮어쓰게 됩니다).
subset – 고려할 열 이름의 선택적 목록입니다.

별칭: DataFrame.orderBy(*cols, **kwargs)