데이터 통합PythonPySpark Reference개념: 쿼리

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

개념: 쿼리

Distinct, 중복 삭제

DataFrame.distinct()

원래 DataFrame에서 고유한 행을 포함하는 새로운 DataFrame을 반환합니다.

Copied!
1 2 # 중복 값을 제거하기 위해 distinct() 메서드를 사용합니다. 이렇게 하면 df 데이터 프레임에 있는 모든 중복 행이 제거됩니다. df = df.distinct()

DataFrame.drop_duplicates(subset=None)

특정 열만 고려하여 중복 행을 제거한 새로운 DataFrame을 반환합니다.

Copied!
1 2 3 4 # 중복된 행 제거 df = df.drop_duplicates() # "firstname"과 "lastname" 열을 기준으로 중복된 행 제거 df = df.drop_duplicates(["firstname", "lastname"])

널 값 제거

DataFrame.dropna(how='any', thresh=None, subset=None)

별칭: DataFrame.na.dropna(how='any', thresh=None, subset=None)

널 값을 포함하는 행이 제거된 새로운 DataFrame을 반환합니다. DataFrame.dropna()DataFrameNaFunctions.drop()은 서로의 별칭입니다.

파라미터:

  • how'any' 또는 'all'.
    • 'any' 인 경우, 널 값이 하나라도 있는 행을 제거합니다.
    • 'all' 인 경우, 모든 값이 널인 행만 제거합니다.
  • thresh – 정수, 기본값은 None. 지정된 경우, thresh 미만의 널이 아닌 값이 있는 행을 제거합니다. (이것은 how 파라미터를 덮어쓰게 됩니다).
  • subset – 고려할 열 이름의 선택적 목록입니다.

행 제한

DataFrame.limit(number)

정렬

DataFrame.sort(*cols, **kwargs)

별칭: DataFrame.orderBy(*cols, **kwargs)

  • Column.asc() 또는 F.asc(col)
  • Column.desc() 또는 F.desc(col)