이 튜토리얼에서는 다음을 실행할 것입니다:
titanic_dataset
은 행(승객을 나타냄)과 열(승객에 대한 정보를 나타냄)을 포함하고 있으므로, 막대 차트를 사용하여 주어진 승객 속성(예: 성별 또는 Pclass)에 대한 승객 수를 시각화할 수 있습니다. 예를 들어, 다음은 성별별 승객 분포입니다:
이 예에서는 원하는 차트를 생성하는 변환을 만들 것입니다. bar_chart_of_row_counts
라는 이름의 파이썬 변환을 생성하고 다음 코드를 삽입합니다:
Copied!1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
def bar_chart_of_row_counts(titanic_dataset): import matplotlib.pyplot as plt from pyspark.sql import functions as F import numpy as np input_df = titanic_dataset categorical_column = "Sex" # 행 수를 계산합니다. total = input_df \ .groupBy(categorical_column) \ .agg(F.count("*").alias("count")) \ .orderBy("count") # 요약된 데이터셋을 판다스로 변환합니다. total_pdf = total.toPandas() # 플롯 코드 fig = plt.figure() ax = fig.add_subplot(111) y_pos = np.arange(len(total_pdf[categorical_column])) ax.set_yticks(y_pos) ax.barh(y_pos,total_pdf["count"]) ax.set_yticklabels(total_pdf[categorical_column]) plt.xlabel("count") plt.ylabel(categorical_column) plt.tight_layout() plt.show() # 집계된 데이터프레임을 데이터셋으로 저장하기 위해 반환합니다. return total
이 변환을 실행하면 위에 표시된 차트가 그래프의 변환 노드에 있는 워크북에 나타납니다. 변환 노드의 차트 위로 마우스를 가져다 대고 이미지 보기를 선택함으로써 전체화면 이미지 보기로 이동할 수도 있습니다. 이 이미지 보기 권한 보유 사용자는 콘텐츠 사이드바와 시각화 탭에서도 이용할 수 있습니다.
차트를 SVG로 생성하려면 다음 코드를 사용하여 플롯을 생성하기 전에 사용하세요:
Copied!1 2
# 출력 이미지 유형을 'svg'로 설정합니다. set_output_image_type('svg')
또는 더 나은 가독성을 위해 데코레이터를 사용하세요:
Copied!1 2 3 4
@output_image_type('svg') def bar_chart_of_row_counts(titanic_dataset): # 타이타닉 데이터셋의 행 수에 대한 막대 차트를 생성합니다. # ...
다음으로, 이 변환을 일반화하고 재사용할 수 있는 템플릿으로 변환하겠습니다. 코드 에디터 오른쪽 상단의 액션 버튼을 클릭하고 템플릿 생성을 클릭하세요.
전체화면 에디터에서 템플릿 생성 뷰로 이동하게 됩니다.
템플릿 에디터에서 템플릿의 이름, 설명, 파라미터를 편집할 수 있습니다. 이 템플릿의 이름을 Bar Chart of Row Counts by Categorical Variable
로 지정하고, 다음과 같은 설명을 추가하세요: 입력 데이터셋의 1개 범주형 열의 행 수에 대한 막대 차트를 포함하는 변환을 생성합니다.
입력 데이터셋(이 경우에는 titanic_dataset
)은 템플릿의 데이터셋
유형 파라미터로 자동 추가됩니다. 템플릿 에디터에서 titanic_dataset
을 클릭하여 변경하세요. 이 템플릿이 일반적이도록 파라미터 이름을 titanic_dataset
에서 input_dataset
으로 변경하고 설명을 추가하세요.
변환 코드에서 두 개의 {{{input_dataset}}}
인스턴스가 강조 표시됩니다. 다음으로 입력 열을 파라미터화하겠습니다. 코드 본문의 변수를 템플릿의 입력 파라미터로 할당하려면, 변환 오른쪽 상단의 새 파라미터 추가를 클릭하고 코드에서 적절한 변수를 강조 표시하세요. 아래와 같이 문자열 "Sex"
를 강조 표시하세요:
이렇게 하면 코드의 이 부분이 소스 데이터셋이 input_dataset
인 column
유형 파라미터로 추가됩니다. 템플릿 에디터에서 param1
파라미터 이름을 편집하여 selected_column
으로 이름을 변경하세요.
이 예제 코드에서는 변환의 상단에서 열 이름을 변수로 정의하여 한 번만 파라미터화해야 합니다. 다른 변환을 템플릿화할 때 동일한 파라미터의 여러 인스턴스를 추가하려면 추가 버튼을 사용하세요.
다음으로 이 템플릿을 기본적으로 데이터셋으로 저장할지 여부를 선택하세요. 데이터셋으로 저장 상자를 선택하면, 템플릿이 추가될 때 기본적으로 영구적인 변환으로 추가됩니다. 데이터셋으로 저장을 선택하지 않으면 기본적으로 영구적이지 않은 변환으로 적용됩니다. 이 경우 다른 애플리케이션에서 결과를 사용하려고 하므로 기본적으로 데이터셋으로 저장을 선택하세요.
마지막으로 템플릿 생성 버튼을 클릭하여 템플릿을 생성하고 저장하세요. 새 템플릿을 생성할 때마다 저장할 폴더를 선택해야 합니다. 이 예제에서는 홈 폴더에 템플릿을 저장할 수 있습니다.
템플릿은 액세스 권한이 있는 사용자만 찾아 사용할 수 있으므로, 작업 중인 템플릿을 홈 폴더에 저장한 후, 더 넓은 사용을 위해 프로모션하려면 공유 폴더로 이동할 수 있습니다. 템플릿은 데이터 카탈로그에도 추가할 수 있습니다.
템플릿을 생성하고 저장한 후에는 포인트 앤 클릭 방식으로 템플릿을 사용할 수 있습니다.
사용 가능한 템플릿을 보려면, 변환 생성 뷰에서 모든 템플릿 찾아보기를 클릭하세요.
템플릿 찾아보기는 이름, 설명, 태그로 템플릿을 검색하거나 즐겨찾기, 최근 사용한 템플릿, 파일 구조를 기반으로 찾아보는 기능을 지원합니다. 템플릿을 적용하려면 템플릿 이름을 클릭하고 "선택"을 선택하세요. 방금 생성한 템플릿을 추가해 보겠습니다.
템플릿을 그래프에 추가한 후, 변환의 이름을 변경하고 입력값을 작성할 수 있습니다. 데이터셋 추가를 위해 클릭하세요를 클릭하고 그래프의 titanic_dataset
를 클릭하여 input_dataset
파라미터를 할당하세요. 이제 selected_column
파라미터로 해당 열을 선택하여 차트를 생성할 수 있습니다.
실행을 선택하여 변환을 계산하세요. 시각화를 출력하는 변환의 경우, 그래프에서 기본적으로 그래프 뷰가 사용됩니다. 노드를 테이블로 보려면 마우스 오른쪽 버튼을 클릭하여 편집을 선택한 다음 테이블 뷰 표시를 선택하세요.
템플릿의 코드를 업데이트하려면, 액션을 클릭한 다음 템플릿 편집을 클릭하여 코드 에디터로 들어가서 템플릿을 편집하세요.