클래스 | 설명 |
---|---|
Check | Data Health에 등록할 수 있는 기대치를 포장합니다. |
FileStatus | FoundryFS 파일에 대한 세부 정보를 포착하는 collections.namedtuple. |
FileSystem(foundry_fs[, read_only]) | 데이터셋 파일을 읽고 쓰기 위한 파일시스템 객체. |
IncrementalTransformContext (ctx, is_incremental) | 점진적 계산을 위한 기능이 추가된 TransformContext. |
IncrementalTransformInput (tinput[, prev_txrid]) | 점진적 계산을 위한 기능이 추가된 TransformInput. |
IncrementalTransformOutput (toutput[, …]) | 점진적 계산을 위한 기능이 추가된 TransformOutput. |
Input (alias) | 변환 입력의 사양. |
Output (alias[, sever_permissions]) | 변환 출력의 사양. |
Pipeline () | Transform 객체 모음을 그룹화하는 객체. |
Transform (compute_func[, inputs, outputs, ...]) | 계산 단계를 설명하는 호출 가능한 객체. |
TransformContext (foundry_connector[, parameters]) | 변환의 계산 함수에 선택적으로 삽입할 수 있는 컨텍스트 객체. |
TransformInput (rid, branch, txrange, …) | 런타임에 Transform 객체에 전달된 입력 객체. |
TransformOutput (rid, branch, txrid, …) | 런타임에 Transform 객체에 전달된 출력 객체. |
Check
transforms.api.Check
Data Health에 등록할 수 있는 기대치를 포장합니다.
expectation
name
is_incremental
on_error
description
FileStatus
클래스 transforms.api.FileStatus
FoundryFS 파일에 대한 세부 정보를 포착하는 collections.namedtuple
입니다.
새로운 FileStatus 인스턴스를 생성합니다(path, size, modified)
count
(value) → 정수 -- 값 발생 횟수 반환index
(value[, start[, stop]]) → 정수 -- 값의 첫 번째 인덱스 반환
modified
path
size
FileSystem
클래스 transforms.api.FileSystem
(foundry_fs, read_only=False)
데이터셋 파일을 읽고 쓰기 위한 파일시스템 객체입니다.
files
(glob=None, regex='.*', show_hidden=False, packing_heuristic=None)
DataFrame
을 생성합니다.DataFrame
은 파일 크기별로 파티션되며, 각 파티션에는 파일 경로가 포함되어 있으며, 이 파일 경로의 결합 크기는 최대 spark.files.maxPartitionBytes
바이트입니다. 파일의 크기는 디스크 파일 크기와 spark.files.openCostInBytes
의 합계로 계산됩니다.pdf
)을 재귀적으로 검색하려면 **/*.pdf
를 사용합니다..
또는 _
로 시작하는 숨겨진 파일을 포함합니다.ffd
(First Fit Decreasing) 또는 wfd
(Worst Fit Decreasing)입니다. wfd
는 덜 균일한 분포를 생성하는 경향이 있지만 속도가 훨씬 빠르기 때문에 파일 수가 매우 많은 데이터셋에 대해 wfd
가 권장됩니다. 휴리스틱을 지정하지 않으면 자동으로 선택됩니다.ls
(glob=None, regex='.*', show_hidden=False)
FileStatus
- 논리 경로, 파일 크기(바이트), 수정된 타임스탬프(1970년 1월 1일 UTC 이후 밀리초).open
(_path, mode='r', kwargs)
IncrementalTransformContext
transforms.api.IncrementalTransformContext
(ctx, is_incremental)점진적 계산을 위한 기능이 추가된 TransformContext.
auth_header
fallback_branches
is_incremental
parameters
spark_session
IncrementalTransformInput
transforms.api.IncrementalTransformInput
(tinput, prev_txrid=None)점진적 계산을 위한 기능이 추가된 TransformInput.
dataframe
(mode='added')
filesystem
(mode='added')
pandas()
branch
path
rid
IncrementalTransformOutput
클래스 transforms.api.IncrementalTransformOutput
(toutput, prev_txrid=None, mode='replace')
점진적 계산을 위한 기능이 추가된 TransformOutput.
abort()
dataframe
(mode='current', schema=None)
ValueError
- 모드 ‘previous’를 사용할 때 스키마가 전달되지 않은 경우filesystem
(mode='current')
NotImplementedError
– 현재 지원되지 않습니다.pandas
(mode='current')
set_mode
(mode)
데이터가 작성된 후에는 쓰기 모드를 변경할 수 없습니다.
write_dataframe
(df, partition_cols=None, bucket_cols=None, bucket_count=None, sort_by=None, output_format=None, options=None)
org.apache.spark.sql.DataFrameWriter#option(String, String)
에 전달할 추가 옵션.write_pandas
(pandas_df)
branch
path
rid
Input
클래스 transforms.api.Input
(alias, branch, stop_propagating, stop_requiring, checks)
변환 입력의 사양입니다.
Check
객체.continue
또는 fail
중 하나여야 합니다. 지정되지 않으면 fail
로 기본 설정됩니다.Output
클래스 transforms.api.Output
(alias=None, sever_permissions=False, checks=None)
변환 출력의 사양입니다.
Pipeline
클래스 transforms.api.Pipeline
Transform 객체 모음을 그룹화하는 객체입니다.
add_transforms
(*transforms)
ValueError
– 여러 Transform
객체가 동일한 Output
별칭에 쓰는 경우.discover_transforms
(*modules)
Transform
인스턴스(변환 데코레이터에 의해 구성된)를 가진 모든 속성이 파이프라인에 등록됩니다.Copied!1 2 3
>>> import myproject >>> p = Pipeline() # 파이프라인 객체 생성 >>> p.discover_transforms(myproject) # myproject에서 변환(discover_transforms)을 찾아 파이프라인에 추가
각각의 모듈이 발견되면 그것은 import됩니다. 모듈 레벨에서 코드를 실행하는 것을 피하십시오.
transforms
Transform
class transforms.api.Transform
(compute_func, inputs=None, outputs=None, profile=None)
단일 계산 단계를 설명하는 호출 가능한 객체입니다.
Transform는 여러 Input
사양, 여러 Output
사양, 그리고 계산 함수로 구성됩니다.
제공된 데코레이터를 사용하여 Transform 객체를 구성하는 것이 관례입니다: transform()
, transform_df()
, 그리고 transform_pandas()
.
참고: 원래의 계산 함수는 Transform의 __call__
메소드를 통해 노출됩니다.
파라미터
compute
(ctx=None, _kwargs_)**
Input
사양으로 매핑하는 사전입니다. kwarg는 키워드 인수의 약어입니다.version
select A, B from foo;
는 SQL 쿼리 select A, B from (select * from foo);
와 같은 버전이어야 합니다.ValueError
– 계산 함수의 객체 해시를 계산하지 못한 경우TransformContext
class transforms.api.TransformContext
(foundry_connector, parameters=None)
계산 함수에 선택적으로 주입할 수 있는 컨텍스트 객체입니다.
auth_header
fallback_branches
parameters
spark_session
TransformInput
class transforms.api.TransformInput
(rid, branch, txrange, dfreader, fsbuilder)
런타임에 Transform 객체로 전달되는 입력 객체입니다.
dataframe()
filesystem()
pandas()
branch
path
rid
column_descriptions
column_typeclasses
TransformOutput
class transforms.api.TransformOutput
(rid, branch, txrid, dfreader, dfwriter, fsbuilder)
런타임에 Transform 객체로 전달되는 출력 객체입니다.
abort()
dataframe()
filesystem()
pandas()
set_mode
(mode)
write_dataframe
(df, partition_cols=None, bucket_cols=None, bucket_count=None, sort_by=None, output_format=None, options=None, column_descriptions=None, column_typeclasses=None)
bucket_count
가 주어진 경우 반드시 지정해야 합니다.bucket_cols
가 주어진 경우 반드시 지정해야 합니다.org.apache.spark.sql.DataFrameWriter#option(String, String)
에 전달할 추가 옵션입니다.write_pandas
(pandas_df)
branch
path
rid