注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
クラス | 説明 |
---|---|
Check | Expectation をラップして、Data Health に登録できるようにします。 |
FileStatus | FoundryFS ファイルの詳細をキャプチャする collections.namedtuple です。 |
FileSystem(foundry_fs[, read_only]) | データセットファイルの読み書き用のファイルシステムオブジェクト。 |
IncrementalTransformContext (ctx, is_incremental) | インクリメンタル計算用の追加機能を持つ TransformContext。 |
IncrementalTransformInput (tinput[, prev_txrid]) | インクリメンタル計算用の追加機能を持つ TransformInput。 |
IncrementalTransformOutput (toutput[, …]) | インクリメンタル計算用の追加機能を持つ TransformOutput。 |
Input (alias) | トランスフォーム入力の仕様。 |
Output (alias[, sever_permissions]) | トランスフォーム出力の仕様。 |
Pipeline () | Transform オブジェクトのコレクションをグループ化するオブジェクト。 |
Transform (compute_func[, inputs, outputs, ...]) | 計算の単一ステップを説明する呼び出し可能オブジェクト。 |
TransformContext (foundry_connector[, parameters]) | トランスフォームの計算関数にオプションで注入できるコンテキストオブジェクト。 |
TransformInput (rid, branch, txrange, …) | 実行時に Transform オブジェクトに渡される入力オブジェクト。 |
TransformOutput (rid, branch, txrid, …) | 実行時に Transform オブジェクトに渡される出力オブジェクト。 |
Check
transforms.api.Check
Expectation をラップして、Data Health に登録できるようにします。
expectation
name
is_incremental
on_error
description
FileStatus
class transforms.api.FileStatus
FoundryFS ファイルの詳細をキャプチャする collections.namedtuple
です。
FileStatus(path, size, modified) の新しいインスタンスを作成
count
(value) → integer -- 値の出現回数を返すindex
(value[, start[, stop]]) → integer -- 値の最初のインデックスを返す
modified
path
size
FileSystem
class transforms.api.FileSystem
(foundry_fs, read_only=False)
データセットファイルの読み書き用のファイルシステムオブジェクト。
files
(glob=None, regex='.*', show_hidden=False, packing_heuristic=None)
DataFrame
を作成します。DataFrame
は、ファイルサイズでパーティション化され、各パーティションは spark.files.maxPartitionBytes
バイト以下のファイルパスの合計サイズを持ちます。また、spark.files.maxPartitionBytes
より大きい単一のファイルによってパーティション化されます。ファイルのサイズは、ディスク上のファイルサイズに spark.files.openCostInBytes
を加えたものとして計算されます。pdf
)を再帰的に検索するには、**/*.pdf
を使用してください。.
または _
で始まる隠しファイルを含めます。ffd
(First Fit Decreasing)または wfd
(Worst Fit Decreasing)です。wfd
は分布が均等でない傾向がありますが、速度がはるかに速いため、ファイル数が非常に多いデータセットには wfd
が推奨されます。ヒューリスティックが指定されていない場合、自動的に選択されます。ls
(glob=None, regex='.*', show_hidden=False)
FileStatus
- 論理パス、ファイルサイズ(バイト)、変更タイムスタンプ(1970 年 1 月 1 日 UTC からの ms)。open
(_path, mode='r', kwargs)
IncrementalTransformContext
transforms.api.IncrementalTransformContext
(ctx, is_incremental)インクリメンタル計算用の追加機能を持つ TransformContext です。
auth_header
fallback_branches
is_incremental
parameters
spark_session
IncrementalTransformInput
transforms.api.IncrementalTransformInput
(tinput, prev_txrid=None)増分計算のために追加機能を持つTransformInput。
dataframe
(mode='added')
filesystem
(mode='added')
pandas()
branch
path
rid
IncrementalTransformOutput
クラス transforms.api.IncrementalTransformOutput
(toutput, prev_txrid=None, mode='replace')
増分計算のために追加機能を持つTransformOutput。
abort()
dataframe
(mode='current', schema=None)
ValueError
- モード「previous」を使用しているときにスキーマが渡されない場合filesystem
(mode='current')
NotImplementedError
– 現在はサポートされていません。pandas
(mode='current')
set_mode
(mode)
データが書き込まれた後は書き込みモードを変更することはできません。
write_dataframe
(df, partition_cols=None, bucket_cols=None, bucket_count=None, sort_by=None, output_format=None, options=None)
org.apache.spark.sql.DataFrameWriter#option(String, String)
に渡す追加オプション。write_pandas
(pandas_df)
branch
path
rid
Input
クラス transforms.api.Input
(alias, branch, stop_propagating, stop_requiring, checks)
トランスフォーム入力の仕様。
Check
オブジェクト。continue
またはfail
のいずれかでなければなりません。指定しない場合、デフォルトはfail
です。Output
クラス transforms.api.Output
(alias=None, sever_permissions=False, checks=None)
トランスフォーム出力の仕様。
Pipeline
クラス transforms.api.Pipeline
Transformオブジェクトの集合をグループ化するためのオブジェクト。
add_transforms
(*transforms)
ValueError
– 複数の Transform
オブジェクトが同じ Output
エイリアスに書き込む場合。discover_transforms
(*modules)
Transform
のインスタンス(transformsデコレータによって構築された)である任意の属性をパイプラインに登録します。Copied!1 2 3 4 5 6 7 8
# myprojectというモジュールをインポートする >>> import myproject # Pipelineクラスのインスタンスを作成する >>> p = Pipeline() # myproject内で定義されたデータ変換を探し出す >>> p.discover_transforms(myproject)
各モジュールが見つかるとインポートされます。モジュールレベルでのコードの実行は避けてください。
transforms
Transform
class transforms.api.Transform
(compute_func, inputs=None, outputs=None, profile=None)
計算の1ステップを記述する呼び出し可能なオブジェクト。
Transformは、いくつかの Input
仕様、いくつかの Output
仕様、および1つの計算関数で構成されています。
慣用的には、提供されているデコレーターを使ってTransformオブジェクトを構築します:transform()
、transform_df()
、および transform_pandas()
。
注:元の計算関数は、Transformの __call__
メソッドを介して公開されます。
パラメーター
compute
(ctx=None, _kwargs_)**
Input
仕様にマッピングする辞書。kwarg はキーワード引数の省略形です。version
select A, B from foo;
は、SQL query select A, B from (select * from foo);
と同じバージョンであるべきです。ValueError
– 計算関数のオブジェクトハッシュの計算に失敗した場合TransformContext
class transforms.api.TransformContext
(foundry_connector, parameters=None)
コンテキストオブジェクトは、変換の計算関数にオプションで注入できます。
auth_header
fallback_branches
parameters
spark_session
TransformInput
class transforms.api.TransformInput
(rid, branch, txrange, dfreader, fsbuilder)
ランタイムでTransformオブジェクトに渡される入力オブジェクト。
dataframe()
filesystem()
pandas()
branch
path
rid
column_descriptions
column_typeclasses
TransformOutput
class transforms.api.TransformOutput
(rid, branch, txrid, dfreader, dfwriter, fsbuilder)
ランタイムでTransformオブジェクトに渡される出力オブジェクト。
abort()
dataframe()
filesystem()
pandas()
set_mode
(mode)
write_dataframe
(df, partition_cols=None, bucket_cols=None, bucket_count=None, sort_by=None, output_format=None, options=None, column_descriptions=None, column_typeclasses=None)
bucket_count
が指定されている場合は必須です。bucket_cols
が指定されている場合は必須です。org.apache.spark.sql.DataFrameWriter#option(String, String)
に渡す追加のオプション。write_pandas
(pandas_df)
branch
path
rid