Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

R Filesystem API

R TransformInput オブジェクト

Foundry データセット上での低レベル操作のインターフェース。

spark.df()

data.frame()

fileSystem()

  • 直接 FoundryFS にアクセスするための FileSystem オブジェクトを返します。

R TransformOutput オブジェクト

Foundry データセットへの低レベル書き込み操作のインターフェース。

write.spark.df(df, partition_cols=NULL, bucket_cols=NULL, bucket_count=NULL, sort_by=NULL)

  • 与えられた DataFrame ↗ を出力データセットに書き込みます。

    パラメーター
    • df (pyspark.sql.DataFrame) – 書き込む PySpark データフレーム。
    • partition_cols (List[str], optional) - データの書き込み時に使用する行パーティショニング。
    • bucket_cols (List[str], optional) - データをバケット化するための行。bucket_count が指定されている場合は必須です。
    • bucket_count (int, optional) – バケットの数。bucket_cols が指定されている場合は必須です。
    • sort_by (List[str], optional) - バケット化されたデータをソートするための行。

write.data.frame(rdf)

  • 与えられた R data.frame ↗ を出力データセットに書き込みます。

fileSystem()

  • 直接 FoundryFS にアクセスするための FileSystem オブジェクトを返します。

R FileSystem オブジェクト

ls(glob=NULL, regex='.*', show_hidden=FALSE)

  • データセットのルートディレクトリに対する、指定されたパターン(glob または regex)に一致するすべてのファイルをリストします。

    パラメーター
    • glob (str, optional) – Unix ファイルの一致パターン。globstar もサポートしています。
    • regex (str, optional) – ファイル名に一致させる正規表現パターン。
    • show_hidden (bool, optional) – ‘.’ または ‘_’ で始まる隠しファイルを含める。
    戻り値R の FileStatus 名前付きタプルの配列(path, size, modified) - 論理パス、ファイルサイズ(バイト)、変更されたタイムスタンプ(1970 年 1 月 1 日 UTC からのミリ秒)

open(path, open='r', disk_optimal=FALSE, encoding=default)

  • 与えられたモードで FoundryFS ファイルを開きます。

    パラメーター
    • path (str) – データセット内のファイルの論理パス。(リモートパス)
    • open (str) - コネクションを開くモードの説明。
    • disk_optimal (bool, optional) – FoundryFileSystem がファイル i/o をどのように処理するかを制御します。
    • encoding (str, optional) - R 言語のデフォルト(UTF-8)になります。
    戻り値R のコネクションオブジェクト

get_path(path, open='r', disk_optimal=FALSE, encoding=default)

  • 与えられた FoundryFS(リモート)パスに対して、ローカルの一時パスを返します。

    パラメーター
    • path (str) – データセット内のファイルの論理パス。(リモートパス)
    • open (str) - コネクションを開くモードの説明。
    • disk_optimal (bool, optional) – FoundryFileSystem がファイル i/o をどのように処理するかを制御します。
    • encoding (str, optional) - R 言語のデフォルト(UTF-8)になります。
    戻り値str

upload(local_path, remote_path)

  • ローカルパスからリモートパスにファイルをアップロードします。書き込みのみです。

    パラメーター
    • local_path (str) – アップロードするファイルのローカルパス。
    • remote_path (str) - データセット内のファイルの論理パス。
    戻り値None

高度な話題: disk_optimal 設定

FileSystem のメソッド open()get_path() で、disk_optimal 引数はファイル入出力(i/o)の処理方法を制御します。

デフォルトでは、open()get_path() の両方で disk_optimalFALSE に設定されています。このモードでは、ファイルがアクセスされる前にダウンロードされることが保証されます。

disk_optimalTRUE に設定すると、ファイルはコードの実行と同時にダウンロードされます。一時的なローカルパスは、正しく読み取るために fifo() を介して開かれる必要があります。ただし、すべてのライブラリがこのタイプのファイルを読み取ることをサポートしているわけではありません。

ファイルが非常に大きい場合は、disk_optimalTRUE に設定することを選択できます。

例えば、非常に大きな txt ファイルがあり、最初の10行だけを読み取りたい場合を想像してみてください。以下のコードを使用して、ファイル全体を読み取らずに最初の10行だけを表示します。