注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

R ファイルシステム API

R TransformInput オブジェクト

Foundry データセットの低レベルな操作のためのインターフェース。

spark.df()

data.frame()

  • 入力データセットの R data.frame を返します。

fileSystem()

  • 直接的な FoundryFS アクセスのための FileSystem オブジェクトを返します。

R TransformOutput オブジェクト

Foundry データセットへの低レベルな書き込み操作のためのインターフェース。

write.spark.df(df, partition_cols=NULL, bucket_cols=NULL, bucket_count=NULL, sort_by=NULL)

  • 与えられた DataFrame を出力データセットに書き込みます。

    パラメーター
    • df (pyspark.sql.DataFrame) – 書き込む PySpark データフレーム。
    • partition_cols (List[str], optional) - データの書き込み時に使用する行パーティション。
    • bucket_cols (List[str], optional) - データをバケット化するための行。bucket_count が指定されている場合は必須。
    • bucket_count (int, optional) – バケットの数。bucket_cols が指定されている場合は必須。
    • sort_by (List[str], optional) - バケット化されたデータをソートするための行。

write.data.frame(rdf)

  • 与えられた R data.frame を出力データセットに書き込みます。

fileSystem()

  • 直接的な FoundryFS アクセスのための FileSystem オブジェクトを返します。

R FileSystem オブジェクト

ls(glob=NULL, regex='.*', show_hidden=FALSE)

  • データセットのルートディレクトリに対して、指定されたパターン(glob または regex)に一致するすべてのファイルをリストします。

    パラメーター
    • glob (str, optional) – UNIX ファイル一致パターン。globstar もサポート。
    • regex (str, optional) – ファイル名に一致させる正規表現パターン。
    • show_hidden (bool, optional) – '.' または '_' で始まる隠しファイルを含める。
    戻り値FileStatus named tuple (path, size, modified) の R 配列 - 論理パス、ファイルサイズ(バイト)、変更タイムスタンプ(1970年1月1日 UTC からの ms)

open(path, open='r', disk_optimal=FALSE, encoding=default)

  • 指定されたモードで FoundryFS ファイルを開きます。

    パラメーター
    • path (str) – データセット内のファイルの論理パス。(リモートパス
    • open (str) - コネクションを開くモードの説明。
    • disk_optimal (bool, optional) – FoundryFileSystem がファイル i/o をどのように処理するかを制御します。
    • encoding (str, optional) - R言語のデフォルト(UTF-8)をデフォルトとします。
    戻り値R 接続オブジェクト

get_path(path, open='r', disk_optimal=FALSE, encoding=default)

  • 与えられた FoundryFS(リモート)パスに対して、一時的なローカルパスを返します。

    パラメーター
    • path (str) – データセット内のファイルの論理パス。(リモートパス
    • open (str) - コネクションを開くモードの説明。
    • disk_optimal (bool, optional) – FoundryFileSystem がファイル i/o をどのように処理するかを制御します。
    • encoding (str, optional) - R言語のデフォルト(UTF-8)をデフォルトとします。
    戻り値str

upload(local_path, remote_path)

  • ローカルパスからリモートパスへのファイルをアップロードします。書き込み専用。

    パラメーター
    • local_path (str) – アップロードするファイルのローカルパス。
    • remote_path (str) - データセット内のファイルの論理パス。
    戻り値None

高度なトピック: disk_optimal 設定

FileSystem のメソッド open() および get_path() では、disk_optimal 引数がファイル入出力(i/o)の処理方法を制御します。

デフォルトでは、open()get_path() の両方で disk_optimalFALSE に設定されています。このモードでは、ファイルがアクセスされる前にダウンロードされることが保証されています。

disk_optimalTRUE に設定すると、コードの実行中にファイルが同時にダウンロードされます。一時的なローカルパスは、正しく読み取るために fifo() を介して開く必要があります。すべてのライブラリがこのタイプのファイルを読むことをサポートしているわけではないことに注意してください。

読み込むファイルが非常に大きい場合は、disk_optimalTRUE に設定することを選択できます。

例えば、非常に大きな txt ファイルがあり、最初の 10 行だけを読みたい場合があります。以下のコードを使用して、ファイル全体を読むことなく、最初の 10 行だけを表示します。

Copied!
1 2 3 4 5 6 7 8 9 10 11 12 13 disk_optimal_example<- function(large_txt_file) { fs <- large_txt_file$fileSystem() ## fifo()で接続を開く ## テキストファイルのタイトルは large_txt_file.txt です conn <- fs$open("large_txt_file.txt", "r", disk_optimal = TRUE) A <- readLines(conn, n = 10) # Aという変数にconnから最初の10行を読み込む print(A) # Aを出力する return(NULL) }

R TransformOutput を使用してファイルを書き込んでから読み取りたい場合は、disk_optimal を false に設定する必要があります。