Apache Spark BatchのtFileOutputParquetプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtFileOutputParquetを設定するために使われます。
Spark BatchのtFileOutputParquetコンポーネントは、ファイルファミリーに属しています。
このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
[Define a storage configuration component] (ストレージ設定コンポーネントを定義) |
HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。 このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。 使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。 |
[Property type] (プロパティタイプ) |
[Built-in] (組み込み)と[Repository] (リポジトリー)のいずれかです。 |
[Built-In] (組み込み): 一元的に保存されるプロパティデータはありません。 |
|
[Repository] (リポジトリー): プロパティが保存されているリポジトリーファイルを選択します。 プロパティは、リポジトリーツリーのHadoopクラスターノードに一元的に保存されます。 後続するフィールドは、取得されたデータを使用して事前に入力されます。 Hadoopクラスターノードの詳細は、Hadoop接続メタデータを管理をご覧ください。 |
|
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
このコンポーネントは[Object] (オブジェクト)タイプおよび[List] (リスト)タイプをサポートしていません。 Sparkは、PARQUETスキーマ内のカラムのデータ型を自動的に推測します。Apache SparkのTalendジョブでは、日付型がint96として推測され、保管されます。 このコンポーネントは、ダイナミックスキーマ機能の利点を備えているので、ソースファイルから不明なカラムを取得したり、各カラムを個別にマッピングしなくてもソースからカラムを一括してコピーしたりできます。ダイナミックスキーマの詳細は、ダイナミックスキーマをご覧ください。 ダイナミックスキーマ機能は、テーブルの不明なカラムを取得するしくみになっており、その他の目的には使用しないことをお勧めします。テーブルの作成には推奨しません。 |
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
|
[Folder/File] (フォルダー/ファイル) |
ファイルシステムで使用するデータを参照するか、パスを入力します。 参照用のボタンはSpark Localモードでは機能しません。お使いのディストリビューションで、Talend Studioがサポートしているその他のSpark Yarnモードを使用している場合は、同じジョブ内の設定コンポーネントで接続を適切に設定したことを確認する必要があります。使用されるファイルシステムに応じて設定コンポーネントを使用します。 |
[Action] (アクション) |
データを書き込む操作を選択します。
|
[Compression] (圧縮) |
デフォルトでは、[Uncompressed] (非圧縮)オプションがアクティブになっています。ただし、GzipまたはSnappyオプションを選択すれば、出力データを圧縮できます。 |
[Merge result to single file] (結果を1つのファイルにマージ) |
このチェックボックスを選択すると、最終部分のファイルが1つのファイルにマージされ、指定したディレクトリーに保存されます。 選択した場合、マージしたファイルを保存するフォルダーのパスを入力するか参照する必要があります。このディレクトリーが存在しない場合は、自動的に作成されます。 ソースとターゲットファイルの管理では、次のチェックボックスを使用します:
詳細設定からの[Define column partition] (カラムパーティションを定義)チェックボックスを選択すれば、[Remove source dir] (ソースディレクトリーを削除)チェックボックスをオフにする必要があります。パーティショニングはマージされていないファイルのみに適用されます。 |
詳細設定
[Define column partitions] (カラムパーティションを定義) | このチェックボックスを選択して、入力データのスキーマからのカラムを使用して、表示されるテーブルに入力します。選択したカラムのレコードは、データのパーティションを行うためのキーとして使用されます。 |
[Sort columns alphabetically] (カラムをアルファベット順にソート) | スキーマのカラムをアルファベット順にソートする場合は、このチェックボックスを選択します。このチェックボックスをオフのままにすると、これらのカラムはスキーマエディターで定義された順序に従います。 |
[Do not convert dates to UTC] (日付をUTCに変換しない) | このチェックボックスをオンにすると、Sparkセッションのローカルタイムゾーンを使って日付が保存されます。Parquetにはタイムゾーン情報が含まれていないため、このチェックボックスがオフのままであれば、デフォルトでUTCタイムゾーンが使われます。 |
使用方法
使用ルール |
このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |