HDFSからデータセットを追加

HDFS (Hadoop File System)に保存されたデータにTalend Data Preparationインターフェイスから直接アクセスして、データセットの形でインポートできます。

手順

ホームページの[Datasets] (データセット)Talend Data Preparationビューで、[Add Dataset] (データセットを追加)ボタンの横にある白い矢印をクリックします。
[HDFS]を選択します。

[Add an HDFS dataset] (HDFSデータセットを追加)フォームが開きます。
[Dataset name] (データセット名)フィールドに、データセットに付ける名前を入力します。
[User name] (ユーザー名)フィールドにLinuxユーザー名を入力します。

このユーザーには、インポートするファイルへの読み取り権限が必要です。
Kerberos認証を有効にする場合は、[Use Kerberos] (Kerberos認証を使用)チェックボックスをオンにします。
Principalの場合
[Keytab file] (Keytabファイル)フィールドにKeytabファイルのロケーションを入力します。
keytabファイルはSpark Job Serverからアクセスできるようにしておく必要があります。
これらのフィールドにデフォルト値が表示されるようにTalend Data Preparationを手動で設定できます。
[Format] (形式)フィールドで、インポートするファイルに対応する形式を選択します。
HDFSファイルの場合、Talend Data PreparationではCSV、AVRO、PARQUETがサポートされます。
情報メモ警告: Talend Data Preparationでは、INT96タイプのデータを含んでいるPARQUETファイルのインポートはサポートされていません。これに該当する場合はソースファイルを調整することをお勧めします。

CSVを選択した場合は、レコードとフィールドの区切り、テキスト囲み文字とエスケープ文字、およびインポートするファイルのエンコーディングを選択します。
[Path] (パス)フィールドにHadoopクラスターのファイルの完全なURLを入力します。
[Add Dataset] (データセットを追加)ボタンをクリックします。

タスクの結果

クラスターから抽出されたデータがグリッド内に開かれ、プレパレーションへの作業を開始できます。

データはクラスターに保存されたままの状態であり、Talend Data Preparationはサンプルのみをオンデマンドで取得します。

これで、データセットがアプリケーションのホームページの[Datasets] (データセット)ビューに表示されるようになります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください