メイン コンテンツをスキップする 補完的コンテンツへスキップ

HDFSからデータセットを追加

HDFS (Hadoop File System)に保存されたデータにTalend Data Preparationインターフェイスから直接アクセスして、データセットの形でインポートできます。

手順

  1. ホームページの[Datasets] (データセット)Talend Data Preparationビューで、[Add Dataset] (データセットを追加)ボタンの横にある白い矢印をクリックします。
  2. [HDFS]を選択します。

    [Add an HDFS dataset] (HDFSデータセットを追加)フォームが開きます。

  3. [Dataset name] (データセット名)フィールドに、データセットに付ける名前を入力します。
  4. [User name] (ユーザー名)フィールドにLinuxユーザー名を入力します。

    このユーザーには、インポートするファイルへの読み取り権限が必要です。

  5. Kerberos認証を有効にする場合は、[Use Kerberos] (Kerberos認証を使用)チェックボックスをオンにします。
  6. Principalの場合
  7. [Keytab file] (Keytabファイル)フィールドにKeytabファイルのロケーションを入力します。
    keytabファイルはSpark Job Serverからアクセスできるようにしておく必要があります。

    これらのフィールドにデフォルト値が表示されるようにTalend Data Preparationを手動で設定できます。

  8. [Format] (形式)フィールドで、インポートするファイルに対応する形式を選択します。
    HDFSファイルの場合、Talend Data PreparationではCSVAVROPARQUETがサポートされます。
    情報メモ警告: Talend Data Preparationでは、INT96タイプのデータを含んでいるPARQUETファイルのインポートはサポートされていません。これに該当する場合はソースファイルを調整することをお勧めします。

    CSVを選択した場合は、レコードとフィールドの区切り、テキスト囲み文字とエスケープ文字、およびインポートするファイルのエンコーディングを選択します。

  9. [Path] (パス)フィールドにHadoopクラスターのファイルの完全なURLを入力します。
  10. [Add Dataset] (データセットを追加)ボタンをクリックします。

タスクの結果

クラスターから抽出されたデータがグリッド内に開かれ、プレパレーションへの作業を開始できます。

データはクラスターに保存されたままの状態であり、Talend Data Preparationはサンプルのみをオンデマンドで取得します。

これで、データセットがアプリケーションのホームページの[Datasets] (データセット)ビューに表示されるようになります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。