メイン コンテンツをスキップする 補完的コンテンツへスキップ

SparkでHDFS接続からデータを読み取る

事前定義済みHDFSメタデータを使えば、SparkのHDFSファイルシステムからデータを読み取ることができます。

始める前に

手順

  1. [Designer] (デザイナー)に入力コンポーネントを追加します。

    tFileInputDelimitedコンポーネントを追加します。
  2. コンポーネントをダブルクリックします。
    [Storage] (ストレージ)の下で、コンポーネントがtHDFSConfigurationコンポーネント情報と共に設定されます。
  3. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
  4. プラスボタンをクリックしてデータカラムを追加します。

    1. CustomerID
    2. FirstName
    3. LastName
  5. [Types] (タイプ)カラムを選択します。

    CustomerIDには、Integer Typeを選択します。
  6. [OK]をクリックします。
  7. [File Name] (ファイル名)フィールドにファイルパスと目的のファイルの名前を入力します。

タスクの結果

以上でtFileInputDelimitedコンポーネントが設定され、SparkのHDFSからデータを読み取れるようになります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。