メインコンテンツをスキップする補完的コンテンツへスキップ

Qlik リソース

SparkでHDFS接続からデータを読み取る

このページ上

メインコンテンツをスキップする

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

SparkでHDFS接続からデータを読み取る

事前定義済みHDFSメタデータを使えば、SparkのHDFSファイルシステムからデータを読み取ることができます。

始める前に

このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
また、HDFSメタデータが設定されていることも必要です(Hadoop クラスターメタデータ定義の作成とHadoop クラスターメタデータ定義のインポートをご覧ください)。
SparkでHDFS接続を設定していること(Sparkで実行するHDFS接続を設定をご覧ください)。

手順

[Designer] (デザイナー)に入力コンポーネントを追加します。
例
tFileInputDelimitedコンポーネントを追加します。
コンポーネントをダブルクリックします。
[Storage] (ストレージ)の下で、コンポーネントがtHDFSConfigurationコンポーネント情報と共に設定されます。
[Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
プラスボタンをクリックしてデータカラムを追加します。
例
1. CustomerID
2. FirstName
3. LastName
[Types] (タイプ)カラムを選択します。
例
CustomerIDには、Integer Typeを選択します。
[OK]をクリックします。
[File Name] (ファイル名)フィールドにファイルパスと目的のファイルの名前を入力します。

タスクの結果

以上でtFileInputDelimitedコンポーネントが設定され、SparkのHDFSからデータを読み取れるようになります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください