メタデータを使ってHDFSからデータを読み取り

tHDFSInputコンポーネントを使えば、HDFSからデータを読み取れます。

始める前に

このチュートリアルではHadoopクラスターを活用します。Hadoopクラスターが利用可能であることが必要です。
また、HDFSメタデータが設定されていることも必要です(Hadoop クラスターメタデータ定義の作成とHadoop クラスターメタデータ定義のインポートをご覧ください)。
HDFSにデータを書き込んでいること(メタデータを使ってHDFSにデータを書き込みをご覧ください)。

手順

[Repository] (リポジトリー)で[Metadata] (メタデータ) > [Hadoop Cluster] (Hadoopクラスター)を展開した後に、目的のHadoopクラスターメタデータを展開します。
1. HDFSメタデータを[Designer] (デザイナー)にドラッグ＆ドロップします。
2. tHDFSInputコンポーネントを選択します。
tHDFSInputコンポーネントをダブルクリックします。

このコンポーネントは事前定義済みのHDFSメタデータ接続情報によって設定されています。
[File Name] (ファイル名)フィールドにファイルパスと目的のファイルの名前を入力します。
[Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
プラスボタンをクリックして新しいカラムを追加します。
1. [Column] (カラム)フィールドに名前を入力します。
  例
  1. CustomerID
  2. FirstName
  3. LastName
2. [Types] (タイプ)カラムを選択します。
  例
  1. CustomerIDには、Integer Typeを選択します。
  2. FirstNameとLastNameには、String Typeを選択します。
3. [OK]をクリックします。
tRowGeneratorコンポーネントを右クリックします。
1. [Trigger] (トリガー) > [On Subjob Ok] (サブジョブがOKの場合)を選択します。
2. tHDFSInputコンポーネントをクリックし、両コンポーネントをリンクさせます。
tSortRowコンポーネントを追加します。
tHDFSInputコンポーネントを右クリックします。
1. [Row] (行) > [Main] (メイン)を選択します。
2. tSortRowコンポーネントをクリックし、両コンポーネントをリンクします。
tSortRowコンポーネントをダブルクリックします。
1. [Sync columns] (カラムを同期)をクリックします。
  tSortRowコンポーネントはtHDFSInputコンポーネントからスキーマを継承しています。
プラスボタンをクリックします。
tHDFSInputコンポーネントスキーマの最初のカラムが表示されます。
tLogRowコンポーネントを追加します。
tSortRowコンポーネントを右クリックします。
1. [Row] (行) > [Main] (メイン)を選択します。
2. tLogRowコンポーネントをクリックし、2つのコンポーネントをリンクします。
  [Designer] (デザイナー)は次のようになります。
tLogRowコンポーネントをダブルクリックします。
1. [Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))を選択します。
[Run] (実行)ビューで[Run] (実行)をクリックします。

タスクの結果

入力コンポーネント(tRowGeneratorコンポーネントなど)は、tHDFSOutputコンポーネントにデータを提供し、このコンポーネントによってデータがHDFSシステムに書き込まれます。この操作を完了すると、tHDFSInputコンポーネントがデータを読み取ってtSortRowコンポーネントに提供し、このコンポーネントによってデータがソートされます。tLogRowコンポーネントはHDFSでソートされたデータを表示します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください