ステップ1: ジョブの作成、入力の定義、ファイルの読み取り
手順
- Talend Studioを起動してローカルプロジェクトを作成するか、Talend Studioの初回起動時は、デモプロジェクトをインポートします。
- ジョブを作成するには、[Repository] (リポジトリー)ツリービューで[Job Designs] (ジョブデザイン)を右クリックし、[Create Job] (ジョブを作成) を選択します。
-
表示されるダイアログボックスでは、最初のフィールド[Name] (名前)のみが必須です。California1と入力し、[Finish] (終了)をクリックします。
空のジョブがメインウィンドウに表示され、機能別コンポーネントの[Palette] (パレット)が(デフォルトではStudioの右側に)現れ、12のコンポーネントファミリー(Databases (データベース)、Files (ファイル)、Internet (インターネット)、Data Quality (データクオリティ)など)が表示されます。何百ものコンポーネントが利用可能です。
- California_Clientsファイルを読み取るために、tFileInputDelimitedコンポーネントが使われます。このコンポーネントは、[Palette] (パレット)の[File] (ファイル) > [Input] (入力)グループにあります。このコンポーネントをクリックし、さらにデザインワークスペースの左側をクリックして、それをデザインエリアに配置します。
- メタデータマネージャーを使って、tFileInputDelimitedコンポーネントの読み取りプロパティ(ファイルパス、カラムデ区切り、エンコーディングなど)を定義します。このツールにはパラメーター設定用のウィザードが数多く備わっています。これらのプロパティは保存され、将来のジョブでもワンクリックで再利用できるようになります。
-
入力ファイルは区切り付きフラットファイルであるため、[Repository] (リポジトリー)ツリービューのMetadataフォルダーを右クリックして、[File Delimited] (区切り付きファイル)を選択します。次に、[Create file delimited] (区切り付きファイルの作成)を選択します。
区切り付きファイル専用のウィザードが開き、以下の内容が表示されます。
-
ステップ1では、[Name] (名前)フィールドのみが必須です。California_clientsと入力して、次のステップに進みます。
-
ステップ2では、[Browse...] (参照)ボタンをクリックし、入力ファイル(California_Clients.csv)を選択します。画面下部の[Preview] (プレビュー)にファイルの抜粋が表示されるので、ファイルの内容をすぐに確認できます。[Next] (次へ)をクリックします。
この例では、California_Clients.csvファイルはC:/talend/Inputの下に保存されています。
-
ステップ3では、ファイルパラメーター(ファイルのエンコーディング、行とカラムの区切りなど)を定義します。入力ファイルは標準的なものであるため、ほとんどのデフォルト値で問題ありません。ファイルの最初の行は、カラム名が含まれているヘッダーです。そのようなカラム名を自動的に取得するためには、[Set heading row as column names] (先頭行をカラム名に設定) > [Refresh Preview] (プレビューを更新) > [Next] (次へ)とクリックします。
-
ステップ4では、ファイルの各カラムを設定します。ウィザードには、ファイルの最初のデータ行に基づいて、カラムの型と長さを推定するアルゴリズムが組み込まれています。提示されたデータ記述(Talend Studioではスキーマと呼ばれます)はいつでも変更できます。このシナリオではそのまま使用されます。
以上の4ステップが完了すると、California_clientsメタデータが作成されます。
-
- 先にデザインワークスペースにドロップしたtFileInputDelimitedを選択し、ウィンドウ下部に位置する[Component] (コンポーネント)ビューを選択します。
- 縦に並んだタブの[Basic settings] (基本設定)を選択します。このタブには、コンポーネントを動作させるために必要なすべての技術的なプロパティが含まれています。
-
リストで、[Property Type] (プロパティタイプ)として[Repository] (リポジトリー)を選択します。新しいフィールドが表示されます。[Repository] (リポジトリー)の[...]ボタンをクリックし、関連するメタデータエントリーであるCalifornia_clientsをリストから選択します。
tFileInputDelimitedコンポーネントのパラメーターがすべて自動的に入力されます。
- tLogRowコンポーネントを([Logs & Errors] (ログ&エラー)グループから)追加します。両方のコンポーネントをリンクするため、入力コンポーネントを右クリックして、Row > Mainを選択します。次に、出力コンポーネントのtLogRowをクリックします。
- 下部のパネルで[Run] (実行)タブを選択します。
-
[Run] (実行)ビューの縦に並んだタブの[Advanced Settings] (詳細設定)で[Statistics] (統計)チェックボックスをオンにして統計を有効にしてから、[Basic Run] (基本実行)タブで[Run] (実行)をクリックしてジョブを実行します。
入力ファイルのコンテンツがコンソールに出力されます。