Talend Data Preparationの概念
以下の定義について学習すれば、Talend Data Preparationの主な概念を理解しやすくなります。
- データセット: データセットには、1つ以上のプレパレーションの原材料として使用できる生データが保存されています。データセットは、元データに影響を与えることなくレシピステップを適用できるテーブルとして表示されます。データセットは複数のプレパレーションで再使用できます。
- プレパレーション: プレパレーションとは、データセットとレシピをリンクするものです: データによって達成を目指す最終結果です。この成果をファイルとしてエクスポートしたり、データターゲットに接続したりできます。プレパレーションは1つのデータセットをレシピに適用して結果を生成します。元のデータセットが変更されることはありません。
- レシピ: レシピは、「何かを作成または準備するための材料リストと一連の指示」として文字通り定義されます。Talend Data Preparationでは、材料はデータセットと呼ばれる生データに相当し、指示はデータセットに適用されるファンクションのセットです。レシピは視覚的には、左側の折り畳みパネルに、上から下の順に表示される一連のファンクションです。レシピはプレパレーションを介してデータセットにリンクされています。レシピの各アップデートは、必ずプレパレーションに自動保存されます。
- ファンクション: ファンクションは、空の行の削除など、データセットの行やカラムまたはデータセット全体に適用される処理です。ファンクションはプレパレーションの一部として適用されるので、元データは変更されません。適用されたファンクションは適用順にレシピに記録されます。
- セマンティックタイプ: カラムやレコードのセマンティックタイプは、その内部で見つかるデータのタイプ(名前、ZIPコード、電話番号、座標など)に該当します。Talendアプリケーションはすべてセマンティック認識を活用できます。そのため、サンプルデータはデフォルトのセマンティックタイプや自分で作成したセマンティックタイプで自動的に分類されます。