Talend Cloud Data Preparationについて
Talend Cloud Data Preparation は、分析や他のデータドリブンタスクに際し、面倒で時間のかかるデータのプレパレーションプロセスを簡素化・迅速化することで、情報ワーカーの作業時間を何時間も短縮できるセルフサービスアプリケーションです。
このクラウドバージョンはTalend Cloudで稼働し、実質的にあらゆるデータソースにアクセス可能な接続性とあわせてエンタープライズ級のファンクションを提供します。データへのアクセスを容易にしガバナンスを強化するためのルールやポリシーを決定するITやリスク管理といった中枢部門とデータを知り尽くしているビジネスユーザーの間での共同作業を促進します。
Talend Data Preparation Cloudには次のファンクションがあります。
- 統合およびカタログ作成
- データ検出とプロファイリング
- クレンジング、標準化、シェーピング
- データセットのエンリッチ化と接続
- データプレパレーション操作の実行
Talend Cloud Data Preparationが初めてで、主な機能を手順ごとに説明する例をご希望の場合は、Talend Cloud Data Preparation入門ガイドをご覧ください。
Talend Data Preparationの概念
以下の定義について学習すれば、Talend Cloud Data Preparationの主な概念を理解しやすくなります。
- 接続: 接続とは、データベース、ファイルシステム、分散システム、プラットフォームなど、データセットが保管されている環境またはシステムのことです。システムの接続は一度セットアップすれば再利用できます。
- データセット: データセットには、1つ以上のプレパレーションの原材料として使用できる生データが保存されています。データセットは、元データに影響を与えることなくレシピステップを適用できるテーブルとして表示されます。データセットは複数のプレパレーションで再使用できます。
- サンプル: お使いのデータはサンプルの形式で表示され、データセットメタデータから取得されます。
- プレパレーション: プレパレーションとは、データセットとレシピをリンクするものです: データによって達成を目指す最終結果です。この成果をファイルとしてエクスポートしたり、データターゲットに接続したりできます。プレパレーションは1つのデータセットをレシピに適用して結果を生成します。元のデータセットが変更されることはありません。
- レシピ: レシピは、「何かを作成または準備するための材料リストと一連の指示」として文字通り定義されます。Talend Cloud Data Preparationでは、材料はデータセットと呼ばれる生データに相当し、指示はデータセットに適用されるファンクションのセットです。レシピは視覚的には、左側の折り畳みパネルに、上から下の順に表示される一連のファンクションです。レシピはプレパレーションを介してデータセットにリンクされています。レシピの各アップデートは、必ずプレパレーションに自動保存されます。
- ファンクション: ファンクションは、空の行の削除など、データセットの行やカラムまたはデータセット全体に適用される処理です。ファンクションはプレパレーションの一部として適用されるので、元データは変更されません。適用されたファンクションは適用順にレシピに記録されます。
- セマンティックタイプ: カラムやレコードのセマンティックタイプは、その内部で見つかるデータのタイプ(名前、ZIPコード、電話番号、座標など)に該当します。Talend Cloudアプリケーションはすべてセマンティック認識を活用できます。そのため、サンプルデータはデフォルトのセマンティックタイプや自分で作成したセマンティックタイプで自動的に分類されます。
- Cloud Engine for Design: Cloud Engine for Designは、ユーザーが処理エンジンを設定しなくても簡単にデータを処理できるようにする組み込みランナーのことです。このエンジンを使うと、2つのオブジェクトを並行して実行できます。データの高度な処理のためには、セキュアなRemote Engine Gen2をインストールすることをお勧めします。
- Remote Engine Gen2: Remote Engine Gen2は、オブジェクトを安全に実行できるセキュアな実行エンジンです。独自の環境(仮想プライベートクラウドまたはオンプレミス)でエンジンを作成して設定し、実行環境とリソースを制御できます。
Remote Engineの特長:
- Talendがパイプラインのデータやリソースにアクセスできないため、安全かつセキュアな環境でのデータ処理が可能です。
- 大量のデータを移動させて計算するのではなくデータの局所性を高めることで、最適なパフォーマンスを実現します。
接続、データセット、プレパレーション間のリレーションシップ:
Talend Cloud Data Preparationのアーキテクチャー
このアーキテクチャー図はTalend Cloud Data Preparationのファンクションブロックを示したものです。
この図は、主要な部分である2つの環境、つまりローカルネットワークとクラウドインフラストラクチャーという2つの主要な部分に分かれています。
ローカルネットワーク
Webブラウザー、Talend Studio、Remote Engine Gen2、Runtime Serverを含むローカルネットワーク。
- Webブラウザーから、Talend Cloud Data Preparation、Talend Dictionary Service、Talend Management Consoleにアクセスできます。
- Talend Studioからは、tDatasetInput、tDatasetOutput、tDataprepRunの各コンポーネントを使うことでTalend Cloud Data Preparationのファンクションを活用できます。さまざまなデータセットからデータセットを作成してTalend Cloud Data Preparationにエクスポートしたり、データ統合ジョブまたはSparkジョブでプレパレーションを直接利用したりできます。
- Remote Engine Gen 1は、Data Preparationコンポーネントを使うジョブの実行、およびオンプレミスでのアーティファクトやタスクの実行に使用されます。
- Remote Engine Gen2は、Talend Cloudアプリケーションのオブジェクト(プレパレーションなど)を実行するほか、接続を作成したりデータサンプルをフェッチしたりするために使われます。
クラウドインフラストラクチャー
クラウドインフラストラクチャーには、データセットサービスに依存するTalend Cloud Data Preparationの他にCloud Engine for Designが含まれています。
- データセットサービスは、Talend Cloud Data Preparation、Talend Cloud Data Inventory、Talend Cloud Pipeline Designer用に統合されたデータセットリストを提供します。
- Talend Management Consoleでは、ロール、ユーザー、プロジェクト、ライセンスを管理します。クラウドアプリケーションの新しいユーザーを作成し、カスタムグループに割り当てます。その後、ロールを決定してユーザーに割り当てます。Talend Management Consoleは、ライセンスファイルをインポートし、Talend Studioで共同作業するプロジェクトを作成するためも使用されます。加えて、Webユーザーのデータおよびファイル転送、データ統合、および共有データソースへのアクセスを有効にできます。たとえば、アプリケーション間のデータ交換と同期を自動化する、設定済みのサンプルタスクまたはデザインタスクをインポートして使用できます。
- Talend Cloud Data Preparationでは、ローカルファイルやその他のソースからデータをインポートし、新しいプレパレーションを作成することでクレンジングしたりエンリッチ化したりできます。
- Talend Dictionary Serviceでは、Talend Cloud Data Preparationで開かれている場合に、データの各カラムに適用されるセマンティックカテゴリーを追加、削除、変更できます。
- Cloud Engine for Designは、アーティファクト、タスク、プレパレーションをクラウドで実行するほか、接続を作成したりデータサンプルをフェッチしたりするために使われます。