データのオンボーディング
Qlik Talend Data Integration プロジェクトでデータ パイプラインを作成する最初のステップは、データのオンボーディングです。これには、データ ソースからデータを転送し、読み取りに最適化された形式でのデータセットの保管が含まれます。継続的な変更処理でデータを更新することも、スケジュールされたリロードを使用することもできます。
オンボーディングは 1 回の操作で作成できますが、2 つのステップで実行されます。
-
データのランディング
これには、 ランディング データ タスクを使用して、オンプレミス データ ソースからランディング エリアにデータを継続的に転送することが含まれます。
-
データセットの保管
これは、ランディング データの初期ロードまたは増分ロードを読み取り、ストレージ データ タスクを使用して読み取りに最適化されたフォーマットでデータを適用します。
データをオンボードすると、保管されたデータセットをいくつかの方法で使用できます。
-
分析アプリ内にあるデータセットを使用できます。
-
変換を作成できます。
-
データ マートを作成できます。
データのオンボード
プロジェクトでデータのオンボーディングを開始します。データセットは、プロジェクトで定義されたクラウド データ ウェアハウスに保存されます。プロジェクトの詳細については、「データ パイプラインの作成 」を参照してください。
-
プロジェクトで、[新規追加] をクリックしてから、 [データのオンボード] をクリックします。
ヒント メモプロジェクト内の既存のソースの をクリックして、[オンボード データ] をクリックすることもできます。 -
オンボーディングの [名前] と [説明] を追加します。
[次へ] をクリックします。
-
ソース接続を選択します。
既存のソース接続を選択するか、ソースへの新しい接続を作成できます。
詳細は、データソースへの接続の設定をご覧ください。
[次へ] をクリックします。
-
ロードするデータを選択します。
詳細については、「データの選択」を参照してください。
[次へ] をクリックします。
更新方法と履歴設定を選択できる [設定] が表示されます。
-
[更新方法] でデータの更新に使用する方法を選択します。
-
変更データキャプチャ (CDC)
データに CDC またはビューをサポートしていないテーブルも含まれている場合、2 つのデータ パイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、 [リロードして比較] を使用する他のすべてのテーブルとビューを含む別のパイプライン。
-
リロードして比較
-
-
[履歴] の現在のデータに加えて、過去のデータの履歴をレプリケートする場合に選択します。
準備ができたら、[次へ] をクリックします。
-
Data Movement gateway を使用してデータ ソースにアクセスしていない場合は、設定に次のセクションが表示されます。
レプリケーション スケジューラー
-
毎回データをレプリケートする: データ ソースから変更をキャプチャする頻度をスケジュールし、開始時刻と開始日を設定できます。ソース データセットが CDC (変更データ キャプチャ) をサポートしている場合は、ソース データへの変更のみがレプリケーションされ、対応するターゲット テーブルに適用されます。ソース データセットが CDC をサポートしていない場合 (ビューなど)、すべてのソース データを対応するターゲット テーブルに再ロードすることによって変更が適用されます。一部のソース データセットが CDC をサポートし、一部がサポートしない場合は、2 つの個別のサブタスクが作成されます。1 つは CDC をサポートしないデータセットをリロードするためのもので、もう 1 つは CDC をサポートするデータセットへの変更をキャプチャするためのものです。
オンボーディングのセットアップ ウィザードを使用すると、1 時間間隔でスケジュールを設定できます。オンボーディング ウィザードを完了したら、Data Movement gateway を使用しない場合のタスクのスケジュール設定 で説明されているように、さまざまなスケジュール オプションを検討できます。
データ ソースの種類とサブスクリプション ティアに応じた最小スケジュール間隔の詳細については、「許容される最小スケジュール間隔」を参照してください。
-
-
データをオンボードするために作成されたデータ タスクをプレビューし、必要に応じて名前を変更します。
ヒント メモこの名前は、ストレージ データ アセットでデータベース スキーマに名前を付けるときに使用されます。スキーマは 1 つのタスクにのみ関連付けることができるため、同じデータ プラットフォームを使用する他のプロジェクトのデータ アセットとの競合を避けるために、一意の名前を使用することを検討してください。 -
作成されたデータ タスクのいずれかを開くか、プロジェクトに戻るかを選択します。
準備ができたら、[完了]をクリックします。
これで、オンボーディング データ タスクが作成されました。データのレプリケーションを開始するには、次のことが必要です。
-
ランディング データ タスクを準備して実行します。
詳細については、「データ ソースからのランディング データ」を参照してください。
-
ストレージ データ タスクを準備して実行します。
詳細については、「データセットの保管」を参照してください。
データの選択
特定のテーブルまたはビューを選択することや、選択ルールを使用してテーブルのグループを含めるか除外することができます。
% をワイルドカードとして使用して、スキーマとテーブルの選択基準を定義します。
-
%.% は、すべてのスキーマのすべてのテーブルを定義します。
-
Public.% は、スキーマの [パブリック] のすべてのテーブルを定義します。
[選択基準] により、選択内容に基づいたプレビューが表示されます。
次のいずれかを実行できるようになりました。
-
選択基準に基づいて、テーブルのグループを含めるまたは除外するルールを作成します。
[選択条件からルールを追加] をクリックしてルールを作成し、 [含める] または [除外] のいずれかを選択します。
[選択ルール] の下にルールが表示されます。
-
1 つ以上のデータセットを選択し、 [選択したデータセットを追加] をクリックします。
[明示的に選択したデータセット] の下に、追加されたデータセットが表示されます。
選択ルールは、現在のテーブルとビューのセットにのみ適用され、将来追加されるテーブルとビューには適用されません。