メイン コンテンツをスキップする 補完的コンテンツへスキップ

データのオンボーディング

Qlik Talend Data Integration プロジェクトでデータ パイプラインを作成する最初のステップは、データのオンボーディングです。これには、データ ソースからデータを転送し、読み取りに最適化された形式でのデータセットの保管が含まれます。継続的な変更処理でデータを更新することも、スケジュールされたリロードを使用することもできます。

オンボーディングは 1 回の操作で作成できますが、2 つのステップで実行されます。

  • データのランディング

    これには、 ランディング データ タスクを使用して、オンプレミス データ ソースからランディング エリアにデータを継続的に転送することが含まれます。

    データ ソースからのランディング データ

  • データセットの保管

    これは、ランディング データの初期ロードまたは増分ロードを読み取り、ストレージ データ タスクを使用して読み取りに最適化されたフォーマットでデータを適用します。

    データセットの保管

データをオンボードすると、保管されたデータセットをいくつかの方法で使用できます。

  • 分析アプリ内にあるデータセットを使用できます。

  • 変換を作成できます。

  • データ マートを作成できます。

データのオンボード

プロジェクトでデータのオンボーディングを開始します。データセットは、プロジェクトで定義されたクラウド データ ウェアハウスに保存されます。プロジェクトの詳細については、「データ パイプラインの作成 」を参照してください。

  1. プロジェクトで、[新規追加] をクリックしてから、 [データのオンボード] をクリックします。

    ヒント メモプロジェクト内の既存のソースの をクリックして、[オンボード データ] をクリックすることもできます。
  2. オンボーディングの [名前] と [説明] を追加します。

    [次へ] をクリックします。

  3. ソース接続を選択します。

    既存のソース接続を選択するか、ソースへの新しい接続を作成できます。

    詳細は、データソースへの接続の設定をご覧ください。

    [次へ] をクリックします。

  4. ロードするデータを選択します。

    詳細については、「データの選択」を参照してください。

    [次へ] をクリックします。

    更新方法と履歴設定を選択できる [設定] が表示されます。

  5. [更新方法] でデータの更新に使用する方法を選択します。

    • 変更データキャプチャ (CDC)

      データに CDC またはビューをサポートしていないテーブルも含まれている場合、2 つのデータ パイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、 [リロードして比較] を使用する他のすべてのテーブルとビューを含む別のパイプライン。

    • リロードして比較

  6. [履歴] の現在のデータに加えて、過去のデータの履歴をレプリケートする場合に選択します。

    準備ができたら、[次へ] をクリックします。

  7. Data Movement gateway を使用してデータ ソースにアクセスしていない場合は、設定に次のセクションが表示されます。

    • 毎回データをレプリケートする: データ ソースから変更をキャプチャする頻度をスケジュールし、開始時刻開始日を設定できます。ソース データセットが CDC (変更データ キャプチャ) をサポートしている場合は、ソース データへの変更のみがレプリケーションされ、対応するターゲット テーブルに適用されます。ソース データセットが CDC をサポートしていない場合 (ビューなど)、すべてのソース データを対応するターゲット テーブルに再ロードすることによって変更が適用されます。一部のソース データセットが CDC をサポートし、一部がサポートしない場合は、2 つの個別のサブタスクが作成されます。1 つは CDC をサポートしないデータセットをリロードするためのもので、もう 1 つは CDC をサポートするデータセットへの変更をキャプチャするためのものです。

      オンボーディングのセットアップ ウィザードを使用すると、1 時間間隔でスケジュールを設定できます。オンボーディング ウィザードを完了したら、Data Movement gateway を使用しない場合のタスクのスケジュール設定 で説明されているように、さまざまなスケジュール オプションを検討できます。

    データ ソースの種類とサブスクリプション ティアに応じた最小スケジュール間隔の詳細については、「許容される最小スケジュール間隔」を参照してください。

  8. データをオンボードするために作成されたデータ タスクをプレビューし、必要に応じて名前を変更します。

    ヒント メモこの名前は、ストレージ データ アセットでデータベース スキーマに名前を付けるときに使用されます。スキーマは 1 つのタスクにのみ関連付けることができるため、同じデータ プラットフォームを使用する他のプロジェクトのデータ アセットとの競合を避けるために、一意の名前を使用することを検討してください。
  9. 作成されたデータ タスクのいずれかを開くか、プロジェクトに戻るかを選択します。

    準備ができたら、[完了]をクリックします。

これで、オンボーディング データ タスクが作成されました。データのレプリケーションを開始するには、次のことが必要です。

データの選択

特定のテーブルまたはビューを選択することや、選択ルールを使用してテーブルのグループを含めるか除外することができます。

情報メモ選択にビューが含まれる場合、CDC はサポートされません。

% をワイルドカードとして使用して、スキーマとテーブルの選択基準を定義します。

  • %.% は、すべてのスキーマのすべてのテーブルを定義します。

  • Public.% は、スキーマの [パブリック] のすべてのテーブルを定義します。

[選択基準] により、選択内容に基づいたプレビューが表示されます。

次のいずれかを実行できるようになりました。

  • 選択基準に基づいて、テーブルのグループを含めるまたは除外するルールを作成します。

    [選択条件からルールを追加] をクリックしてルールを作成し、 [含める] または [除外] のいずれかを選択します。

    [選択ルール] の下にルールが表示されます。

  • 1 つ以上のデータセットを選択し、 [選択したデータセットを追加] をクリックします。

    [明示的に選択したデータセット] の下に、追加されたデータセットが表示されます。

選択ルールは、現在のテーブルとビューのセットにのみ適用され、将来追加されるテーブルとビューには適用されません。

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。