メイン コンテンツをスキップする 補完的コンテンツへスキップ

データのオンボーディング

Qlik Open Lakehouse プロジェクトでデータ パイプラインを作成する最初のステップは、データのオンボーディングです。このプロセスでは、ソースからデータを転送し、最適化された Iceberg テーブルにデータセットを格納します。データ ソースからの変更は、効率的なミニバッチでストレージ テーブルに継続的に適用されます。

オンボーディングは 1 回の操作で作成されますが、2 つのステップで実行されます。

  • データのランディング

    これには、 ランディング データ タスクを使用して、オンプレミス データ ソースからランディング エリアにデータを継続的に転送することが含まれます。

    データ ソースからのランディング データ

    データをレイクハウスにランディングし、そこから S3 ファイル ストレージにデータをランディングすることもできます。

    Qlik Open Lakehouse へのランディング データ

  • データセットの保管

    これは、ランディング データの初期ロードまたは増分ロードを読み取り、ストレージ データ タスクを使用して読み取りに最適化されたフォーマットでデータを適用します。

    データセットの保管

データをオンボードすると、保管されたデータセットをいくつかの方法で使用できます。

  • 分析アプリ内にあるデータセットを使用できます。

  • ミラー データ タスクをストレージ データ タスクに直接追加することで、Snowflake にデータをミラーリングできます。

  • オンボーディング プロジェクトからデータを消費するクロスプロジェクト パイプラインを作成することで、Snowflake でデータの変換を行うことができます。

データをオンボード

プロジェクトでデータのオンボーディングを開始します。データセットは、プロジェクトで定義された S3 の場所に保存されます。プロジェクトの詳細については、「データ パイプライン プロジェクトの作成」を参照してください。

  1. プロジェクトで、 [作成] をクリックし、 [データのオンボード] をクリックします。

    ヒント メモプロジェクト内の既存のソースの 詳細アイコン をクリックして、[オンボード データ] をクリックすることもできます。
  2. オンボーディングの [名前] と [説明] を追加します。

    [次へ] をクリックします。

  3. ソース接続を選択します。

    既存のソース接続を選択するか、ソースへの新しい接続を作成できます。

    詳細は、データソースへの接続の設定をご覧ください。

    [次へ] をクリックします。

  4. ロードするデータを選択します。

    詳細については、「データの選択」を参照してください。

    [次へ] をクリックします。

    更新方法と履歴設定を選択できる [設定] が表示されます。

  5. [更新方法] でデータの更新に使用する方法を選択します。

    • 変更データキャプチャ (CDC)

      データに CDC をサポートしていないビューまたはテーブルも含まれている場合、2 つのデータ パイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、 [リロードして比較] を使用する他のすべてのテーブルとビューを含む別のパイプラインです。

    • リロードして比較

  6. [履歴] の現在のデータに加えて、過去のデータの履歴をレプリケートする場合に選択します。

  7. 準備ができたら、[次へ] をクリックします。

  8. データをオンボードするために作成されたデータ タスクをプレビューし、必要に応じて名前を変更します。

    ヒント メモこの名前は、ストレージ データ タスクでデータベース スキーマに名前を付けるときに使用されます。同じデータ プラットフォームを使用する他のプロジェクトのデータ タスクとの競合を避けるために、一意の名前を使用することを検討してください。
  9. 作成されたデータ タスクのいずれかを開くか、プロジェクトに戻るかを選択します。

    準備ができたら、[完了]をクリックします。

  10. これで、オンボーディング データ タスクが作成されました。データのレプリケーションを開始するには、次のことが必要です。

  11. ランディング データ タスクを準備して実行します。

    詳細については、「データ ソースからのランディング データ」を参照してください。

  12. ストレージ データ タスクを準備して実行します。

    詳細については、「データセットの保管」を参照してください。

データの選択

特定のテーブルまたはビューを選択することや、選択ルールを使用してテーブルのグループを含めるか除外することができます。

情報メモ選択にビューが含まれる場合、CDC はサポートされません。

% をワイルドカードとして使用して、スキーマとテーブルの選択基準を定義します。

  • %.% は、すべてのスキーマのすべてのテーブルを定義します。

  • Public.% は、スキーマの [パブリック] のすべてのテーブルを定義します。

[選択基準] により、選択内容に基づいたプレビューが表示されます。

次のいずれかを実行できるようになりました。

  • 選択基準に基づいて、テーブルのグループを含めるまたは除外するルールを作成します。

    [選択条件からルールを追加] をクリックしてルールを作成し、 [含める] または [除外] のいずれかを選択します。

    [選択ルール] の下にルールが表示されます。

  • 1 つ以上のデータセットを選択し、 [選択したデータセットを追加] をクリックします。

    [明示的に選択したデータセット] の下に、追加されたデータセットが表示されます。

選択ルールは、現在のテーブルとビューのセットにのみ適用され、将来追加されるテーブルとビューには適用されません。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。