データ ソースからのランディング データ
データ転送の最初のステップは、データのランディングです。これには、オンプレミス データ ソースからランディング エリアにデータを継続的に転送することが含まれます。
ソース接続を通じて、多くのデータ ソースからデータをランディングできます。詳しくは「Qlik Cloud データ統合 でのデータ ソースへの接続」を参照してください。
ランディング エリアは、データ プロジェクトを作成するときに定義されます。
-
Qlik Cloud ( Amazon S3 を通じて)
データを Qlik Cloud にランディング ( Amazon S3 を通じて)すると、それを使用して Qlik Cloud で分析できる QVD テーブルを生成できます。
-
クラウド データ ウェアハウス
データを Snowflake または Azure Synapse Analytics などのクラウド データ ウェアハウスにランディングすると、同じクラウド データ ウェアハウスにテーブルを保存できます。
ランディング データ タスクの作成と設定
ここでは、ランディング データ タスクを作成する方法について説明します。データパイプラインを作成するもっとも簡単な方法は、ランディング データ タスクとストレージ データ タスクを作成し、準備と実行ができるデータをオンボードすることです。詳細については、「データのオンボーディング」を参照してください。
- Qlik Cloud データ統合 のホームで [新規追加] をクリックし、 [データのランディング] を選択します。
-
[データのランディング] 展開先パスで、データ タスクの名前と説明を入力します。
[開く] を選択して、作成されたときに、データ タスクのランディングを開きます。
[作成] をクリックします。
-
[ソースデータの選択] をクリックします。
-
ソース データへのデータ接続を選択し、 [次へ] をクリックします。
左側のパネルのフィルターを使用して、ソースの種類、スペース、所有者の接続のリストをフィルタリングします。
ソース データにデータが接続されていない場合は、最初に [接続を追加] をクリックして接続を作成する必要があります。
サポートされているソースへの接続設定の詳細については、「Qlik Cloud データ統合 でのデータ ソースへの接続」を参照してください。
情報メモ次の手順でテーブルを選択した場合、ソース データ接続をオンプレミス データ ソースからクラウド データ ソースに変更すること、またはその逆はできません。接続を変更できるのは、同じ種類の別のデータソースのみです。 -
データ アセットに含めるテーブルとビューを選択します。接続しているソースの種類によって選択展開先パスは異なります。
テーブルを選択する準備ができたら、 [完了]をクリックします。
[データセット] が表示されます。
-
ランディングの設定を変更できます。これは必須ではありません。
-
[設定] をクリックします。
設定の詳細については、「ランディングの設定」を参照してください。
-
-
選択したデータ アセットテーブルの構造とメタ データをプレビューできるようになりました。これには、明示的にリストされたすべてのテーブルと、選択ルールに一致するテーブルが含まれます。
データ ソースからさらにテーブルを追加する場合は、 [ソース データの選択] をクリックします。
-
データセットの変換を実行し、データをフィルタリングし、列を追加できます。
詳細については、「データセットの管理」を参照してください。
情報メモ変換は、Qlik データ ゲートウェイ - データ移動 経由でデータをランディングする場合にのみサポートされます。 -
必要な変換を追加したら、[データセットの検証] をクリックしてデータセットを検証できます。検証でエラーが見つかった場合は、先に進む前にエラーを修正してください。
詳細については、「データセットの検証と調整」を参照してください。
-
準備ができたら、 [準備] をクリックしてデータ タスクをカタログ化し、実行の準備をします。
-
データ タスクが準備され、データのレプリケーションを開始する準備ができたら、 [実行] をクリックします。
レプリケーションが開始され、 [モニター] で進行状況を確認できます。詳細については、「ランディング タスクの監視」を参照してください。
Qlik データ ゲートウェイ - データ移動 ソース接続からのデータの選択
特定のテーブルまたはビューを選択することや、選択ルールを使用してテーブルのグループを含めるか除外することができます。
% をワイルドカードとして使用して、スキーマとテーブルの選択基準を定義します。
-
%.% は、すべてのスキーマのすべてのテーブルを定義します。
-
Public.% は、スキーマの [パブリック] のすべてのテーブルを定義します。
[選択基準] により、選択内容に基づいたプレビューが表示されます。
次のいずれかを実行できるようになりました。
-
選択基準に基づいて、テーブルのグループを含めるまたは除外するルールを作成します。
[選択条件からルールを追加] をクリックしてルールを作成し、 [含める] または [除外] のいずれかを選択します。
[選択ルール] の下にルールが表示されます。
-
1 つ以上のデータセットを選択し、 [選択したデータセットを追加] をクリックします。
[明示的に選択したデータセット] の下に、追加されたデータセットが表示されます。
選択ルールは、現在のテーブルとビューのセットにのみ適用され、将来追加されるテーブルとビューには適用されません。
フル ロードおよび CDC でのランディング タスクの実行
準備ができたら、ランディング タスクを実行できます。これにより、オンプレミスのデータ ソースからランディング エリアにデータを転送するレプリケーションが開始されます。
-
[実行] をクリックして、データのランディングを開始します。
レプリケーションが開始され、データ アセットのステータスが [実行中] になります。まず、全データ ソースがコピーされ、次に変更が追跡されます。これは、変更が発見されたときに継続的に追跡および転送されることを意味します。これにより、ランディング エリアのランディングデータが最新の状態に保たれます。
Qlik Cloud データ統合 ホームでは、ランディングデータの更新ステータス、日時およびエラーになったテーブルの数を確認できます。また、データ アセットを開き、 [テーブル] タブを選択して、テーブルの基本的なメタデータ情報を確認することもできます。
進捗状況を詳細に監視するには、 でレプリケーションタスクを開き、 [モニター] ビューを選択します。詳細については、「ランディング タスクの監視」を参照してください。
すべてのテーブルがロードされ、最初の変更セットが処理されると、 [Data is updated to] (データ更新) には、その時点までのソースの変更がデータ タスクで利用可能であることを示します。
フル ロード でのランディング データ タスクの実行
準備ができたら、ランディング データ タスクを使用してデータをコピーできます。
-
[実行] をクリックして、フル ロードを開始します。
データのコピーを開始し、データ タスクのステータスは [実行中] になります。フル データ ソースがコピーされると、ステータスは [完了] になります。
Qlik Cloud データ統合 ホームでは、ランディングデータの更新ステータス、日時およびエラーになったテーブルの数を確認できます。また、データ アセットを開き、 [テーブル] タブを選択して、テーブルの基本的なメタデータ情報を確認することもできます。
進捗状況を詳細に監視するには、 でレプリケーションタスクを開き、 [モニター] ビューを選択します。詳細については、「ランディング タスクの監視」を参照してください。
すべてのテーブルがロードされると、 [Data is updated to] (データ更新) には、その時点までのソースの変更がデータ タスクで利用可能であることが示されます。ただし、データ タスクの一部のテーブルは、ロードを開始した時期に応じて、後の時間に更新することができます。これは、データの一貫性が保証されていないことを意味しています。例えば、08:00にロードを開始して4時間かかった場合、ロードが完了すると、 [Data is updated to] (データ更新) に 08:00 と表示されます。ただし、11:30 にリロードを開始したテーブルには、08:00 から 11:30 の間に発生したソースの変更が含まれます。
[Data is updated to] (データ更新) は、正常にロードされたテーブルのみを反映します。テーブルのリロードが失敗したことを示すものではありません。クラウド ターゲットでは、すべてのテーブルにエラーが発生してリロードが完了した場合、項目は空になります。
フル ロード を使用時のデータのリロード
CDC を使わずにフルロードで使用する場合は、データ ソースに合わせてデータを再読み込みする必要があります。
-
[実行] をクリックして、データの手動リロードを実行します。
-
スケジュールされたリロードを設定します。
フル ロード ランディング データ タスクのスケジュール
データ タスクのスペースで [操作可能] ロールがある場合は、ランディング データ タスクの定期的なリロードをスケジュールできます。スケジュールをアクティブにするには、データ タスクのステータスが少なくとも [準備完了] である必要があります。
-
データ タスクの [...] をクリックし、[スケジュール] を選択します。
時間ベースのスケジュールを設定できます。
ランディング タスクの監視
[監視] をクリックすると、ランディング データ タスクの作成ステータスと進行状況を監視できます。ユーザーは、オンプレミス ソースからデータをランディングするときに、 [フル ロード] または [フル ロードおよび CDC] モードを選択できます。次のセクションでは、監視タブで使用できるフル ロードおよび変更処理ロードの種類の詳細について説明します。
フル ロード モニタリングの詳細
[フル ロード ステータス] のランディング タスクについて、次の詳細を確認できます。
-
キューに登録済み - 現在キューに入れられているテーブルの数。
-
ロード中 - 現在ロードされているテーブルの数。
-
完了 - 完了したテーブルの数。
-
エラー - エラーのあるテーブルの数。
ランディング タスクの各テーブルについて、次の詳細を確認できます。
-
名前
ランディング タスクのターゲット テーブルの名前。
-
状態
テーブルの状態は次のいずれかになります。キューに登録済み、ロード中、完了、エラー。
-
開始
ロードが開始された時間。
-
終了
ロードが終了した時間。
-
期間
hh:mm:ss の形式でのロードの期間。
-
レコード数
ロード中にレプリケートされたレコードの数。
-
メッセージ
ロードが正常に処理されなかった場合にエラー メッセージを表示します。
変更処理モニタリングの詳細
ランディング タスクの次の CDC の詳細を確認することで、 [CDC ステータス] での変更処理を監視できます
-
変更の受信 - ソースに存在し、処理を待機している変更の数。蓄積された数と適用されている数を表示できます。
-
処理済みの変更 - 処理および適用された変更の数 (過去 24 時間)。
-
スループット - 平均ターゲット スループット (キロバイト/秒)。これは、変更レコードがターゲット エンドポイントに読み込まれる速度を示しています。
-
待機時間 - データ アセットの現在の待機時間 (hh:mm:ss) この時間は、ソースで変更が使用可能になった時点から、変更が適用されてターゲットまたはランディング アセットで使用可能になるまでの時間を表します。
ランディング タスクの各テーブルについて、次の詳細を確認できます。
-
名前
ランディング アセットのターゲット テーブルの名前。
-
状態
テーブルの状態は次のいずれかになります。変更の累計 または エラー。
-
最後処理
テーブルが最後に変更された日時。
-
挿入
挿入操作の回数。
-
更新
更新操作の回数。
-
削除
削除操作の回数。
-
メッセージ
テーブルへの変更が失敗し処理されない場合に、エラー メッセージを表示します。
オンプレミス ソースからデータをランディングし、[フル ロード] モードを選択した場合、ランディング アセットが [実行] のときにテーブルが自動的にリロードされます。
オンプレミス ソースからデータをランディングし、[フル ロードおよび CDC] モードを選択した場合、最初のフル ロードの後、テーブルは新しいデータで継続的に更新されます。
ランディングの設定
ランディング データ タスクのプロパティを設定できます。
-
[設定] をクリックします。
一般設定
-
データベース
ターゲットで使用するデータベースです。
情報メモこのオプションは、データを Qlik Cloud にランディングする(Amazon S3を通じて)場合は使用できません。 -
データ アセット スキーマ
ランディング データ アセット スキーマの名前を変更できます。既定の名前はランディングです。
情報メモこのオプションは、データを Qlik Cloud にランディング(Amazon S3する場合は使用できません。 -
ランディング モード
2 種類の異なるモードでデータをランディングできます。モードはデータ プロジェクトの作成時に設定されます。ランディング データ アセットが準備されると、モードの変更はできません。
情報メモデータ ソースが CDC をサポートしていない場合、このオプションは無効になります。-
フル ロードおよび CDC
フル ロードでランディングを開始します。ランディング データは、CDC (変更データ キャプチャ) テクノロジーを使用して最新の状態に保たれます。CDC は、すべてのデータ ソースでサポートされていない可能性があります。CDC は、列の名前変更、またはメタデータの変更などの DDL 操作をキャプチャしません。
-
フル ロード
ランディングはソースからのみフル ロードを実行します。これは、ソースが CDC をサポートしていない場合に役立ちますが、サポートされている任意のデータ ソースで使用できます。
リロードを定期的にスケジュールできます。
-
-
使用するフォルダー
データをランディングするときに使用するフォルダーを選択できます。
情報メモこのオプションは、データを Qlik Cloud にランディングする( Amazon S3を通じて)場合にのみ使用できます。-
既定のフォルダー
既定の名前 <project name>/<data task name> のフォルダーが作成されます。
-
ルート フォルダー
ストレージのルート フォルダーにデータを保存します。
-
フォルダー
使用するフォルダーの名前を指定します。
-
実行時間の設定
-
LOB (大きなオブジェクト)
LOB 列を含めることを選択でき、さらに最大 LOB サイズを設定できます。最大サイズより大きい LOB は切り捨てられます。
情報メモ Azure Synapse Analytics をターゲットとして使用する場合、最大 LOB サイズは 7 MB を超えることはできません。 -
並列実行
フル ロードの最大データ接続数を 1 から 5 の数値に設定できます。
-
処理間隔の変更
ソースからの変更の処理の間隔を設定できます。
情報メモこのオプションは、データを Qlik Cloud にランディングする( Amazon S3を通じて)場合にのみ使用できます。
ランディング データ タスクの操作
タスク メニューから、ランディング データ タスクに対して次の操作を実行できます。
-
開く
これにより、ランディング データ タスクが開きます。テーブル構造とデータ タスクの詳細を表示できます。
-
編集
タスクの名前と説明を編集したり、タグを追加したりできます。
-
削除
データ タスクを削除できます。
次のオブジェクトは削除されないため、手動で削除する必要があります。
-
ランディング エリアのデータ。
-
-
実行
データ タスクを実行して、データのコピーを開始することができます。
-
停止
実行中のデータ タスクの操作を停止できます。ランディング エリアは、変更されたデータで更新されません。
リロード スケジュールのあるフル ロードのデータ タスクを停止すると、現在のリロードのみが停止されます。データ タスクのステータスが 停止 の場合、またアクティブなリロード スケジュールがある場合、次のスケジュールされた時刻に再びリロードされます。[リロードのスケジュール] でリロードのスケジュールをオフにする必要があります。
-
リロード
フル ロード モードで、データ タスクの手動リロードを実行できます。
- 準備
これにより、タスクの実行準備が整います。準備には次が含まれます。
-
設計が有効であることを検証する。
-
設計に合わせて物理テーブルとビューを作成または変更する。
-
データ タスクの SQL コードを生成する。
-
タスク出力データセットのカタログ エントリを作成または変更する。
-
-
テーブルを再作成
これにより、ソースからデータセットが再作成されます。
また、このデータ タスクを消費するすべてのダウンストリーム データ タスクを作成する必要もあります。
-
スケジュール
[フル ロード] モードで、ランディング データ タスクのスケジュールされたリロードを設定できます。カスタマイズ可能な時間ベースのスケジュールを設定できます。
スケジュールされたリロードをオンまたはオフにすることもできます。
リロードをスケジュールするには、データ タスクのスペースで操作可能ロールを保持することが必要です。
-
データを保存
このランディング データ タスクからデータを使用するストレージ データ タスクを作成できます。
ランディング エリアのメンテナンス
ランディング エリアの自動クリーンアップはサポートされていません。これはパフォーマンスに影響する可能性があります。
ランディング エリアで古いフル ロード データの手動クリーンアップを実行することをお勧めします。
-
Qlik Cloud ( Amazon S3 を通じて)
フルロードデータのフォルダーが複数ある場合は、最新のフォルダーを除くすべてを削除できます。処理された変更データ パーティションを削除することもできます。
-
クラウド データ ウェアハウス
処理されたフル ロードと変更テーブル レコードを削除できます。
制限事項
-
資格情報、SSL、プロキシなどのソースおよびランディング接続プロパティは、カタログ化されている場合にのみランディングに伝達されます。ソースまたはランディング接続の資格情報に変更がある場合、停止、再開、回復時に新しい資格情報はランディングに伝達されません。つまり、ランディングに失敗する可能性があり、回復のために再作成が必要にある場合があります。
-
8000 バイトを超える varchar データ、または 4000 バイトを超える Nvarchar データのレプリケーションはサポートされていません。