データセットの保管
ストレージ データ タスクを使用してデータセットを保管できます。ストレージ データ タスクは、ランディング データ タスクによって、クラウド ランディング エリアにランディングされたデータを消費します。例えば、分析アプリでテーブルを使用できます。
-
ランディング データ タスクのステータスが Ready to prepare 以上の場合、ストレージ データ タスクを設計できます。
-
ランディング データ タスクのステータスが Ready to run 以上の場合、ストレージ データ タスクを準備できます。
ストレージ データ タスクは、消費されたランディング データ タスクと同じ操作モード ([フル ロード] または [フル ロード & CDC]) を使用します。構成プロパティは、2 つの操作モード間、および監視オプションと制御オプションで異なります。フル ロードのみでクラウド ターゲット ランディング データ タスクを使用する場合、ストレージ データ タスクは、物理テーブルを生成する代わりに、ランディング テーブルへのビューを作成します。
ストレージ データ タスクの作成
ストレージ データ タスクは、次の 3 つの方法で作成できます。
-
ランディング データ タスクで [...] をクリックし、[データの保存] を選択して、このランディング データ アセットに基づいてストレージ データ タスクを作成します。
-
[新規追加] をクリックしてから [データの保存] をクリックします。この場合、使用するランディング データ タスクを指定する必要があります。
-
データをオンボードすると、ストレージ データ タスクが作成されます。これは、データのオンボーディング時にも作成されるランディング データ タスクに接続されます。
詳細については、「データのオンボーディング」を参照してください。
ストレージ データ タスクを作成したら、次のようにします。
-
[...] をクリックして [開く] を選択し、ストレージ データ タスクを開きます。
ストレージ データ タスクが開かれ、ランディング データ アセットのテーブルに基づいて出力データセットをプレビューできます。 -
変換、データのフィルタリング、列の追加など、含まれるデータセットに必要なすべての変更を加えます。
詳細については、「データセットの管理」を参照してください。
-
必要な変換を追加したら、[データセットの検証] をクリックしてデータセットを検証できます。検証でエラーが見つかった場合は、先に進む前にエラーを修正してください。
詳細については、「データセットの検証と調整」を参照してください。
-
データ モデルを作成
[モデル] をクリックして、含まれるデータセット間の関係を設定します。
詳細については、「 データ モデルの作成」を参照してください。
-
[準備] をクリックして、データ タスクと必要なすべてのアーティファクトを準備します。これには少し時間がかかる場合があります。
画面下部の [準備の進捗状況] で進捗状況を確認できます。
-
ステータスが [実行準備完了] と表示されたら、データ タスクを実行できます。
[実行] をクリックします。
データ タスクは、データを格納するためのデータセットの作成を開始します。
履歴データの保持
タイプ 2 の履歴変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。これは、完全な履歴データ ストア (HDS) も作成します。
-
タイプ 2 がゆっくりと軸に変化することはサポートされています。
-
変更されたレコードがマージされると、変更されたデータを保存するための新しいレコードが作成され、古いレコードはそのまま残ります。
-
新しい HDS レコードは自動的にタイムスタンプが付けられ、トレンド分析およびその他の時間関連の分析データ マートが作成できるようになります。
クリックして、履歴データを有効にできます。
-
データ搭載時に、 [設定] で、現在のデータと以前のデータの履歴の両方を表示するレプリケーション
-
ストレージ タスクの [設定] ダイアログで、変更履歴および変更記録のアーカイブを保持します。
HDS データは内部データ スキーマの Prior テーブルに保存されます。外部データ スキーマで履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。
-
履歴ビューは、Current テーブルと Prior テーブルからのデータをマージします。このビューには、マージされたすべての変更が含まれます。
-
ライブ履歴ビューは、Current テーブル、Prior テーブル、および Changes テーブルからのデータをマージします。このビューには、マージされたすべての変更も含まれます。
詳細については、「クラウド データ ウェアハウスのデータセット アーキテクチャ」を参照してください。
ストレージ タスクのスケジュール
ストレージ タスクを定期的に更新するようにスケジュールできます。
-
入力ランディング データ タスクがフル ロードおよび CDC を使用している場合、時間ベースのスケジュールのみを設定できます。
-
入力ランディング データ タスクがフル ロードを使用している場合、時間ベースのスケジュールを設定するか、入力ランディング データ タスクの実行が完了したときに実行するようにタスクを設定できます。
情報メモフル ロードを使用して入力ランディング データ タスクで時間ベースのスケジュールを実行する場合は、ランディング タスクの実行中に、ランディングで完了したすべてのテーブルを使用できることを考慮してください。これにより、ランディングとストレージを同時に実行できるようになり、合計ロード時間を改善できます。
データ タスクの [...] をクリックし、[スケジュール] を選択してスケジュールを作成します。デフォルトのスケジュール設定は、データ プロジェクトの設定から継承されます。設定の詳細については、「ストレージの既定値」を参照してください。スケジュールを有効にするには、常に [スケジュール] を [オン] に設定する必要があります。
時間ベースのスケジュール
ランディングの種類に関係なく、時間ベースのスケジュールを使用してストレージ データ タスクを実行できます。
-
[データ タスクを実行] で、[特定の時刻] を選択します。
時間、日、週、または月単位でスケジュールを作成できます。
イベント ベースのスケジュール
-
[データ タスクを実行] で、[入力データ タスクのいずれかが正常に完了した場合] を選択します。
ストレージ タスクは、入力ランディング データ タスクが正常に完了するたびに実行されます。
ストレージ タスクの監視
[監視] をクリックすると、ストレージ タスクのステータスと進行状況を監視できます。
詳細については、「個々のデータ タスクの監視」を参照してください。
ストレージ データ タスクのトラブルシューティング
ストレージ データ タスクの 1 つ以上のテーブルに問題がある場合、データのリロードまたは再作成が必要になる場合があります。これを実行するためには、オプションがいくつかあります。どのオプションを使用するか、次の順序で考慮します。
-
ランディングでデータセットをリロードできます。ランディングでデータセットをリロードすると、ストレージで比較処理がトリガーされ、タイプ 2 の履歴を保持したままデータが修正されます。このオプションは、次のような場合にも考慮する必要があります。
-
フル ロードが実行されてから時間が経過しており、変更点が多い場合。
-
ランディング エリアのメンテナンスの一環として、処理済みのフル ロードと変更テーブルのレコードが削除された場合。
-
-
ストレージ データ タスクでデータをリロードできます。
履歴データが有効になっている場合、ストレージでのリロードによって履歴データが失われることがあります。これが問題となる場合は、代わりにソースからランディングをリロードすることを検討してください。
-
テーブルを再作成できます。これにより、ソースからデータセットが再作成されます。
-
[...]、 [テーブルを再作成] の順にクリックします。テーブルを再作成すると、ダウンストリーム タスクは、ソース データセットで切り捨てとリロードのアクションが実行されたかのように動作します。
-
データのリロード
テーブルの手動リロードを実行できます。これは、1 つ以上のテーブルに問題がある場合に便利です。
-
データ タスクを開き、 [監視] タブを選択します。
-
リロードするテーブルを選択します。
-
[テーブルのリロード] をクリックします。
リロードは次にタスクが実行されるときに行われ、次のように実行されます。
-
テーブルを切り捨てます。
-
ランディング データをテーブルにロードします。
-
リロード時間から蓄積された変更をロードします。
一般に、代わりにランディング時にデータセットを再読み込みすることがベスト プラクティスです。これは特に次の場合に当てはまります。
-
履歴データが有効になっている場合、ストレージでのリロードによって履歴データが失われることがあります。ランディングでデータセットをリロードすると、ストレージで比較処理がトリガーされ、タイプ 2 の履歴を保持するデータが修正されます。
-
フル ロードが行われてから時間が経過しており、変更点が多い場合。
-
ランディング エリアのメンテナンスの一環として、処理済みのフル ロードと変更テーブルのレコードが削除された場合。
変更を適用し、バックデートを回避するために、ダウンストリーム タスクがリロードされます。切り捨てとリロードによってリロードが実行される場合、すべてのダウンストリーム オブジェクトも切り捨てとリロードによってリロードされます。
ダウンストリームへの影響は、実行されたリロード操作のタイプと、直接のダウンストリーム データセットのタイプによって異なります。標準処理とは、特定のデータセットに対して構成された方法を使用して、データセットが反応してデータを処理することを意味します。
-
ダウンストリームの変換タスクでは次のようになります。
データセット変換は、切り捨てとリロードによってリロードされます。
SQL 変換と transformation flow は、フル ロードと比較し、変更を適用することによってリロードされます。
-
ストレージ タスクの直後にあるデータ マート タスクは、切り捨てとロードによってリロードされます。
[リロードをキャンセル] をクリックすると、リロードがペンディングされているテーブルのリロードをキャンセルできます。すでにリロードされているテーブルに影響することはなく、現在実行中のリロードは完了します。
ストレージの設定
データ プラットフォームがクラウド データ ウェアハウスの場合、ストレージ データタスクのプロパティを設定することができます。Qlik Cloudをデータプラットフォームとして使用する場合、Qlik Cloud をデータ プラットフォームとするデータ プロジェクトにおけるストレージ設定を参照してください。
[設定] をクリックします。
一般設定
データベース
データ ソースで使用するデータベース。
タスクのスキーマ
ストレージ データ タスクのスキーマの名前を変更できます。デフォルト名は、ストレージ タスクの名前です。
内部スキーマ
内部ストレージ データ アセット スキーマの名前を変更できます。デフォルト名は、ストレージ タスクの名前に _internal を追加したものです。
- すべてのテーブルとビューのプレフィックス
このタスクで作成したすべてのテーブルとビューにプレフィックスを設定できます。
情報メモ複数のデータ タスクでデータベース スキーマを使用する場合は、一意のプレフィックスを使用する必要があります。 履歴
過去の変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。履歴の保持および変更記録のアーカイブを選択して、履歴変更データを有効にします。
ストレージとランディングを比較すると、ランディングに存在しないレコードをどのように管理するかを選択できます。
削除済みとしてマーク
これにより、ランディングに存在しないレコードのソフト削除が実行されます。
維持
これにより、ランディングに存在しないすべての記録が保持されます。
情報メモストレージ データ タスク内のデータセットには、主キー セットが必要です。そうでない場合、ランディング データがリロードされるたびに、ストレージ データ タスクに対して初期ロードが実行されます。
ビューの設定
ライブ ビュー
ライブ ビューを使用して、待機時間が最小のテーブルを読み取ります。
ライブ ビューの詳細については、「ライブ ビューの使用」を参照してください。
情報メモライブ ビューは標準ビューよりも効率が低く、適用されたデータを再計算する必要があるため、より多くのリソースが必要になります。
実行時間の設定
並列実行
フル ロードの最大接続数を 1 から 5 の数値に設定できます。
ウェアハウス
クラウド データ ウェアハウスの名前です。この設定は Snowflake にのみ適用されます。
カタログ設定
カタログに公開する
このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。
カタログの詳細については、カタログツールの使用によるデータの理解 を参照してください。
Qlik Cloud をデータ プラットフォームとするデータ プロジェクトにおけるストレージ設定
データ プラットフォームが Qlik Cloud の場合、ストレージで使用するフォルダーを設定できます。
[設定] をクリックします。
保存する時に使用するフォルダーを選択します。
準備ができたら、[OK] をクリックします。
ストレージ データ タスクの操作
タスク メニューからストレージ データ タスクに対して以下の操作を行うことができます。
開く
これにより、ストレージ データ タスクが開きます。データ タスクに関するテーブル構造と詳細を表示し、変更の全ロードとバッチのステータスを監視できます。
編集
タスクの名前と説明を編集したり、タグを追加したりできます。
削除
データ タスクを削除できます。
[準備]
これにより、タスクの実行準備が整います。準備には次が含まれます。
設計が有効であることを検証する。
設計に合わせて物理的なテーブルとビューを作成または変更する。
データ タスクの SQL コードを生成する。
タスク出力データセットのカタログ エントリを作成または変更する。
画面下部の [準備の進捗状況] で進捗状況を確認できます。
データセットを検証する
これにより、データ タスクに含まれるすべてのデータセットが検証されます。
[Validate and adjust (検証と調整)] を展開して、すべての検証エラーと設計変更を確認します。
テーブルを再作成
これにより、ソースからデータセットが再作成されます。テーブルを再作成すると、ダウンストリーム タスクは、ソース データセットで切り捨てとリロードのアクションが実行されたかのように動作します。詳細については、「ストレージ データ タスクのトラブルシューティング」を参照してください。
停止
データ タスクの操作を停止できます。データ タスクはテーブルを更新し続けることはありません。
情報メモこのオプションは、データ タスクの実行中に使用できます。再開
データ タスクは停止した時点から操作を再開できます。
情報メモこのオプションは、データ タスクが停止している場合に使用できます。データを変換
ルールとカスタム SQL に基づいて、再利用可能な行レベルの変換を作成します。これにより変換データ タスクが作成されます。
データ マートを作成
データ マートを作成して、データ タスクを活用します。これによりデータ マート データ タスクが作成されます。
制限事項
データ タスクにデータセットが含まれていて、接続のパラメーター (ユーザー名、データベース、スキーマなど) を変更した場合、データは新しい場所に存在すると想定されます。そうでない場合は、次のいずれかを実行できます。
ソース内のデータを新しい場所に移動します。
同じ設定で新しいデータ タスクを作成します。
Qlik Cloud (QVD) をターゲットとするプロジェクトのストレージ タスクの主キーを変更することはできません。ランディング タスクの主キーを更新し、ランディング タスクを再作成してから、ストレージ タスクを再作成します。