データ パイプライン プロジェクトの設定
Qlik Talend Data Integration でデータ パイプライン プロジェクトの設定を変更できます。プロパティは、プロジェクトと含まれるすべてのデータ タスクに共通です。一部の設定は、特定のデータ プラットフォームでのみ使用できます。
-
プロジェクトで [設定] をクリックします。
データ ウェアハウスのデータ パイプライン プロジェクトに関する設定
データ プラットフォーム
次の設定を変更できます。
-
[Connection] (接続)
プロジェクトの接続。
-
ステージング エリアへの接続
データ プラットフォームが Snowflake の場合、このオプションは使用できません。
メタデータ
内部アーティファクトのサフィックスと、作成されるビューのデフォルトのサフィックスを設定できます。
-
アーティファクトの設定
-
すべてのスキーマのプレフィックス: プロジェクト内で作成されるデータ スキーマに追加するプレフィックス。これは、インポートしたプロジェクトがエクスポートしたプロジェクトと同じクラウド データ ウェアハウスにある場合に便利です。
-
内部スキーマのサフィックス: 内部アーティファクトの格納に使用されるスキーマに適用するサフィックス。
-
スキーマ名を既定で大文字化: すべてのスキーマ名の既定の大文字/小文字の表記。データベースが大文字と小文字を強制するように設定されている場合、このオプションは効果がありません。
-
-
外部ビューのサフィックス
プロジェクトに含まれるデータ タスクで作成されるビューの既定の接尾辞を設定します。
新しいタスクのデフォルト設定
プロジェクトで作成されるデータ タスクのデフォルト値を設定できます。データ タスクを作成すると、値を変更できます。
デフォルトのデータベースを設定して、すべてのタイプのデータ タスクのターゲット アーティファクトを作成できます。
ランディング タスクのデフォルト
デフォルトのデータベース
プロジェクトのデフォルトのデータベースを使用するか、他のデータベースを指定することができます。
Data Movement gatewayを使用する場合にプロキシ経由でターゲットにアクセスする
-
Data Movement gateway を使用する場合は、プロキシ経由で接続します
Data Movement gateway を使用すると、プロキシを介してターゲット プラットフォームとステージング プラットフォーム (領域) に接続できます。
Data Movement gateway でプロキシ サーバーを使用するための設定の詳細については、「Qlik Cloud テナントとプロキシ サーバーの設定」を参照してください。
-
ターゲット プラットフォーム
情報メモSnowflake、Google BigQuery、および Databricks を使用する際に利用できます。 -
ステージング プラットフォーム
情報メモAzure Synapse Analytics、Amazon Redshift、および Databricks を使用する際に利用できます。
-
ストレージ タスクのデフォルト
-
履歴データ ストア (タイプ 2)
過去の変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。
-
ライブ ビュー
ライブ ビューには、テーブルを変更テーブルからの変更とマージする選択した各ソース テーブルのビューが表示されます。これにより、次の適用サイクルを待たずに、クエリにデータのライブ ビューが提供されます。
デフォルトのデータベース
プロジェクトのデフォルトのデータベースを使用するか、他のデータベースを指定することができます。
カタログ
-
カタログに公開する
このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。
デフォルトのビュー タイプ
-
標準ビュー
標準ビューを使用して、クエリの結果をテーブルのように表示します。
-
Snowflake セキュア ビュー
基礎となるテーブルのすべてのユーザーに公開すべきではない機密データへのアクセスを制限するために作成されたビューなど、データのプライバシーまたは機密情報の保護のために指定されたビューには、Snowflake のセキュア ビューを使用します。Snowflake セキュアビューは、標準ビューよりも実行速度が遅くなる場合があります。
登録済みデータ タスクのデフォルト設定
デフォルトのデータベース
プロジェクトのデフォルトのデータベースを使用するか、他のデータベースを指定できます。
カタログ
-
カタログに公開する
このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。
増分ロードの設定
これらの設定は、[高基準値を使用した増分] が選択されたときに利用できます。
-
変更テーブル
変更が同一テーブル内にある場合、[変更は同一テーブル内] を選択します。
そうでない場合、[変更は同一テーブル内] の選択をクリアしてから、変更テーブル パターンを指定します。
-
基準値列
[名前] で基準値列の名前を設定します。
-
「開始日」列
開始時刻で、または選択した列を使って「開始日」を示すことができます。
[選択された「開始日」列] を選択した場合、[「開始日」パターン] を定義する必要があります。
-
論理的な削除
[変更に論理的な削除を含む] を選択して、表示数式を定義することによって、変更に論理的な削除を含めることができまs。
この表示数式は、変更が論理的な削除である場合に「True」と評価されます。
Example: ${is_deleted} = 1
-
前画像
前画像を選択して、表示数式を定義することにより、変更テーブルの変更で前画像レコードをフィルタリングして除外できます。
更新前の画像が行に含まれている場合、評価数式は True と評価されます。
例: ${header__change_oper} = 'B'
変換タスクのデフォルト
-
履歴データ ストア (タイプ 2)
過去の変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。
実体化
-
非マテリアライズド (ビューのみ)
このオプションを選択すると、オンザフライで変換を実行するビューのみが作成されます。
-
マテリアライズド (テーブルとビュー)
このオプションを選択すると、テーブルとビューの両方が作成されます。
デフォルトのデータベース
プロジェクトのデフォルトのデータベースを使用するか、他のデータベースを指定できます。
カタログ
-
カタログに公開する
このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。
デフォルトのビュー タイプ
-
標準ビュー
標準ビューを使用して、クエリの結果をテーブルのように表示します。
-
Snowflake セキュア ビュー
基礎となるテーブルのすべてのユーザーに公開すべきではない機密データへのアクセスを制限するために作成されたビューなど、データのプライバシーまたは機密情報の保護のために指定されたビューには、Snowflake のセキュア ビューを使用します。Snowflake セキュアビューは、標準ビューよりも実行速度が遅くなる場合があります。
デフォルトのテーブル タイプ
これらの設定は、データ プラットフォームとして Snowflake を使用するプロジェクトでのみ使用できます。
-
[Table type] (テーブルタイプ)
使用するテーブル タイプを選択できます。
-
Snowflake テーブル
-
Snowflake 管理の Iceberg テーブル
[Snowflake 外部ボリューム] で外部ボリュームのデフォルト名を設定する必要があります。
-
-
使用するクラウド ストレージ フォルダー
ステージング エリアにデータをランディングするときに使用するフォルダーを選択できます。
-
既定のフォルダー
既定の名前 <project name>/<data task name> のフォルダーが作成されます。
-
ルート フォルダー
ストレージのルート フォルダーにデータを保存します。
-
フォルダー
使用するフォルダーの名前を指定します。
-
-
Snowflake Open Catalog と同期
これを有効にすると、Snowflake Open Catalog がクラウド ファイル ストレージ内のファイルを管理できるようになります。
データ マート タスクのデフォルト
デフォルトのデータベース
プロジェクトのデフォルトのデータベースを使用するか、他のデータベースを指定できます。
カタログ
-
カタログに公開する
このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。
ランタイムのデフォルト
プロジェクトに含まれるデータ アセットのデフォルトの実行時間パフォーマンス設定を定義できます。
ランディングのデフォルト
-
[並列実行] でのデータベース接続の最大数を設定することができます。
-
デフォルトのスケジュール設定を時間ベースのスケジュールに設定できます。これは、作成された各ストレージ タスクのデフォルト値になります。
-
プロジェクト プラットフォームが Snowflake の場合、デフォルトのデータ ウェアハウスを設定できます。
-
デフォルトのスケジュール設定は、時間ベースのスケジュール、または [入力データ タスクのいずれかが正常に完了した場合] に設定できます。これは、作成された各変換タスクのデフォルト値になります。
-
プロジェクト プラットフォームが Snowflake の場合、デフォルトのデータ ウェアハウスを設定できます。
-
デフォルトのスケジュール設定は、時間ベースのスケジュール、または [入力データ タスクのいずれかが正常に完了した場合] に設定できます。これは、作成された各データ マート タスクのデフォルト値になります。
-
プロジェクト プラットフォームが Snowflake の場合、デフォルトのデータ ウェアハウスを設定できます。
-
プロジェクト プラットフォームが Snowflake の場合、デフォルトのデータ ウェアハウスを設定できます。
Qlik Open Lakehouse のデータ パイプライン プロジェクトに関する設定
データ プラットフォーム
次の設定を変更できます。
-
データ カタログ接続: リストで、既存の接続を選択するか、[新規作成] をクリックして新しいデータ カタログ接続を追加します。既存の接続を編集し、 [接続をテスト] をクリックして、接続が機能することを確認することもできます。
-
ランディング ターゲット接続: データをランディングする S3 バケットを選択するか、[新規作成] をクリックして新しいバケットの場所を追加します。既存の接続を編集し、 [接続をテスト] をクリックして、接続が機能することを確認することもできます。
メタデータ
内部アーティファクトのサフィックスと、作成されるビューのデフォルトのサフィックスを設定できます。
-
アーティファクトの設定
-
すべてのスキーマのプレフィックス: プロジェクト内で作成されるデータ スキーマに追加するプレフィックス。これは、インポートしたプロジェクトがエクスポートしたプロジェクトと同じクラウド データ ウェアハウスにある場合に便利です。
-
内部スキーマのサフィックス: 内部アーティファクトの格納に使用されるスキーマに適用するサフィックス。
-
スキーマ名を既定で大文字化: すべてのスキーマ名の既定の大文字/小文字の表記。データベースが大文字と小文字を強制するように設定されている場合、このオプションは効果がありません。
-
-
外部ビューのサフィックス
プロジェクトに含まれるデータ タスクで作成されるビューの既定の接尾辞を設定します。
-
ハッシュ
機密情報のマスキングなどを目的として、列をハッシュ化する際に使用するハッシュ ソルト文字列を設できます。この設定により、入力列にハッシュ ソルト文字列を連結した後に、入力列の SHA-256 ハッシュが生成されます。
プロジェクト ID をソルト文字列として使用するか、カスタム ソルト文字列を設定できます。
新しいタスクのデフォルト設定
プロジェクトで作成されるデータ タスクのデフォルト値を設定できます。データ タスクを作成すると、値を変更できます。
デフォルトのデータベースを設定して、すべてのタイプのデータ タスクのターゲット アーティファクトを作成できます。
レイク ランディング タスクのデフォルト
使用するフォルダー
ファイルを書き込むバケット フォルダーに応じて、次のいずれかを選択します。
-
既定のフォルダー
既定のフォルダー形式は <your-project-name>/<your-task-name> です。
-
ルート フォルダー
ファイルはルート バケット フォルダーに書き込まれます。
-
フォルダー
フォルダーの名前を指定します。フォルダーがまだ存在しない場合は、データ タスクの実行中に作成されます。
情報メモ フォルダー名に特殊文字 (@、#、! など) を含めることはできません。
ストレージ タスクのデフォルト
-
履歴データ ストア (タイプ 2)
過去の変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。
カタログ
-
カタログに公開する
このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。
ステージング エリアで使用するフォルダー
ファイルを書き込むバケット フォルダーに応じて、次のいずれかを選択します。
-
既定のフォルダー
既定のフォルダー形式は <your-project-name>/<your-task-name> です。
-
ルート フォルダー
ファイルはルート バケット フォルダーに書き込まれます。
-
フォルダー
フォルダーの名前を指定します。フォルダーがまだ存在しない場合は、データ タスクの実行中に作成されます。
情報メモ フォルダー名に特殊文字 (@、#、! など) を含めることはできません。
ストリーミング ランディング タスクのデフォルト
プロジェクトで作成されるストリーミング ランディング タスクのデフォルト値を設定できます。
使用するフォルダー
ファイルを書き込むバケット フォルダーに応じて、次のいずれかを選択します。
-
既定のフォルダー
既定のフォルダー形式は <your-project-name>/<your-task-name> です。
-
ルート フォルダー
ファイルはルート バケット フォルダーに書き込まれます。
-
フォルダー
フォルダーの名前を指定します。フォルダーがまだ存在しない場合は、データ タスクの実行中に作成されます。
情報メモ フォルダー名に特殊文字 (@、#、! など) を含めることはできません。
フォルダーの保持
データを保持する期間を選択します。
-
データおよびメタデータは削除されません
データもメタデータも削除されません。
-
保持期間の終了後にデータおよびメタデータを削除
データおよびメタデータは、保持期間の経過後に削除されます。
-
保持期間の終了後にメタデータを削除: データは外部システムによって削除されます。
この期間が経過すると、メタデータは削除されます。基盤となるデータ (S3 オブジェクトなど) は、Qlik によって削除されるのではなく、外部システムによって削除されます。
ストリーミング変換タスクのデフォルト
プロジェクトで作成されるストリーミング変換タスクのデフォルト値を設定できます。
カタログ
-
カタログに公開する
このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。
使用するフォルダー
ファイルを書き込むバケット フォルダーに応じて、次のいずれかを選択します。
-
既定のフォルダー
既定のフォルダー形式は <your-project-name>/<your-task-name> です。
-
ルート フォルダー
ファイルはルート バケット フォルダーに書き込まれます。
-
フォルダー
フォルダーの名前を指定します。フォルダーがまだ存在しない場合は、データ タスクの実行中に作成されます。
情報メモ フォルダー名に特殊文字 (@、#、! など) を含めることはできません。
テーブル定義
このプロジェクトのすべてのストリーミング変換タスクについて、標準ビューでデフォルトで表示されるヘッダー列を設定します。
-
hdr__from_timestamp
このオプションが有効な場合、hdr__from_timestamp ヘッダー列が標準ビューに表示されます。さらに、オンボーディング ウィザードで [イベント取り込み日でパーティション化] が選択されている場合、hdr__from_timestamp が既定のパーティション列として使用されます。この設定は、タスクまたはデータセットのレベルで上書きできます。
情報メモこの設定にかかわらず、履歴ビューにはすべての標準ビュー ヘッダー列が常に含まれます。
ランタイム
プロジェクトに含まれるデータ タスクのデフォルトの実行時間パフォーマンス設定を定義できます。
レイク ランディング タスクのデフォルト
-
[並列実行] でのデータベース接続の最大数を設定できます。
ストレージ タスクのデフォルト
レイクハウス クラスター
必要に応じて、ストレージ タスク用に専用のレイクハウス クラスターを選択します。
ストリーミング ランディング タスクのデフォルト
リーダーの数
使用するリーダーの数を選択します。値は 1 から 1,000 の範囲で指定する必要があります。
レイクハウス クラスター
必要に応じて、ストレージ タスク用に専用のレイクハウス クラスターを選択します。
ストリーミング変換タスクのデフォルト
レイクハウス クラスター
必要に応じて、ストレージ タスク用に専用のレイクハウス クラスターを選択します。
-
プロジェクト プラットフォームが Snowflake の場合、デフォルトのデータ ウェアハウスを設定できます。