データの変換

データパイプラインの一部として、再利用可能なルールベースのデータ変換を作成できます。データオンボーディングの一部として変換を実行したり、再利用可能な変換データタスクを作成したりできます。行レベルの変換を実行し、テーブルとして具体化されるか、その場で変換を実行するビューとして作成されるデータセットを作成できます。

高度な変換は、Qlik Talend Cloud Premium または Qlik Talend Cloud Enterprise サブスクリプションで利用できます。

明示的なデータセット変換を実行したり、複数のデータセットを変換するグローバルルールを作成したりできます。データセットをフィルタリングして、行のサブセットを作成することもできます。
SQL 変換を追加できます。SQL 変換を使用すると、SQL SELECT クエリをパイプラインに入力して、複雑または単純な変換を定義できます。
ソース、プロセッサー、ターゲットを使用して視覚的な変換フローを追加し、複雑な変換または単純な変換を定義できます。

データタスクは、所属するプロジェクトの所有者のコンテキストで動作します。必要なロールと権限の詳細については、「データスペースのロールと権限」を参照してください。

変換データタスクには、次の 3 つのビューが含まれます。

変換

このビューには、ソースデータセットからターゲットデータセットへのフローを視覚化するためのすべての変換が表示されます。
データセット

このビューには、データのフィルタリングや列の追加など、データセットのすべての基本的な変換と、グローバル変換を実行するためのルールが表示されます。
モデル

このビューでは、含まれるデータセット間の関係を持つデータモデルを作成できます。

データウェアハウスにテーブルを保存するだけでなく、データプラットフォームによって管理される Iceberg テーブルとしてテーブルを保存することもできます。このオプションは現在、Snowflake プロジェクトでのみ使用できます。これは、タスク設定の [テーブルタイプ] で [Snowflake 管理の Iceberg テーブル] を選択することで可能になります。

変換データタスクの作成

変換データタスクを作成する最も簡単な方法は、ストレージデータタスクで [...] をクリックし、[データの変換] を選択することです。

プロジェクトで [作成] をクリックし、 [データの変換] を選択することもできます。この場合、使用するソースデータタスクを定義する必要があります。

変換でソースデータとターゲットを定義します。

次のいずれかの方法が可能です。
- データセット変換の実行
  
  ソースデータセットを選択し、 [ターゲットを追加] をクリックして [ターゲット] に追加します。
  
  その後、 [データセット] で、データのフィルタリングまたは列の追加など、データセットに対する基本的な変換を実行できます。
  
  詳細については、「データセットの管理」を参照してください。
- SQL 変換の追加
  
  ソースデータセットを選択して、 [SQL 変換を追加] をクリックします。
  
  SQL 変換を使用すると、SQL SELECT クエリをパイプラインに入力して、複雑または単純な変換を定義できます。
  
  詳細については、「SQL 変換の追加」を参照してください。
- 変換フローの追加
  
  ソースデータセットを選択して、 [変換フローを追加] をクリックします。
  
  フローデザイナーを使用すれば、ソース、プロセッサー、ターゲットを使って変換フローを作成し、複雑または単純な変換を定義できるようになります。
  
  詳細については、「変換フローを追加」を参照してください。
[ソースデータの選択] をクリックして、他のストレージデータタスクからさらにデータセットを追加することもできます。

現在のプロジェクトまたは別のプロジェクトから、データセットを追加できます。別のプロジェクトからデータセットを追加する場合、次の要件があります。
- 消費されるプロジェクトのスペースで、少なくとも [消費可能] ロールを持っている必要があります。
- 両方のプロジェクトが同じデータプラットフォーム上にある必要があります。
クロスプロジェクトパイプラインの詳細については、「クロスプロジェクトパイプラインの構築」を参照してください。
必要な変換を追加したら、 [データセットの検証] をクリックしてデータセットを検証します。検証でエラーが見つかった場合は、先に進む前にエラーを修正してください。

詳細については、「データセットの検証と調整」を参照してください。
データモデルを作成

[モデル] をクリックして、含まれるデータセット間の関係を設定します。

詳細については、「 データモデルの作成」を参照してください。
[準備] をクリックして、データタスクと必要なすべてのアーティファクトを準備します。これには少し時間がかかる場合があります。

画面下部の [準備の進捗状況] で進捗状況を確認できます。
ステータスが [準備済み] と表示されたら、データタスクを実行できます。

[...] をクリックしてから [実行] をクリックします。

データタスクは、データを変換するためのデータセットの作成を開始します。

データセットの生成を開始したときに、含めるデータセットを変更することはできません。

変換ビューの使用

[変換] では、ソースデータセットからターゲットデータセットへのフローを視覚化するためのすべての変換が表示されます。

変換を選択すると、どのソースデータセットが使用され、どのターゲットデータセットが作成されるかを確認できます。
ソースを選択すると、そのソースが使用されているすべての変換と、結果として生じるすべてのターゲットが表示されます。
ターゲットを選択して、ソースデータセットと、このターゲットデータセットを作成した変換を確認します。

[表示オプション] をクリックすると、次の設定を変更できます。

変換タイプでフィルタリング

1 つまたは 2 つの変換タイプの変換のみを表示します。
フィルター

すべての変換を表示するか、選択した変換のみを表示します。このオプションを有効にするには、変換を選択する必要があります。
密度

変換をコンパクトなレイアウトで表示するか、スペースを広く使用してワイドなレイアウトで表示するかを選択します。

データセットビューの使用

[データセット] では、変換タスクのすべてのターゲットデータセットを表示および編集できます。

詳細については、「データセットの管理」も参照してください。

ターゲットデータセットの追加

変換タスクにさらにターゲットデータセットを追加できます。

をクリックします。
データセットの [名前] と、必要に応じて [説明] を入力します。
[ソースデータセット] のタスクで、使用可能なデータセットからソースデータセットを選択します。

ヒントメモ[ソースデータセットなし] を選択すると、ソースに接続していない空のデータセットを作成できます。設計中にデータセットに列を追加できますが、タスクを準備する前にソースデータセットに接続する必要があります。

ターゲットデータセットが追加されました。

ソースデータセットの変更

ターゲットデータセットのソースデータセットを変更できます。

[ソース] の後のをクリックします: [ソースデータセットの名前]。
[ソースデータセット] のタスクで、使用可能なデータセットから別のソースデータセットを選択します。

ヒントメモ[ソースデータセットなし] を選択すると、ターゲットデータセットをソースから切断できます。設計中にデータセットを編集できますが、タスクを準備する前にソースデータセットに接続する必要があります。

新しい列の追加

ターゲットデータセットに新しい列を追加できます。

新しい列をゼロから追加する

[+ 追加] をクリックします。

列の名前を指定し、列データを定義する数式を設定します。

詳細については、「データセットへの列の追加」を参照してください。
ソースから列を追加する

[追加] の横にあるをクリックし、 [ソースから列を追加] を選択します。

ソースデータセットから列を選択します。

列の並び替え

列の順序を変更できます。

列を選択します。
、 [順序変更] の順でクリックします。
矢印を使用して列を上または下に移動します。
準備ができたら [序列を変更] を閉じます。

変換ルールの作成

再利用可能な変換ルールを作成して、データセットに対してグローバル変換を実行できます。

ルール作成の詳細については、「データセットを変換するルールの作成」を参照してください。

[ルール効果を表示] を選択すると、ルールの効果を表示できます。[ルール効果を表示] が有効になっている場合は、データセットを変更できません。

データセットのフィルタリング

必要に応じて、データをフィルタリングして行のサブセットを作成できます。

、 [フィルター] の順でクリックします。

フィルタリングの詳細については、「データセットのフィルタリング」を参照してください。

変換タスクのスケジュール

変換タスクを定期的に更新するようにスケジュールできます。時間ベースのスケジュールを設定することや、入力データタスクの実行が完了したときにタスクを実行するように設定できます。

データタスクの [...] をクリックし、[スケジュール] を選択してスケジュールを作成します。デフォルトのスケジュール設定は、プロジェクトの設定から継承されます。設定の詳細については、「既定値を変換」を参照してください。

スケジュールを有効にするには、常に [スケジュール] を [オン] に設定する必要があります。

タスクのすべてのデータセットが非マテリアライズドの場合、ビューで瞬時に変換されるため、実行するものはありません。非マテリアライズドの変換要求のスケジュールを作成して、スケジュール条件が満たされたときに実行することはできます。タスクはすぐに完了し、データマートなどのダウンストリームタスクをトリガーできます。これにより、パイプラインフローを中断することなく、非マテリアライズドの変換を含むイベントベースのパイプラインスケジュールを構築できます。

時間ベースのスケジュール

異なる入力ソースが更新されるタイミングに関係なく、時間ベースのスケジュールを使用してタスクを実行できます。

[データタスクを実行] で、[特定の時刻] を選択します。

時間、日、週、または月単位でスケジュールを作成できます。

イベントベースのスケジュール

イベントベースのスケジュールを使用して、入力データタスクの実行が完了したときにタスクを実行できます。

[データタスクを実行] で、[特定のイベント発生時] を選択します。

いずれかの入力タスクが正常に完了したときにタスクを実行するか、選択した入力タスクのいずれかが正常に完了したときにタスクを実行するかを選択できます。

スケジュールがトリガーされたときに入力タスクまたはダウンストリームタスクが実行されている場合、タスクは実行されません。タスクは、次にスケジュールされた実行までスキップされます。

変換タスクの監視

[監視] をクリックすると、変換タスクのステータスと進行状況を監視できます。

詳細については、「個々のデータタスクの監視」を参照してください。

データのリロード

データが物理テーブルとして実体化されている場合は、テーブルの手動リロードを実行できます。これは、1 つ以上のテーブルに問題がある場合に便利です。

データセットが実体化されていない場合は、アップストリームデータタスクでソースデータセットをリロードしてデータを更新する必要があります。

データタスクを開き、 [監視] タブを選択します。
リロードするテーブルを選択します。
[テーブルのリロード] をクリックします。

リロードは次にタスクが実行されるときに行われます。リロードプロセスの動作は、各データセットの履歴設定と変換タイプに応じて異なります。つまり、データタスク内のデータセットに応じて、リロードプロセスは異なる可能性があります。

データセット変換は、切り捨てとリロードによってリロードされます。
SQL 変換と変換フローは、切り捨ててロードするか、比較して適用することによってリロードできます。比較して適用するのがベストプラクティスです。

SQL 変換または変換フローに基づいたデータセットのリロード

[リロードをキャンセル] をクリックすると、リロードがペンディングされているテーブルのリロードをキャンセルできます。すでにリロードされているテーブルに影響することはなく、現在実行中のリロードは完了します。

変更を適用し、バックデートを回避するために、ダウンストリームタスクがリロードされます。

変換リロードのダウンストリーム効果 — Transform data タスクのリロード後のダウンストリームへの影響

ダウンストリームへの影響は、実行されたリロード操作のタイプと、直接のダウンストリームデータセットのタイプによって異なります。標準処理とは、特定のデータセットに対して構成された方法を使用して、データセットが反応してデータを処理することを意味します。

切り捨てとロードによるデータセットのリロード

次のデータセットでデータセット変換が使用されている場合、次回の実行時に切り捨てとロードによってリロードされます。
次のデータセットが SQL 変換または変換フローの場合、比較と適用を使用してリロードされます。

履歴のないデータセットのリロード

この場合、考慮する履歴はありません。ターゲットでの処理を軽減するために、リロードは次のように実行されます。

テーブルを切り捨てます。
アップストリームデータタスクから現在のデータをロードします。

ダウンストリームタスクは変更を適用するためにリロードされます。

履歴を有効にしたデータセットのリロード

リロードは次のように実行されます。

現在のテーブル、先行テーブル、変更テーブルを切り捨てます。
先行テーブルを含む、アップストリームデータタスクからデータをロードします。

SQL 変換または変換フローに基づいたデータセットのリロード

切り捨ててリロード

情報メモこのオプションを使用すると、履歴が失われる可能性があります。
1. 現在のテーブルと変更テーブルを切り捨てます。
2. クエリを実行し、現在のテーブルにロードします。
リロードして比較
1. クエリを実行し、現在のテーブルと比較します。
2. 変更を追加します。

上流タスクのリロードにより SQL 変換または変換フローに基づくデータセットがリロードされる場合、常に比較と適用によってリロードされます。切り捨ててリロードする場合は、これらのテーブルに対して特定のリロードを発行する必要があります。この場合、下流のテーブルへの影響も考慮する必要があります。

変換設定

変換データタスクのプロパティを設定できます。

[設定] をクリックします。

タスクが既に実行されている場合、ランタイム設定以外の設定を変更するには、データセットをリロードする必要があります。

一般設定

データベース

データソースで使用するデータベース。
タスクのスキーマ

データタスクのスキーマの名前を変更できます。既定の名前は、タスクの名前です。
内部スキーマ

内部ストレージスキーマの名前を変更できます。既定の名前は、タスクの名前に「_internal」を追加したものです。
スキーマ名を既定で大文字化

すべてのスキーマ名の既定の大文字と小文字を設定できます。データベースが大文字と小文字を強制するように設定されている場合、このオプションは効果がありません。
すべてのテーブルとビューのプレフィックス
このタスクで作成したすべてのテーブルとビューにプレフィックスを設定できます。

情報メモ複数のデータタスクでデータベーススキーマを使用する場合は、一意のプレフィックスを使用する必要があります。
マテリアライズド

オンザフライで変換を実行するビューのみを作成する (非マテリアライズド) か、テーブルとビューの両方を作成する (マテリアライズド) かを選択できます。
履歴データストア (タイプ 2)

過去の変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。

実行時間の設定

並列実行

フルロードの最大接続数を 1 から 5 の数値に設定できます。
ウェアハウス

クラウドデータウェアハウスの名前です。

カタログ設定

カタログに公開する

このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。

カタログの詳細については、カタログツールの使用によるデータの理解 を参照してください。

テーブルタイプの設定

これらの設定は、データプラットフォームとして Snowflake を使用するプロジェクトでのみ使用できます。

[Table type] (テーブルタイプ)

使用するテーブルタイプを選択できます。
- Snowflake テーブル
- Snowflake 管理の Iceberg テーブル
  
  [Snowflake 外部ボリューム] で外部ボリュームのデフォルト名を設定する必要があります。
使用するクラウドストレージフォルダー

ステージングエリアにデータをランディングするときに使用するフォルダーを選択できます。
- 既定のフォルダー
  
  既定の名前 <project name>/<data task name> のフォルダーが作成されます。
- ルートフォルダー
  
  ストレージのルートフォルダーにデータを保存します。
- フォルダー
  
  使用するフォルダーの名前を指定します。
Snowflake Open Catalog と同期

これを有効にすると、Snowflake Open Catalog がクラウドファイルストレージ内のファイルを管理できるようになります。

制限事項

非マテリアライズドオプションが選択されている場合、変換データタスクのデータ型を変更することはできません。
項目レベルの系統は、SQL 変換または変換フローで作成されたデータセットでは使用できません。

詳細を見る

Qlik Cloud Data Integration を使用したオンボーディングとデータの変換

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください