データの変換
データ パイプラインの一部として、再利用可能なルール ベースのデータ変換を作成できます。データ オンボーディングの一部として変換を実行したり、再利用可能な変換データ タスクを作成したりできます。行レベルの変換を実行し、テーブルとして具体化されるか、その場で変換を実行するビューとして作成されるデータセットを作成できます。
-
データセットごとに明示的な変換を実行したり、複数のデータセットを変換するグローバル ルールを作成したりできます。データセットをフィルタリングして、行のサブセットを作成することもできます。
-
SQL 変換を追加できます。
変換データ タスクの作成
変換データ タスクを作成する最も簡単な方法は、ストレージ データ タスクで [...] をクリックし、[データの変換] を選択することです。
データ プロジェクトで [新規追加] をクリックし、[データの変換] を選択することもできます。この場合、使用するソース データ タスクを定義する必要があります。
-
変換データセットでソース データを定義します。
ソース データセットを選択し、 [追加] をクリックして [ターゲット] に追加します。
データセットを選択し、 [SQL ベースのデータセットの追加] をクリックして、SQL 変換を追加できます。
ヒント メモ[ソース データの選択] をクリックして、他のストレージ データ アセットからさらにデータセットを追加することもできます。 -
変換、データのフィルタリング、列の追加など、含まれるデータセットに必要なすべての変更を加えます。
詳細については、「データセットの管理」を参照してください。
-
必要な変換を追加したら、 [データセットの検証] をクリックしてデータセットを検証します。検証でエラーが見つかった場合は、先に進む前にエラーを修正してください。
詳細については、「データセットの検証と調整」を参照してください。
-
データ モデルを作成
[モデル] をクリックして、含まれるデータセット間の関係を設定します。
詳細については、「 データ モデルの作成」を参照してください。
-
[準備] をクリックして、データ タスクと必要なすべてのアーティファクトを準備します。これには少し時間がかかる場合があります。
画面下部の [準備の進捗状況] で進捗状況を確認できます。
-
ステータスが [準備済み] と表示されたら、データ タスクを実行できます。
[...] をクリックしてから [実行] をクリックします。
データ タスクは、データを変換するためのデータセットの作成を開始します。
SQL 変換の追加
SQL 変換を変換タスクに含めることができます。SQL 変換を使用すると、SQL SELECT クエリをパイプラインに入力して、複雑または単純な変換を定義できます。
-
[データセットの変換] で、クエリに含めるデータセットを選択し、 [SQL 変換を追加] をクリックします。
詳細については、「SQL 変換の追加」を参照してください。
変換タスクのスケジュール
変換タスクを定期的に更新するようにスケジュールできます。時間ベースのスケジュールを設定することや、入力データ タスクの実行が完了したときにタスクを実行するように設定できます。
データ タスクの [...] をクリックし、[スケジュール] を選択してスケジュールを作成します。デフォルトのスケジュール設定は、データ プロジェクトの設定から継承されます。設定の詳細については、「既定値を変換」を参照してください。
スケジュールを有効にするには、常に [スケジュール] を [オン] に設定する必要があります。
時間ベースのスケジュール
異なる入力ソースが更新されるタイミングに関係なく、時間ベースのスケジュールを使用してタスクを実行できます。
-
[データ タスクを実行] で、[特定の時刻] を選択します。
時間、日、週、または月単位でスケジュールを作成できます。
イベント ベースのスケジュール
イベント ベースのスケジュールを使用して、入力データ タスクの実行が完了したときにタスクを実行できます。
-
[データ タスクを実行] で、[特定のイベント発生時] を選択します。
いずれかの入力タスクが正常に完了したときにタスクを実行するか、選択した入力タスクのいずれかが正常に完了したときにタスクを実行するかを選択できます。
変換タスクの監視
[監視] をクリックすると、変換タスクのステータスと進行状況を監視できます。
詳細については、「個々のデータ タスクの監視」を参照してください。
データのリロード
データが物理テーブルとして実体化されている場合は、テーブルの手動リロードを実行できます。これは、1 つ以上のテーブルに問題がある場合に便利です。データセットが実体化されていない場合は、アップストリーム データ タスクでソース データセットをリロードしてデータを更新する必要があります。
-
データ タスクを開き、 [監視] タブを選択します。
-
リロードするテーブルを選択します。
-
[テーブルのリロード] をクリックします。
リロードは次にタスクが実行されるときに行われます。リロード プロセスの動作は、各データセットの履歴設定と変換タイプに応じて異なります。つまり、データ タスク内のデータセットに応じて、リロード プロセスは異なる可能性があります。
[リロードをキャンセル] をクリックすると、リロードがペンディングされているテーブルのリロードをキャンセルできます。すでにリロードされているテーブルに影響することはなく、現在実行中のリロードは完了します。
変更を適用し、バックデートを回避するために、ダウンストリーム タスクがリロードされます。これは次のように実行されます。
-
フル ロードと比較し、変更を適用します。
-
リロード後の変更を適用します。
履歴のないデータセットのリロード
この場合、考慮する履歴はありません。ターゲットでの処理を軽減するために、リロードは次のように実行されます。
-
テーブルを切り捨てます。
-
アップストリーム データ タスクから現在のデータをロードします。
ダウンストリーム タスクは変更を適用するためにリロードされます。
履歴を有効にしたデータセットのリロード
リロードは次のように実行されます。
-
現在のテーブル、先行テーブル、変更テーブルを切り捨てます。
-
先行テーブルを含む、アップストリーム データ タスクからデータをロードします。
SQL 変換に基づいたデータセットのリロード
-
切り捨ててリロード
情報メモこのオプションを使用すると、履歴が失われる可能性があります。-
現在のテーブルと変更テーブルを切り捨てます。
-
クエリを実行し、現在のテーブルにロードします。
-
-
リロードして比較
-
クエリを実行し、現在のテーブルと比較します。
-
変更を追加します。
-
変換設定
変換データ タスクのプロパティを設定できます。
-
[設定] をクリックします。
一般設定
-
データベース
データ ソースで使用するデータベース。
-
データ タスクのスキーマ
ストレージ データ タスクのスキーマの名前を変更できます。デフォルト名はストアです。
-
内部スキーマ
内部ストレージ スキーマの名前を変更できます。デフォルト名は store__internal です。
- すべてのテーブルとビューのプレフィックス
このタスクで作成したすべてのテーブルとビューにプレフィックスを設定できます。
情報メモ複数のデータ タスクでデータベース スキーマを使用する場合は、一意のプレフィックスを使用する必要があります。 -
マテリアライズド
オンザフライで変換を実行するビューのみを作成する (非マテリアライズド) か、テーブルとビューの両方を作成する (マテリアライズド) かを選択できます。
-
履歴
過去の変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。
実行時間の設定
-
並列実行
フル ロードの最大データ接続数を 1 から 5 の数値に設定できます。
-
ウェアハウス
クラウド データ ウェアハウスの名前です。
制限事項
-
非マテリアライズドオプションが選択されている場合、変換データ タスクのデータ型を変更することはできません。
-
非マテリアライズド SQL ベースのデータ セットは完全な結果セットのみを提供し、増分フィルタリングはサポートされていません。非マテリアライズド SQL ベースのデータ セットも現在のデータのみを提供し、履歴レコードは保持しません。