データの変換
データ パイプラインの一部として、再利用可能なルール ベースのデータ変換を作成できます。データ オンボーディングの一部として変換を実行したり、再利用可能な変換データ タスクを作成したりできます。行レベルの変換を実行し、テーブルとして具体化されるか、その場で変換を実行するビューとして作成されるデータセットを作成できます。
-
明示的なデータセット変換を実行したり、複数のデータセットを変換するグローバル ルールを作成したりできます。データセットをフィルタリングして、行のサブセットを作成することもできます。
-
SQL 変換を追加できます。SQL 変換を使用すると、SQL SELECT クエリをパイプラインに入力して、複雑または単純な変換を定義できます。
-
ソース、プロセッサー、ターゲットを使用して視覚的な変換フローを追加し、複雑な変換または単純な変換を定義できます。
変換データ タスクには、次の 3 つのビューが含まれます。
-
変換
このビューには、ソース データセットからターゲット データセットへのフローを視覚化するためのすべての変換が表示されます。
-
データセット
このビューには、データのフィルタリングや列の追加など、データセットのすべての基本的な変換と、グローバル変換を実行するためのルールが表示されます。
-
モデル
このビューでは、含まれるデータセット間の関係を持つデータ モデルを作成できます。
変換データ タスクの作成
変換データ タスクを作成する最も簡単な方法は、ストレージ データ タスクで [...] をクリックし、[データの変換] を選択することです。
プロジェクトで [新規追加] をクリックし、[データの変換] を選択することもできます。この場合、使用するソース データ タスクを定義する必要があります。
-
変換でソース データとターゲットを定義します。
次のいずれかの方法が可能です。
-
データセット変換の実行
ソース データセットを選択し、 [ターゲットを追加] をクリックして [ターゲット] に追加します。
その後、 [データセット] で、データのフィルタリングまたは列の追加など、データセットに対する基本的な変換を実行できます。
詳細については、「データセットの管理」を参照してください。
-
SQL 変換の追加
ソース データセットを選択して、 [SQL 変換を追加] をクリックします。
SQL 変換を使用すると、SQL SELECT クエリをパイプラインに入力して、複雑または単純な変換を定義できます。
詳細については、「SQL 変換の追加」を参照してください。
-
変換フローの追加
ソース データセットを選択して、 [変換フローを追加] をクリックします。
フロー デザイナーを使用すれば、ソース、プロセッサー、ターゲットを使って変換フローを作成し、複雑または単純な変換を定義できるようになります。
詳細については、「変換フローを追加」を参照してください。
ヒント メモ[ソース データの選択] をクリックして、他のストレージ データ タスクからさらにデータセットを追加することもできます。 -
-
必要な変換を追加したら、 [データセットの検証] をクリックしてデータセットを検証します。検証でエラーが見つかった場合は、先に進む前にエラーを修正してください。
詳細については、「データセットの検証と調整」を参照してください。
-
データ モデルを作成
[モデル] をクリックして、含まれるデータセット間の関係を設定します。
詳細については、「 データ モデルの作成」を参照してください。
-
[準備] をクリックして、データ タスクと必要なすべてのアーティファクトを準備します。これには少し時間がかかる場合があります。
画面下部の [準備の進捗状況] で進捗状況を確認できます。
-
ステータスが [準備済み] と表示されたら、データ タスクを実行できます。
[...] をクリックしてから [実行] をクリックします。
データ タスクは、データを変換するためのデータセットの作成を開始します。
変換ビューの使用
[変換] では、ソース データセットからターゲット データセットへのフローを視覚化するためのすべての変換が表示されます。
-
変換を選択すると、どのソース データセットが使用され、どのターゲット データセットが作成されるかを確認できます。
-
ソースを選択すると、そのソースが使用されているすべての変換と、結果として生じるすべてのターゲットが表示されます。
-
ターゲットを選択して、ソース データセットと、このターゲット データセットを作成した変換を確認します。
[表示オプション] をクリックすると、次の設定を変更できます。
-
変換タイプでフィルタリング
1 つまたは 2 つの変換タイプの変換のみを表示します。
-
フィルター
すべての変換を表示するか、選択した変換のみを表示します。このオプションを有効にするには、変換を選択する必要があります。
-
密度
変換をコンパクトなレイアウトで表示するか、スペースを広く使用してワイドなレイアウトで表示するかを選択します。
データセットビューの使用
[データセット] では、変換タスクのすべてのターゲット データセットを表示および編集できます。
詳細については、「データセットの管理」も参照してください。
ターゲット データセットの追加
変換タスクにさらにターゲット データセットを追加できます。
-
[データセットを追加] をクリックします。
-
データセットの [名前] と、必要に応じて [説明] を入力します。
-
[ソースデータセット] のタスクで、使用可能なデータセットからソースデータセットを選択します。
ヒント メモ[ソース データセットなし] を選択すると、ソースに接続していない空のデータセットを作成できます。設計中にデータセットに列を追加できますが、タスクを準備する前にソース データセットに接続する必要があります。
ターゲット データセットが追加されました。
ソース データセットの変更
ターゲット データセットのソース データセットを変更できます。
-
[ソース] の後の をクリックします: [ソース データセットの名前]。
-
[ソース データセット] のタスクで、使用可能なデータセットから別のソースデータセットを選択します。
ヒント メモ[ソース データセットなし] を選択すると、ターゲット データセットをソースから切断できます。設計中にデータセットを編集できますが、タスクを準備する前にソース データセットに接続する必要があります。
新しい列の追加
ターゲット データセットに新しい列を追加できます。
-
新しい列をゼロから追加する
[+ 追加] をクリックします。
列の名前を指定し、列データを定義する数式を設定します。
詳細については、「データセットへの列の追加」を参照してください。
-
ソースから列を追加する
[追加] の横にある をクリックし、 [ソースから列を追加] を選択します。
ソース データセットから列を選択します。
列の並び替え
列の順序を変更できます。
-
列を選択します。
-
、 [順序変更] の順でクリックします。
-
矢印を使用して列を上または下に移動します。
-
準備ができたら [序列を変更] を閉じます。
変換ルールの作成
再利用可能な変換ルールを作成して、データセットに対してグローバル変換を実行できます。
ルール作成の詳細については、「データセットを変換するルールの作成」を参照してください。
データセットのフィルタリング
必要に応じて、データをフィルタリングして行のサブセットを作成できます。
-
、 [フィルター] の順でクリックします。
フィルタリングの詳細については、「データセットのフィルタリング」を参照してください。
変換タスクのスケジュール
変換タスクを定期的に更新するようにスケジュールできます。時間ベースのスケジュールを設定することや、入力データ タスクの実行が完了したときにタスクを実行するように設定できます。
データ タスクの [...] をクリックし、[スケジュール] を選択してスケジュールを作成します。デフォルトのスケジュール設定は、プロジェクトの設定から継承されます。設定の詳細については、「既定値を変換」を参照してください。
スケジュールを有効にするには、常に [スケジュール] を [オン] に設定する必要があります。
時間ベースのスケジュール
異なる入力ソースが更新されるタイミングに関係なく、時間ベースのスケジュールを使用してタスクを実行できます。
-
[データ タスクを実行] で、[特定の時刻] を選択します。
時間、日、週、または月単位でスケジュールを作成できます。
イベント ベースのスケジュール
イベント ベースのスケジュールを使用して、入力データ タスクの実行が完了したときにタスクを実行できます。
-
[データ タスクを実行] で、[特定のイベント発生時] を選択します。
いずれかの入力タスクが正常に完了したときにタスクを実行するか、選択した入力タスクのいずれかが正常に完了したときにタスクを実行するかを選択できます。
変換タスクの監視
[監視] をクリックすると、変換タスクのステータスと進行状況を監視できます。
詳細については、「個々のデータ タスクの監視」を参照してください。
データのリロード
データが物理テーブルとして実体化されている場合は、テーブルの手動リロードを実行できます。これは、1 つ以上のテーブルに問題がある場合に便利です。
-
データ タスクを開き、 [監視] タブを選択します。
-
リロードするテーブルを選択します。
-
[テーブルのリロード] をクリックします。
リロードは次にタスクが実行されるときに行われます。リロード プロセスの動作は、各データセットの履歴設定と変換タイプに応じて異なります。つまり、データ タスク内のデータセットに応じて、リロード プロセスは異なる可能性があります。
-
データセット変換は、切り捨てとリロードによってリロードされます。
-
SQL 変換と transformation flow は、切り捨ててロードするか、比較して適用することによってリロードできます。比較して適用するのがベストプラクティスです。
[リロードをキャンセル] をクリックすると、リロードがペンディングされているテーブルのリロードをキャンセルできます。すでにリロードされているテーブルに影響することはなく、現在実行中のリロードは完了します。
変更を適用し、バックデートを回避するために、ダウンストリーム タスクがリロードされます。
ダウンストリームへの影響は、実行されたリロード操作のタイプと、直接のダウンストリーム データセットのタイプによって異なります。標準処理とは、特定のデータセットに対して構成された方法を使用して、データセットが反応してデータを処理することを意味します。
切り捨てとロードによるデータセットのリロード
-
次のデータセットでデータセット変換が使用されている場合、次回の実行時に切り捨てとロードによってリロードされます。
-
次のデータセットが SQL 変換または transformation flow の場合、比較と適用を使用してリロードされます。
履歴のないデータセットのリロード
この場合、考慮する履歴はありません。ターゲットでの処理を軽減するために、リロードは次のように実行されます。
-
テーブルを切り捨てます。
-
アップストリーム データ タスクから現在のデータをロードします。
ダウンストリーム タスクは変更を適用するためにリロードされます。
履歴を有効にしたデータセットのリロード
リロードは次のように実行されます。
-
現在のテーブル、先行テーブル、変更テーブルを切り捨てます。
-
先行テーブルを含む、アップストリーム データ タスクからデータをロードします。
SQL 変換または transformation flow に基づいたデータセットの リロード
-
切り捨ててリロード
情報メモこのオプションを使用すると、履歴が失われる可能性があります。-
現在のテーブルと変更テーブルを切り捨てます。
-
クエリを実行し、現在のテーブルにロードします。
-
-
リロードして比較
-
クエリを実行し、現在のテーブルと比較します。
-
変更を追加します。
-
変換設定
変換データ タスクのプロパティを設定できます。
-
[設定] をクリックします。
一般設定
-
データベース
データ ソースで使用するデータベース。
-
タスクのスキーマ
データ タスクのスキーマの名前を変更できます。既定の名前は、タスクの名前です。
-
内部スキーマ
内部ストレージ スキーマの名前を変更できます。既定の名前は、タスクの名前に「_internal」を追加したものです。
- すべてのテーブルとビューのプレフィックス
このタスクで作成したすべてのテーブルとビューにプレフィックスを設定できます。
情報メモ複数のデータ タスクでデータベース スキーマを使用する場合は、一意のプレフィックスを使用する必要があります。 -
マテリアライズド
オンザフライで変換を実行するビューのみを作成する (非マテリアライズド) か、テーブルとビューの両方を作成する (マテリアライズド) かを選択できます。
-
履歴
過去の変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。
実行時間の設定
-
並列実行
フル ロードの最大接続数を 1 から 5 の数値に設定できます。
-
ウェアハウス
クラウド データ ウェアハウスの名前です。
カタログ設定
-
カタログに公開する
このオプションを選択して、データのこのバージョンをデータセットとしてカタログに公開します。カタログのコンテンツは、このタスクを次回準備する際に更新されます。
カタログの詳細については、カタログツールの使用によるデータの理解 を参照してください。
制限事項
-
非マテリアライズドオプションが選択されている場合、変換データ タスクのデータ型を変更することはできません。
-