メイン コンテンツをスキップする 補完的コンテンツへスキップ

データの変換

データ パイプラインの一部として、再利用可能なルール ベースのデータ変換を作成できます。データ オンボーディングの一部として変換を実行したり、再利用可能な変換データ タスクを作成したりできます。行レベルの変換を実行し、テーブルとして具体化されるか、その場で変換を実行するビューとして作成されるデータセットを作成できます。

データセットごとに明示的な変換を実行したり、複数のデータセットを変換するグローバル ルールを作成したりできます。データセットをフィルタリングして、行のサブセットを作成することもできます。

変換データ アセットの作成

変換データ タスクを作成する最も簡単な方法は、ストレージ データ タスクで [...] をクリックし、[データの変換] を選択することです。

データ プロジェクトで [新規追加] をクリックし、[データの変換] を選択することもできます。この場合、使用するソース データ タスクを定義する必要があります。

  1. 変換データセットでソース データを定義します。

    ソース データセットを選択し、[追加] をクリックして [出力] に追加します。

    データセットを選択し、[SQL ベースのデータセットの追加] をクリックして、SQL ベースのデータセットを追加できます。

    SQL ベースのデータセットの追加

    ヒント メモ[ソース データの選択] をクリックして、他のストレージ データ アセットからさらにデータセットを追加することもできます。
  2. 変換、データのフィルタリング、列の追加など、含まれるデータセットに必要なすべての変更を加えます。

    詳細については、「データセットの管理」を参照してください。

  3. 必要な変換を追加したら、[データセットの検証] をクリックしてデータセットを検証できます。検証でエラーが見つかった場合は、先に進む前にエラーを修正してください。

    詳細については、「データセットの検証と調整」を参照してください。

  4. データ モデルを作成

    [モデル] をクリックして、含まれるデータセット間の関係を設定します。

    詳細については、「 データ モデルの作成」を参照してください。

  5. [準備] をクリックして、データ タスクと必要なすべてのアーティファクトを準備します。これには少し時間がかかる場合があります。

  6. ステータスが [準備済み] と表示されたら、データ タスクを実行できます。

    [...] をクリックしてから [実行] をクリックします。

データ タスクは、データを変換するためのデータセットの作成を開始します。

情報メモデータセットの生成を開始したときに、含めるデータセットを変更することはできません。

SQL ベースのデータセットの追加

[データセットの変換] で、クエリに含めるデータセットを選択し、[SQL ベースのテーブルを追加] をクリックします。

  1. データセット名にデータセットの名前を入力します。

    [説明] に長い説明を追加することもできます。

  2. クエリを入力して、SQL ベースのテーブルを [SELECT クエリ] で返します。

    クエリは、ソース データセットからのみ読み取ることができます。このデータ アセットに追加された他の SQL ベースのテーブルまたは出力テーブルを参照することはできません。

    データセットから選択できます。

  3. [解析] をクリックして、SELECT クエリのパラメーターを解析します。

    ヒント メモパラメーターを参照に置き換えて、クエリを読みやすくすることができます。パラメーターの値を変更すると、SELECT クエリの参照も変更されます。
  4. [テーブルの説明] をクリックして、クエリ出力メタデータのプレビューを取得します。

  5. クエリの結果に問題がなければ、[OK] をクリックします。データセットがデータセットのリストに追加され、プレビューできるようになりました。

SQL ベースのデータセットを追加しても、主キーは自動的に定義されません。[データセット] タブでデータセットにキーを追加します。

変換タスクのスケジュール

変換タスクを定期的に更新するようにスケジュールできます。時間ベースのスケジュールを設定することや、入力データ タスクの実行が完了したときにタスクを実行するように設定できます。

データ タスクの [...] をクリックし、[スケジュール] を選択してスケジュールを作成します。デフォルトのスケジュール設定は、データ プロジェクトの設定から継承されます。設定の詳細については、「既定値を変換」を参照してください。

スケジュールを有効にするには、常に [スケジュール] を [オン] に設定する必要があります。

情報メモタスクのすべてのデータセットが非マテリアライズドの場合、ビューで瞬時に変換されるため、実行するものはありません。非マテリアライズドの変換要求のスケジュールを作成して、スケジュール条件が満たされたときに実行することはできます。タスクはすぐに完了し、データ マートなどのダウンストリーム タスクをトリガーできます。これにより、パイプライン フローを中断することなく、非マテリアライズドの変換を含むイベント ベースのパイプライン スケジュールを構築できます。

時間ベースのスケジュール

異なる入力ソースが更新されるタイミングに関係なく、時間ベースのスケジュールを使用してタスクを実行できます。

  • [データ タスクを実行] で、[特定の時刻] を選択します。

時間、日、週、または月単位でスケジュールを作成できます。

イベント ベースのスケジュール

イベント ベースのスケジュールを使用して、入力データ タスクの実行が完了したときにタスクを実行できます。

  • [データ タスクを実行] で、[特定のイベント発生時] を選択します。

いずれかの入力タスクが正常に完了したときにタスクを実行するか、選択した入力タスクのいずれかが正常に完了したときにタスクを実行するかを選択できます。

情報メモスケジュールがトリガーされたときに入力タスクまたはダウンストリーム タスクが実行されている場合、タスクは実行されません。タスクは、次にスケジュールされた実行までスキップされます。

変換タスクの監視

[監視] をクリックすると、変換タスクのステータスと進行状況を監視できます。

詳細については、「データ タスクの監視」を参照してください。

変換設定

変換データ タスクのプロパティを設定できます。

  • [設定] をクリックします。

警告メモタスクが既に実行されている場合、ランタイム設定以外の設定を変更するには、データセットをリロードする必要があります。

一般設定

  • データベース

    データ ソースで使用するデータベース。

  • データ アセット スキーマ

    ストレージ データ アセット スキーマの名前を変更できます。デフォルト名はストアです。

  • 内部スキーマ

    内部ストレージ スキーマの名前を変更できます。デフォルト名は store__internal です。

  • マテリアライズド

    テーブルを作成するか (マテリアライズド)、オンザフライで変換を実行するビューのみを作成するか (非マテリアライズド) を選択できます。

  • 履歴

    過去の変更データを保持して、特定の時点でのデータを簡単に再作成できるようにすることができます。履歴ビューとライブ履歴ビューを使用して、履歴データを表示できます。

実行時間の設定

  • 並列実行

    フル ロードの最大データ接続数を 1 から 5 の数値に設定できます。

  • ウェアハウス

    クラウド データ ウェアハウスの名前です。

制限事項

  • 非マテリアライズドオプションが選択されている場合、変換データ タスクのデータ型を変更することはできません。

  • SQL ベースのデータ セットでは、現在、フル ロードのみがサポートされています。これは、変換タスクを実行するたびにデータが再ロードされることを意味します。SQL ベースのデータ セットも現在のデータのみを提供し、履歴レコードは保持しません。

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。