メイン コンテンツをスキップする 補完的コンテンツへスキップ

Standard、Premium、または Enterprise サブスクリプションを使用して、データ レイクにデータをランディングします

データを次のターゲットにランディングするために、 [データ レイクにデータをランディング] タスクを設定できます。

  • Amazon S3

    Amazon S3 への接続の構成については、「 Amazon S3」を参照してください。

  • Azure Data Lake Storage

    Azure Data Lake Storage への接続の構成については、「Azure Data Lake Storage」を参照してください。

  • Google Cloud Storage

    Google Cloud Storage への接続の構成については、「Google Cloud Storage」を参照してください。

ヒント メモタスク設定ウィザードでソースとターゲットの接続 [データレイクにデータをランディング] 設定を構成できますが、設定手順を簡略化するために、タスクを作成する前に実行しておくことをお勧めします。

データ ソースへの接続の設定については、「 データソースへの接続の設定」を参照してください。

データ レイクのランディング タスクを設定するには:

  1. [データ統合] > [プロジェクト] で、 [プロジェクトを作成] をクリックします。

  2. [新しいプロジェクト] ダイアログで、次の操作を実行します。

    1. プロジェクトの [名前] を入力します。

    2. プロジェクトを作成する [スペース] を選択します。
    3. 必要に応じて [説明] を入力します。
    4. [ユースケース] として [レプリケーション] を選択します。
    5. 必要に応じて、何も構成せずに空のプロジェクトを作成する場合は、 [開く] チェック ボックスをオフにします。
    6. [作成] をクリックします。

      次のいずれかが発生します。

      • [新しいプロジェクト] ダイアログの [開く] チェック ボックスがオンになっている場合 (既定)、プロジェクトが開きます。
      • [新しいプロジェクト] ダイアログの [開く] チェック ボックスがオフの場合、プロジェクトはプロジェクトのリストに追加されます。プロジェクトの メニューから [開く] を選択すると、後でプロジェクトを開くことができます。
  3. プロジェクトが開いたら、 [データレイクにデータをランディング] をクリックします。

    [データレイクにデータをランディング] ウィザードが開きます。

  4. [基本設定] タブで、データ レイク ランディング タスクの名前と説明を指定します。[次へ] をクリックします。

    情報メモスラッシュ (/) またはバックスラッシュ (\) 文字を含む名前はサポートされていません。
  5. [ソース接続を選択] タブで、ソース データへの接続を選択します。必要に応じて、 [アクション] 列のメニューから [編集] を選択して、接続設定を編集できます。

    ソース データに接続されていない場合は、タブの右上にある [接続を作成] をクリックして、最初にデータ接続を作成する必要があります。

    左側のフィルターを使用して、接続のリストをフィルタリングできます。接続は、ソース タイプ、ゲートウェイ、スペース、所有者でフィルタリングできます。接続リストの上にある [すべてのフィルター] ボタンには、現在のフィルターの数が表示されます。このボタンを使用して、左側の [フィルター] パネルを閉じたり開いたりできます。現在アクティブなフィルターは、使用可能な接続のリストの上にも表示されます。

    右側のドロップダウン リストから [最終更新日]、 [最終作成日]、または [アルファベット順] を選択してリストを並べ替えることもできます。ソート順を変更するには、リストの右側にある矢印をクリックします。

    データ ソース接続を選択した後、必要に応じて、タブの右上にある [接続をテスト] をクリックし (推奨)、[次へ] をクリックします。

  6. [データセットを選択] タブで、データ レイク ランディング タスクに含めるテーブルやビューを選択します。データベースからのデータの選択 で説明されているように、ワイルドカードを使用して選択ルールを作成することもできます。

    情報メモスラッシュ (/) またはバックスラッシュ (\) 文字を含むスキーマ名またはテーブル名はサポートされていません。
  7. [ターゲット接続を選択] タブで、使用可能な接続のリストからターゲットを選択し、 [次へ] をクリックします。機能的には、このタブは前述の [ソース接続を選択] タブと同じです。

  8. [設定] タブで、必要に応じて次の設定を変更し、[次へ] をクリックします。

    • 変更データキャプチャ (CDC): データ レイクのランディング タスクは、フル ロードから開始されます (その間、選択されたすべてのテーブルがランディングされます)。ランディング データは、CDC (変更データ キャプチャ) テクノロジーを使用して最新の状態に保たれます。

      情報メモDDL 操作の CDC (変更データ キャプチャ) はサポートされていません。

      Data Movement gateway を使用する場合、変更はソースからほぼリアルタイムでキャプチャされます。Data Movement gateway を使用せずに作業する場合、変更はスケジューラーの設定に従ってキャプチャされます。詳細は、Data Movement gateway を使用しない場合のタスクのスケジュール設定をご覧ください。

    • リロード: 選択したソーステーブルからターゲットプラットフォームへのデータのフル ロードを実行し、必要に応じてターゲット テーブルを作成します。フル ロードはタスクの開始時に自動的に実行されますが、必要に応じて手動で実行することや、定期的に実行するようにスケジュールすることもできます。

    [変更データキャプチャ (CDC)] を選択し、データに CDC またはビューをサポートしていないテーブルも含まれている場合、2 つのデータ パイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、 [リロード] を使用する他のすべてのテーブルとビューを含む別のパイプライン。

    ファイルを書き込むバケット フォルダーに応じて、次のいずれかを選択します。

    • 既定のフォルダー: 既定のフォルダー形式は <your-project-name>/<your-task-name> です。
    • ルート フォルダー: ファイルはバケットに直接書き込まれます。
    • フォルダー: フォルダー名を入力します。フォルダーが存在しない場合は、データ レイクのランディング タスク中に作成されます。

      情報メモ フォルダー名に特殊文字 (@、#、! など) を含めることはできません。
  9. [概要] タブに、データ パイプラインのビジュアルが表示されます。[<名前> タスクを開く]、または [Do nothing] (何もしない) を選択します。次に、 [作成] をクリックします。

    選択に応じて、タスクが開かれるか、プロジェクトのリストが表示されます。

  10. タスクを開くことを選択した場合、 [データセット] タブには、選択したデータ アセット テーブルの構造とメタデータが表示されます。これには、明示的にリストされたすべてのテーブルと、選択ルールに一致するテーブルが含まれます。

    データ ソースからさらにテーブルを追加する場合は、 [ソース データの選択] をクリックします。

  11. 必要に応じて、クラウド ストレージ ターゲットの設定 の説明に従ってタスク設定を変更します。

  12. データセットの変換を実行し、データをフィルタリングし、列を追加できます。

    詳細については、「データセットの管理」を参照してください。

  13. 必要な変換を追加したら、[データセットの検証] をクリックしてデータセットを検証できます。検証に失敗した場合は、先に進む前にエラーを修正してください。

    詳細については、「データセットの検証と調整」を参照してください。

  14. 準備ができたら、 [準備] をクリックしてランディング タスクをカタログ化し、実行の準備をします。

  15. データ タスクの準備が完了したら、 [実行] をクリックします。

  16. これで、データ レイクのランディング タスクが開始されます。モニター ビューで進行状況を監視できます。詳細については、「個々のデータ タスクの監視」を参照してください。

データセットのロードの優先度の設定

各データセットにロード優先度を割り当てることで、データ タスクでのデータセットのロード順を制御できます。この機能は、大きなデータセットの前に小さなデータセットをロードする場合などに便利です。

  1. [ロードの優先度] をクリックします。

  2. 各データセットのロードの優先度を選択します。

    既定のロードの優先度は [標準] です。データセットは次の優先順位でロードされます。

    • 最高

    • より高く

    • 標準

    • より低く

    • 最低

    同じ優先度のデータセットは順不同でロードされます。

  3. [OK] をクリックします。

情報メモSaaS アプリケーション ソースからのデータセットには、ロード順序の依存関係が含まれている可能性があります。ロードの優先順位を設定するときは、この点を考慮してください。

メタデータの更新

タスクのメタデータを更新して、タスクの [設計] ビューのソースのメタデータの変更に合わせることができます。Metadata Manager を使用する SaaS アプリケーションの場合、データ タスクでメタデータを更新する前に、Metadata Manager を更新する必要があります。

情報メモこの操作は、タスクの [デザイン] ビュー内のテーブルにのみ影響します。
  1. 次のいずれかを実行できます:

    • [...] をクリックし、 [メタデータを更新] をクリックして、タスク内のすべてのデータセットのメタデータを更新します。

    • [データセット] 内のデータセットで [...] をクリックし、 [メタデータを更新] をクリックして、単一のデータセットのメタデータを更新します。

    画面の下部にある [メタデータを更新] でメタデータの更新のステータスを確認できます。情報ボタン にカーソルを合わせると、メタデータが最後に更新された日時を確認できます。

  2. 変更を適用するには、データ タスクを準備します。

    データ タスクを準備し、変更を適用すると、変更は [メタデータを更新] から削除されます。

変更をプロパゲートするには、このタスクを使用するストレージ タスクを準備する必要があります。

列が削除されると、ストレージから履歴データが失われないように、Null 値を使用した変換が追加されます。

制限事項

  • 同じ時間スロットで、それ以前に削除された列を含む名前変更は、同じデータ型とデータ長である場合、削除された列の名前変更に変換されます。

     

    前: a b c d

    後: a c1 d

    この例では、b が削除され、c の名前が c1 に変更され、bc のデータ型とデータ長は同じになります。

    これは、b から c1 への名前変更と c の削除として識別されます。

  • 最後の列が削除され、その前の列の名前が変更された場合でも、最後の列の名前変更は認識されません。

     

    前: a b c d

    後: a b c1

    この例では、d が削除され、c の名前が c1 に変更されました。

    これは、cd の削除と c1 の追加として識別されます。

  • 新しい列は最後に追加されると想定されます。途中に次の列と同じデータ型の列が追加されると、削除と名前変更として解釈される可能性があります。

データ レイクにデータをランディングする際の制限と考慮事項

変換には次の制限があります。

  • 右から左に記述する言語の列では、変換はサポートされません。
  • 名前に特殊文字 (例: #、\、/、-) が含まれる列では変換を実行できません。

  • LOB/CLOB データ型でサポートされている唯一の変換は、ターゲット上の列をドロップすることです。
  • 変換を使用して列の名前を変更し、同じ名前の新しい列を追加することはサポートされていません。

移動された列では、直接変更または変換ルールを使用して Null 可能性を変更することはサポートされていません。ただし、タスクで作成された新しい列は、既定で Null 可能です。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。