Standard、Premium、または Enterprise サブスクリプションを使用して、データ レイクにデータをランディングします
データを次のターゲットにランディングするために、 [データ レイクにデータをランディング] タスクを設定できます。
Amazon S3
Amazon S3 への接続の構成については、「 Amazon S3」を参照してください。
Azure Data Lake Storage
Azure Data Lake Storage への接続の構成については、「Azure Data Lake Storage」を参照してください。
Google Cloud Storage
Google Cloud Storage への接続の構成については、「Google Cloud Storage」を参照してください。
データ ソースへの接続の設定については、「 データソースへの接続の設定」を参照してください。
データ レイクのランディング タスクを設定するには:
[データ統合] > [プロジェクト] で、 [プロジェクトを作成] をクリックします。
[新しいプロジェクト] ダイアログで、次の操作を実行します。
プロジェクトの [名前] を入力します。
- プロジェクトを作成する [スペース] を選択します。
- 必要に応じて [説明] を入力します。
- [ユースケース] として [レプリケーション] を選択します。
- 必要に応じて、何も構成せずに空のプロジェクトを作成する場合は、 [開く] チェック ボックスをオフにします。
[作成] をクリックします。
次のいずれかが発生します。
- [新しいプロジェクト] ダイアログの [開く] チェック ボックスがオンになっている場合 (既定)、プロジェクトが開きます。
- [新しいプロジェクト] ダイアログの [開く] チェック ボックスがオフの場合、プロジェクトはプロジェクトのリストに追加されます。プロジェクトの メニューから [開く] を選択すると、後でプロジェクトを開くことができます。
プロジェクトが開いたら、 [データレイクにデータをランディング] をクリックします。
[データレイクにデータをランディング] ウィザードが開きます。
[基本設定] タブで、データ レイク ランディング タスクの名前と説明を指定します。[次へ] をクリックします。
情報メモスラッシュ (/) またはバックスラッシュ (\) 文字を含む名前はサポートされていません。[ソース接続を選択] タブで、ソース データへの接続を選択します。必要に応じて、 [アクション] 列のメニューから [編集] を選択して、接続設定を編集できます。
ソース データに接続されていない場合は、タブの右上にある [接続を作成] をクリックして、最初にデータ接続を作成する必要があります。
左側のフィルターを使用して、接続のリストをフィルタリングできます。接続は、ソース タイプ、ゲートウェイ、スペース、所有者でフィルタリングできます。接続リストの上にある [すべてのフィルター] ボタンには、現在のフィルターの数が表示されます。このボタンを使用して、左側の [フィルター] パネルを閉じたり開いたりできます。現在アクティブなフィルターは、使用可能な接続のリストの上にも表示されます。
右側のドロップダウン リストから [最終更新日]、 [最終作成日]、または [アルファベット順] を選択してリストを並べ替えることもできます。ソート順を変更するには、リストの右側にある矢印をクリックします。
データ ソース接続を選択した後、必要に応じて、タブの右上にある [接続をテスト] をクリックし (推奨)、[次へ] をクリックします。
[データセットを選択] タブで、データ レイク ランディング タスクに含めるテーブルやビューを選択します。データベースからのデータの選択 で説明されているように、ワイルドカードを使用して選択ルールを作成することもできます。
情報メモスラッシュ (/) またはバックスラッシュ (\) 文字を含むスキーマ名またはテーブル名はサポートされていません。[ターゲット接続を選択] タブで、使用可能な接続のリストからターゲットを選択し、 [次へ] をクリックします。機能的には、このタブは前述の [ソース接続を選択] タブと同じです。
[設定] タブで、必要に応じて次の設定を変更し、[次へ] をクリックします。
更新方法:
変更データキャプチャ (CDC): データ レイクのランディング タスクは、フル ロードから開始されます (その間、選択されたすべてのテーブルがランディングされます)。ランディング データは、CDC (変更データ キャプチャ) テクノロジーを使用して最新の状態に保たれます。
情報メモDDL 操作の CDC (変更データ キャプチャ) はサポートされていません。Data Movement gateway を使用する場合、変更はソースからほぼリアルタイムでキャプチャされます。Data Movement gateway を使用せずに作業する場合、変更はスケジューラーの設定に従ってキャプチャされます。詳細は、Data Movement gateway を使用しない場合のタスクのスケジュール設定をご覧ください。
- リロード: 選択したソーステーブルからターゲットプラットフォームへのデータのフル ロードを実行し、必要に応じてターゲット テーブルを作成します。フル ロードはタスクの開始時に自動的に実行されますが、必要に応じて手動で実行することや、定期的に実行するようにスケジュールすることもできます。
[変更データキャプチャ (CDC)] を選択し、データに CDC またはビューをサポートしていないテーブルも含まれている場合、2 つのデータ パイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、 [リロード] を使用する他のすべてのテーブルとビューを含む別のパイプライン。
使用するフォルダ:
ファイルを書き込むバケット フォルダーに応じて、次のいずれかを選択します。
- 既定のフォルダー: 既定のフォルダー形式は <your-project-name>/<your-task-name> です。
- ルート フォルダー: ファイルはバケットに直接書き込まれます。
フォルダー: フォルダー名を入力します。フォルダーが存在しない場合は、データ レイクのランディング タスク中に作成されます。
情報メモ フォルダー名に特殊文字 (@、#、! など) を含めることはできません。
[概要] タブに、データ パイプラインのビジュアルが表示されます。[<名前> タスクを開く]、または [Do nothing] (何もしない) を選択します。次に、 [作成] をクリックします。
選択に応じて、タスクが開かれるか、プロジェクトのリストが表示されます。
タスクを開くことを選択した場合、 [データセット] タブには、選択したデータ アセット テーブルの構造とメタデータが表示されます。これには、明示的にリストされたすべてのテーブルと、選択ルールに一致するテーブルが含まれます。
データ ソースからさらにテーブルを追加する場合は、 [ソース データの選択] をクリックします。
必要に応じて、クラウド ストレージ ターゲットの設定 の説明に従ってタスク設定を変更します。
データセットの変換を実行し、データをフィルタリングし、列を追加できます。
詳細については、「データセットの管理」を参照してください。
必要な変換を追加したら、[データセットの検証] をクリックしてデータセットを検証できます。検証に失敗した場合は、先に進む前にエラーを修正してください。
詳細については、「データセットの検証と調整」を参照してください。
準備ができたら、 [準備] をクリックしてランディング タスクをカタログ化し、実行の準備をします。
データ タスクの準備が完了したら、 [実行] をクリックします。
これで、データ レイクのランディング タスクが開始されます。モニター ビューで進行状況を監視できます。詳細については、「個々のデータ タスクの監視」を参照してください。
データセットのロードの優先度の設定
各データセットにロード優先度を割り当てることで、データ タスクでのデータセットのロード順を制御できます。この機能は、大きなデータセットの前に小さなデータセットをロードする場合などに便利です。
[ロードの優先度] をクリックします。
各データセットのロードの優先度を選択します。
既定のロードの優先度は [標準] です。データセットは次の優先順位でロードされます。
最高
より高く
高
標準
低
より低く
最低
同じ優先度のデータセットは順不同でロードされます。
[OK] をクリックします。
メタデータの更新
タスクのメタデータを更新して、タスクの [設計] ビューのソースのメタデータの変更に合わせることができます。Metadata Manager を使用する SaaS アプリケーションの場合、データ タスクでメタデータを更新する前に、Metadata Manager を更新する必要があります。
次のいずれかを実行できます:
[...] をクリックし、 [メタデータを更新] をクリックして、タスク内のすべてのデータセットのメタデータを更新します。
[データセット] 内のデータセットで [...] をクリックし、 [メタデータを更新] をクリックして、単一のデータセットのメタデータを更新します。
画面の下部にある [メタデータを更新] でメタデータの更新のステータスを確認できます。 にカーソルを合わせると、メタデータが最後に更新された日時を確認できます。
変更を適用するには、データ タスクを準備します。
データ タスクを準備し、変更を適用すると、変更は [メタデータを更新] から削除されます。
変更をプロパゲートするには、このタスクを使用するストレージ タスクを準備する必要があります。
列が削除されると、ストレージから履歴データが失われないように、Null 値を使用した変換が追加されます。
制限事項
同じ時間スロットで、それ以前に削除された列を含む名前変更は、同じデータ型とデータ長である場合、削除された列の名前変更に変換されます。
前: a b c d
後: a c1 d
この例では、b が削除され、c の名前が c1 に変更され、b と c のデータ型とデータ長は同じになります。
これは、b から c1 への名前変更と c の削除として識別されます。
最後の列が削除され、その前の列の名前が変更された場合でも、最後の列の名前変更は認識されません。
前: a b c d
後: a b c1
この例では、d が削除され、c の名前が c1 に変更されました。
これは、c と d の削除と c1 の追加として識別されます。
新しい列は最後に追加されると想定されます。途中に次の列と同じデータ型の列が追加されると、削除と名前変更として解釈される可能性があります。
データ レイクにデータをランディングする際の制限と考慮事項
変換には次の制限があります。
- 右から左に記述する言語の列では、変換はサポートされません。
名前に特殊文字 (例: #、\、/、-) が含まれる列では変換を実行できません。
- LOB/CLOB データ型でサポートされている唯一の変換は、ターゲット上の列をドロップすることです。
- 変換を使用して列の名前を変更し、同じ名前の新しい列を追加することはサポートされていません。
移動された列では、直接変更または変換ルールを使用して Null 可能性を変更することはサポートされていません。ただし、タスクで作成された新しい列は、既定で Null 可能です。