データ レイクにデータをランディング
データを次のターゲットにランディングするために、 [データレイクにデータをランディング] タスクを設定できます。
Amazon S3
Amazon S3 への接続の構成については、「 Amazon S3」を参照してください。
Azure Data Lake Storage
Azure Data Lake Storage への接続の構成については、「Azure Data Lake Storage」を参照してください。
Google Cloud Storage
Google Cloud Storage への接続の構成については、「Google Cloud Storage」を参照してください。
データ ソースへの接続の設定については、「 データ ソースへの接続」を参照してください。
データ レイクのランディング タスクを設定するには:
右上隅にある [新規追加] ボタンをクリックし、ドロップダウンメニューから [アプリをアップロード] を選択します。
[新しいデータ プロジェクト] ダイアログで、次の操作を実行します。
プロジェクトの [名前] を入力します。
- プロジェクトを作成する [スペース] を選択します。
- 必要に応じて [説明] を入力します。
- [ユースケース] として [レプリケーション] を選択します。
- 必要に応じて、何も構成せずに空のプロジェクトを作成する場合は、 [開く] チェック ボックスをオフにします。
[作成] をクリックします。
次のいずれかが発生します。
- [新しいデータ プロジェクト] ダイアログの [開く] チェック ボックスがオンになっている場合 (既定)、プロジェクトが開きます。
- [新しいデータ プロジェクト] ダイアログの [開く] チェック ボックスがオフの場合、プロジェクトはプロジェクトのリストに追加されます。プロジェクトの メニューから [開く] を選択すると、後でプロジェクトを開くことができます。
プロジェクトが開いたら、 [データレイクにデータをランディング] をクリックします。
[データレイクにデータをランディング] ウィザードが開きます。
[基本設定] タブで、データ レイク ランディング タスクの名前と説明を指定します。[次へ] をクリックします。
情報メモスラッシュ (/) またはバックスラッシュ (\) 文字を含む名前はサポートされていません。[ソース接続を選択] タブで、ソース データへの接続を選択します。必要に応じて、 [アクション] 列のメニューから [編集] を選択して、接続設定を編集できます。
ソース データにデータが接続されていない場合は、タブの右上にある [接続を作成] をクリックして、最初にデータ接続を作成する必要があります。
左側のフィルターを使用して、接続のリストをフィルタリングできます。接続は、ソース タイプ、ゲートウェイ、スペース、所有者でフィルタリングできます。接続リストの上にある [すべてのフィルター] ボタンには、現在のフィルターの数が表示されます。このボタンを使用して、左側の [フィルター] パネルを閉じたり開いたりできます。現在アクティブなフィルターは、使用可能なデータ接続のリストの上にも表示されます。
右側のドロップダウン リストから [最終更新日]、 [最終作成日]、または [アルファベット順] を選択してリストを並べ替えることもできます。ソート順を変更するには、リストの右側にある矢印をクリックします。
データ ソース接続を選択した後、必要に応じて、タブの右上にある [接続をテスト] をクリックし (推奨)、[次へ] をクリックします。
[データセットを選択] タブで、データ レイク ランディング タスクに含めるテーブルやビューを選択します。データベースからのデータの選択 で説明されているように、ワイルドカードを使用して選択ルールを作成することもできます。
情報メモスラッシュ (/) またはバックスラッシュ (\) 文字を含むスキーマ名またはテーブル名はサポートされていません。[ターゲット接続を選択] タブで、使用可能な接続のリストからターゲットを選択し、 [次へ] をクリックします。機能的には、このタブは前述の [ソース接続を選択] タブと同じです。
[設定] タブで、必要に応じて次の設定を変更し、[次へ] をクリックします。
更新方法:
変更データキャプチャ (CDC): データ レイクのランディング タスクは、フル ロードから開始されます (その間、選択されたすべてのテーブルがランディングされます)。ランディング データは、CDC (変更データ キャプチャ) テクノロジーを使用して最新の状態に保たれます。
情報メモDDL 操作の CDC (変更データ キャプチャ) はサポートされていません。- リロード: 選択したソーステーブルからターゲットプラットフォームへのデータのフル ロードを実行し、必要に応じてターゲット テーブルを作成します。フル ロードはタスクの開始時に自動的に実行されますが、必要に応じて手動で実行することや、定期的に実行するようにスケジュールすることもできます。
[変更データキャプチャ (CDC)] を選択し、データに CDC またはビューをサポートしていないテーブルも含まれている場合、2 つのデータ パイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、 [リロード] を使用する他のすべてのテーブルとビューを含む別のパイプライン。
使用するフォルダ:
ファイルを書き込むバケット フォルダーに応じて、次のいずれかを選択します。
- 既定のフォルダー: 既定のフォルダー形式は <your-project-name>/<your-task-name> です。
- ルート フォルダー: ファイルはバケットに直接書き込まれます。
フォルダー: フォルダー名を入力します。フォルダーが存在しない場合は、データ レイクのランディング タスク中に作成されます。
情報メモ フォルダー名に特殊文字 (@、#、! など) を含めることはできません。
[概要] タブに、データ パイプラインのビジュアルが表示されます。[<名前> タスクを開く]、または [Do nothing] (何もしない) を選択します。次に、 [作成] をクリックします。
選択に応じて、タスクが開かれるか、プロジェクトのリストが表示されます。
タスクを開くことを選択した場合、 [データセット] タブには、選択したデータ アセット テーブルの構造とメタデータが表示されます。これには、明示的にリストされたすべてのテーブルと、選択ルールに一致するテーブルが含まれます。
データ ソースからさらにテーブルを追加する場合は、 [ソース データの選択] をクリックします。
必要に応じて、データレイク設定へのランディング の説明に従ってタスク設定を変更します。
データセットの変換を実行し、データをフィルタリングし、列を追加できます。
詳細については、「データセットの管理」を参照してください。
必要な変換を追加したら、[データセットの検証] をクリックしてデータセットを検証できます。検証に失敗した場合は、先に進む前にエラーを修正してください。
詳細については、「データセットの検証と調整」を参照してください。
準備ができたら、 [準備] をクリックしてランディング タスクをカタログ化し、実行の準備をします。
データ タスクの準備が完了したら、 [実行] をクリックします。
これで、データ レイクのランディング タスクが開始されます。モニター ビューで進行状況を監視できます。詳細については、「個々のデータ タスクの監視」を参照してください。
データセットのロードの優先度の設定
各データセットにロード優先度を割り当てることで、データ タスクでのデータセットのロード順を制御できます。この機能は、大きなデータセットの前に小さなデータセットをロードする場合などに便利です。
[ロードの優先度] をクリックします。
各データセットのロードの優先度を選択します。
既定のロードの優先度は [標準] です。データセットは次の優先順位でロードされます。
最高
より高く
高
標準
低
より低く
最低
同じ優先度のデータセットは順不同でロードされます。
[OK] をクリックします。