在資料湖中登陸資料
您可以設定在資料湖中登陸資料任務,以將資料登陸至下列目標:
Amazon S3
如需關於設定連線至 Amazon S3 的資訊,請參閱 Amazon S3。
Azure Data Lake Storage
如需設定連線至 Azure Data Lake Storage 的資訊,請參閱 Azure Data Lake Storage。
Google Cloud Storage
如需設定連線至 Google Cloud Storage 的資訊,請參閱 Google Cloud Storage。
如需關於設定連線至資料來源的資訊,請參閱 連線至資料來源
若要設定資料湖登陸任務:
在右上方按一下新增按鈕,然後從下拉式功能表選取建立資料專案。
在新的資料專案對話方塊中,進行下列事項:
提供專案的名稱。
- 選取您要在其中建立專案的空間。
- 或者可選擇提供描述。
- 選取複寫作為使用案例。
- 若您想要建立空的專案而不進行任何設定,也可以選擇清除開啟核取方塊。
按一下建立。
將會發生下列情況之一:
- 若在新的資料專案對話方塊中選取開啟核取方塊 (預設),專案將會開啟。
- 若您在新的資料專案對話方塊中清除開啟核取方塊,專案將會新增至專案清單。您之後可以從專案的 功能表選取開啟以開啟專案。
專案開啟後,按一下在資料湖中登陸資料。
就會開啟在資料湖中登陸資料精靈。
在一般索引標籤中,為資料湖登陸任務指定名稱和描述。然後按一下下一步。
資訊備註不支援包含斜線 (/) 或反斜線 (\) 字元的名稱。在選取來源連線索引標籤中,選取前往來源資料的連線。您也可以從動作欄功能表選取編輯,以編輯連線設定。
若您還沒有前往來源資料的資料連線,則需要先建立;作法是在索引標籤右上方按一下建立連線。
您可以使用左側的篩選器篩選連線清單。可以根據來源類型、閘道、空間和擁有者篩選連線。連線清單上方的所有篩選按鈕顯示目前的篩選數量。您可以使用此按鈕關閉或開啟左側的篩選面板。目前作用中的篩選也會顯示在可用資料連線清單上方。
您也可以從右側的下拉式清單中選取上次修改、上次建立或按字母順序,以排序清單。按一下清單的向右箭頭以變更排序順序。
選取資料來源連線之後,可以選擇按一下索引標籤右上方的測試連線 (建議),然後按一下下一步。
在選取資料集索引標籤中,選取表格和/或檢視,以包括在資料湖登陸任務中。您也可以使用萬用字元並建立選取規則,如 從資料庫中選取資料 中所述。
資訊備註不支援包含斜線 (/) 或反斜線 (\) 字元的結構描述名稱或表格名稱。在選取目標連線索引標籤中,從可用連線清單中選取目標,然後按一下下一步。在功能方面,索引標籤與先前描述的選取來源連線索引標籤相同。
在設定索引標籤中,可以選擇變更下列設定,然後按一下下一步。
更新方法:
變更資料擷取 (CDC):資料湖登陸任務以完整載入開始 (在此期間,會登陸所有選取的表格)。然後登陸資料會使用 CDC (變更資料擷取) 技術保持最新狀態。
資訊備註不支援 DDL 操作的 CDC (變更資料擷取)。- 載入:執行完整載入以將資料從所選來源表格載入到目標平台,並建立目標表格 (如有必要)。完整載入會在任務開始時自動發生,但也可以根據需要手動執行或安排定期進行。
若您選取變更資料擷取 (CDC),且資料也包含不支援 CDC 或檢視的表格,將會建立兩個資料管道。一個管道具有支援 CDC 的所有表格,另一個管道具有使用載入所有其他表格和檢視。
要使用的資料夾:
根據您希望檔案寫入到哪個值區資料夾,選取下列內容之一:
- 預設資料夾:預設資料夾格式為 <your-project-name>/<your-task-name>
- 根資料夾:檔案將會直接寫入到值區。
資料夾:輸入資料夾名稱。若不存在,將會在資料湖登陸任務期間建立資料夾。
資訊備註 資料夾名稱不可包括特殊字元 (例如 @、#、! 等)。
在摘要索引標籤中,會顯示資料管道的視覺。選擇要開啟 <name> 任務或不做任何事。然後按一下建立。
根據您的選擇,將會開啟任務,或將會顯示專案清單。
若您選擇開啟任務,資料集索引標籤將會顯示所選資料資產表格的結構和中繼資料。這包括所有明確列出的表格,以及符合選取規則的表格。
若您想要從資料來源新增更多表格,按一下選取來源資料。
也可以變更任務設定,如 在資料湖設定中登陸 中所述。
您可以執行資料集轉換、篩選資料或新增欄。
如需詳細資訊,請參閱管理資料集。
您已新增所需的轉換之後,可按一下驗證資料集以驗證資料集。如果驗證失敗,請先解決錯誤再繼續進行。
如需詳細資訊,請參閱驗證和調整資料集。
當您就緒時,按一下準備以將登陸任務編入目錄,為執行做好準備。
準備資料任務後,按一下執行。
資料湖登陸任務現在應開始。您可以在監控檢視中監控其進度。如需詳細資訊,請參閱 監控個別資料任務
設定資料集的載入優先順序
您可以透過為每個資料集指定載入優先順序,控制資料任務中資料集的載入順序。例如,如果您希望在大型資料集之前先載入較小的資料集,這會很有用。
按一下載入優先順序。
為每個資料集選擇一種載入優先順序。
預設的載入優先順序為一般。資料集將會依照下列優先順序載入:
最高
較高
高
正常
低
較低
最低
具有相同優先順序的資料集不會按特定順序載入。
按一下確定。