上線資料
在 Qlik Talend Data Integration 專案中建立資料管道,第一個步驟是上線資料。這涉及從資料來源傳輸資料,和以讀取最佳化的格式儲存資料集。您可以透過持續變更處理來更新資料,或使用排程的載入。
您能以一次操作建立上線,不過會以兩個步驟執行。
-
登陸資料
這涉及使用登陸資料任務,持續將資料從內部部署資料來源傳輸到登陸區域。
-
儲存資料集
這涉及讀取登陸資料的初始載入或增量載入,並使用儲存資料任務以讀取最佳化的格式套用資料。
待您將資料上線後,能以數種方式使用所儲存的資料集。
-
您可以在分析應用程式中使用資料集。
-
您可以建立轉換。
-
您可以建立資料超市。
上線資料
上線資料是從專案開始。資料集會儲存在專案中所定義的雲端資料倉庫。如需關於專案的詳細資訊,請參閱建立資料管道。
-
在專案中,按一下新增,然後按一下上線資料。
提示備註您也可以按一下專案中現有來源的 ,然後按一下上線資料。 -
為上線新增名稱和描述。
按一下下一步。
-
選取來源連線。
您可選取現有來源連線,也可以建立與來源的新連線。
如需詳細資訊,請參閱設定前往資料來源的連線。
按一下下一步。
-
選取要載入的資料。
如需詳細資訊,請參閱選取資料。
按一下下一步。
會顯示設定,您可在此選取更新方法和歷史記錄設定。
-
在更新方法中選取哪個方法要用來更新資料:
-
變更資料擷取 (CDC)
若資料也包含不支援 CDC 或檢視的表格,將會建立兩個資料管道。一個管道具有支援 CDC 的所有表格,另一個管道具有使用載入和比較所有其他表格和檢視。
-
載入並比較
-
-
在歷史記錄中選取是否除了目前的資料外,也要複寫先前資料的歷史記錄。
在您準備好時按一下下一步。
-
若您不使用 資料移動閘道 存取資料來源,下列區段將會顯示在設定中:
複寫排程器
-
複寫資料間隔:您可以排程從資料來源擷取變更的頻率,並設定開始時間和開始日期。若來源資料集支援 CDC (變更資料擷取),只會複寫來源資料的變更並套用至對應的目標表格。若來源資料集不支援 CDC (例如檢視畫面),則會將所有來源資料載入到對應的目標表格,以套用變更。若有些來源資料集支援 CDC,而有些不支援,將會建立兩個獨立的子任務:一個用於載入不支援 CDC 的資料集,另一個用於對支援 CDC 的資料集擷取變更。
上線設定精靈可讓您排程每小時間隔。在您完成上線精靈之後,您可以探索不同的排程選項,如 在不使用 資料移動閘道 時排程任務 中所述。
如需關於根據資料來源類型和訂閱層級的最低排程間隔的資訊,請參閱 最低允許的排程間隔。
-
-
預覽為了上線資料所建立的資料任務,亦可視需要重新命名。
提示備註這些名稱會在為儲存空間資料資產中的資料庫架構命名時用到。因為一個架構只能與一項任務有關,所以請考慮使用獨一無二的名稱,以免與使用相同資料平台的其他專案中的資料資產有所衝突。 -
選取您是否想要開啟已建立的任何資料任務,或要返回專案。
準備就緒後,按一下完成。
現在已建立上線資料任務。如要開始複寫資料,您需要:
選取資料
您可以選取特定表格或檢視,或使用選取規則以納入或排除表格群組。
可使用 % 作為萬用字元,為架構和表格定義選取標準。
-
%.% 可定義所有架構中的所有表格。
-
Public.% 可定義架構 Public 中的所有表格。
選取標準可依照您的選取項目提供預覽。
您現在可以:
-
建立規則,以基於選取標準納入或排除表格群組。
按一下從選取標準新增規則以建立規則,再選取納入或排除。
您可在選取規則之下看見此規則。
-
選取一或多個資料集,按一下新增所選的資料集。
您可在明確選取的資料集之下看見新增的資料集。
選取規則僅套用到目前的表格和檢視組,不會套用到日後新增的表格和檢視。