串流資料
上線程序會從來源傳輸資料,並將其儲存在 Iceberg 表格中。串流資料來源中的變更會近乎即時地持續套用於儲存表格。
上線資料
資料會在管道專案中上線,而資料集則儲存在專案設定中定義的 S3 位置。
-
在專案中,按一下建立,然後按一下上線資料。
-
為上線新增任務名稱和選用描述。
按一下下一步。
-
選取來源連線。
您可以選取現有串流來源連線,也可以建立與來源的新連線。
如需詳細資訊,請參閱 連接資料串流
按一下 下一步,並追蹤以下適用於您資料來源的指示。
選取資料
Apache Kafka 和 Amazon Kinesis
此清單會顯示來源連線中定義之主機的可用 Kafka 主題或 Kinesis 串流。
選取您的主題/串流時,您可以選取特定資料集,或使用選取規則以納入或排除資料集群組:
-
使用 % 作為萬用字元,為資料集定義選取標準。
-
%.% 定義所有串流中的所有資料集。
如果使用選取規則選取主題,您可以選擇將所有資料集載入相同的目標表格,或為每個來源主題建立個別的目標表格:
-
依預設,目標 Iceberg 表格名稱衍生自主題名稱,並依據命名慣例進行格式化,例如小寫、移除空格、將破折號取代為底線。在 定義目標資料集名稱 中,您可以編輯目標表格的名稱
-
當使用選取規則將多個主題載入單一資料表時,您必須提供目標名稱。
-
當使用選取規則且資料載入個別資料表 (每個主題一個資料集) 時,預設目標名稱為主題名稱。在此階段,您無法在精靈中編輯名稱,但稍後可以在登陸任務中完成此操作。
-
如果規則設定為選取要擷取的主題,則如果登陸任務設定中結構描述演進下的新主題 > 新增至目標選項已勾選,任何符合規則條件的新主題也會登陸。
選取一或多個資料集,然後按一下新增選取的串流。您可在明確選取的串流之下看見新增的資料集。按一下下一步。
Amazon S3
目錄瀏覽器會顯示位於來源連線的 S3 值區中的所有目錄清單。
-
選取登陸資料時要納入的目錄:
-
針對每個目錄,在新增路徑中,輸入路徑和檔案名稱模式:
-
使用 * 作為萬用字元以比對任何字元。
-
若要輸入日期模式,請使用 <yyyy> 作為四位數年份的預留位置、<MM> 作為兩位數月份的預留位置、<dd> 作為兩位數日期的預留位置,以及 <HH> 作為兩位數小時的預留位置。例如:
-
MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv
-
MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv
-
-
-
-
按一下 預覽 以開啟 預覽資料 對話方塊。已包含和已排除檔案的清單會顯示。
-
按一下 驗證 以檢查資料。
-
在 定義目標資料集名稱 中,提供名稱以將主題對應至目標 Iceberg 表格。按一下下一步。
選取內容類型
選擇來源事件內容類型。
-
在 選擇資料事件類型 中選取您正在擷取的事件類型。
-
如需詳細資訊,請參閱連線至資料串流。
選取的內容類型適用於所有主題。您必須針對您要擷取的每個內容類型建立新任務。
-
展開 驗證事件已正確載入 以確認資料可被剖析。您必須確保此階段的資料正確無誤,否則需要重新建立管道並再次載入資料。使用 選取資料集 來檢查特定資料集,並檢查任何可能影響資料載入的警告。按一下任何結構欄旁的眼睛圖示以檢視資料。
-
按一下下一步。
設定擷取屬性
設定管道的組態:
-
讀取資料自
-
從最早的事件開始:擷取所有歷史資料。
-
從現在開始:擷取管道啟動時到達的新資料。
-
-
欄取消巢狀
-
保留巢狀欄:不套用任何轉換。
-
解除巢狀結構為個別欄:資料會分割成個別欄。
-
-
載入設定
-
僅附加:通常是事件資料的最佳選項,因為其生命週期通常很短且不會更新,例如訂單。
-
合併:這最適合隨時間更新的資料,例如客戶。
-
-
目標表格分割
目標表格分割選項適用於管道中的所有表格。您稍後可以在表格層級覆寫此設定,以進行客製化分割。
-
無分割:將會建立沒有任何分割的表格。
-
依事件擷取日期分割:將會透過擷取事件的日期分割表格。
-
-
按一下下一步。
摘要
摘要畫面會以視覺方式顯示您的管道:
-
您可以選擇性地針對串流登陸和串流轉換任務,按一下 編輯名稱和描述 以提供新值。
-
選取您希望在 管道建立後 執行的選項。
-
設定所有設定後,按一下 建立 以建立管道專案。
-
專案顯示後,您可以準備並執行每個任務以開始擷取資料。
-
準備和執行串流登陸任務。
如需詳細資訊,請參閱將串流資料登陸至 Qlik 開放湖倉庫。
-
準備和執行串流轉換任務。
如需詳細資訊,請參閱儲存串流資料集。
-