跳到主要內容 跳至補充內容

串流資料

上線程序會從來源傳輸資料,並將其儲存在 Iceberg 表格中。串流資料來源中的變更會近乎即時地持續套用於儲存表格。

上線資料

資料會在管道專案中上線,而資料集則儲存在專案設定中定義的 S3 位置。

  1. 在專案中,按一下建立,然後按一下上線資料

  2. 為上線新增任務名稱和選用描述

    按一下下一步

  3. 選取來源連線。

    您可以選取現有串流來源連線,也可以建立與來源的新連線。

    如需詳細資訊,請參閱 連接資料串流

    按一下 下一步,並追蹤以下適用於您資料來源的指示。

選取資料

Apache Kafka 和 Amazon Kinesis

此清單會顯示來源連線中定義之主機的可用 Kafka 主題或 Kinesis 串流。

選取您的主題/串流時,您可以選取特定資料集,或使用選取規則以納入或排除資料集群組:

  • 使用 % 作為萬用字元,為資料集定義選取標準。

  • %.% 定義所有串流中的所有資料集。

如果使用選取規則選取主題,您可以選擇將所有資料集載入相同的目標表格,或為每個來源主題建立個別的目標表格:

  • 依預設,目標 Iceberg 表格名稱衍生自主題名稱,並依據命名慣例進行格式化,例如小寫、移除空格、將破折號取代為底線。在 定義目標資料集名稱 中,您可以編輯目標表格的名稱

  • 當使用選取規則將多個主題載入單一資料表時,您必須提供目標名稱。

  • 當使用選取規則且資料載入個別資料表 (每個主題一個資料集) 時,預設目標名稱為主題名稱。在此階段,您無法在精靈中編輯名稱,但稍後可以在登陸任務中完成此操作。

  • 如果規則設定為選取要擷取的主題,則如果登陸任務設定中結構描述演進下的新主題  > 新增至目標選項已勾選,任何符合規則條件的新主題也會登陸。

選取一或多個資料集,然後按一下新增選取的串流。您可在明確選取的串流之下看見新增的資料集。按一下下一步

Amazon S3

目錄瀏覽器會顯示位於來源連線的 S3 值區中的所有目錄清單。 

  • 選取登陸資料時要納入的目錄:

    • 針對每個目錄,在新增路徑中,輸入路徑和檔案名稱模式:

      • 使用 * 作為萬用字元以比對任何字元。

      • 若要輸入日期模式,請使用 <yyyy> 作為四位數年份的預留位置、<MM> 作為兩位數月份的預留位置、<dd> 作為兩位數日期的預留位置,以及 <HH> 作為兩位數小時的預留位置。例如:

        • MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv

        • MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv

  • 按一下 預覽 以開啟 預覽資料 對話方塊。已包含和已排除檔案的清單會顯示。

  • 按一下 驗證 以檢查資料。

  • 定義目標資料集名稱 中,提供名稱以將主題對應至目標 Iceberg 表格。按一下下一步

選取內容類型

選擇來源事件內容類型。

  • 選擇資料事件類型 中選取您正在擷取的事件類型。

  • 如需詳細資訊,請參閱連線至資料串流。

    選取的內容類型適用於所有主題。您必須針對您要擷取的每個內容類型建立新任務。

  • 展開 驗證事件已正確載入 以確認資料可被剖析。您必須確保此階段的資料正確無誤,否則需要重新建立管道並再次載入資料。使用 選取資料集 來檢查特定資料集,並檢查任何可能影響資料載入的警告。按一下任何結構欄旁的眼睛圖示以檢視資料。

  • 按一下下一步

設定擷取屬性

設定管道的組態:

  • 讀取資料自

    • 從最早的事件開始:擷取所有歷史資料。

    • 從現在開始:擷取管道啟動時到達的新資料。

  • 欄取消巢狀

    • 保留巢狀欄:不套用任何轉換。

    • 解除巢狀結構為個別欄:資料會分割成個別欄。

  • 載入設定

    • 僅附加:通常是事件資料的最佳選項,因為其生命週期通常很短且不會更新,例如訂單

    • 合併:這最適合隨時間更新的資料,例如客戶

  • 目標表格分割

    目標表格分割選項適用於管道中的所有表格。您稍後可以在表格層級覆寫此設定,以進行客製化分割。

    • 無分割:將會建立沒有任何分割的表格。

    • 依事件擷取日期分割:將會透過擷取事件的日期分割表格。

  • 按一下下一步

摘要

摘要畫面會以視覺方式顯示您的管道:

  • 您可以選擇性地針對串流登陸和串流轉換任務,按一下 編輯名稱和描述 以提供新值。

  • 選取您希望在 管道建立後 執行的選項。

  • 設定所有設定後,按一下 建立 以建立管道專案。

  • 專案顯示後,您可以準備並執行每個任務以開始擷取資料。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!