串流湖登陸設定
以下串流湖登陸任務設定適用於使用串流來源的 Qlik 開放湖倉庫 專案。
一般
要使用的資料夾
選取將資料登陸到暫存區域時要使用的資料夾。
-
預設資料夾
如此可建立預設名稱為 <專案名稱>/<資料任務名稱> 的資料夾。
-
根資料夾
將資料存放在儲存區的根資料夾。
-
資料夾
指定要使用的資料夾名稱。
資料夾保留
選取資料保留時間長度:
-
資料和中繼資料未刪除:資料和中繼資料皆未刪除。
-
在保留期後刪除資料和中繼資料:資料和中繼資料會在保留期過後刪除,
-
在保留期間後刪除中繼資料。資料由外部系統刪除。資料在此期間過後會永久刪除。中繼資料會清除,但基礎資料 (例如 S3 物件) 不會由 Qlik 刪除。
讀取資料自
選取資料擷取時間:
-
從現在開始
僅擷取管道開始時到達的事件。
-
從最早事件開始 (預設)
擷取所有歷史資料。
內容類型
從清單中選取檔案格式,例如 JSON 或 CSV。這可以在工作執行後,透過重新建立工作來變更。如需每個檔案格式的詳細資訊,請參閱內容類型。
結構描述演進
新主題/串流選取如何處理新的串流/主題。
-
新增至目標:如果您將所有表格載入至單一目標表格,新資料會新增至此表格。如果您將每個主題載入至不同的資料集,新主題會新增至新資料集。
-
忽略:新資料不會新增至目標。
執行時間
讀取器數量
-
Apache Kafka:選取要使用的讀取器數量。值必須介於 1 到 1,000 之間。
-
Amazon Kinesis:選取串流分區的數量。
-
Amazon S3:此設定不適用於 S3 串流來源。
湖存放庫叢集
選取串流叢集。Streaming 登陸任務和 Streaming 轉換任務不需要位於相同的叢集,但需要位於相同的網路整合。
內容類型
下列設定適用於每個檔案格式。
-
JSON
-
如果未另行定義,這是預設檔案格式。
-
-
CSV 和 TSV
-
第一列包含標頭:預設為選取,以指定第一列包含標頭記錄。
-
標頭列(選用):如果第一列不是標頭,請定義標頭名稱。
-
分隔符號:如果這不是預設值 (CSV 為逗號,TSV 為定位字元),請選取預設分隔符號。
-
引號逸出字元:如果這不是預設定義的雙引號,請選取預設引號逸出字元。
-
Null 值 (選用):輸入取代的 Null 值。
-
允許複製標頭:如果兩個欄位名稱相同,第二個欄位會以不同的名稱新增。
-
-
Parquet、Avro 和 ORC
-
不需要設定其他設定。
-
-
規則運算式
-
模式:輸入規則運算式模式。
-
多行:依預設選取。
-
-
分割行:
-
正規表達式: 輸入用於分割的正規表達式。
-