AWS S3 資料串流
連線至您的 AWS S3 資料串流,以在您的 Qlik 開放湖倉庫 專案中做為資料來源使用。AWS S3 資料串流連線只能與串流登陸任務和串流轉換任務搭配使用。
與傳統從 S3 批次 ETL 不同,此實作將 S3 視為串流來源,具有持續監控和近乎即時的資料擷取功能。您可以設定串流,以便在新檔案抵達時自動從 S3 值區擷取資料。AWS S3 資料串流可讓您設定來自 S3 的串流資料管道,包括檔案模式比對、結構描述組態和初始回填選項。此串流會持續監控 S3 並近乎即時 (幾分鐘內) 擷取新資料,非常適合組織資料,例如日誌、事件、來自外部系統的匯出或合作夥伴資料摘要。
必要條件
若要建立與 AWS S3 資料串流的連線,您需要具備下列項目:
-
如果您使用角色型驗證來存取值區,您需要:
-
存取您要用於連線的網路整合的權限。
-
ARN 角色,或者您可以在設定程序期間建立一個。網路整合叢集必須具有 ARN S3 帳戶的存取權。
-
-
如果您使用存取金鑰驗證來連線至值區,您需要:
-
您的 AWS 存取金鑰 ID。
-
您的 AWS 私密存取金鑰。
-
設定 S3 資料串流連線屬性
若要設定您的 S3 連線,請執行下列動作:
-
在連線中,按一下建立連線。
-
選取您要建立連線的 空間,或選擇 建立新的資料空間。
-
從 連接器 名稱清單中選取 S3,或使用 搜尋 方塊。確保 類型 為 來源,且 類別 為 串流。
-
在 S3 URI 中,輸入 S3 值區的 URI,格式為 s3://<bucket-name>/<directory-name>。
如需更多資訊,請參閱 語法範例。
-
在 驗證類型 中,選取您要如何連線,並設定相關設定。
以角色為基礎
完成下列步驟以使用角色型驗證。
建立 ARN 角色
-
網路整合:從清單中選取網路整合。
-
ARN 角色:輸入在 AWS 中建立的 ARN 角色。這應採用此格式:arn:aws:iam::{account number}:role/{role name}。
建立 AWS 角色
請依照下列步驟建立 AWS 角色:
-
建立角色
-
在 AWS 主控台中,前往 IAM。
-
在角色中,按一下建立角色並進行設定:
-
信任的實體類型:選取自訂信任政策。
-
陳述:將在 Qlik Cloud 中的 建立 AWS 角色 中建立的 信任實體 政策複製到 AWS 中的程式碼窗格。
-
建立角色。
-
-
建立內嵌政策
-
在 AWS 主控台 中,在 角色 中,按一下您在步驟 1 中建立的角色。
-
在 權限政策 中,按一下 新增權限 > 建立內嵌政策。
-
複製 Qlik Cloud 中的程式碼,並貼到 AWS 中的政策。
-
-
複製 ARN 角色
-
在 AWS 主控台 的 角色 頁面中,於 摘要 區段找到 ARN 值。
-
複製 ARN 並貼到 Qlik Cloud 中的 ARN 角色。
-
存取金鑰
完成下列步驟,以使用存取金鑰驗證您的連線:
-
存取金鑰:輸入您唯一的 AWS 存取金鑰 ID 以用於驗證。
-
秘密金鑰:輸入您的 AWS 秘密存取金鑰以與您的存取金鑰搭配使用。
- 建立政策
-
在 AWS 主控台中,前往 IAM。
-
導覽至 政策> 建立政策。
-
在 Qlik Cloud 中,在 建立 AWS 角色 對話方塊中,複製原則。
-
在 AWS 中,在 原則編輯器 中,貼上原則。
-
-
將新原則附加至使用者
-
將新原則附加至您要提供存取權的使用者。
-
建立連線
設定安全方法後,請完成下列步驟以建立連線:
-
在 名稱 中,輸入連線的顯示名稱,例如 My AWS S3 Streaming Source connection。
-
按一下 測試連線 以驗證認證。
-
按一下建立。
語法範例
| 語法 | 描述 | 範例 |
|---|---|---|
| 文字 | 根據 AWS 命名 Amazon S3 物件準則的一般文字/字串輸入。 | s3://MyS3Bucket/MyDir/MyFile.csv |
| 萬用字元 | 一個 * 字元,在路徑/檔案名稱中作為「萬用字元」。在路徑中使用萬用字元會包含該路徑中的所有資料夾和子資料夾。 | myS3Bucket/myDir/* myS3Bucket/myDir/*.csv myS3Bucket/myDir/*_customers.csv myS3Bucket/regions/*/*_customers.csv |
| 模式 | 日期模式語法會指出檔案名稱中日期模式的位置。 | myS3Bucket/myDir/<yyyy>_<MM>_<dd>_<HH>_<mm>_orders.csv myS3Bucket/myDir/<yyyy>/<MM>/<dd>/<HH>_<mm>_orders.csv |
目標資料集命名規則
目標資料集名稱必須:
-
是唯一,且未由目標目錄中的其他資料集使用。
-
遵守目標目錄命名規則:
-
以字母 (A–Z、a–z) 或底線 (_) 開頭。
-
僅包含字母、底線、數字 (0–9) 或錢幣符號 ($)。
-
不超過 255 個字元 (包含空格在內)。
-