ストリーミング レイク ランディング設定
以下のストリーミング レイク ランディング タスク設定は、ストリーミング ソースを使用する Qlik Open Lakehouse プロジェクトに適用されます。
一般
使用するフォルダー
ステージング エリアにデータをランディングするときに使用するフォルダーを選択します。
-
既定のフォルダー
既定の名前 <project name>/<data task name> のフォルダーが作成されます。
-
ルート フォルダー
ストレージのルート フォルダーにデータを保存します。
-
フォルダー
使用するフォルダーの名前を指定します。
フォルダーの保持
データを保持する期間を選択します。
-
データとメタデータを削除しない: データもメタデータも削除されません。
-
保持期間の終了後にデータおよびメタデータを削除: 保持期間が経過すると、データとメタデータは削除されます。
-
保持期間の終了後にメタデータを削除: データは外部システムによって削除されます。この期間が経過すると、データは完全に削除されます。メタデータはパージされますが、基になるデータ (S3 オブジェクトなど) は Qlik によって削除されません。
データの読み取り元
データを取り込むタイミングを選択します。
-
今から開始
パイプラインの開始時に到着するイベントのみを取り込みます。
-
もっとも古いイベントから開始 (既定)
すべての履歴データを取り込みます。
コンテンツ タイプ
リストからファイル形式を選択します (例: JSON、CSV)。この設定は、タスクを再作成することで、タスク実行後でも変更できます。各ファイル形式の詳細については、「コンテンツ タイプ」を参照してください。
スキーマの進化
新しいトピック/ストリーム新しいストリーム/トピックの処理方法を選択します。
-
ターゲットに追加: すべてのテーブルを単一のターゲット テーブルにロードする場合、新しいデータはこのテーブルに追加されます。各トピックを異なるデータセットにロードする場合、新しいトピックは新しいデータセットに追加されます。
-
無視: 新しいデータはターゲットに追加されません。
実行時間
リーダーの数
-
Apache Kafka: 使用するリーダーの数を選択します。値は 1 から 1,000 の範囲で指定する必要があります。
-
Amazon Kinesis: ストリーム シャードの数を選択します。
-
Amazon S3: この設定は、S3 ストリーミングソースには適用されません。
レイクハウス クラスター
ストリーミング クラスターを選択します。ストリーミング ランディング タスクとストリーミング変換タスクは、同じクラスター上にある必要はありませんが、同じネットワーク統合上に配置する必要があります。
コンテンツ タイプ
次の設定は、各ファイル形式に適用されます。
-
JSON
-
特に指定がない場合、これが既定のファイル形式となります。
-
-
CSV と TSV
-
最初の行にヘッダーが含まれる: 最初の行にヘッダーレコードが含まれることを指定するために、既定で選択されています。
-
ヘッダー行 (オプション): 最初の行がヘッダーでない場合、ヘッダー名を定義します。
-
区切り文字: 既定の区切り文字 (CSV の場合はカンマ、TSV の場合はタブ) 以外を使用する場合に選択します。
-
引用符エスケープ文字: 既定で定義されている二重引用符以外の文字を使用する場合に選択します。
-
Null 値 (オプション): Null 値の代替として使用する値を入力します。
-
複製ヘッダーを許可: 2 つの列が同じ名前を持つ場合、2 番目の列は異なる名前で追加します。
-
-
Parquet、Avro、ORC
-
追加の設定は必要ありません。
-
-
正規表現
-
パターン: 正規表現パターンを入力します。
-
複数行: 既定で選択されています。
-
-
行の分割:
-
正規表現: 分割用の正規表現を入力します。
-