Apache Spark StreamingのtMapRStreamsInputAvroプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtMapRStreamsInputAvroを設定するために使われます。
Spark Streaming tMapRStreamsInputAvroコンポーネントは、メッセージングファミリーに属しています。
このコンポーネントのストリーミングバージョンは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 このコンポーネントのスキーマは読み取り専用です。メッセージプロデューサーから送信されたメッセージ本文を保管します。 |
開始オフセット |
消費されるトピックメッセージの開始ポイントを選択します。 MapR Streamsでは、メッセージの増加するID番号はoffsetと呼ばれます。新しいコンシューマーグループが開始すると、このリストから[beginning] (最初から)を選択してトピック全体のうちで最も古いメッセージから消費を開始するか、[latest] (最後から)を選択して新しいメッセージを待機できます。 コンシューマグループは、オフセットコミットされた開始のメッセージのみを考慮します。 各コンシューマーグループには、消費したメッセージの位置を記憶するための独自のカウンターがあります。このため、コンシューマーグループが特定のトピックのメッセージの消費を開始すると、コンシューマグループはトピック全体ではなく、このグループが消費を停止する位置に関してのみ最新のメッセージを認識します。この原則に基づいて、次の動作が予想されます。
|
トピック名 |
tMapRStreamsInputがメッセージフィードを受け取るトピック名を入力します。このトピックが属するストリームの名前を入力する必要があります。構文はpath_to_the_stream:topic_nameです。 |
各Kafaパーティションから読み取る秒当たりのレコード件数を設定 |
この数値を二重引用符で囲んで入力し、処理のために送信される各バッチのサイズを制限します。 たとえば、100を入力し、Spark設定タブで定義したバッチ値が2秒の場合、各バッチのパーティションからのサイズは200メッセージです。 このチェックボックスをオフにした場合、コンポーネントは、1秒間で単一のバッチに全メッセージを読み取ろうとしますが、大量のメッセージのためにジョブが応答しなくなる可能性があります。 |
詳細設定
[Consumer properties] (コンシューマープロパティ) |
カスタマイズする必要があるMapR Streamsコンシューマープロパティをこのテーブルに追加します。 このテーブルで定義できるコンシューマプロパティの詳細は、MapR StreamsのドキュメンテーションでMapR Streamsの概要 (英語のみ)をご覧ください。 |
[Use hierarchical mode] (階層モードの使用) |
バイナリ(階層を含む) Avroスキーマを、現在のコンポーネントのスキーマエディターに定義されているフラットスキーマにマップする場合は、このこのチェックボックスを選択します。処理するAvroメッセージto be processed is がフラットの場合は、このチェックボックスをオフのままにしておきます。 オンにする場合は、次のパラメーターを設定する必要があります。
|
使用方法
使用ルール |
このコンポーネントは、開始コンポーネントとして使用され、出力リンクを必要とします。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |
前提条件 |
Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。
Hadoopディストリビューションのインストール方法は、使用しているHadoopディストリビューションに対応するマニュアルをご覧ください。 |