Apache Spark StreamingのtMapRStreamsInputプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtMapRStreamsInputを設定するために使われます。
Spark Streaming tMapRStreamsInputコンポーネントは、メッセージングファミリーに属しています。
このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 このコンポーネントのスキーマは読み取り専用です。メッセージプロデューサーから送信されたメッセージを保管します。 |
[Output type] (出力タイプ) |
次のコンポーネントに送信するデータのデータ型を選択します。 tMapRStreamsInputはMapR Streams byte[]メッセージをジョブが処理する文字列に自動変換できるので、通常は[String] (文字列)の使用が推奨されます。ただし、Protobufなど、tMapRStreamsInputで認識できないMapR Streamsメッセージ形式の場合は、[byte] (バイト)を選択し、次にtJavaRowなどのカスタムコードのコンポーネントを使って、同じジョブの他のコンポーネントがこれらのメッセージを処理できるようにメッセージを文字列にデシリアライズできます。 |
トピック名 |
tMapRStreamsInputがメッセージフィードを受け取るトピック名を入力します。このトピックが属するストリームの名前を入力する必要があります。構文はpath_to_the_stream:topic_nameです。 |
[Starting from] (開始点) |
消費されるトピックメッセージの開始ポイントを選択します。 MapR Streamsでは、メッセージの増加するID番号はoffsetと呼ばれます。新しいコンシューマーグループが開始すると、このリストから[beginning] (最初から)を選択してトピック全体のうちで最も古いメッセージから消費を開始するか、[latest] (最後から)を選択して新しいメッセージを待機できます。 コンシューマグループは、オフセットコミットされた開始のメッセージのみを考慮します。 各コンシューマーグループには、消費したメッセージの位置を記憶するための独自のカウンターがあります。このため、コンシューマーグループが特定のトピックのメッセージの消費を開始すると、コンシューマグループはトピック全体ではなく、このグループが消費を停止する位置に関してのみ最新のメッセージを認識します。この原則に基づいて、次の動作が予想されます。
|
各Kafaパーティションから読み取る秒当たりのレコード件数を設定 |
この数値を二重引用符で囲んで入力し、処理のために送信される各バッチのサイズを制限します。 たとえば、100を入力し、Spark設定タブで定義したバッチ値が2秒の場合、各バッチのパーティションからのサイズは200メッセージです。 このチェックボックスをオフにした場合、コンポーネントは、1秒間で単一のバッチに全メッセージを読み取ろうとしますが、大量のメッセージのためにジョブが応答しなくなる可能性があります。 |
詳細設定
コンシューマープロパティ |
カスタマイズする必要があるMapR Streamsコンシューマープロパティをこのテーブルに追加します。 このテーブルで定義できるコンシューマプロパティの詳細は、MapR StreamsのドキュメンテーションでMapR Streamsの概要 (英語のみ)をご覧ください。 |
[Custom encoding] (カスタムエンコーディング) |
保管データを処理する際、エンコーディングの問題が発生することがあります。このような場合は、チェックボックスをオンにして[Encoding] (エンコーディング)リストを表示します。 このエンコーディングは、tMapRStreamsInputが入力メッセージをデコードするために使います。 |
使用方法
使用ルール |
このコンポーネントは、開始コンポーネントとして使用され、出力リンクを必要とします。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |
前提条件 |
Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。
Hadoopディストリビューションのインストール方法は、使用しているHadoopディストリビューションに対応するマニュアルをご覧ください。 |