Apache Spark StreamingのtCollectAndCheckプロパティ

これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtCollectAndCheckを設定するために使われます。

Spark StreamingのtCollectAndCheckコンポーネントは、テクニカルファミリーに属しています。

このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。

基本設定

設定	このチェックボックスを選択すると、設定コンポーネントから接続情報や認証情報を取得します。次のタイプの入力データをチェックするには、このチェックボックスを選択する必要があります。 HBase JDBC MySQL Redshift 表示されるドロップダウンリストで、Sparkがその詳細を使ってデータベースに接続できるようにしたい設定コンポーネントを選択します。たとえばSnowflakeのデータをチェックしたい場合は、tSnowflakeConfigurationコンポーネントを選択する必要があります。情報メモ注: S3からデータを取得する場合はtS3Configurationを使用する必要はありません。[Basic settings] (基本設定)ビューの[Path or table name] (パスまたはテーブル名)フィールドにファイルの完全パスを入力するだけで結構です。
[Type of input] (入力のタイプ)	チェックする入力データのタイプをドロップダウンリストから選択します。
[Path or table name] (パスまたはテーブル名)	チェックするファイルやテーブルへのパスを二重引用符で入力します。
[Separator] (区切り)	転送されたデータのフィールドを区切る場合は、文字、文字列、正規表現のいずれかを入力します。
[Line separator] (行区切り)	行の終端を識別するために使用される区切り。
[Micro batch separator] (マイクロバッチ区切り)	データストリーム内のマイクロバッチの終わりを識別するために使う区切りを入力します。
[Use context variable] (コンテキスト変数の使用)	使う参照ファイルを表すコンテキスト変数を既に作成している場合は、このチェックボックスをオンにして、表示される[Variable name] (変数名)フィールドにこの変数を入力します。変数を呼び出す構文はcontext.VariableNameです。変数の詳細は、Talend Studioユーザーガイドをご覧ください。
参照データ	使う参照データを表すためにコンテキスト変数を使わない場合は、この参照データをこのフィールドに直接入力します。
[Keep the order from the reference] (参照からの順序を保つ)	チェックするRDDがソートされている場合は、このチェックボックスをオンにして、参照データの順序を維持します。

詳細設定

[When the reference is empty, expect no incoming value] (参照が空の場合、受信値はありません)	デフォルトでは、このチェックボックスはオフになっています。つまり、参照データのフィールドが空の場合、テストは、テスト結果を検証するために、検証される受信データセット内にも同様に空のフィールドがあるものと想定します。参照が空の時にテストが値を想定しないようにする場合は、このチェックボックスを選択します。

[When the reference is empty, expect no incoming value] (参照が空の場合、受信値はありません)

デフォルトでは、このチェックボックスはオフになっています。つまり、参照データのフィールドが空の場合、テストは、テスト結果を検証するために、検証される受信データセット内にも同様に空のフィールドがあるものと想定します。

参照が空の時にテストが値を想定しないようにする場合は、このチェックボックスを選択します。

使用方法

使用ルール	このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。このコンポーネントは、[Run] (実行)ビューのコンソールにテスト結果を表示するために作成されるテストケースに自動的に追加されます。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。 Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用ルール

このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。

このコンポーネントは、[Run] (実行)ビューのコンソールにテスト結果を表示するために作成されるテストケースに自動的に追加されます。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください