Apache Spark BatchのtCollectAndCheckプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtCollectAndCheckを設定するために使われます。
Spark BatchのtCollectAndCheckコンポーネントは、テクニカルファミリーに属しています。
このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。
基本設定
設定 |
このチェックボックスを選択すると、設定コンポーネントから接続情報や認証情報を取得します。次のタイプの入力データをチェックするには、このチェックボックスを選択する必要があります。
表示されるドロップダウンリストで、Sparkがその詳細を使ってデータベースに接続できるようにしたい設定コンポーネントを選択します。たとえばSnowflakeのデータをチェックしたい場合は、tSnowflakeConfigurationコンポーネントを選択する必要があります。 情報メモ注: S3からデータを取得する場合はtS3Configurationを使用する必要はありません。[Basic settings] (基本設定)ビューの[Path or table name] (パスまたはテーブル名)フィールドにファイルの完全パスを入力するだけで結構です。
|
[Type of input] (入力のタイプ) |
チェックする入力データのタイプをドロップダウンリストから選択します。 |
[Path or table name] (パスまたはテーブル名) |
チェックするファイルやテーブルへのパスを二重引用符で入力します。 |
[Separator] (区切り) |
転送されたデータのフィールドを区切る場合は、文字、文字列、正規表現のいずれかを入力します。 |
[Line separator] (行区切り) |
行の終端を識別するために使用される区切り。 |
[Use context variable] (コンテキスト変数の使用) |
使う参照ファイルを表すコンテキスト変数を既に作成している場合は、このチェックボックスを選択して、表示される[Variable name] (変数名)フィールドにこの変数を入力します。 変数を呼び出す構文はcontext.VariableNameです。 変数の詳細は、コンテキストと変数を使用をご覧ください。 |
参照データ |
使う参照データを表すためにコンテキスト変数を使わない場合は、この参照データをこのフィールドに直接入力します。 情報メモ注:
コンポーネントがRDDからデータセットに移行されるため、日付パターンはyyyy-MM-dd、タイムスタンプのパターンは yyyy-MM-dd HH:mm:ssに限定されます。 これはSpark 2.1以降のバージョンに適用されます。 |
[Keep the order from the reference] (参照からの順序を保つ) |
チェックするRDDがソートされている場合は、このチェックボックスを選択して、参照データの順序を維持します。 |
詳細設定
[When the reference is empty, expect no incoming value] (参照が空の場合、受信値はありません) |
デフォルトでは、このチェックボックスはオフになっています。つまり、参照データのフィールドが空の場合、テストは、テスト結果を検証するために、検証される受信データセット内にも同様に空のフィールドがあるものと想定します。 参照が空の時にテストが値を想定しないようにする場合は、このチェックボックスを選択します。 |
使用方法
使用ルール |
このコンポーネントは、終了コンポーネントとして使用され、入力リンクを必要とします。 このコンポーネントは、[Run] (実行)ビューのコンソールにテスト結果を表示するために作成されるテストケースに自動的に追加されます。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |