Apache Spark BatchのtJapaneseTokenizeプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtJapaneseTokenizeを設定するために使われます。
[Spark Batch]のtJapaneseTokenizeコンポーネントは、データクオリティファミリーに属しています。
このフレームワーク内のコンポーネントは、Talend Data Management PlatformTalend Big Data Platform、Talend Real-Time Big Data PlatformTalend Data Services Platform、Talend Data Fabricで利用できます。
基本設定
| プロパティ | 説明 |
|---|---|
|
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
|
|
[Tokenization] (トークン化) |
出力スキーマからのカラムは、[Tokenization] (トークン化)テーブルの[Column] (カラム)カラムに追加されます。 トークン化する日本語テキストを含む各スキーマカラムについて、[Tokenize] (トークン化)カラムで対応するチェックボックスをオンにします。 すべてのスキーマカラムを選択するには、ヘッダー行内のチェックボックスをオンにします。 |
詳細設定
| プロパティ | 説明 |
|---|---|
|
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
使用方法
| 使用方法のガイダンス | 説明 |
|---|---|
|
使用ルール |
このコンポーネントは、通常、中間コンポーネントとして使用されます。入力コンポーネントと出力コンポーネントが必要です。 |
|
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |