tStandardizeRowの標準プロパティ
これらのプロパティは、標準ジョブのフレームワークで実行されているtStandardizeRowを設定するために使われます。
標準のtStandardizeRowコンポーネントは、データクオリティファミリーに属しています。
このフレームワーク内のコンポーネントは、Talend Data Management PlatformTalend Big Data Platform、Talend Real-Time Big Data PlatformTalend Data Services Platform、およびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 |
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
[Column to parse] (解析するカラム) |
受信したデータフローから解析するカラムを選択します |
[Standardize this field] (このフィールドを標準化) |
識別されるルール準拠データを標準化するには、このチェックボックスをオンにします。つまり、識別されたデータの重複を、特定のインデックスからの対応する標準化されたデータに置き換えます。 標準化されたデータを提供するこのインデックスの詳細は、tSynonymOutputをご覧ください。 このチェックボックスをオンまたはオフにするたびにこのコンポーネントのスキーマが自動的に変更されるため、特定のジョブで、アクティブ化された[Sync columns] (カラムを同期)ボタンをクリックして、スキーマの不整合を修正する必要があります。 |
[Generate parser code in Routines] (ルーチンでパーサーコードを生成する) |
このボタンをクリックすると、Talend Studioのデータパーサーが[Conversion rules] (変換ルール)テーブルで定義されたルールを認識できるようになります。 特定のジョブで、ルールが作成された時、この操作はこのルールの実行に必要です。他方、ユーザーが変更した既存のルールに対するものである場合、この操作は、変更されたルールのタイプが[Enumeration] (列挙)、[Format] (フォーマット)、または[Combination] (組み合わせ)の場合にのみ必要です。すべてのルールタイプの詳細は、ルールタイプをご覧ください。 |
および |
インポートまたはエクスポートボタンをクリックして、特定の標準化ルールセットを[DQ Repository] (DQリポジトリー)と交換します。 - エクスポートボタンをクリックすると、Talend StudioがProfilingパースペクティブに切り替わり、[Parser rule Settings] (パーサールールの設定)ビューがワークスペースで開き、関連するコンテンツが自動的に入力されます。その後、必要に応じて、エクスポートされたルールセットを編集して、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Rules] (ルール) > [Parser] (パーサー)に保存できます。 - インポートボタンをクリックすると、インポートウィザードが開き、目的の標準化ルールをインポートできます。 詳細は、パーサールールを設定および管理をご覧ください。 |
[Conversion rules] (変換ルール) |
適用する必要があるルールを次のように定義します。 -[Name] (名前)カラムに、使うルールの名前を入力します。この名前は、XMLタグまたはJSON属性名として、また、このルールで識別される受信データにラベルを付けるためのトークン名と使われます。 -[Type] (タイプ)カラムで、適用する必要のあるルールのタイプを選択します。利用可能なルールタイプの詳細は、ルールタイプをご覧ください。 -[Value] (値)カラムに、ルールの構文を入力します。 -[Search mode] (検索モード)カラムで、リストから検索モードを選択します。検索モードは、[Index] (インデックス)ルールタイプでのみ使用できます。利用可能な検索モードの詳細は、インデックスルールの検索モードをご覧ください。 目的のパーサー規則を作成するのに役立つテストビューが提供されています。詳細は、パーサールールを設定および管理をご覧ください。 |
詳細設定
[Advanced options for INDEX rules] (インデックスルールの詳細オプション) |
- [Search UNDEFINED fields] (未定義フィールドを検索): コンポーネントを使ってインデックス実行結果内で未定義のトークンを検索する場合は、このチェックボックスをオンにします。 - [Word distance for partial match] (部分一致の単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数を設定するために使われます。デフォルト値は1です。 - [Max edits for fuzzy match] (ファジーマッチングの最大編集数) (レーベンシュタインアルゴリズムに基づいており、あいまいモードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離2では、最大2つの挿入、削除、または置換を行うことができます。各一致のスコアは、その用語の編集距離に基づいています。 [Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。 情報メモ注: 以前のリリースからTalend Studioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)が[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。
|
Output format (出力形式) |
-XML: このオプションはデフォルトで選択されています。正規化されたデータをXML形式で出力します。 -JSON: このオプションを選択すると、正規化されたデータがJSON形式で出力されます。 -XML: このオプションはデフォルトで選択されています。複数行に出力できます。このチェックボックスをオフにすると、出力が1行になります。 |
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。 |
グローバル変数
グローバル変数 |
ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。 変数の詳細は、コンテキストと変数を使用をご覧ください。 |
使用方法
使用ルール |
このコンポーネントは、中間ステップです。入力フロート出力フローが必要になります。 このコンポーネントは、[Repository] (リポジトリー)ツリービューの[Routines] (ルーチン)ノードにJavaコードを生成します。このコードは、ルールで定義された文法を実装します。コンポーネントによって使われるように自動的にコンパイルされます。 ルールを変更/追加/削除する場合は、ジョブが変更を考慮に入れて実行可能になるように、コードを再度生成する必要があります。 これを生成するには、[Generate parser code in Routines] (ルーチンでのパーサーコードの生成)ボタンをクリックします。 |
[Connections] (接続) |
外部リンク(このコンポーネントから別のコンポーネントへのリンク): [Row] (行): メイン、リジェクト [Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。
受信リンク(あるコンポーネントからこのコンポーネントへのリンク): [Row] (行): メイン、リジェクト
接続の詳細は、ジョブにおける接続の使い方をご覧ください。 |