tStandardizeRowの標準プロパティ

これらのプロパティは、標準ジョブのフレームワークで実行されているtStandardizeRowを設定するために使われます。

標準のtStandardizeRowコンポーネントは、データクオリティファミリーに属しています。

このフレームワーク内のコンポーネントは、Talend Data Management PlatformTalend Big Data Platform、Talend Real-Time Big Data PlatformTalend Data Services Platform、Talend Data Fabricで利用できます。

基本設定

プロパティ	説明
[Schema] (スキーマ)と[Edit schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。 [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。
[Column to parse] (解析するカラム)	受信したデータフローから解析するカラムを選択します
[Standardize this field] (このフィールドを標準化)	識別されるルール準拠データを標準化するには、このチェックボックスをオンにします。つまり、識別されたデータの重複を、特定のインデックスからの対応する標準化されたデータに置き換えます。標準化されたデータを提供するこのインデックスの詳細は、tSynonymOutputをご覧ください。このチェックボックスをオンまたはオフにするたびにこのコンポーネントのスキーマが自動的に変更されるため、特定のジョブで、アクティブ化された[Sync columns] (カラムを同期)ボタンをクリックして、スキーマの不整合を修正する必要があります。
[Generate parser code in Routines] (ルーチンでパーサーコードを生成する)	このボタンをクリックすると、Talend Studioのデータパーサーが[Conversion rules] (変換ルール)テーブルで定義されたルールを認識できるようになります。特定のジョブで、ルールが作成された時、この操作はこのルールの実行に必要です。他方、ユーザーが変更した既存のルールに対するものである場合、この操作は、変更されたルールのタイプが[Enumeration] (列挙)、[Format] (フォーマット)、または[Combination] (組み合わせ)の場合にのみ必要です。すべてのルールタイプの詳細は、ルールタイプをご覧ください。
および	インポートまたはエクスポートボタンをクリックして、特定の標準化ルールセットを[DQ Repository] (DQリポジトリー)と交換します。 - エクスポートボタンをクリックすると、Talend StudioがProfilingパースペクティブに切り替わり、[Parser rule Settings] (パーサールールの設定)ビューがワークスペースで開き、関連するコンテンツが自動的に入力されます。その後、必要に応じて、エクスポートされたルールセットを編集して、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Rules] (ルール) > [Parser] (パーサー)に保存できます。 - インポートボタンをクリックすると、インポートウィザードが開き、目的の標準化ルールをインポートできます。詳細は、パーサールールを設定および管理をご覧ください。
[Conversion rules] (変換ルール)	適用する必要があるルールを次のように定義します。 -[Name] (名前)カラムに、使うルールの名前を入力します。この名前は、XMLタグまたはJSON属性名として、また、このルールで識別される受信データにラベルを付けるためのトークン名と使われます。 -[Type] (タイプ)カラムで、適用する必要のあるルールのタイプを選択します。利用可能なルールタイプの詳細は、ルールタイプをご覧ください。 -[Value] (値)カラムに、ルールの構文を入力します。 -[Search mode] (検索モード)カラムで、リストから検索モードを選択します。検索モードは、[Index] (インデックス)ルールタイプでのみ使用できます。利用可能な検索モードの詳細は、インデックスルールの検索モードをご覧ください。目的のパーサー規則を作成するのに役立つテストビューが提供されています。詳細は、パーサールールを設定および管理をご覧ください。

詳細設定

プロパティ	説明
[Advanced options for INDEX rules] (インデックスルールの詳細オプション)	- [Search UNDEFINED fields] (未定義フィールドを検索): コンポーネントを使ってインデックス実行結果内で未定義のトークンを検索する場合は、このチェックボックスをオンにします。 - [Word distance for partial match] (部分一致の単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数を設定します。デフォルト値は1です。 - [Max edits for fuzzy match] (ファジーマッチングの最大編集数) (レーベンシュタインアルゴリズムに基づいており、あいまいモードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離2では、最大2つの挿入、削除、または置換を行うことができます。各一致のスコアは、その用語の編集距離に基づいています。 [Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。情報メモ注: 以前のリリースからTalend Studioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)が[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。
Output format (出力形式)	-XML: このオプションはデフォルトで選択されています。正規化されたデータをXML形式で出力します。 -JSON: このオプションを選択すると、正規化されたデータがJSON形式で出力されます。 -XML: このオプションはデフォルトで選択されています。複数行に出力できます。このチェックボックスをオフにすると、出力が1行になります。
[tStatCatcher Statistics] (tStatCatcher統計)	このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。

プロパティ

説明

[Advanced options for INDEX rules] (インデックスルールの詳細オプション)

- [Search UNDEFINED fields] (未定義フィールドを検索): コンポーネントを使ってインデックス実行結果内で未定義のトークンを検索する場合は、このチェックボックスをオンにします。

- [Word distance for partial match] (部分一致の単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数を設定します。デフォルト値は1です。

- [Max edits for fuzzy match] (ファジーマッチングの最大編集数) (レーベンシュタインアルゴリズムに基づいており、あいまいモードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離2では、最大2つの挿入、削除、または置換を行うことができます。各一致のスコアは、その用語の編集距離に基づいています。

[Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。

注: 以前のリリースからTalend Studioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)が[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。

Output format (出力形式)

-XML: このオプションはデフォルトで選択されています。正規化されたデータをXML形式で出力します。

-JSON: このオプションを選択すると、正規化されたデータがJSON形式で出力されます。

-XML: このオプションはデフォルトで選択されています。複数行に出力できます。このチェックボックスをオフにすると、出力が1行になります。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。

グローバル変数

変数	説明
グローバル変数	ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。変数の詳細は、コンテキストと変数を使用をご覧ください。

変数

説明

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用方法のガイダンス	説明
使用ルール	このコンポーネントは、中間ステップです。入力フロート出力フローが必要になります。このコンポーネントは、[Repository] (リポジトリー)ツリービューの[Routines] (ルーチン)ノードにJavaコードを生成します。このコードは、ルールで定義された文法を実装します。コンポーネントによって使われるように自動的にコンパイルされます。ルールを変更/追加/削除する場合は、ジョブが変更を考慮に入れて実行可能になるように、コードを再度生成する必要があります。これを生成するには、[Generate parser code in Routines] (ルーチンでのパーサーコードの生成)ボタンをクリックします。
[Connections] (接続)	外部リンク(このコンポーネントから別のコンポーネントへのリンク): [Row] (行): メイン、リジェクト [Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。受信リンク(あるコンポーネントからこのコンポーネントへのリンク): [Row] (行): メイン、リジェクト接続の詳細は、ジョブにおける接続の使い方をご覧ください。

使用方法のガイダンス

説明

使用ルール

このコンポーネントは、中間ステップです。入力フロート出力フローが必要になります。

このコンポーネントは、[Repository] (リポジトリー)ツリービューの[Routines] (ルーチン)ノードにJavaコードを生成します。このコードは、ルールで定義された文法を実装します。コンポーネントによって使われるように自動的にコンパイルされます。

ルールを変更/追加/削除する場合は、ジョブが変更を考慮に入れて実行可能になるように、コードを再度生成する必要があります。

これを生成するには、[Generate parser code in Routines] (ルーチンでのパーサーコードの生成)ボタンをクリックします。

[Connections] (接続)

外部リンク(このコンポーネントから別のコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

[Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。

受信リンク(あるコンポーネントからこのコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

接続の詳細は、ジョブにおける接続の使い方をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください