tFuzzyUniqRow
定義済みの照合方法を使用して入力フローのカラムを比較し、検出された重複を収集します。
デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。
tFuzzyUniqRowの標準プロパティ
これらのプロパティは、標準ジョブのフレームワークで実行されているtFuzzyUniqRowを設定するために使われます。
標準のtFuzzyUniqRowコンポーネントは、データクオリティファミリーに属しています。
このコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real-Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。
基本設定
| プロパティ | 説明 |
|---|---|
|
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
|
|
カラム |
入力フロー内のすべてのカラムのリスト。 |
|
[Key Attribute] (キー属性) |
確認するカラムの横にあるチェックボックスをオンにします。 |
|
[Matching type ] (マッチングタイプ) |
関連するマッチングアルゴリズムをリストから選択します。 [Exact Match] (完全マッチング): 処理された各エントリーを、まったく同じ値を持つすべての可能な参照エントリーにマッチングさせます。 Levenshtein: 編集距離理論に基づきます。参照エントリーとマッチングするエントリーに必要な挿入、削除、置換の回数を計算します。 [Metaphone] (メタフォン):発音によるエントリーの索引付けのための音声アルゴリズムに基づいています。ルックアップ参照のすべてのエントリーの発音をロードし、メインフローのすべてのエントリーを参照フローのエントリーに対してチェックします。 漢字はサポートしていません。 [Double Metaphone] (二重メタフォン): 音声アルゴリズムの新しいバージョン。元のアルゴリズムよりも正確な結果をもたらすメタフォン。文字列のプライマリーコードとセカンダリーコードの両方を返すことができます。これはあいまいなケースや共通の系統を持つ姓の複数のバリエーションに対応しています。 漢字はサポートしていません。 |
|
[Min. Distance] (最小距離) |
Levenshteinのみ参照とマッチングするために許可される変更の最小数を設定します。0に設定すると、[Exact Match] (完全マッチング)のみが返されます。 |
|
[Max. Errors] (最大エラー数) Distance] (最大距離) |
Levenshteinのみ参照とマッチングするために許可される変更の最大数を設定します。 |
詳細設定
| プロパティ | 説明 |
|---|---|
|
[tStat Catcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。 |
グローバル変数
| 変数 | 説明 |
|---|---|
|
グローバル変数 |
NB_UNIQUES: 一意の行の数。これはAfter変数で、整数を返します。 NB_DUPLICATES: 重複行の数。これはAfter変数で、整数を返します。 ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。 変数の詳細は、コンテキストと変数を使用をご覧ください。 |
使用方法
| 使用方法のガイダンス | 説明 |
|---|---|
|
使用ルール |
このコンポーネントは、起動可能(緑色の背景)ではなく、1つの入力コンポーネントと2つの出力コンポーネントが必要です。 |