メイン コンテンツをスキップする
補完的コンテンツへスキップ
Qlik.com
Community
Learning
日本語 (変更)
Deutsch
English
Français
日本語
中文(中国)
閉じる
ドキュメント
Qlik Talend ドキュメンテーション
リリース ノート
インストールとアップグレード
データ統合
管理と実行
データ品質とガバナンス
アプリケーションと API 統合
追加のリソース
API ドキュメンテーション ポータル
セキュリティ ポータル
Talend アーカイブ
Qlik ヘルプ
Getting Started
Getting started with Talend cloud
Talend Cloud
Talend Cloud API Designer
Talend Cloud Data Inventory
Talend Cloud Data Preparation
Talend Cloud Data Stewardship
Talend Cloud Pipeline Designer
Talend Cloud API Services Platform
Getting started with Talend on premises
Talend Data Fabric
Talend Data Preparation
Talend Data Stewardship
Qlik ヘルプに移動
日本語 (変更)
Deutsch
English
Français
日本語
中文(中国)
検索
ヘルプを検索
メニュー
閉じる
ヘルプを検索
こちらにフィードバックをお寄せください
Talendツールを使ってデータマッチング
機械学習を使ってマッチング
シナリオ
ソースデータの疑わしいペアと疑わしいサンプルを計算
疑わしい重複、厳密な重複、ユニーク行の計算
このページ上
手順
手順
tFileInputDelimited
をダブルクリックして
[Basic settings] (基本設定)
ビューを表示し、コンポーネントのプロパティを定義します。
[Sync columns] (カラムを同期)
をクリックし、入力コンポーネントで定義されているスキーマを取得します。
[Blocking Key] (ブロッキングキー)
テーブルで、
[+]
ボタンをクリックして行を追加します。ブロッキングキーとして使用するカラム(この例では
Site_name
)を選択します。
ブロッキングキーは中央の名前から構成され、レコードのペアのグルーピングに使われるサフィックスを生成するために使用されます。
サフィックス配列ブロックパラメーター
セクション:
[Min suffix length] (最小サフィックス長さ)
フィールドに、各グループ内で到達または停止する最小サフィックスの長さを設定するために使われます。
[Max block size] (最大ブロックサイズ)
フィールドに、各ブロックに含めるレコードの最大数を設定するために使われます。これは、サフィックスが頻出する大きなブロックでデータをフィルタリングするのに役立ちます。
[Folder] (フォルダー)
フィールドで、ペアリングモデルファイルを生成するローカルフォルダーへのパスを設定するために使われます。
特定のファイルシステム(S3またはHDFSなど)にモデルを保存する場合は、ジョブで対応するコンポーネントを使用し、コンポーネントの基本設定で
[Define a storage configuration component] (ストレージ設定コンポーネントを定義)
チェックボックスをオンにする必要があります。
[Advanced settings] (詳細設定)
をクリックし、以下のパラメーターを設定するために使われます。
[Filtering threshold] (しきい値フィルタリング)
フィールドに、0.2〜0.85の値を入力して、計算されたスコアに基づいて疑わしいレコードのペアをフィルタリングします。
この値はあまり類似していないペアを除外するのに役立ちます。値が高いほど、レコードはより類似します。
ジョブの実行ごとに異なるサンプルを生成する場合は、
[Set a random see] (ランダムなシードを設定)
チェックボックスをオフのままにします。
[Number of pairs]
ペアの数フィールドで、生成する疑わしいペアサンプルのサイズを入力します。
Talend Data Stewardship
で設定されている場合は、コミットごとにロードするタスクの最大数を
[Max tasks per commit] (コミットごとの最大タスク数)
フィールドに入力します。
Talend Data Stewardship
のバッチサイズに制限はありません(オンプレミス)。ただし、
Talend Cloud Data Stewardship
のコミットごとに200タスクを超過しないようにしてください。そうしないとジョブは失敗します。
このページは役に立ちましたか?
このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。
こちらにフィードバックをお寄せください
前のトピック
入力コンポーネントを設定
次のトピック
疑わしいペア、疑わしいサンプル、およびユニーク行を書き込む出力コンポーネントの設定