メイン コンテンツをスキップする
補完的コンテンツへスキップ
Qlik.com
Community
Learning
Qlik リソース
日本語 (変更)
Deutsch
English
Français
日本語
中文(中国)
閉じる
ドキュメント
クラウド
Client-Managed
追加のドキュメント
クラウド
Qlik Cloud
ホーム
紹介
Qlik Cloud の新機能
Qlik Talend Cloud について
分析
データ統合
管理
自動化
開発
他のクラウド ソリューション
Talend Cloud
Talend API Portal
Stitch
Upsolver
Client-Managed
クライアント管理 — 分析
管理者向け
Qlik Sense
開発者向け
Qlik Sense
Qlik NPrinting
Connectors
Qlik GeoAnalytics
Qlik Alerting
ユーザーと管理者向けの
QlikView
開発者向け
QlikView
Governance Dashboard
クライアント管理 — データ統合
Qlik Replicate
Qlik Compose
Qlik Enterprise Manager
Qlik Gold Client
Qlik Catalog
NodeGraph (legacy)
Talend Studio
Talend ESB
Talend Administration Center
Talend Data Catalog
Talend Data Preparation
Talend Data Stewardship
追加のドキュメント
追加のドキュメント
Qlik ドキュメンテーション アーカイブ
Talend ドキュメンテーション アーカイブ
Qlik Talend 製品のヘルプを検索
オンボーディング
分析を開始
分析ユーザーのオンボーディング
Qlik Sense で分析を開始
Qlik Cloud Analytics Standard の管理
Qlik Cloud Analytics Premium および Enterprise の管理
Qlik Sense
Business
の管理
Qlik Sense
Enterprise SaaS
の管理
Qlik Cloud Government を管理
Windows 上の
Qlik Sense
Enterprise
の管理
ビデオ
移行センター
評価ガイド
Qlik リソース
Qlik ヘルプに移動
日本語 (変更)
Deutsch
English
Français
日本語
中文(中国)
検索
SearchUnify の検索をロード中
製品に関するサポートが必要な場合は、Qlik Support にお問い合わせください。
Qlik Customer Portal
メニュー
閉じる
SearchUnify の検索をロード中
製品に関するサポートが必要な場合は、Qlik Support にお問い合わせください。
Qlik Customer Portal
こちらにフィードバックをお寄せください
Talendツールを使ってデータマッチング
機械学習を使ってマッチング
シナリオ
ソースデータの疑わしいペアと疑わしいサンプルを計算
疑わしい重複、厳密な重複、ユニーク行の計算
このページ上
手順
手順
tFileInputDelimited
をダブルクリックして
[Basic settings] (基本設定)
ビューを表示し、コンポーネントのプロパティを定義します。
[Sync columns] (カラムを同期)
をクリックし、入力コンポーネントで定義されているスキーマを取得します。
[Blocking Key] (ブロッキングキー)
テーブルで、
[+]
ボタンをクリックして行を追加します。ブロッキングキーとして使用するカラム(この例では
Site_name
)を選択します。
ブロッキングキーは中央の名前から構成され、レコードのペアのグルーピングに使われるサフィックスを生成するために使用されます。
サフィックス配列ブロックパラメーター
セクション:
[Min suffix length] (最小サフィックス長さ)
フィールドに、各グループ内で到達または停止する最小サフィックスの長さを設定するために使われます。
[Max block size] (最大ブロックサイズ)
フィールドに、各ブロックに含めるレコードの最大数を設定します。これは、サフィックスが頻出する大きなブロックでデータをフィルタリングするのに役立ちます。
[Folder] (フォルダー)
フィールドで、ペアリングモデルファイルを生成するローカルフォルダーへのパスを設定するために使われます。
特定のファイルシステム(S3またはHDFSなど)にモデルを保存する場合は、ジョブで対応するコンポーネントを使用し、コンポーネントの基本設定で
[Define a storage configuration component] (ストレージ設定コンポーネントを定義)
チェックボックスをオンにする必要があります。
[Advanced settings] (詳細設定)
をクリックし、以下のパラメーターを設定するために使われます。
[Filtering threshold] (しきい値フィルタリング)
フィールドに、0.2〜0.85の値を入力して、計算されたスコアに基づいて疑わしいレコードのペアをフィルタリングします。
この値はあまり類似していないペアを除外するのに役立ちます。値が高いほど、レコードはより類似します。
ジョブの実行ごとに異なるサンプルを生成する場合は、
[Set a random see] (ランダムなシードを設定)
チェックボックスをオフのままにします。
[Number of pairs]
ペアの数フィールドで、生成する疑わしいペアサンプルのサイズを入力します。
Talend Data Stewardship
で設定されている場合は、コミットごとにロードするタスクの最大数を
[Max tasks per commit] (コミットごとの最大タスク数)
フィールドに入力します。
Talend Data Stewardship
のバッチサイズに制限はありません(オンプレミス)。ただし、
Talend Cloud Data Stewardship
のコミットごとに200タスクを超過しないようにしてください。そうしないとジョブは失敗します。
このページは役に立ちましたか?
このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。
こちらにフィードバックをお寄せください
前のトピック
入力コンポーネントを設定
次のトピック
疑わしいペア、疑わしいサンプル、およびユニーク行を書き込む出力コンポーネントの設定