マッチングモデルを改善
tMatchModelコンポーネントの設定を変更することで、マッチングモデルを改善できます。
結果はデータベースに依存するため、理想的な設定はありません。パラメーターの設定を変えるとモデルのクオリティが向上する場合があることを示すのが、次のテストの目的です。
- サイト名
- 住所
- 以前のデータのソース
これらのテストを実行するために、次の方法が適用されました: パラメーターは一度に1つずつ異なる設定をしました。モデルのクオリティが向上した場合、その設定を保持し、別のパラメーターの設定を変えました。これは、パラメーターがモデルにどのように影響するかを確認するのに適した方法です。
設定のみを変更しました。ヒートマップの分析でテストしたように、マッチングキーを変更するとモデルのクオリティに影響します。AddressとSite nameをマッチングキーに設定しました。
パラメーターの詳細は、Apache Spark BatchのtMatchModelプロパティの説明をご覧ください。
複数のジョブを実行した後、最高のモデルクオリティは0.942となっています。
[Parameters] (パラメーター) | 参照設定 | テスト済みの設定 | モデルのクオリティが向上した設定 |
---|---|---|---|
[Number of trees range] (ツリー数の範囲) 1 | 5から15 |
5〜20、5〜30、5〜50、5〜100 |
5~30、5~50、または5~100 |
[Subsampling Rate] (サブサンプリングレート) | 1.0 | 0.5 | 1.0 |
[Impurity] (混合) | Gini | [Entropy] (エントロピー) | [Entropy] (エントロピー) |
[Max Bins] (最大ビン) | 32 | 15と79 | 79 |
[Subset strategy] (サブセット戦略) | [auto] (自動) | すべて([auto] (自動)、[all] (すべて)、sqrt、およびlog2) | [auto] (自動) |
[Min Instances per Node] (ノードあたりの最小インスタンス) | 1 | 3と10 | 1 |
1ハイパーパラメーター(ツリーの数とツリーの深さ)の範囲が大きいほど、ジョブの継続時間が長くなります。 |
[Evaluation metric type] (評価メトリックタイプ) パラメーターは変更されていません。F1に設定されたままです。計算は評価メトリックタイプごとに異なるため、これらのサンプルではこの設定の変更は関係ありません。
テスト中、特定の1つの設定によってモデルのクオリティが0.917から0.942に向上することはなく、複数の設定の組み合わせによって向上しました。
上記の結果は、特定のデータベースに該当するものです。データベースによっては、上記のように設定を変更しても同じ影響が得られるとは限りません。上記のサンプルを挙げたのは、モデルのクオリティが満足のいくものであっても、他の設定を試してマッチングモデルを改善できる場合があることを示すためです。