Paramétrer les hyper-paramètres et utiliser la validation croisée à k plis afin d'améliorer le modèle de rapprochement
Test du modèle en utilisant la technique de la validation croisée à k plis
La technique de la validation croisée à k plis consiste en une évaluation de la performance du modèle sur un jeu de données indépendant.
Pour tester le modèle, le jeu de données est partitionné en k sous-ensembles et l'algorithme Random forest est exécuté k fois :
- À chaque itération, l'un des k sous-ensemble est utilisé comme jeu de validation et les k-1 sous-ensembles restants sont utilisées comme jeu d'entraînement.
- Un score pour chacune des k exécutions est calculé, une moyenne de scores obtenues est calculée afin de pouvoir calculer le score global.
Paramétrer les hyper-paramètres de l'agorithme Random forest en utilisant la recherche dans une grille (grid search)
Vous pouvez définir des valeurs pour les deux hyper-paramètres de l'algorithme Random forest :
- Le nombre d'arbres de décision
- La profondeur maximale d'un arbre de décision
Afin d'améliorer la qualité du modèle et de paramétrer les hyper-paramètres, la recherche dans la grille construit des modèles pour chaque combinaison des valeurs des deux hyper-paramètres de l'algorithme Random forest, dans les limites que vous avez définies.
Par exemple :
- Le nombre d'arbres est compris entre 5 et 50 avec un intervalle de 5; et
- la profondeur d'un arbre est comprise entre 5 et 10 avec un intervalle de 1.
Dans cet exemple, il y aura 60 combinaisons différentes (10 × 6).
Seule la meilleure combinaison de valeurs des deux hyper-paramètres sera retenue. Cette mesure sera reportée lors de la validation croisé à k plis.