Définition - Que signifie le surajustement?
Dans les statistiques et l'apprentissage automatique, le surajustement se produit lorsqu'un modèle tente de prédire une tendance des données trop bruyante. Le surajustement est le résultat d'un modèle trop complexe avec trop de paramètres. Un modèle surajusté est imprécis car la tendance ne reflète pas la réalité des données.
Definir Tech explique le surajustement
Un modèle surajusté est un modèle avec une ligne de tendance qui reflète les erreurs dans les données avec lesquelles il est entraîné, au lieu de prédire avec précision les données invisibles. Ceci est mieux vu visuellement avec un graphique de points de données et une ligne de tendance. Un modèle surajusté montre une courbe avec des points plus hauts et plus bas, tandis qu'un modèle correctement ajusté montre une courbe lisse ou une régression linéaire.
Le problème principal du surajustement est que le modèle a mémorisé efficacement les points de données existants plutôt que d'essayer de prédire à quel point les points de données seraient invisibles.
Le surajustement résulte généralement d'un nombre excessif de points d'entraînement. Il existe un certain nombre de techniques que les chercheurs en apprentissage automatique peuvent utiliser pour atténuer le surajustement, notamment la validation croisée, la régularisation, l'arrêt précoce, l'élagage, les priors bayésiens, l'abandon et la comparaison de modèles.