Sur-échantillonnage et sous-échantillonnage

L'exploration et l'analyse de données utilisent le sur-échantillonnage et le sous-échantillonnage pour ajuster des classes de données inégales et créer des ensembles de données équilibrés. Également connu sous le nom de "rééchantillonnage", le suréchantillonnage et le sous-échantillonnage peuvent être utilisés pour modifier les classes de données. Cette analyse des données est souvent plus précise que les données du monde réel. Par exemple, des ajustements de données peuvent être effectués afin de fournir des matériaux d'entraînement équilibrés pour les algorithmes d'IA et d'apprentissage automatique. Les techniques de sur-échantillonnage et de sous-échantillonnage sont notamment utilisées dans le cadre d'enquêtes. Un échantillon de population peut être déséquilibré en termes de types de participants, ce qui peut décourager la population plus large que l'enquête est censée étudier. En utilisant le sur- ou le sous-échantillonnage, les ratios des caractéristiques étudiées, comme le sexe, le groupe d'âge et l'origine ethnique, peuvent être utilisés pour rendre le poids des données plus représentatif des ratios du groupe au sein des populations plus importantes. Sur-échantillonnage ou sous-échantillonnage Le sur-échantillonnage peut être utilisé lorsqu'une classe de données est sous-représentée dans l'échantillon, afin de s'assurer que les résultats sont reproduits pour des résultats de formation plus positifs. Lorsque les données ne sont pas suffisantes, le sur-échantillonnage peut être utilisé. La technique de suréchantillonnage la plus populaire est la SMOTE (Synthetic Majority Over-sampling Technique), par laquelle un échantillonnage aléatoire de caractéristiques provenant de la classe des minorités crée des échantillons synthétiques. A l'inverse, si une classe de données est la classe majoritaire surreprésentée, un sous-échantillonnage peut être utilisé pour l'équilibrer avec la classe minoritaire. Le sous-échantillonnage est utilisé lorsque la quantité de données collectées est suffisante. Les centroïdes de grappes ou les liens de Tomek sont des méthodes courantes de sous-échantillonnage. Celles-ci relient les caractéristiques de chevauchement potentiel dans l'ensemble des données pour diminuer la majorité des données. Dans le suréchantillonnage comme dans le sous-échantillonnage, la simple duplication des données est rarement suggérée. En général, le sur-échantillonnage est préférable car le sous-échantillonnage peut entraîner la perte de données importantes. Le sous-échantillonnage est suggéré lorsque la quantité de données collectées est supérieure à la quantité idéale et peut aider les outils d'exploration de données à rester dans les limites de ce qu'ils peuvent traiter efficacement.

Vous pouvez également être intéressé

Erreur d’échantillonnage Une erreur d'échantillonnage est un problème dans la façon dont les membres d'une population sont sélectionnés pour la recherche ou la collecte de données, ce qui a un impact sur la validité des résultats. Une erreur d'échantillonnage est la différence entre les résultats de l'échantillon et ceux de la population...
Sous-réseau (sous-réseau) Définition - Que signifie le sous-réseau (sous-réseau)? Un sous-réseau (sous-réseau) est une partie distincte et identifiable du réseau d'une organisation, généralement un réseau local (LAN) composé de toutes les machines d'un étage, d'un bâtiment ou d'un emplacement géographique. Le fait d'avoir plusieurs sous-réseaux permet à une organisation d'être connectée à...