Filtre bayésien

Définition - Que signifie le filtre bayésien?

Un filtre bayésien est un programme informatique utilisant la logique bayésienne ou l'analyse bayésienne, qui sont des termes synonymes. Il est utilisé pour évaluer l'en-tête et le contenu des e-mails et déterminer s'il s'agit ou non de spam - e-mail non sollicité ou l'équivalent électronique du courrier électronique en masse ou du courrier indésirable). Un filtre bayésien est mieux utilisé avec les programmes anti-virus.

Definir Tech explique le filtre bayésien

Un filtre bayésien fonctionne avec des probabilités de mots spécifiques apparaissant dans l'en-tête ou le contenu d'un e-mail. Certains mots indiquent une forte probabilité que l'e-mail soit du spam, comme le Viagra et le refinancement. Le filtre ne commence pas par connaître la probabilité qu'un mot indique une forte probabilité de spam. Les utilisateurs doivent identifier manuellement l'e-mail comme spam. Lorsque suffisamment d'occurrences du mot sont trouvées et que l'e-mail est identifié comme spam, le filtre bayésien «apprend» à identifier le mot à l'aide des fonctions de vraisemblance. Il fait la même chose avec de nombreux autres mots et expressions. Au fil du temps, le filtre bayésien devient de plus en plus efficace pour identifier le spam pour un utilisateur particulier. Lorsque la probabilité atteint un certain seuil, tel que 95%, l'e-mail est identifié comme spam et souvent déplacé vers un dossier indésirable (ou parfois même supprimé automatiquement). L'utilisateur peut le consulter périodiquement et décider de le supprimer ou non. Alternativement, certains programmes de spam le déplaceront vers un emplacement de quarantaine où les utilisateurs peuvent afficher l'e-mail et examiner la décision du logiciel.

La «formation» initiale peut souvent être affinée pour réduire les faux positifs ou les faux négatifs lorsque de mauvais jugements sont trouvés. Cela permet au filtre bayésien du logiciel de s'adapter à la nature en constante évolution du spam.

Certains filtres anti-spam utilisent également l'heuristique avec le filtre bayésien. Des règles prédéfinies sont configurées par l'utilisateur pour augmenter encore la précision de l'identification des e-mails comme spam. Ces règles peuvent impliquer le nombre d'occurrences d'un mot donné, éliminer ou ignorer des mots neutres comme "le", "un" ou "certains" ou identifier des séquences d'œuvres telles que "Viagra est bon pour", par opposition à l'application d'une vraisemblance fonction des quatre mots individuels.

Les spammeurs peuvent utiliser une technique appelée empoisonnement bayésien pour dégrader l'efficacité des filtres anti-spam utilisant le filtrage bayésien. Certaines techniques incluent l'injection de texte légitime à partir de nouvelles ou de sources littéraires, l'utilisation de mots inoffensifs aléatoires rarement trouvés dans le spam ou même le remplacement du texte par des images.

De nombreux clients de messagerie désactivent l'affichage des images pour des raisons de sécurité. Ainsi, le spam peut atteindre moins de destinataires.

Un filtre bayésien utilisant la logique bayésienne peut être utilisé pour classer tout type de données. La médecine, la science et l'ingénierie ont toutes trouvé des utilisations. Fait intéressant, les chercheurs scientifiques ont émis l'hypothèse que même le cerveau humain peut utiliser la méthodologie de la logique bayésienne pour classer les stimuli et déterminer des comportements de réponse spécifiques.