La loi de Zipf

La loi de Zipf est une distribution statistique dans certains ensembles de données, comme les mots d'un corpus linguistique, dans laquelle les fréquences de certains mots sont inversement proportionnelles à leur rang. Nommée d'après le linguiste George Kingsley Zipf, qui, vers 1935, a été le premier à attirer l'attention sur ce phénomène, la loi examine la fréquence des mots dans le langage naturel et comment le mot le plus fréquent apparaît deux fois plus souvent que le deuxième mot le plus fréquent, trois fois plus souvent que le mot suivant et ainsi de suite jusqu'au mot le moins fréquent. Le mot le plus fréquent apparaît en position n 1/n fois plus souvent que le mot le moins fréquent. La courbe logarithmique se forme lorsque les mots sont classés selon leur fréquence dans de grandes quantités de texte. (Le mot le plus courant en anglais est "the", qui apparaît environ un dixième du temps dans un texte typique ; le mot suivant le plus courant (rang 2) est "of", qui apparaît environ un vingtième du temps. Dans ce type de distribution, la fréquence diminue fortement à mesure que le rang augmente, de sorte qu'un petit nombre d'éléments apparaît très souvent et qu'un grand nombre apparaît rarement. Une distribution Zipfienne des mots est universelle dans le langage naturel : On la retrouve aussi bien dans le discours des enfants de moins de 32 mois que dans le vocabulaire spécialisé des manuels universitaires. Des études montrent que ce phénomène s'applique également à presque toutes les langues.

Individuellement, ni la syntaxe ni la sémantique ne sont suffisantes pour induire une distribution Zipfienne à elles seules. Cependant, la syntaxe et la sémantique fonctionnent ensemble pour une distribution Zipfienne.

Vous pouvez également être intéressé
  1. Loi d’harmonisation de la technologie, de l’éducation et du droit d’auteur de 2001 (loi sur l’enseignement ou article 487) Définition - Que signifie la loi d'harmonisation de la technologie, de l'éducation et du droit d'auteur de 2001 (loi TEACH ou S.487)? La loi de 2001 sur l'harmonisation de la technologie, de l'éducation et du droit d'auteur (TEACH Act ou S.487) est une loi qui révise la loi fédérale américaine...
  2. Loi sur les attachés de propriété intellectuelle (loi sur les attachés de propriété intellectuelle) (ippa) Définition - Que signifie Intellectual Property Attache Act (IP Attache Act) (IPPA)? La loi sur l'attaché de propriété intellectuelle (IP Attaché Act ou IPPA) est un nouveau projet de loi anti-piratage introduit le 9 juillet 2012. Le texte actuel de l'IPPA prévoit que la surveillance du programme d'attaché des droits...

Ce n'est que récemment que la loi de Zipf a été testée de manière rigoureuse sur des bases de données suffisamment importantes pour en assurer la validité statistique. Le Centre de Recerca Matematica fait partie du réseau CERCA du gouvernement catalan. Il est lié au département de mathématiques de l'Universitat Autonoma de Barcelona. Les chercheurs ont analysé tous les textes en langue anglaise du Projet Gutenberg. Cette base de données gratuite contient plus de 30 000 ouvrages. Lorsque les mots les plus rares étaient laissés de côté, la loi de Zipf s'appliquait à plus de la moitié des mots. Cette loi peut être appliquée à d'autres domaines que la littérature. Des distributions Zipfiennes ont été trouvées dans les classements de la population de différents pays, la taille des entreprises, les classements des revenus, et les classements des téléspectateurs d'une même chaîne de télévision.

  1. Loi sur les technologies de l’information sur la santé pour la santé économique et clinique (loi hitech) Définition - Que signifie la loi sur les technologies de l'information sur la santé pour la santé économique et clinique (loi HITECH)? Le Health Information Technology for Economic and Clinical Health Act (HITECH Act) est un texte législatif promulgué par le gouvernement américain pour promouvoir et appliquer l'utilisation des technologies...
  2. Loi de 2008 portant modification de la loi sur les technologies de l’information (LTI 2008) Qu'est-ce que la loi de 2008 portant modification de la loi sur les technologies de l'information ? La loi indienne sur les technologies de l'information de 2000 (ITA-2000) a été largement modifiée par la loi de 2008 portant modification de la loi sur les technologies de l'information (IT Act 2008)....