Tokenization

Définition - Que signifie la tokenisation?

La tokenisation consiste à diviser une séquence de chaînes en morceaux tels que des mots, des mots clés, des phrases, des symboles et d'autres éléments appelés jetons. Les jetons peuvent être des mots individuels, des phrases ou même des phrases entières. Lors du processus de tokenisation, certains caractères comme les signes de ponctuation sont supprimés. Les jetons deviennent l'entrée pour un autre processus comme l'analyse et l'exploration de texte.

La tokenisation est utilisée en informatique, où elle joue un grand rôle dans le processus d'analyse lexicale.

Definir Tech explique la tokenisation

La tokénisation repose principalement sur des heuristiques simples afin de séparer les jetons en suivant quelques étapes:

  • Les jetons ou les mots sont séparés par des espaces, des signes de ponctuation ou des sauts de ligne
  • Des espaces blancs ou des signes de ponctuation peuvent ou non être inclus en fonction des besoins
  • Tous les caractères dans les chaînes contiguës font partie du jeton. Les jetons peuvent être composés de tous les caractères alphabétiques, alphanumériques ou numériques uniquement.

Les jetons eux-mêmes peuvent également être des séparateurs. Par exemple, dans la plupart des langages de programmation, les identificateurs peuvent être placés avec des opérateurs arithmétiques sans espaces blancs. Bien qu'il semble que cela apparaisse comme un mot ou un jeton unique, la grammaire de la langue considère en fait l'opérateur mathématique (un jeton) comme un séparateur, donc même lorsque plusieurs jetons sont regroupés, ils peuvent toujours être séparés via la méthode mathématique opérateur.