Département Traitement Automatique des Langues (TAL)
Logo TAL Logo

Tokenizers à bases de règles

(Rule-based tokenizers)

Auteur : Pierre Mercuriali

La tokenization est la conversion d'un texte (une grosse unité de langage) en unités plus petites (caractères, mots, etc.) en vue de leur traitement automatique. Les tokenizers de cette page fonctionnent à partir des règles suivantes :

  • Séparation par espaces
  • Séparation par espaces, et par les symboles de ponctuation ’'.,;?!"()-«»
  • Séparation à l'aide de l'expression régulière ("regex") \w+(?:'\w+)?|[^\w\s]

Le but de cette page est de tester ces différentes règles, de les comparer, de voir où elles fonctionnent, et où elles ne fonctionnent pas.

Revenir à la borne d'arcade


Espaces

Espaces + ponctuation

Regex