Technical Report: Adding Missing Words to Regular Expressions - Département Informatique et Réseaux Accéder directement au contenu
Rapport (Rapport Technique) Année : 2018

Technical Report: Adding Missing Words to Regular Expressions

Résumé

Regular expressions (regexes) are patterns that are used in many applications to extract words or tokens from text. However, even hand-crafted regexes may fail to match all the intended words. In this paper, we propose a novel way to generalize a given regex so that it matches also a set of missing (previously non-matched) words. Our method finds an approximate match between the missing words and the regex, and adds disjunctions for the unmatched parts appropriately. We show that this method can not just improve the precision and recall of the regex, but also that it generates much shorter regexes than baselines and competitors on various datasets. This report complements our paper at the PAKDD 2018 conference. [18] Rapport technique: Ajout de mots manquants aux expressions régulières Résumé Les expressions régulières (regex) sont des modèles utilisés dans de nombreuses applications pour extraire des mots ou des parties du texte. Cependant, même les regex faites à la main ne correspondent pas toujours à l'ensemble des mots prévus. Dans cet article, nous proposons une nouvelle façon de généraliser une expression régulière donnée afin qu'elle corresponde également à un ensemble de mots manquants (précédemment non reconnus). Notre méthode trouve une correspondance approximative entre les mots manquants et l'expression regulière, et ajoute des disjonctions pour les parties non recon-nues de façon appropriée. Nous montrons que cette méthode améliore la précision et le rappel de la regex, et aussi qu'elle génère des expressions re-gulières beaucoup plus courtes que l'approche naïve et que les algorithmes concurrents sur différents jeux de données. Ce rapport complète notre article soumis à la conférence PAKDD 2018. [18]
Fichier principal
Vignette du fichier
main-technical-report.pdf (235.15 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01745987 , version 1 (28-03-2018)
hal-01745987 , version 2 (15-06-2018)

Identifiants

  • HAL Id : hal-01745987 , version 2

Citer

Thomas Rebele, Katerina Tzompanaki, Fabian Suchanek. Technical Report: Adding Missing Words to Regular Expressions. [Technical Report] Telecom ParisTech. 2018. ⟨hal-01745987v2⟩
130 Consultations
340 Téléchargements

Partager

Gmail Facebook X LinkedIn More