Actes des Journées "Dictionnaires électroniques des XVIe-XVIIe s.", Clermont-Ferrand, 14-15 juin 1996 | G. Proust, M. Bellot-Antony & G. Demerson, "Des textes aux dictionnaires des XVIe-XVIIe s." |
Remarque: il convient d'apporter, à propos de ce que nous nommons "finale", quelques précisions complémentaires.
La "finale" est choisie dans une liste de graphies associée à une catégorie grammaticale, l'important, pour l'ordinateur, étant que ces graphies permettent au minimum de caractériser les marques de conjugaison et de flexion. Pour éviter la constitution d'une liste trop difficile à maîtriser. et après avoir effectué un recensement sur un échantillon représentatif, nous avons choisi:
Ce découpage, certes sans grande originalité dans la pratique informatique, ne correspond pas toujours aux descriptions linguistiques traditionnelles reconnues mais il s'est révélé efficace pour une représentation informatisée. Il permet, en particulier, de retrouver très rapidement toutes les interprétations grammaticales potentielles d'une graphie.
Il fallait évidemment pouvoir en rendre compte sous leurs formes les plus diverses. Pour cela, et en application de notre principe général de découpage, nous avons convenu de définir les formes hétérographiques d'un mot par l'ensemble des possibilités de combinaisons des hétérographes de sa base avec l'ensemble des hétérographes de la finale.
Par exemple, aimois et amoys sont liés par le lien hétérographique de leurs bases respectives (aim-/am-) et par le lien hétérographique de leurs finales (1ère pers. du sing. de l'imparfait de l'indicatif des verbes réguliers en -er: -ois/-oys).
Toutes les combinaisons n'étant évidemment pas possibles, l'ensemble des formes d'un mot est en fait constitué par les hétérographes de sa base auxquels on associe les finales autorisées, avec leurs hétérographes, pour un type de conjugaison ou de flexion donné.
Par exemple, dans le verbe aimer, les bases {aim/am} se combinent avec les terminaisons des verbes réguliers en -er {er, e, es, ..., ois/oys/oy, ..., erois/eroys, ...}; tandis que dans l'adjectif aigu, les bases {aig/ag} se joignent aux terminaisons des adjectifs dont la flexion est du type -u {u, us, ue/uë, uës/ues}.
Dans tous les cas, le lien avec les entrées de dictionnaires est obtenu simplement en choisissant parmi les hétérographes une graphie commune à l'analyseur morphologique et aux entrées de dictionnaires.
1.2.2. Mots à radical variable
Il peut se faire qu'une variante dans la "base" ou radical d'un mot intervienne au cours de sa conjugaison ou de sa flexion.
C'est le cas, par exemple, de verbes dits irréguliers où telle base est liée à telle forme temporelle et donc à telle désinence spécifique: ainsi, pour le verbe absoudre où la base absoud peut se lier aux désinences du futur {ray, ras, ra, ..., ront} et non aux désinences de l'imparfait de l'indicatif {ois, ois, oit, ..., oient} qui, elles, se rencontrent avec la base absolv-.
C'est aussi le cas d'adjectifs ou de substantifs dont la flexion est dite faire exception comme blanc/blanche et oeil/yeux; et également celui de certains substantifs ou adjectifs composés, dans lesquels la marque du nombre se trouve exceptionnellement au milieu du mot: gentilhomme/gentilshommes.
Pour ces types d'exemples, il est nécessaire d'enregistrer toutes les variations des bases des mots ainsi que leurs hétérographies correspondantes et de relier chacune aux types de flexions adéquats.
1.2.3. Les graphies exceptionnelles
Il est également souhaitable de repérer les graphies exceptionnelles, notamment dans le cas de régionalismes, voire d'erreurs grammaticales ou de coquilles. Si, par exemple, de telles finales exceptionnelles étaient appliquées à l'ensemble des bases possibles, elles pourraient donner lieu à une généralisation à partir de formes aberrantes ou à une confusion avec d'autres formes. Ainsi la conjugaison de l'hétérographe air du verbe haïr peut provoquer des confusions avec le verbe avoir: la forme ay pouvant ainsi être la 1ère pers. du sing. de l'indicatif présent du verbe haïr/air ou celle du verbe avoir.
L'analyseur permet de gérer des expressions figées constituées de plusieurs formes séparées par un espace blanc (ex: ce pendant ou au par avant). Le problème se situe au moment de leur reconnaissance dans le texte. Il peut être résolu de façon simple: nous avons ébauché une liste de ces cas (avec leurs hétérographes) et nous allons écrire un programme qui en repérera les occurrences dans le texte et qui remplacera les espaces par un caractère particulier sous contrôle de l'utilisateur.
1.3.1. La structure de la base de données lexicales telle que nous venons de la présenter permet d'enregistrer puis de résoudre des hétérographes, de repérer des homographes et de procéder ainsi à un début de lemmatisation du texte. Elle rend aussi possible, de manière complémentaire, la constitution de listes de conjugaisons ou de flexions pour tous les mots de la base de données.
Nous avons exclu de l'analyseur morphologique, les noms propres, les mots étrangers (patois compris), les abréviations, ainsi que les nombres en chiffres arabes. Dans les deux premiers cas, l'ajout d'un caractère spécial dans la phase de normation permet de distinguer ces formes des mots analysables. Les abréviations sont repérées de la même manière par un point d'abréviation accolé au mot.
1.3.2. Quant aux données actuellement enregistrées, elles se présentent ainsi: