Nous avons commencé, essentiellement dans les années 1980, par informatiser les ouvrages clés de chaque branche de la famille de dictionnaires que nous convenons d'appeler le corpus Estienne-Nicot. Les principales branches de ce corpus sont les suivantes: le Dictionarium, seu Latinae linguae Thesaurus (à partir de 1531), le Dictionarium Latinogallicum (1538-), le Dictionaire francoislatin (1539-), le Grand Dictionaire François-Latin (1593-) et le Thresor de la langue francoyse (1606-). [1]
Dans les années 1990, nous avons dirigé la saisie, la correction et la mise en ligne de deux éditions du Dictionnaire de l'Académie française: la première édition, de 1694, et la sixième édition, de 1835. [2]
Deux bases échantillons que nous avons créées seront également évoquées au cours de l'article: une Base échantillon critique des huit éditions complètes du Dictionnaire de l'Académie française (milieu-fin des années 1990) [3] et une Base échantillon des dictionnaires français anciens (avec le concours de plusieurs collaborateurs, fin des années 1990) [4].
Dans les paragraphes qui suivent, nous allons caractériser les problèmes que ces textes et leur informatisation nous ont posés et les procédures que nous avons adoptées. Nous finirons par quelques remarques sur la question de la valorisation informatique des textes anciens.
Caractéristiques des textes de la Renaissance sont les habitudes typographiques héritées de pratiques manuscrites. Il s'agit, d'une part, des abréviations faites pour respecter la justification à droite; nous en mentionnerons deux, fréquentes quoique occasionnelles dans les dictionnaires du XVIe siècle: un tilde sur une voyelle remplaçant une consonne nasale suivante (ex. cõptãt = comptant) et 9 pour us (ex. Efflux9). La perluette remplace systématiquement, dans les dictionnaires d'Estienne et de Nicot, le mot et (&, &c.), alors qu'en début de phrase on trouve toujours Et. Deux lettres connaissent des formes variables selon qu'elles sont en position non finale ou en position finale: le s non final est souvent représenté par un s long et dans les chiffres romains le i final est souvent représenté par un j (ex. viij). [5]
À part le cas cité ci-dessus, la lettre i est systématiquement employée pour nos modernes i et j. Les lettres u et v ont une distribution complémentaire: u en position non initiale, v en position initiale, V majuscule quelle qu'en soit la position; il ne s'agit donc pas de l'opposition phonétique moderne.
Du point de vue orthographique ou typographique, les textes d'Estienne et de Nicot sont, pour un oeil moderne, relativement simples par rapport aux livres de Meigret ou de Ramus, par exemple.
Lorsque nous considérons ces textes sous l'angle du genre, plusieurs aspects sont à noter. Bien que non le propre du dictionnaire, l'utilisation de plusieurs polices de caractères et de plusieurs alphabets est nécessaire pour démarquer les différents langues ou niveaux de discours. Chez Estienne et Nicot la règle générale veut que le romain dénote le latin et que l'italique dénote le français ou d'autres langues européennes modernes en usage (italien, espagnol, allemand, etc.); la mention de mots de langues modernes se fait généralement en caractères romains. Dans le Dictionnaire de l'Académie française monolingue, le romain marque essentiellement la mention (définitions, marques d'usage) et l'italique l'usage (exemples). Estienne et Nicot citent souvent des équivalents ou étymons grecs en caractères grecs; Nicot ajoute des citations en lettres grecques ou hébraïques dans ses commentaires encyclopédiques.
Au niveau des articles, il convient de noter une tendance générale à normer les mots sub voce, alors qu'ailleurs les mots sont simplement en usage. C'est ainsi, par exemple, qu'en 1549 Estienne commence l'article du mot SOUBZ par « Soubz, ou Soub »; la graphie soub, fréquente dans le Thesaurus de 1531, n'existe, dans le Dictionaire francoislatin et le Thresor, qu'une seule fois, comme vedette variante de soubz. Comme Nicot garde l'article d'Estienne plus ou moins tel quel, les graphies soubz et soub s'y retrouvent, mais uniquement sub voce; partout ailleurs, Nicot utilise les formes sous (surtout) et soubs. La première édition du Dictionaire francoislatin fait exception à l'opposition norme vs. usage puisque tout le français reflète l'usage d'Estienne, le français n'étant que la porte d'entrée pour retrouver le latin, langue cible du Dictionarium latinogallicum et du Dictionaire francoislatin de 1539. [6]
Si l'on peut dire que le mot-vedette joue le double rôle de vedette d'article et graphie dans les dictionnaires d'Estienne et de Nicot, il n'en va pas de même du Dictionnaire de l'Académie française. L'équation mot-vedette = graphie n'y est que fortuite, malgré ce qui est dit dans la préface (« Et si un mesme mot se trouve escrit dans le Dictionnaire de deux manieres differentes, celle dont il sera escrit en lettres Capitales au commencement de l'Article est la seule que l'Academie approuve. » Préface, 1694). Comme les vedettes sont imprimées en lettres capitales et que celles-ci font tomber certains signes diacritiques, la forme queue, donnée en vedette d'article (« QUEUE. s. f. »), ne correspond pas à l'orthographe du mot, qui partout ailleurs sub voce et dans le reste du texte s'écrit queuë ou queüe. [6]
Caractéristique aussi du genre est l'économie dictionnairique justifiée par la récurrence d'informations. Il y a des centaines ou des milliers de noms féminins ou de verbes transitifs, d'où des abréviations conventionnelles comme f. ou act. chez Nicot, s. f. ou v. a. chez l'Académie. Cette dernière pratique un autre type d'économie, non justifiée puisque seul le type est récurrent et non les mots abrégés: il s'agit de l'ellipse des féminins co-vedettes de formes masculines. La forme grenue n'est que virtuelle dans la première édition du Dictionnaire de l'Académie française: « GRENU, UE », alors qu'elle est explicite chez Estienne et Nicot: « Grenu, Granosus. / Pomme grenue, Malum granatum. ». [7]
La récursivité très grande en début d'article dans le Dictionarium latinogallicum (type « Agmen, agminis, pen. corr. n. g. Vne armee... », « Agricola, pe. cor. com. gen. Laboureur... ») ou chez l'Académie (type « CLOCHE. s. f. Instrument... », « CLOCHER. s. m. Bastiment... ») n'est jamais que partielle. Chez Nicot elle est bien défaillante: « Cloche, f. penac. Est vn instrument... », « Vn grand os de poisson de mer fait comme vn cor, & duquel l'on peut corner, & en font les graueurs des images, communéement dict, Porcelaine, Buccinum. » (entre PORC et PORCHE), « Lecta, Publicata, & registrata, Diploma... » (entre LEÇON et LECTEUR).
Un autre type de reproduction pratiquée pour les dictionnaires anciens, comme pour les dictionnaires modernes ou les oeuvres littéraires, consiste à transcrire le texte en le numérisant, ce qui réduit la taille des fichiers et, quand le texte est indexé en base de données, permet toutes sortes de lectures et d'interrogations. Le texte dévoile ainsi tous ses secrets, puisqu'il est en mode "plein texte". Le prix à payer pour cet accès optimisé est l'argent qu'il faut pour la quantité d'heures de saisie et de relecture et la haute compétence nécessaire pour assurer la qualité de ces deux étapes.
C'est la transcription, ou saisie textuelle, qui a été choisie pour les dictionnaires d'Estienne, de Nicot et de l'Académie. Sans entrer dans le détail des problèmes particuliers, nous pouvons dire que la relecture du Dictionarium latinogallicum d'Estienne et des deux éditions du Dictionnaire de l'Académie française a été relativement facile (haute qualité de la saisie et simplicité des textes), alors que celle du Thresor de Nicot, texte très complexe et variable sur le plan de la structure et sur celui du contenu, a été plutôt longue et pénible.
Le problème majeur que l'on doit affronter lors de la transcription est l'interférence du sens linguistique, cause de fautes de saisies difficiles à repérer dans la phase de relecture. Cette interférence n'intervient pas, bien entendu, lorsqu'on fait une saisie optique avec reconnaissance des caractères, mais cette dernière, qui pose d'autres types de problèmes, est inopérante devant les textes anciens, avec leurs lignes non droites, des caractères brisés ou qui se touchent, la largeur variable des caractères en italique, les signes diacritiques (notamment le tréma) que l'oeil nu voit parfois à peine.
Notre expérience nous a montré des solutions assez efficaces au problème de l'interférence du sens linguistique. Dans une saisie faite par des non-indoeuropéanophones, seule la forme, ou le signifiant linguistique, est présente; ce genre de saisie s'est avérée nettement supérieure aux transcriptions faites par des indoeuropéanophones. Lors de la relecture, nous avons trouvé deux façons d'évacuer le sens linguistique. Dans une relecture linéaire, on ne laisse l'oeil percevoir que les formes textuelles en faisant venir le sens linguistique d'ailleurs par un autre canal (l'oreille) et une autre source (la radio parlante des discussions); la radio de la BBC nous a rendu de grands services dans la relecture du texte numérisé du Thresor de Nicot. On peut aussi faire une relecture verticale des formes textuelles, mots graphiques, rangées par ordre alphabétique; le logiciel WordCruncher, permettant de passer directement de la forme au contexte, s'est montré très utile pour la relecture d'Estienne, Nicot et Académie. [8]
Une condition nécessaire pour faire une bonne rétroconversion informatique d'un dictionnaire ancien est une connaissance intime du texte. C'est ainsi, entre autres, que l'on reconnaît le ou les système(s) orthographique(s) de Robert Estienne, de Jean Nicot, de l'Académie de la fin du XVIIe siècle ou de celle de la première moitié du XIXe. Des textes comme le Dictionarium latinogallicum d'Estienne ou les dictionnaires de l'Académie étant sur ce plan assez simples, on peut choisir, lors de la relecture verticale (une fois faites les neutralisations dont il sera question dans la section 4), d'adopter une approche probabiliste: telle ou telle forme étant conforme au(x) système(s) d'Estienne/Académie, on l'accepte. C'est ainsi que nous avons procédé pour le Dictionnaire de l'Académie française. [8] La conformité orthographique se reflète en partie dans les fréquences (les hapax legomena sont toujours à contrôler). Le Thresor, combinaison des graphies d'Estienne, de Thierry, de Nicot et des multiples sources citées, exclut ce choix.
Cõptãt deviendra donc Comptant; Efflux9 sera changé en Effluxus; etc. remplacera &c.. VNIVERSEL et vniuersel deviendront respectivement UNIVERSEL et universel; IVRE sera désambiguïsé en JURE ou en IVRE, selon le contexte. La modernisation de i/j, u/v n'a été pratiquée dans les dictionnaires d'Estienne et de Nicot que pour les langues modernes, pas pour le latin (EQVVS et equus restent donc tels quels). Dans tous les dictionnaires à partir du milieu du XVIe siècle, la préposition à est réalisée par à en minuscule et par A en majuscule; l'informatisation actualise l'accent virtuel de la lettre majuscule (donc à et À). Du côté des chiffres arabes, le I romain, utilisé fâcheusement pour le 1, est remplacé par le chiffre arabe: I549 devient donc 1549. Bien qu'il ne s'agisse pas de variantes typographiques, mentionnons également la translittération de caractères hébreux ou grecs (ex. devient kibôtos).
L'incise dite typographique est utilisée pour la justification de la marge droite du codex, dont la largeur de page est fixe. Elle n'a pas lieu d'être dans un texte électronique affiché à l'écran, dont la largeur est variable. Pour assurer la possibilité d'interroger l'intégralité du texte, une partie importante du nettoyage du texte consiste donc à remettre ensemble les deux parties de mot séparées par l'incise et le retour à la ligne. Dans l'exemple suivant, il y a, entre autres, deux occurrences du mot eschelle à réalisation typographique différente.
Une règle d'or du balisage veut que l'on balise les propriétés objectives et clairement discrètes et récursives et que l'on ne balise pas les propriétés subjectives ou celles qui ne sont pas clairement discrètes et récursives. Dans les dictionnaires anciens (les modernes ne sont pas sans poser de problèmes), les distinctions linguistiques et informationnelles ne sont pas toujours objectives et claires: par exemple, chez Estienne et Nicot le latin est normalement en romain, le français en italique, mais en plus de nombreuses exceptions on trouve des commentaires bilingues ou plurilingues (le commentateur passe du latin au grec sans s'en apercevoir, un mot français fonctionne en latin ou vice versa); chez Nicot et l'Académie la catégorie grammaticale n'est précisée que de façon irrégulière et il est souvent difficile de départager définition et marque d'usage.
Le seul champ informationnel que nous avons jugé essentiel de baliser est la vedette ou adresse d'article, bien que l'identification de celle-ci soit dans de nombreux cas problématique chez Nicot et n'aille pas sans problème dans le Dictionnaire de l'Académie française. [10]
Pour le reste, plutôt que de dénaturer le texte en imposant un balisage douteux, nous avons choisi de fournir à l'usager des listes de mots-clés (en fait formes textuelles) des champs informationnels, ce que nous appelons des mots-clés métalinguistiques. Par exemple, ablatif, accusatif, actif/act/acti/actiu/active, activement, adjectif/adiectiu/adject/adjective, adjectifvement, adverbe/aduerb/aduerbia/aduerbio/aduerbium/adver/adverb, adverbial/adverbiale, adverbialement/aduerbialiter... pour la catégorie grammaticale chez Nicot; bas/bass/basse/bassem/bassement, comique, familier/familiere/familierement/familieres, honneste... pour les marques de registre dans la première édition du Dictionnaire de l'Académie française. [11]
La pièce essentielle de l'édition d'un dictionnaire informatisé est la base de données. Seule celle-ci donne accès aux multiples lectures verticales du texte, alors qu'on peut toujours faire une lecture linéaire du texte en bibliothèque. Cependant un ensemble informatique idéal serait la disponibilité du texte sous les plusieurs formes suivantes: le texte en mode image; le texte en mode lecture; le texte en base de données; divers outils et documents annexes.
Des images des pages de l'original (fichiers JPEG ou GIF) donnent une caution aux mêmes pages en mode lecture et à la base de données: l'usager a ainsi la possibilité de contrôler l'exactitude de la transcription. Le mode lecture (fichiers HTML) facilite la lecture linéaire et permet une lecture verticale limitée (fonction Trouver/Rechercher). La base de données (sous TACTweb à Toronto, Philologic à Chicago, Stella à Nancy) offre la possibilité d'interroger l'intégralité du texte de mille façons, selon les besoins ou l'imagination de l'usager et la puissance du logiciel d'indexation et d'interrogation. Parmi les documents annexes, mentionnons les listes d'adresses d'articles, de mots de texte, de mots-clés métalinguistiques.
Pour ce qui est des ensembles dictionnairiques en ligne depuis Toronto, on peut observer les réalisations suivantes:
Ensemble | Mode image | Mode lecture | Base de données | Adresses | Mots-clés | Mots de texte |
---|---|---|---|---|---|---|
Estienne-Nicot (1) | Non | Non | Oui | Non | Oui pour le Thresor | Non |
Thresor N (2) | Oui | Non | Oui | Non | Oui | Oui |
Académie 1694 et 1835 (3) | Oui pour 1694 t. I | Non | Oui | Oui | Oui pour 1694 | Non |
Académie échantillon (4) | Oui | Oui | Oui | Oui | Oui | Oui |
Dicts anciens échantillon (5) | Oui | Oui pour la plupart | Oui pour 5 dicts | Oui | Non | Oui pour 5 |
Légende:
1. Estienne-Nicot = RenDico: Dictionnaires de la Renaissance (Estienne, Thesaurus linguae latinae 1531; Estienne, Thesaurus linguae latinae, 1536; Estienne, Dictionarium latinogallicum, 1552; Grand Dictionaire françois-latin, 1593-1614; Nicot, Thresor de la langue françoyse, 1606), <http://www.chass.utoronto.ca/~wulfric/dico_tactweb/tiden.htm>.
2. Thresor N = Nicot, Thresor de la langue françoyse, Base Échantillon: lettre N, <http://www.chass.utoronto.ca/~wulfric/nicot/nicot_n.htm>.
3. Académie 1694 et 1835 = Dictionnaire de l'Académie française, 1694 et 1835, <http://www.chass.utoronto.ca/~wulfric/dico_tactweb/acad.htm>.
4. Académie échantillon = Dictionnaire de l'Académie française, Base Échantillon analytique, 1694-1935, <http://www.chass.utoronto.ca/~wulfric/academie/>.
5. Dicts anciens échantillon = Base Échantillon des Dictionnaires Français Anciens: De Robert Estienne 1539 à l'Académie française 1935 (Estienne, Dictionaire francoislatin, 1539 et 1549; Thierry, Dictionaire francoislatin, 1564; Nicot & Dupuys, Dictionaire françois-latin, 1573; Stoer, Grand Dictionaire françois-latin, 1593, 1599 et 1603; Nicot, Thresor de la langue françoyse, 1606; Marquis, Grand dictionaire françois-latin, 1609; Voultier, Grand dictionaire françois, latin et grec, 1612; Richelet, Dictionnaire françois, 1680; Furetière, Dictionaire universel, 1690; Dictionnaire de l'Académie française, 1694, 1718, 1740, 1762, 1798, 1835, 1878, 1932-5; Dictionnaire de Trévoux, 1721 et 1771; Dictionnaire portatif de Richelet, 1784; Féraud, Dictionaire critique, 1787-8), <http://www.chass.utoronto.ca/~wulfric/naf/>.
Une dernière remarque sur la valorisation de textes anciens. Il existe à notre connaissance deux rééditions de l'ensemble des préfaces du Dictionnaire de l'Académie française. Une publication sur papier intitulée Les Préfaces du Dictionnaire de l'Académie française, 1694-1992 (Champion, 1997) offre essentiellement deux types de documents: une transcription des préfaces et de copieux commentaires linguistiques et extra-linguistiques. En l'absence d'images des préfaces originales, le lecteur doit se fier aux transcriptions, lesquelles recèlent, entre autres fautes: une quinzaine d'occurrences de lettres triples (type letttres), alors qu'il n'y en a qu'une dans les pièces originales; & transcrit tantôt et, tantôt &. Un ensemble en ligne intitulé Dictionnaire de l'Académie française: Les Préfaces [1694-1932] (Toronto, 1997) offre les préfaces en mode image, en mode lecture et en base de données, avec des listes de mots de texte; les commentaires se limitent à des remarques sur l'établissement du texte. [12] Nous laissons au lecteur le soin de décider quelle réédition valorise ces préfaces le plus.
Notes
1. Voir RenDico: Dictionnaires de la Renaissance, <http://www.chass.utoronto.ca/~wulfric/dico_tactweb/tiden.htm>.
2. Voir Dictionnaire de l'Académie française, <http://www.chass.utoronto.ca/~wulfric/dico_tactweb/acad.htm>.
3. Voir Dictionnaire de l'Académie française: Base Échantillon analytique, 1694-1935, <http://www.chass.utoronto.ca/~wulfric/academie/>.
4. Voir Base Échantillon des Dictionnaires Français Anciens: de Robert Estienne 1539 à l'Académie française 1935, <http://www.chass.utoronto.ca/~wulfric/naf/>.
5. Cf. R. Wooldridge, "Introduction méthodologique à la saisie philologique des textes anciens", <http://www.chass.utoronto.ca/~wulfric/nicot/conc_tab.htm>.
6. Cf. R. Wooldridge, "Les graphies du Thresor de la langue françoyse", <http://www.chass.utoronto.ca/~wulfric/articles/graph95/> et Cahiers de lexicologie, 66 (1995): 55-66.
7. Cf. R. Wooldridge, "La déféminisation du français", <http://www.chass.utoronto.ca/~wulfric/articles/defemin/> et Cahiers de lexicologie, 74 (1999): 227-29.
8. Cf. R. Wooldridge, "L'informatisation du Dictionnaire de l'Académie française (DAF)", <http://www.chass.utoronto.ca/~wulfric/siehlda/dicta1998/trw_acad.htm>.
9. Cf. R. Wooldridge & É. Devriendt, "TACT et TACTweb, logiciels de recherche de données textuelles structurées", <http://www.chass.utoronto.ca/~wulfric/articles2/poitiers2001/>.
10. Cf. R. Wooldridge, "Les fausses vedettes, les fausses sous-vedettes et les fautes de classement alphabétique", <http://www.chass.utoronto.ca/~wulfric/academie/acad1694/94nota.htm>.
11. Pour les listes de mots-clés chez Nicot, voir <http://www.chass.utoronto.ca/~wulfric/nicot/conc5.htm>; pour celles de la première édition du Dictionnaire de l'Académie française, voir <http://www.chass.utoronto.ca/~wulfric/academie/acad1694/mc_index.htm>. Voir aussi R. Wooldridge & I. Leroy-Turcan, "Les mots-clés métalinguistiques comme outil d'interrogation structurante des dictionnaires anciens", <http://www.chass.utoronto.ca/~wulfric/articles/lyon995/> et Lexicomatique et dictionnairiques (Beyrouth & Montréal, 1996): 307-16.
12. Dictionnaire de l'Académie française: Les Préfaces, <http://www.chass.utoronto.ca/~wulfric/academie/prefaces.htm>.