M. Wooldridge nous parle dans ses 'libres propos' sur le balisage "objectif" d'un balisage typographique simple, et ce faisant il révèle que ce balisage n'est ni simple, ni objectif. Les autres conceptions de balisage sont encore plus complexes, mais l'essentiel est de pouvoir retirer de ces textes les renseignements qui nous intéressent. L'idéal, dans l'exploitation de ces textes, est de combiner un balisage qui relie la typographie aux caractéristiques structurales et intellectuelles de nos textes avec des procédés de recherche qui facilitent la comparaison des dictionnaires. La typographie n'est qu'un indice de la conception du dictionnaire, et si on se contente de ne noter que la typographie, et les structures plus ou moins fiablement représentées par cette typographie, on risque de perdre de vue la conception originale du dictionnaire.
Dans le projet que j'ai entrepris, qui vise la transition entre les quatrième et cinquième éditions du Dictionnaire de l'Académie Française, de nouveaux obstacles se présentent, car il ne s'agit plus de faits uniquement typographiques: il faut déterminer comment incorporer des commentaires manuscrits, situés en marge ou en interligne, ainsi que les mots rayés, soit dans le texte imprimé, soit dans les commentaires manuscrits. La nature de ce document nous oblige de reconsidérer la représentation de la page dans l'HTML.
C'est Mme Leroy-Turcan qui m'a signalé l'extraordinaire exemplaire du DAF de 1762, dans lequel les académiciens ont marqué leurs corrections. Notre projet n'est pas très avancé on est toujours à la lettre A mais même cet échantillon limité nous permet d'entrevoir les problèmes pour le balisage. (Voir une sélection de l'échantillon A mise en tableau comparatif en annexe.)
Comme R. Wooldridge l'a fort bien remarqué dans ses libres propos, par une simple procédure typographique (les guillemets), le balisage n'est pas 'objectif': chaque décision exige que nous précisions nos objectifs, nos buts, et non seulement les nôtres, mais ceux de nos collègues contemporains et futurs. Les choix notés par R. Wooldridge dans ses libres propos de ne pas représenter par le balisage les différences entre les 'u' de substantif et de masculin, ou le 'a' circonflexe de gâche se comprennent fort bien du point de vue de l'historien de la langue, ou de l'historien de la lexicographie, mais ils seraient probablement condamnés par les historiens du livre.
Rappelons-nous donc tous les publics qui risquent d'être intéressés par la représentation de nos textes, et cherchons les meilleurs moyens d'accommoder tous ces intérêts. Quels aspects devrait-on représenter par l'image de la page? Quels aspects mentionner dans les notes? Quels aspects, enfin, représenter par le balisage?
Pour l'historien de la langue, nos textes le DAF de 1762, le DAF de 1798, les commentaires manuscrits dans l'exemplaire de la Bibliothèque de l'Institut, et les dictionnaires annexes (le Dictionaire critique de Féraud, le Dictionnaire révolutionnaire de Rodoni, l'Encyclopédie, les textes de cette période dans la base du Trésor de la Langue Française, etc.) constituent une mine inépuisable de renseignements.
Pour l'histoire de la prononciation du français, le DAF de 1798 est parsemé de commentaires: dans la sélection en annexe, je signale particulièrement la mention de la prononciation du mot aboiement, qui reprend exactement le commentaire de Féraud. Dans le balisage typographique de Féraud les remarques concernant la prononciation sont en général facilement repérables, puisqu'elles se trouvent le plus souvent entre crochets immédiatement après le mot védette. Si l'on voulait donc rassembler toutes ces remarques pour en étudier les principes ce serait une opération facile à 95%. Mais pour arriver à 100% il faut quitter le balisage simple typographique, et marquer d'une autre façon les commentaires sur la prononciation qui ne sont pas indiqués par l'emploi de crochets.
Dans le DAF, malheureusement, ces commentaires ne sont pas marqués de façon typographique. (Ils sont aussi beaucoup moins fréquents.) Pour comparer les principes et les pratiques de Féraud et des Académiciens il faut reconnaître les procédés différents employés pour marquer le même phénomène. Il est évident que dans le cas du DAF, cela prendra du temps.
Pour l'histoire de la morphologie, notre corpus apporte certains renseignements distingués par la typographie ou par la structure des articles. Par exemple, la forme féminine des adjectifs et des participes est indiquée dans la présentation du mot-védette. Dans le DAF la conjugaison du verbe, uniquement pour des verbes en -ir ou en -re, est parfois signalé en troisième lieu dans l'article (après le mot védette et l'indication de la partie du discours). Ces renseignements prennent deux formes: une comparison à la conjugaison d'un autre verbe, entre parenthèses avec le verbe-modèle en italiques (exemple: abstraire comme traire, abstenir comme tenir) ou bien une liste de formes sans parenthèses mais tout en italiques (exemple: absoudre, où les académiciens fournissent la conjugaison complète au présent de l'indicatif, les formes de la première personne du singulier à l'imparfait, au passé composé, au futur et au conditionnel, le participe passé, la troisième personne du singulier du présent du subjonctif, et le participe présent). La première méthode n'est pas fréquente, et la deuxième est rare. Chez Féraud, les remarques concernant la conjugaison d'abstenir se trouvent en quatrième lieu mais avant la définition:
Pourtant, ses remarques concernant la conjugaison du verbe absoudre se trouvent après la définition:
Le manque de prétérit est noté dans les commentaires manuscrits des académiciens, mais ces commentaires sont rayés et non pas inclus dans le texte de la cinquième édition. Quel balisage va rendre la complexité de ces faits? Quels faits risque-t-on de négliger par un balisage insuffisant?
Quant à l'histoire de la syntaxe, Féraud est beaucoup plus explicite concernant les compléments d'objet régis par chaque verbe. Dans notre échantillon, le DAF ne parle de régime que dans le cas d'abondant (pour dire qu'il ne s'emploie pas sans régime), tandis que Féraud note les mêmes faits concernant abondant, et ajoute:
Encore une fois, si le but de notre exercice est de pouvoir comparer les textes, de voir clairement les progressions, il faut un balisage qui tient compte des structures de tous les textes, et non seulement des faits qui ont une représentation typographique dans un seul texte.
Pour l'histoire du vocabulaire, il faut pouvoir comparer la nomenclature de chaque dictionnaire, ce qui révélera les nouveaux mots entrés dans la langue (ou au moins reconnus comme nouveaux). Les mots védettes se reconnaissent assez facilement par les marques typographiques, mais il faut distinguer les grands majuscules des petits majuscules dans le DAF, car ceux-ci signalent plutôt d'autres acceptions du mot, ou d'autres formes (tel: participe passé du verbe). Ces moyens de distinguer la nomenclature globale du dictionnaire ne nous indiquent pas les nouvelles acceptions du mot. Afin de ce faire il faut noter et peut-être numéroter les définitions. Notons par exemple la précision ajoutée dans l'article abomination, où l'importance du troisième exemple est expliquée: On substitue 'Cet homme est l'abomination de tout le monde' à 'C'est l'abomination de tout le monde', notant "Il se dit aussi de ce qui est l'objet de l'abomination". Dans les deux éditions du DAF que nous considérons la première définition se trouve tout de suite après l'indication de la partie du discours. Les définitions supplémentaires sont le plus souvent marqués par une expression telle: "Il se dit aussi, on dit, pour dire" (abondance, absolument), "on appelle" (e.g., abreuvoir), "signifie, il signifie, pour signifier, avoir la signification de" (aborder, s'abrutir) mais ces mêmes expressions présentent souvent d'autres sortes de précisions. Par exemple, dans l'article absorber 'il se dit' précise le contexte (il ne se dit que des biens, des richesses) et non pas une nouvelle définition. Dans ce cas ni le balisage plus ou moins automatique, ni la recherche de certains mots ou expressions ne vont aider le chercheur.
Ces expressions que nous venons de citer sont très souvent suivies d'adverbes indiquant l'usage: 'familièrement', 'proverbialement', 'figurément', 'ordinairement'. Pour comprendre l'usage des mots il faut également inclure ces commentaires sur l'usage, et d'autres encore (e.g., 'vieilli' : abouchement, absoudre), sur le domaine (e.g., 'terme d'anatomie' abouchement; terme de charpenterie about; 'terme de jardinage': abriter), sur le registre (familier: aboyeur, abuseur, abonnir; bas: abreuvoir, ablativo; 'style de la Chaire': ablué). Où mettre dans ces catégories 'terme de blason'? 'Terme de Fief'?
Pour pouvoir repérer toutes ces indications, nous devons dresser une liste de tous ces termes, et de toutes leurs formes et abréviations, et de tous les synonymes employés pour les concepts qu'ils représentent. Par exemple, pour l'idée d'un mot qui ne s'emploie plus dans un certain sens (ou du tout), on doit regrouper 'vieux' Jeudi absolu, abluer, d'abondant; le verbe 'vieillir': un tel que Dieu absolve, abouchement; 'archaïque', 'archaïsme'. Devrait-on y inclure 'on l'employait autrefois' pour abuseur chez Féraud ou 'de peu d'usage' (DAF: abortif) ou 'peu usité' pour abstinent' chez Féraud?). Pour 'familier' il faut regrouper 'fam., famil., familièrement'. Déjà dans le travail de R. Wooldridge nous trouvons de telles listes (cf. l'index des mots-clés métalinguistiques dans la Base Académie Échantillon); d'autres chercheurs ont décrit les marques d'usage dans tel ou tel dictionnaire (cf., par exemple, Lexique 9). Soit par le balisage, soit par les logiciels de recherche, on faciliterait ainsi l'exploitation de ces dictionnaires pour l'histoire de la langue.
L'échantillon que nous avons étudié présente également un grand intérêt pour l'historien de la linguistique et de la lexicographie. Dans le premier cas, il s'agit principalement d'une façon d'entrevoir les changements de métalangage grammatical. Par exemple, on remplace systématiquement 'réciproque' par 'pronominal' dans la classification des verbes. Le terme 'réciproque' s'emploie pour décrire les pronoms depuis Meigret, et dans la classification des verbes depuis Masset 1606. On ne rencontre le terme 'pronominal' que chez Buffier 1713. Que les réciproques constituent une sorte de verbes pronominaux est une précision apportée par les grammairiens du XVIIIe. Comparons les définitions de 'pronominal', 'réciproque', et 'réfléchi' dans deux éditions du DAF et dans l'Encyclopédie (voir Figure 1).
On pourrait citer un autre exemple, la substitution de 'de 2 genres' à 'de tous les genres' pour les adjectifs qui ne distinguent pas le masculin du féminin. C'est ainsi que le métalangage grammatical du texte nous apportera des renseignements précieux sur l'histoire de la pensée grammaticale. La question que nous devons nous poser ici c'est comment saisir ces faits dans le balisage de nos textes? Le plus facile serait de nous limiter à la classification grammaticale fournie en deuxième lieu dans la structure des articles du DAF, c'est-à-dire un balisage structural. Toujours faut-il inclure toutes les formes que l'on rencontrera: 'r.', 'réc.', 'récipr.', 'réciproque', etc. C'est un bon point de départ, mais en plus on se trouvera obligé de chercher ailleurs dans les articles si l'on veut repérer tous les emplois de terminologie grammaticale qui nous intéressent. Par exemple, le mot 'ellipse', qui a tant d'importance dans l'histoire de la grammaire, se retrouve vers la fin de l'article sur absolument: "On le dit aussi d'une phrase où il y a ellipse, comme Pied à terre, où le mot Mettez est sous-entendu. Pied à terre est pris absolument." Dans ce cas, on aura l'obligation heureuse de collaborer avec l'équipe de Bernard Colombat qui prépare une base de données sur l'histoire de la pensée grammaticale, pour dresser une liste de termes. On devrait également établir des liens entre l'emploi des mots dans les articles et leurs définitions.
Pour l'histoire de la lexicographie, l'analyse structurale de l'article est indispensable. Distinguons l'exemple de la définition, les commentaires sur la prononciation des commentaires sur l'usage, les mots-védettes des sous-védettes. Peut-être pourrait-on offrir trois façons de voir un article: l'une qui reproduit l'image de la page; une deuxième qui reproduit le texte et qui imite la mise en page originale; et la troisième qui rend plus claire la structure de l'article, en séparant les éléments:
<mv>ABSCISSE</mv>,
<pd>s.f. </pd>
<prov>Terme de Géométrie.</prov>
<def1>Partie de l'axe d'une courbe, comprise entre le sommet de la courbe ou un autre point fixe, & la
rencontre d'une Ordonnée.</def1>
<ex1>Les abscisses d'une courbe</ex1>
Plusieurs de ces catégories peuvent être insérées automatiquement; d'autres exigent l'insertion à la main.
D'une certaine manière les listes proposées ci-dessus servent à rétablir l'histoire culturelle. R. Wooldridge a déjà montré ce qui est possible par ses tableaux qui tracent l'histoire des termes comme 'familier', 'populaire' et 'bas'. D'autres éléments sont moins facilement repérables par le balisage ou les moteurs de recherche traditionnels. Là il faut une stratégie de recherche des plus traditionnelles pour remarquer, par exemple, les changements dans la définition d'abolition (1798: opérée par un acte de la volonté législative) ou académie: "le lieu où la Noblesse apprend à monter à cheval" (1762) > "le lieu où les jeunes gens apprennent à monter à cheval" (1798), et l'omission de l'adjectif 'royale' dans la liste d'académies.
Les textes que nous voulons représenter posent de nouvelles difficultés pour le balisage. Les commentaires manuscrits rendent impossibles la représentation de la mise en page. Plutôt que de passer des milliers d'heures à reconstruire la page pour indiquer précisément où se trouve chaque commentaire, nous proposons la combinaison de saisies en format 'image' et en format 'texte', l'inverse de ce que nous avons effectué dans les archives Proust. Pour représenter les lettres de Proust, où les textes de base sont manuscrits, nous mettons la version imprimée, établie par le feu Professeur Philip Kolb, dans un format 'texte' et l'image de la lettre dans un format 'image', les deux accompagnées de notes préparées par M. Kolb.
Reprenons l'exemple des commentaires sur la prononciation. Dans plusieurs dictionnaires on peut compter sur une indication typographique pour faire ressortir la grande majorité de tels commentaires. Si on se limite à un balisage qui ne regarde que la typographie, on faussera les conclusions en ne considérant certains commentaires d'ordre phonétique qui n'ont pas cette indication typographique. On ne pourra pas non plus comparer ces commentaires à ceux qui se trouvent dans des dictionnaires où de ces commentaires ne sont pas marqués par une indication typographique. Et, enfin, on ne considérera pas les commentaires manuscrits dans les marges, des leçons rejetées par les académiciens pendant leurs déliberations. Imaginons donc un compromis: on crée un balisage simple qui note les structures typographiques et signale leur signification (exemple: crochets signalent commentaire sur la prononciation). On note également une autre indication de tels commentaires, pour ne pas perdre les autres commentaires du même genre, soit dans le même document, soit dans d'autres dictionnaires. Une recherche qui combine les deux symboles, typographique et annotation, nous permettrait de retrouver tout ce qui nous intéresse, et non seulement ce qui est facile à noter.
Il est évident que l'insertion de telles annotations prendra du temps et que cette opération sera moins 'objective' qu'un balisage limité aux marqueurs typographiques. Commençons donc par un autre compromis. On n'ajoutera ces annotations que pour marquer un phénomène qui a une indication typographique dans un des dictionnaires que nous considérons. Si, par exemple, l'étymologie a un format particulier dans le dictionnaire X, on sera autorisé de marquer par annotation les commentaires étymologiques dans tous les dictionnaires. Si, par contre, cet aspect n'a jamais d'indication typographique consistente, on ne le notera pas ailleurs.
La première démarche serait donc de noter tous les aspects de nos dictionnaires, les éditions du Dictionnaire de l'Académie Française et les autres dictionnaires annexes, pour dresser une liste des éléments qui se révèlent par la typographie. Ensuite nous pourrons procéder à noter ces structures dans tous les dictionnaires. D'autres annotations resteront toujours possibles, mais nous aurons au moins créé une base de données qui facilite une comparaison juste de nos textes.