T.R. Wooldridge: Introduction méthodologique à la saisie philologique

2. Transcription du texte

2.1.

2.2.

2.3.

Thresor

2.4.

2.1. les caractères

Le texte saisi est celui qui va de la page 1 à la page 674, c'est-à-dire le dictionnaire proprement dit; ont donc été délaissées les pièces liminaires et les annexes, ainsi que l'intitulé de la première page, les numéros de page et de folio, et les en-têtes de rubriques (les lettres initiales des subdivisions du texte).

Pour des raisons de consultabilité, i/j et u/v sont modernisés dans le cas des langues européennes modernes; ils gardent leur valeur typographique textuelle dans celui du latin. Ainsi divorse est à chercher sous div..., diuortium sous diu... Cela n'a pas toujours été sans poser de problèmes: pour «Hlouis», «euuier» et «rouaisons», l'incertitude concernant la valeur de u subsiste après consultation de Nicot, Huguet, Godefroy, Wartburg et les autres commentateurs. Les accents sur les mots latins n'ont pas été saisis. Le tilde de justification typographique a été transcrit en la consonne nasale appropriée ([cõcernãt -> concernant, cõcedã -> concedam]); ⁹ a été changé en us (Efflux⁹ -> Effluxus); [...]; la perluette est transcrite en et (& -> et, &c. -> etc.). Le pied-de-mouche est remplacé par l'astérisque [le signe ¶ n'est pas disponible en ASCII, alors qu'il l'est en ISO Latin 1]; le signe de section par un dièse [de même pour le signe §]. Les accents virtuels -- c'est-à-dire ceux qui apparaissent sur la minuscule mais qui sont conventionnellement supprimés sur la majuscule -- sont rétablis: ainsi À (prép.), Ô (interj.), És (prép.). Les dix-huit mots donnés en caractères hébreux ont été translittérés en lettres romaines, diacrisées au besoin; les références textuelles sont les suivantes: 29.239 [= page 29, col. 2, ligne 39], 29.243, 64.272, 65.180, 166.266, 328.109, 449.120, 466.175, 569.261, 580.169, 580.171, 638.103, 638.104. Les 1280 mots (mots, syllabes, lettres) grecs imprimés en caractères grecs ont été translittérés selon les correspondances suivantes (ne sont indiquées ici que les lettres minuscules):

alpha	a		nu	n
bêta	b		xi	x
gamma	g		omicron	o
delta	d		pi	p
epsilon	é		rho	r
zêta	dz		sigma	s
êta	ê		tau	t
thêta	th		upsilon	u
iota	i		phi	ph
kappa	k		khi	kh
lambda	l		psi	ps
mu	m		oméga	ô
		esprit rude		h

2.2. les unités de texte, unités de concordance

L'unité de texte, unité de concordance, est le mot graphique. Le refus (impossibilité) de séparation homographique et de lemmatisation (v. 3) trouve ici une suite logique. Les lexies 'composées' sont souvent décomposées en mention ou en usage. Le parce abhorré de la linguistique moderne trouve donc sa place dans la concordance, comme il peut trouver, à côté de par ce, son autonomie syntaxique dans le texte: «parce (comme dit Dioscoride) que» (118.183). Les mini-concordances permettent de retrouver les variantes syntagmatiques du type par ce que/parce que, pour ce que/pource que; on peut comparer afin/affin/à fin, dequoy/de quoy au moyen de la concordance globale (afin, affin, dequoy) et de la mini-concordance contexte droit (à fin, de quoy). [Dans la base interactive, c'est la recherche de la cooccurrence (toutes les combinaisons sont interrogeables) qui remplace la mini-concordance (choix de syntagmes fixe).]

Il n'est pas toujours aisé de situer la frontière graphique entre les mots, c'est-à-dire de décider s'il y a ou non un espace pertinent entre deux lettres. L'espacement des lettres italiques est irrégulier, leur corps variable. C'est que l'italique garde, plus que le romain, un caractère scriptural. Le volume important de A fait que la suite de lettres Afin peut correspondre soit à deux mots graphiques (À fin), soit à un seul (Afin); le a minuscule fait lever l'ambiguïté, puisqu'il porte l'accent grave lors qu'il est considéré comme mot à part (le texte contient à fin et afin); la séquence Affin est aussi sans équivoque. Autre cas épineux: à côté des dequoy et de quoy clairs, il y a des occurrences où l'espace entre le e et le q est ambigu. La séquence tres... (tresbien, tresgrand, etc.) n'est jamais ambiguë, pour deux raisons: dans le système de la langue du seizième siècle, il est toujours collé au mot, soit directement, soit par l'intermédiaire du trait d'union; le s long n'est jamais imprimé en position finale.

Les unités sont tantôt des mots, tantôt des racines, affixes, désinences, syllabes, lettres ou chiffres. Le pied-de-mouche (transcrit par l'astérisque) et le signe de section (dièse) sont donnés à la fin de la concordance après les chiffres arabes. Le point d'abréviation n'a pas été retenu dans la nomenclature de la concordance, de sorte que l. est confondu avec l (lettre ou chiffre romain -- cf. 4.1). [Dans la base interactive on peut chercher la cooccurrence de l et du point.]

Les séquences avec apostrophe ou trait d'union intérieur ont subi deux traitements différents. Si l'apostrophe ou le trait d'union a été considéré comme joncteur de mots libres, un espace a été saisi après l'apostrophe et devant le trait d'union: c' est, dit -il. La concordance contient donc c' à côté de c (et de ce), -il à côté de il, -cy à côté de cy, etc. Les séquences à apostrophe ou trait d'union figé ont été laissées telles quelles: aujourd'huy, d'avantage, m'amour, quelqu'un, port'enseigne, arriere-feudataire, s' entr'obliger, s' entre-joingnants. La frontière entre 'libre' et 'figé' est, bien entendu, arbitraire; la règle d'or, comme pour toute décision concernant la transcription du texte, est le système dominant sous-tendant le texte -- système implicite observable à travers la fréquence des formes, parfois explicité dans les commentaires du lexicographe. Les variantes viennent souvent appuyer une décision: davantage, s' entrejoindre, etc. [Dans la base interactive, il n'y a pas besoin de traiter l'apostrophe et le trait d'union de deux façons différentes: pour c'est, aujourd'huy, dit-il ou arriere-feudataire, par exemple, il suffit de chercher la cooccurrence des trois éléments: c + ' + est, etc.] Le trait d'union en fin de ligne est parfois problématique: tres-/bien représente soit tres-bien, soit tresbien -- les deux formes sont présentes dans le texte. C'est toujours le système dominant qui a guidé nos choix.

Lorsque, dans une discussion le plus souvent étymologique, un mot est décomposé phonétiquement en syllabes («Rage, Il vient de Rabies, en muant i vocal en i consonant, comme qui diroit Rab jes» 535.133), l'espace intersyllabique est remplacé par le signe « + », ce qui garde l'unité du mot (rab + jes) -- on utiliserait aujourd'hui le trait d'union.

À l'instar de Nicot, qui considère les mots comme des formes avant de s'occuper de leur fonction et de leur signification (voir tasche, pis, don à 3), nous n'avons pas donné de statut particulier aux noms propres (cf. «BAR, Est une ville [...] Bar aussi est une diction indeclinable, qui empire le mot auquel elle est jointe par composition, comme en Barlue, et Barlong»). Les noms propres composés sont donc séparés en mots graphiques distincts (Pierre / de / la / Lune). Le texte appuie cette décision: «AIX, en Provence», «AIX, La Chappelle»; «Boulongne sur la mer», «BOULONGNE, la grasse sur la mer»; «Henry II», «Henry deuxiesme», «Henry deuxieme de ce nom»; «du Fouilloux», «le Fouilloux», «Fouilloux».

L'unité lexicographique formelle de base est l'alinéa; les débuts d'alinéa sont signalés par le signe « | ». [Par « \ » dans la base interactive.

2.3. la typographie et les langues du Thresor

Le Thresor utilise l'italique, le grand romain, le romain moyen, le petit romain, le grec et l'hébreu. Les indices typographiques donnés dans la concordance sont les suivants:

italique	l
PETIT ROMAIN	2
romain moyen	3
grand romain	4
grec	5
hébreu	6
non alphanumérique (ex. pied-de-mouche)	0

Les différents types ont les fonctions principales suivantes:

italique	français
PETIT ROMAIN	vedettes en majuscules (normalement noms propres)
romain moyen	latin, et français en renvoi
grand romain	vedettes
grec	mots grecs
hébreu	mots hébreux

Les langues du Thresor sont nombreuses. L'indiciation que nous avons adoptée est la suivante (les étiquettes textuelles, lorsqu'elles existent, sont données en italique):

A	anglais	anglis, anglois, angloise
B	barbare	barbare, barbares
C	chaldéen	chald, chaldaice, chaldée, chaldéen
D	allemand	alemagne, alemand, alemands, alemans, allemand, allemands, allemans, allemant, germani, germania, germanica, germanice, germanis, germanus, teuthonica
E	espagnol	aragonois, castillan, esp, espagn, espagne, espagnol, espagnole, espagnols, espaigne, valencien
F	français	franc, france, franci, francis, francois, françois, françoise, galli, gallica, gallice, gallico, gaule
G	grec	dorica, doriens, graeca, graece, graeci, graecis, graeco, grec, grece, grecque, grecs
H	bébreu	hebraea, hebraei, hebraeis, hebraeos, hebraeum, hebraica, hebraice, hebraique, hebrieu, hebrieux, iudaeis
I	italien	ital, itali, italia, italie, italien, italienes, italienne, italiens, italis, lombards, venitiens
J	persien	persien
K	russe	moscouitis, moscovites
L	latin	anciens, latin, latine, latinement, latines, latini, latinis, latinise, latinisé, latinisent, latinizez, latinos, latins, romains
M	moresque	moresque, morisque
N	flamand	flamans, flamen, flamend, flamens, flandres, flandri, flandris
P	portugais	portugais, portugois
Q	punique	punique
R	arabe	arabe, arabes, arabesque, arabica, arabique, egyptien
S	syriaque	suriene, syriaque
T	turc	turcis, turcs, turquesque, turquesques
U	hongrois	hongres, hongrois
V	gaulois	celtes, celtiques, gallorum, gaullois, gaulois
W	suisse	suisses, suysse
X	tartaresque	tartares, tartaresque, tartarin, tartaris
Y	scythique	scythique
Z	danois	dennemarche
?	incertain	alij, anciennement, aucuns, etc.
-	hors langue	par exemple, le pied-de-mouche, les représentations graphiques d'unités de mesure 59.133 et 376.165

L'arbitraire de ce classement pragmatique est évident. Les bases du classement sont principalement textuelles et géographiques. L'utilisateur de la concordance, armé de la liste de mots-clefs donnée ici, a les moyens de juger les cas d'espèce.

À l'intérieur du domaine français, les différentes localisations dialectales et géographiques sont indiquées dans le texte du Thresor par les mots suivants (cf. 5.2):

allobrogibus
anjou
aquitanis
balonenses
baissin
bordelois
bourbonnois
bourguignons
burdegalenses
coenomanis
coulomniers
daulphiné
dauphiné
dauphinois
delphin
dialectes
gascoigne
gascon
hannoyers
hennoyers
languedoc
languedocs
languedoque
lionnois
lorrains
lugd
lugdu
lugdunensibus

manceau
manceaux
marseille
massiliae
meaulx
meaux
molins
montagnars
moulins
narbon
narbonenses
narbonensibus
narbonne
normand
normandie
normands
normans
northm
northmand
northmanis
northmannos
nortmannos
orleans
ouy
par
paris
parisiensibus

pic
picard
picardi
picardie
picardis
picards
pictonibus
poictevins
poictou
provençal
provençaux
provence
provinces
rochelle
rochelois
rothomagensibus
salonibus
savoisien
savoye
savoysien
savoysiens
tolosae
tolosains
touraine
vermandois
village
villageois
villages
villagois
villes

Alors que la caractérisation typographique des mots de texte a été une tâche facile (mis à part quelques cas comme «Cremasterwv» 117.212 [les deux dernières lettres sont respectivement oméga et nu]), l'attribution des étiquettes linguistiques a présenté des difficultés considérables. Les raisons en sont multiples.

L'orientation historique et panlinguistique (encyclopédique, au sens usuel et technique du terme) du dictionnaire fait que très souvent un mot (forme ou signe) est à cheval sur plusieurs langues; si les éléments de l'énoncé sont discrets («X en langue A, X en langue B»), l'indiciation est simple («(indice A) X... (indice B) X...»); en formule elliptique («X en langue A, en langue B»), elle est complexe («(indice AB) X...»). Le latin vulgaire des termes de botanique est indicié «FL»; de même, les formes intermédiaires «Saul ja», «Sim ja», «Ten vis» et «Jan varius» s.v. Saulge. Latin vulgaire et langue vernaculaire sont entremêlés dans des articles tels que Marque, Marquis et Conte (voir aussi la concordance s.v. latinisé).

Les éléments mentionnés de l'énoncé lexicographique (mots, syntagmes, affixes, racines, syllabes, lettres) peuvent provenir, en principe, de n'importe quelle langue, quelle que soit la langue de l'énoncé lui-même. Les règles générales sont ici les suivantes:

1) Les entrées relèvent toujours du français: a) si Nicot dit «X est pur Italien», «Y est un mot Arabesque», nous considérons cette propriété comme concernant l'étymologie; b) s'il nous semble évident que l'expression donnée en entrée fonctionne aussi dans une autre langue, nous mettons un indice complexe: les éléments de «Lecta, Publicata, et registrata» (370.160) sont indiciés «FL» (cf. «Leuës, publiées, et enregistrées» 372.162); les quatre premiers mots de «Cabo de bõna speranza, Le cap de bonne esperance» (96.217) sont indiciés «FP».

2) Les éléments -- étymons, analogues, variantes, équivalents -- donnés comme informations sur l'entrée sont normalement marqués («Italien», «Espagnol», etc.) pour toute langue sauf le français, le latin et le grec; une étymologie grecque est marquée par une étiquette («vient du Grec», etc.) ou par les caractères grecs de l'étymon; une étymologie latine sera le plus souvent marquée («Latin»); pour les équivalents, la langue non marquée est le latin, parfois aussi le grec (sauf dans la mesure où il est marqué par les caractères grecs -- ex: «Jouer au sainct pierre, ou aux cinq pierres Psêphologéin» 355.271 [le grec est ici translittéré]). Dans cette deuxième catégorie, il y a eu de nombreux cas problématiques, donnant lieu quelquefois à l'indice « ? ».

Le passage de la mention à l'usage, courant dans le discours ordinaire (genèse du néologisme d'emprunt), a lieu aussi dans le discours du dictionnaire: «Clairon [...] Aucuns le rendent en Latin Lituus [...] Acron en ce passage dit que Lituus sonne le grelle [...] le Lituus est crochu» (p. 126); «en cette signification il vient du mot Chaldée Pasuk, qui signifie un vers [...] Esquels Pasuks [...]» (466.168 et ss.); «telle espece de soldats que les Latins appeloyent Volones [...] tels soldats appelez Volones, estoyent serfs [...] Tite Live parlant desdits Volons [...] tels volons n'estoient de droict militaire» (pp. 668-9 s.v. Voluntaire). Le problème ici est de déterminer le point à partir duquel le mot non français commence à fonctionner en français et doit prendre l'indice double français + non-français.

Nicot, comme les autres érudits de son temps, pensait et écrivait avec une même facilité en langue vernaculaire, latin et grec. (Le latin lui était pourtant plus maternel que le grec: «léikhéin dicunt Graeci, quod nos Lingere» 374.104 [grec translittéré].) Le discours de base du Thresor est la plupart du temps rédigé én français, souvent en latin, exceptionnellement en grec, ce qui à la limite produit l'énoncé trilingue suivant: «Et per katakhrêsin Pour ce que le Latin dit [...]» (483.175) [grec translittéré] -- v. aussi p. 369, s.v. Lasche. Il ne s'agit pas ici de mots non français fonctionnant dans un discours français, mais d'un discours plurilingue; d'où la décision de considérer «i.» comme latin (id est) et «c.» comme français (c'est à dire), que ces mots soient imprimés en italique ou en romain (l'imprimeur, Denys Duval, avait lui aussi ses problèmes). C'est le contexte dominant qui a déterminé l'indiciation des occurrences ambiguës de l'homographe bilingue « & » (et). Les indications de catégorie grammaticale et d'accentuation sont des items d'information insérés dans le discours articulateur. Ces indications, le plus souvent en romain, abrégées et suivies d'un point, peuvent être formellement marquées («foem.», «gener.», «adiectiu.», «plural.» latins; «adiectif.», «actif.», «pluriel.» français); quand elles ne le sont pas («m.», «f.», «acut.», «penac.», «adiect.», «act.», etc.) et que le contexte immédiat ne permet pas de trancher (par ex. «ores est masc.», «genre masc.» sont du français), nous maintenons l'ambivalence textuelle en les indiciant 'français ou latin' («F/L»).

Comme dernier exemple de délimitation linguistique, nous mentionnerons le cas des mots fictifs et spéculatifs. Dans ses commentaires étymologiques, Nicot dira d'un radical qu'il est «inusité» en français («Accoller [...] Composé de ad et coller inusité»); il sera amené, d'après l'étymologie qu'il propose ou qu'il cite, à avancer des graphies/prononciations hypothétiques («comme si l'on disoit Essaur» s.v. Essor, «quasi Exoreillé» s.v. Essaureillé, «qu'on devroit pour son origine escrire Quatir» s.v. Catir). Nicot avait manifestement le sens de la structure de la langue (voir, par exemple, les analyses distributionnelles qu'il fait s.v. Deschirer, Fellé, Fellure, Griffe, Portail, Porte; l'analyse 'sémique' qu'il donne s.v. Dressoir); certains dérivés consignés dans la nomenclature, et qui sont des hapax dans le texte, semblent être là pour exploiter les virtualités du système -- Nicot le dira à l'occasion: «Derrain [...] Dont le feminin seroit Derraine», «Derrainier [...] Dont le feminin seroit Derrainiere». Toutes ces formes hypothétiques sont indicices «F»; les mots potentiels latins («comme si on disoit Iacobellus en Latin», «Quasi Iacobella», p. 343) sont indiciés «L». Les mots-clefs de ce lexique virtuel sont quasi, inusité, les verbes au conditionnel diroit, seroit, devroit, le syntagme comme si. Une forme proposée ou proscrite à un endroit du texte peut être actualisée sans commentaire ailleurs (cf. soldat à 3.3); c'est le cas, par exemple, de encotonner, proscrit s.v. Encoronner et tout de suite après présenté en vedette.

2.4. corrections apportées au texte

Les corrections que nous avons cru nécessaire de faire sont données dans la liste qui suit. Lorsque la forme correcte a pu être contrôlée dans une des éditions du Dictionaire françois-latin, nous signalons ce fait au moyen du signe « + » à gauche de l'entrée. Les items sont classés par ordre alphabétique des formes corrigées, qui se trouvent en deuxième position. La liste se termine par la rubrique «Alignement de la marge gauche» dans laquelle nous corrigeons les mises en saillie et mises en retrait fautives (dans le système du texte, la mise en saillie correspond au début de l'alinéa). [La liste n'est pas donnée ici; dans la base interactive, la forme correcte proposée est suivie de la forme originale mise entre délimiteurs conventionnels.]

[Retour à la table] -- [Suite]