T.R. Wooldridge: Introduction méthodologique à la saisie philologique

4. Descriptif des documents de la concordance

4.1.

4.2.

4.3.

4.1. la concordance globale

La concordance globale contient tous les vocables (formes non lemmatisées) du texte. La séparation d'homographes n'a été faite que dans le cas de formes de très haute fréquence comprenant un homographe de haute fréquence et un homographe de basse fréquence. Les homographes de basse fréquence sont suivis, dans la concordance, d'un trait de soulignement permettant au programme de les traiter à part. [Dans la base interactive, c'est le point médian ASCII 250 qui remplit cette fonction.] Les formes en question sont les suivantes:

			a (verbe fr.; prép. lat.)			a_ (lettre; initiale; esp.; ital.)
			au (art.)			au_ (syllabe)
			aux (art.)			aux_ (n. pl.; n. propre)
			b (abrév. de Budaeus)			b_ (lettre; initiale)
			des (art.)			des_ (lat.)
			est (verbe)			est_ (point cardinal)
			f (abrév. de feminin/foemininus)			f_ (lettre)
			m (abrév. de masculin/masculinus)			m_ (lettre; initiale; chiffre)
			par (prép.)			par_ (lat.; part; abrév. de Paris)
			pas (adv.)			pas_ (n.)
			point (adv.)			point (n.)
			s' (pronom)			s'_ (si)
			son (adj.)			son_ (n.)
			sur (prép.)			sur_ (adj.)
			y (pron.; adv.)			y_ (lettre; esp.)

Remarque: les listes de mots par langue font le départ entre a (verbe français) et a (préposition latine).

Pour les mots de haute fréquence suivants, seule la fréquence en est donnée dans la concordance globale (cf. 4.2 et 4.3):

a, à, ad, au, aux, avec, d', de, des, du, en, et, ex, il, in, l', la, le, les, n', ne, par, pour, qu', que, s', sans, se, sur, tout, un, une, vel

L'article des autres mots comprend l'adresse (en minuscules), la fréquence (en fin d'article) et, pour chaque occurrence, une référence de localisation et une ligne de contexte. Les occurrences sont classées par ordre textuel, ce qui a pour conséquence de regrouper celles qui se trouvent éventuellement sub verbo. Les références sont construites de la manière suivante:

567.234 * L3 reu l'occurrence est située à la page 567, deuxième colonne, ligne 34; il s'agit d'un mot latin en romain moyen, qui se rencontre s.v. Reu

L'utilité de la référence à l'article du Thresor est double: premièrement, l'utilisateur de la concordance dispose d'un repère supplémentaire pour retrouver le mot dans l'original; d'autre part, l'ensemble de ces références pour un même mot donne, dans de nombreux cas, un premier aperçu du champ sémantique ou morpho-sémantique du mot (voir, par exemple, brebis). [...]

En plus des 26 lettres, l'alphabet de la concordance contient les chiffres de 0 à 9, et les deux signes # (« § » dans le Thresor) et * (« ¶ »).

4.2. l'index des mots de haute fréquence

Les mots dont seule la fréquence est donnée dans la concordance globale ont reçu un traitement supplémentaire, les uns dans les mini-concordances (voir 4.3), les autres dans l'index des mots de haute fréquence. En établissant l'index, nous avons voulu à la fois répondre à la nécessité de réduire le volume des données et satisfaire au désir que l'on peut avoir d'étudier tout mot de texte. L'index ne contient donc que les références sans contexte; la référence comprend la page, la colonne, la ligne et l'indice typo-linguistique (ex. 36.142*F1). La nomenclature est la suivante:

a, ad, et, ex, il, in, l', la, le, les, n', ne, un, une, vel

4.3. les mini-concordances syntagmatiques

Dans le discours, il y a essentiellement deux types de mots: ceux qui véhiculent une information sur le monde et ceux qui ordonnene les premiers pour en assurer la transmission. Les premiers, les mots lexicaux, ont un contenu avant tout sémantique, observable à travers le contexte large -- texte, phrase -- dans lequel ils sont employés; le contenu des seconds se limite, dans la plupart des cas, au contexte immédiat -- syntagme ou partie de phrase. Les concordances traditionnelles s'adressent à la description des mots lexicaux; le principe de l'économie linguistique s'y traduit par le compromis de la ligne de contexte qui doit essayer de donner un maximum d'informations (la ligne prend toute la largeur de la page) en un minimum d'espace (une seule ligne par occurrence). Dans ce cadre, les mots grammaticaux sont coûteux: ils remplissent inutilement la largeur de la page et occupent sans grand profit le volume de pages que requièrent leurs nombreuses occurrences; le plus souvent, les mots grammaticaux de haute fréquence sont éliminés des concordances. Ce qui est dommage, car leur fonctionnement est intéressant à étudier, surtout dans la langue du passé. Aujourd'hui l'usage de la microfiche atténue le problème du coût matériel, mais ne résoud pas en soi celui du coût humain de la consultation de la masse de sous-textes générés par la machine; la présentation en concordance des mots grammaticaux doit tenir compte de leur mode de fonctionnement en langue. C'est pourquoi, profitant de notre fréquentation des concordances de Nancy qui reconnaissent ces différences fondamentales, nous proposons deux types de concordances: une concordance globale (voir 4.1) et deux mini-concordances pour les mots français de haute fréquence à fonctionnement syntagmatique intéressant.

L'une des mini-concordances classe les occurrences par ordre alphabétique du contexte à gauche du mot; l'autre les classe par ordre alphabétique du contexte droit. Les références se réduisent à l'indication page-colonne-ligne et les lignes de contexte à 34 caractères, en trois colonnes. Les nomenclatures des deux mini-concordances sont les suivantes:

contexte gauche à, au, aux, avec, d', de, des, du, en, par, pour, qu', que, sans, sur, tout

contexte droit à, au, aux, avec, d', de, des, du, en, par, pour, s', sans, se, sur, tout

Le classement à gauche permet, entre autres, de retrouver les locutions prépositives se terminant par à (etc.), les verbes qui prennent de, les locutions conjonctives construites avec que; le classement à droite révèle les locutions prépositives qui commencent par à (etc.), les locutions adverbiales, les verbes pronominaux.

4.4. les listes de mots et les listes de fréquences

Nous avons établi trois catégories linguistiques pour les listes de mots et de fréquences: mots français, mots latins, mots autres (grecs, espagnols, etc.). Pour chaque groupe linguistique, il y a trois documents: liste des mots par ordre alphabétique normal avec fréquences (Liste alphabétique); liste des mots par ordre alphabétique inverse avec fréquences (Liste inverse); liste des mots par ordre de fréquence décroissant (Fréquences). Sur les fiches, les mots autres sont donnés à la suite des mots latins. Deux de ces listes sont présentées dans le volume imprimé plutôt que sur microfiches: la liste alphabétique des mots français -- pour servir d'index des formes françaises contenues dans la concordance; la liste inverse des mots français -- pour permettre la confrontation des fins de mots regroupées dans la liste inverse avec leur localisation contextuelle dans la concordance (et donc dans le texte). Comme un mot de texte peut appartenir à plusieurs langues à la fois (français et italien, français ou latin, latin et espagnol, incertain, etc.), la somme des unités des listes partielles est plus grande que le nombre d'unités total. La distribution des fréquences est en rapport avec la nature des vocables (formes non lemmatisées) et avec celle du texte (texte métalinguistique). Le premier de ces deux facteurs explique le fait que le nombre de mots de texte latins est très inférieur au nombre de mots de texte français, alors que le rapport est inversé au niveau des vocables (formes fléchies plus nombreuses en latin). Le deuxième facteur explique la fréquence élevée de mots comme qui, ou, comme, quelque, chose, voyez, aussi, qui sont les mots grammaticaux (ordonnateurs) du discours lexicographique. [...] Le nombre total de mots de texte (N) et de mots différents (V) pour chaque groupe linguistique est le suivant:

	N	V
Texte global	898425	92683
Mots français	650973	40847
Mots latins	252325	50836
Mots autres	3679	2716

4.5. le texte source

Bien que le Thresor soit disponible en réimpression et microréédition sur microfiches, nous avons jugé utile de joindre aux documents le texte informatisé qui a servi à la confection de la concordance. L'utilisateur a ainsi le moyen de contrôler les divergences éventuelles entre la concordance et le texte original. [...]

4.6. les têtes d'article

L'inventaire des têtes d'article retenues pour les références de la concordance est donné sous deux formes: d'abord par ordre textuel, ensuite par ordre alphabétique. [...] Par 'article', nous entendons micro-article; nous avons pris les dérivés au même titre que les chefs de famille, car la nomenclature du Thresor opère aux deux niveaux (par exemple, le macro-article Espardre contient les micro-articles Espardre, Espars, Espardement, Esparsement).

4.7. correction des documents

Il y a un moyen efficace d'éviter presque toute faute de saisie: c'est de saisir le texte deux fois et de faire comparer les deux saisies par la machine. Malheureusement, l'on dispose rarement de fonds suffisants pour se servir de cette méthode. Lorsque le corpus est imposant, il faut se résigner à la loi empirique qui dit qu'il est impossible d'atteindre la perfection, quel que soit le nombre de lectures et de relectures du texte saisi. [...]

[Retour à la table] -- [Suite]

			contexte gauche			à, au, aux, avec, d', de, des, du, en, par, pour, qu', que, sans, sur, tout
			contexte droit			à, au, aux, avec, d', de, des, du, en, par, pour, s', sans, se, sur, tout