4. Descriptif des documents de la concordance
4.1. La concordance globale
4.2. L'index des mots de haute fréquence
4.3. Les mini-concordances syntagmatiques
4.4. Les listes de mots et les listes de fréquences
4.5. Le texte source
4.6. Les têtes d'article
4.7. Correction des documents
4.1. la concordance globale
La concordance globale contient tous les vocables (formes non lemmatisées) du texte. La séparation
d'homographes n'a été faite que dans le cas de formes de très haute fréquence
comprenant un homographe de haute fréquence et un homographe de basse fréquence. Les
homographes de basse fréquence sont suivis, dans la concordance, d'un trait de soulignement permettant au
programme de les traiter à part. [Dans la base interactive, c'est le point médian ASCII 250 qui
remplit cette fonction.] Les formes en question sont les suivantes:
| | | a (verbe fr.; prép. lat.) | | | a_ (lettre; initiale; esp.; ital.) |
| | | au (art.) | | | au_ (syllabe) |
| | | aux (art.) | | | aux_ (n. pl.; n. propre) |
| | | b (abrév. de Budaeus) | | | b_ (lettre; initiale) |
| | | des (art.) | | | des_ (lat.) |
| | | est (verbe) | | | est_ (point cardinal) |
| | | f (abrév. de feminin/foemininus) | | | f_ (lettre) |
| | | m (abrév. de masculin/masculinus) | | | m_ (lettre; initiale; chiffre) |
| | | par (prép.) | | | par_ (lat.; part; abrév.
de Paris) |
| | | pas (adv.) | | | pas_ (n.) |
| | | point (adv.) | | | point (n.) |
| | | s' (pronom) | | | s'_ (si) |
| | | son (adj.) | | | son_ (n.) |
| | | sur (prép.) | | | sur_ (adj.) |
| | | y (pron.; adv.) | | | y_ (lettre; esp.) |
Remarque: les listes de mots par langue font le départ entre a (verbe français) et a
(préposition latine).
Pour les mots de haute fréquence suivants, seule la fréquence en est donnée dans la
concordance globale (cf. 4.2 et 4.3):
a, à, ad, au, aux, avec, d', de, des, du, en, et, ex, il, in, l', la, le, les, n', ne, par, pour, qu', que, s', sans,
se, sur, tout, un, une, vel
L'article des autres mots comprend l'adresse (en minuscules), la fréquence (en fin d'article) et, pour chaque
occurrence, une référence de localisation et une ligne de contexte. Les occurrences sont
classées par ordre textuel, ce qui a pour conséquence de regrouper celles qui se trouvent
éventuellement sub verbo. Les références sont construites de la manière
suivante:
| | | 567.234 * L3 reu | | | l'occurrence est située à la page 567, deuxième colonne, ligne 34; il s'agit d'un mot latin en romain moyen, qui se rencontre s.v. Reu |
L'utilité de la référence à l'article du Thresor est double:
premièrement, l'utilisateur de la concordance dispose d'un repère supplémentaire pour
retrouver le mot dans l'original; d'autre part, l'ensemble de ces références pour un même mot
donne, dans de nombreux cas, un premier aperçu du champ sémantique ou
morpho-sémantique
du mot (voir, par exemple, brebis). [...]
En plus des 26 lettres, l'alphabet de la concordance contient les chiffres de 0 à 9, et les deux signes #
(« § » dans le Thresor) et * (« ¶ »).
4.2. l'index des mots de haute fréquence
Les mots dont seule la fréquence est donnée dans la concordance globale ont reçu un
traitement supplémentaire, les uns dans les mini-concordances (voir 4.3), les autres dans l'index des mots
de haute fréquence. En établissant l'index, nous avons voulu à la fois répondre
à la nécessité de réduire le volume des données et satisfaire au désir
que l'on peut avoir d'étudier tout mot de texte. L'index ne contient donc que les références
sans contexte; la référence comprend la page, la colonne, la ligne et l'indice typo-linguistique (ex.
36.142*F1). La nomenclature est la suivante:
a, ad, et, ex, il, in, l', la, le, les, n', ne, un, une, vel
4.3. les mini-concordances syntagmatiques
Dans le discours, il y a essentiellement deux types de mots: ceux qui véhiculent une information sur le monde
et ceux qui ordonnene les premiers pour en assurer la transmission. Les premiers, les mots lexicaux, ont un contenu
avant tout sémantique, observable à travers le contexte large -- texte, phrase -- dans lequel ils sont
employés; le contenu des seconds se limite, dans la plupart des cas, au contexte immédiat -- syntagme
ou partie de phrase. Les concordances traditionnelles s'adressent à la description des mots lexicaux; le
principe de l'économie linguistique s'y traduit par le compromis de la ligne de contexte qui doit essayer de
donner un maximum d'informations (la ligne prend toute la largeur de la page) en un minimum d'espace (une seule
ligne par occurrence). Dans ce cadre, les mots grammaticaux sont coûteux: ils remplissent inutilement la
largeur de la page et occupent sans grand profit le volume de pages que requièrent leurs nombreuses
occurrences; le plus souvent, les mots grammaticaux de haute fréquence sont éliminés des
concordances. Ce qui est dommage, car leur fonctionnement est intéressant à étudier, surtout
dans la langue du passé. Aujourd'hui l'usage de la microfiche atténue le problème du
coût matériel, mais ne résoud pas en soi celui du coût humain de la consultation de la
masse de sous-textes générés par la machine; la présentation en concordance des mots
grammaticaux doit tenir compte de leur mode de fonctionnement en langue. C'est pourquoi, profitant de notre
fréquentation des concordances de Nancy qui reconnaissent ces différences fondamentales, nous
proposons deux types de concordances: une concordance globale (voir 4.1) et deux mini-concordances pour les mots
français de haute fréquence à fonctionnement syntagmatique intéressant.
L'une des mini-concordances classe les occurrences par ordre alphabétique du contexte à gauche du
mot; l'autre les classe par ordre alphabétique du contexte droit. Les références se
réduisent à l'indication page-colonne-ligne et les lignes de contexte à 34 caractères,
en trois colonnes. Les nomenclatures des deux mini-concordances sont les suivantes:
| | |
contexte gauche | | | à, au, aux, avec, d', de, des, du, en, par, pour, qu', que, sans, sur, tout |
| | |
contexte droit | | | à, au, aux, avec, d', de, des, du, en, par, pour, s', sans, se, sur, tout |
Le classement à gauche permet, entre autres, de retrouver les locutions prépositives se terminant par
à (etc.), les verbes qui prennent de, les locutions conjonctives construites avec que;
le classement à droite révèle les locutions prépositives qui commencent par
à (etc.), les locutions adverbiales, les verbes pronominaux.
4.4. les listes de mots et les listes de fréquences
Nous avons établi trois catégories linguistiques pour les listes de mots et de fréquences: mots
français, mots latins, mots autres (grecs, espagnols, etc.). Pour chaque groupe linguistique, il y a trois
documents: liste des mots par ordre alphabétique normal avec fréquences (Liste
alphabétique); liste des mots par ordre alphabétique inverse avec fréquences (Liste
inverse); liste des mots par ordre de fréquence décroissant (Fréquences). Sur
les fiches, les mots autres sont donnés à la suite des mots latins. Deux de ces listes sont
présentées dans le volume imprimé plutôt que sur microfiches: la liste
alphabétique des mots français -- pour servir d'index des formes françaises contenues dans la
concordance; la liste inverse des mots français -- pour permettre la confrontation des fins de mots
regroupées dans la liste inverse avec leur localisation contextuelle dans la concordance (et donc dans le texte).
Comme un mot de texte peut appartenir à plusieurs langues à la fois (français et italien,
français ou latin, latin et espagnol, incertain, etc.), la somme des unités des listes partielles est plus
grande que le nombre d'unités total. La distribution des fréquences est en rapport avec la nature des
vocables (formes non lemmatisées) et avec celle du texte (texte métalinguistique). Le premier de ces
deux facteurs explique le fait que le nombre de mots de texte latins est très inférieur au nombre de
mots de texte français, alors que le rapport est inversé au niveau des vocables (formes fléchies
plus nombreuses en latin). Le deuxième facteur explique la fréquence élevée de mots
comme qui, ou, comme, quelque, chose, voyez, aussi, qui sont les mots grammaticaux (ordonnateurs) du
discours lexicographique. [...] Le nombre total de mots de texte (N) et de mots différents (V) pour chaque
groupe linguistique est le suivant:
| N | V |
Texte global | 898425 | 92683 |
Mots français | 650973 | 40847 |
Mots latins | 252325 | 50836 |
Mots autres | 3679 | 2716 |
4.5. le texte source
Bien que le Thresor soit disponible en réimpression et microréédition sur microfiches,
nous avons jugé utile de joindre aux documents le texte informatisé qui a servi à la confection
de la concordance. L'utilisateur a ainsi le moyen de contrôler les divergences éventuelles entre la
concordance et le texte original. [...]
4.6. les têtes d'article
L'inventaire des têtes d'article retenues pour les références de la concordance est donné
sous deux formes: d'abord par ordre textuel, ensuite par ordre alphabétique. [...] Par 'article', nous entendons
micro-article; nous avons pris les dérivés au même titre que les chefs de famille, car la
nomenclature du Thresor opère aux deux niveaux (par exemple, le macro-article Espardre contient
les micro-articles Espardre, Espars, Espardement, Esparsement).
4.7. correction des documents
Il y a un moyen efficace d'éviter presque toute faute de saisie: c'est de saisir le texte deux fois et de faire
comparer les deux saisies par la machine. Malheureusement, l'on dispose rarement de fonds suffisants pour se servir
de cette méthode. Lorsque le corpus est imposant, il faut se résigner à la loi empirique qui
dit qu'il est impossible d'atteindre la perfection, quel que soit le nombre de lectures et de relectures du texte saisi. [...]
[Retour à la table] -- [Suite]