Les principes de l'informatisation ayant été posés, nous pouvons maintenant passer à une description concrète de l'entreprise. Nous décrirons dans la structure type de l'article du DU2. Nous présenterons ensuite, à titre d'exemple, le balisage de la partie grammaticale.
Comme on l'a déjà souligné, les caractéristiques typographiques ne peuvent être systématiquement associées aux champs informationnels de l'article, puisque de nombreuses irrégularités apparaissent dans le texte. Il est donc nécessaire de codifier indépendamment ces informations. Le balisage signale les typographies non standard. Ainsi, les caractères minuscules romains non gras ne recevront aucun traitement et seront considérés comme le style par défaut. En revanche, on balisera :
Dans l'article DAGUET, par exemple, on peut repérer trois éléments qui n'appartiennent pas au style standard : DAGUET, DAGUET, daguet.
Le balisage du style sera effectué à l'aide d'un attribut placé sur les différents champs : l'entrée principale, la sous-entrée et la mention de l'entrée dans l'article. Cela se traduira en SGML de la façon suivante :
Aux différents éléments <Orth>, <Orthre> et <Oref> [11], on a associé l'attribut Rend qui prendra différentes valeurs selon la forme de la typographie. Les valeurs Caps, Smc et It indiquent respectivement les capitales, les petites capitales et les italiques.
Si la structure que nous proposons d'un article standard du DU2 n'est pas tout à fait définitive en l'état de nos travaux, on peut toutefois tenter d'en établir une description assez précise, et proposer une liste des rubriques qui composent un article complet.
Un article type du DU2 est régulièrement composé des éléments suivants [12] :
Tous les éléments, sauf (a), (b), et (e), sont facultatifs dans les articles types, c'est-à-dire qu'ils peuvent ne pas apparaître dans l'énoncé global. De plus, la définition n'est pas non plus obligatoire dans bien des sous-articles. Ces éléments peuvent aussi apparaître dans leur totalité. Cette organisation peut se répéter à l'intérieur même de l'article, par le biais de ce que l'on appelle les sous-entrées, lorsque le mot-entrée se démultiplie. Les sous-articles sont indiqués par un alinea et retrait négatif, des petites capitales romaines, et elles sont le plus souvent suivies d'une virgule.
On peut prendre comme exemple l'article dague du DU2 :
A leur côté l'épée longue, & large,
La courte dague pour son homme aborder. ST. GELAIS.
Ce mot, selon Menage, vient de l'Allemand dagge,
qui signifie la même chose. La basse
Latinité s'est servie aussi du mot de dagua, dagger,
daggerius, dagardum. D'autres disent
qu'il vient de taga, quòd fit ad tangendum paratior
; ou de dagua, quòd acuta fit. Du Cange
dit, que ce mot vient du Bas-Breton
dager, & qu'on l'appelloit en vieux François
badelaire, en Latin pugio.
D'autres le derivent à Dacis, parceque c'étoit leur arme
ordinaire; d'autres,
de l'Hebreu dacach, qui signifie, acuere.
DAGUE, en termes de Venerie, est le premier bois que porte le
cerf de deux
ans, & où
commencent les perches qui sont sans cors, ni chevillures. On les
appelle ainsi,
parcequ'elles sont pointuës comme des dagues.
DAGUES, en termes de Chasse, est un nom qu'on donne
quelquefois aux
deffenses du
sanglier.
DAGUE, se dit figurément d'un coup surprenant qui nous
afflige. Quand il
reçut la
nouvelle de la mort de son fils, ce fut pour lui un coup de dague
dans le cur.
On dit proverbialement d'un homme grossier, & qui veut
faire le fin, & dont
on
apperçoit la ruse, Qu'il est fin comme une dague de plomb.
L'ACAD.
Article principal :
L'entrée principale | DAGUE. |
L'information grammaticale | s.f. |
L'énoncé définitoire | Espece de poignard, dont on se servoit autrefois dans les combats singuliers. |
Contextualisations | Il lui donna plusieurs coups de dague. Il rapporta qu'il
avoit trouvé force traits, force dagues, & force épées
émouluës. TALEMAN. A leur côté l'épée longue, & large, La courte dague pour son homme aborder. ST.GELAIS. |
Étymologie (commentaire encyclopédique sur le mot) | Ce mot, selon Menage, vient de l'Allemand dagge, qui signifie la même chose. La basse Latinité s'est servie aussi du mot de dagua, dagger, daggerius, dagardum. D'autres disent qu'il vient de taga, quòd fit ad tangendum paratior; ou de dagua, quòd acuta fit. Du Cange dit, que ce mot vient du Bas-Breton dager, & qu'on l'appelloit en vieux François badelaire, en Latin pugio. D'autres le derivent à Dacis, parceque c'étoit leur arme ordinaire; d'autres, de l'Hebreu dacach, qui signifie, acuere. |
Sous-entrée | DAGUE, |
Les marques (de domaine) | en termes de Venerie, |
L'énoncé définitoire | est le premier bois que porte le cerf de deux ans, & où commencent les perches qui sont sans cors, ni chevillures. |
Étymologie (information encyclopédique sur le mot) | On les appelle ainsi, parcequ'elles sont pointuës comme des dagues. |
Sous-entrée | DAGUES, |
Les marques (de domaine) | en termes de Chasse, |
L'énoncé définitoire | est un nom qu'on donne quelquefois aux deffenses du sanglier. |
Sous-entrée | DAGUE, |
Les indications sémantiques | se dit figurément d' |
L'énoncé définitoire | un coup surprenant qui nous afflige. |
Contextualisations | Quand il reçut la nouvelle de la mort de son fils, ce fut pour lui un coup de dague dans le cur. |
Introducteur | On dit proverbialement d' |
Explication | un homme grossier, & qui veut faire le fin, & dont on apperçoit la ruse, |
Locution / collocation | Qu'il est fin comme une dague de plomb. L'ACAD |
Toutes les composantes de l'article peuvent évidemment être elles-mêmes décomposées. Nous ne pourrons, dans le cadre de cette présentation, détailler chacune d'entre elles. Nous avons choisi de privilégier la description des marques grammaticales.
Comme nous venons de le voir, nous distinguons l'article standard de l'article de renvoi et de l'article grammatical que nous n'approfondirons pas ici. La délimitation de l'article standard ne pose guère de difficulté. Les articles du DU2 comportent généralement une acception principale qui fait l'objet d'un alinéa et d'un retrait négatif et qui est introduite par une entrée en grandes capitales, ainsi que d'éventuels sous-articles, comme on peut le voir s.v. DAGUE supra.
Les sous-articles concernent plusieurs types de sous-entrées : des homographes, des dérivés, des flexions, des collocations ou locutions. L'article dans son entier sera balisé à l'aide de <Entry> [13], le sous-article à l'aide de <Re>. Enfin, l'acception principale dans son entier est balisée par <Sense> ainsi que la ou les acceptions introduites dans les sous-articles. Certains éléments sont directement rattachés à l'article : le commentaire étymologique qui fait l'objet d'un paragraphe (<CEtym>) et le commentaire sur une ou plusieurs collocations (<CollGrp>).
La structure d'ensemble de l'article DAGUET est la suivante (le nom des différentes balises sera expliqué dans le cours du texte) :
La structure de l'article type peut être schématisée par l'arbre présenté à la figure 4 [14].
Fig. 4 : Arborescence d'un article type
Comme dans les dictionnaires contemporains, la zone grammaticale est une des zones les plus codifiées de l'article. Elle comporte la partie du discours et des informations morphosyntaxiques et sémantiques.
Ce champ informationnel apparaît immédiatement à la suite de l'entrée ou de la sous-entrée (et ses éventuelles variantes et/ou flexions), généralement à la suite d'un point ou d'une virgule. Le champ, lorsqu'il apparaît à la suite de l'entrée principale, est précédé d'un point et est presque systématique. Dans notre échantillon seuls 20 articles ne comportent pas de champ grammatical. Parmi ceux-ci, on relève 16 articles comprenant des renvois à la macrostructure, comme DANCE :
Notre échantillon compte donc 330 articles comportant une zone grammaticale sur 334 articles standard [15]. On peut donc considérer que la zone grammaticale est un élément systématique dans l'article standard et que son omission est une anomalie dans la microstructure.
Dans le sous-article, en revanche, la zone grammaticale est facultative. Elle ne semble introduite que lorsque l'information grammaticale ne peut pas être héritée systématiquement de celle de l'entrée principale, c'est-à-dire lorsque la partie du discours ou les autres informations morphosyntaxiques diffèrent, comme nous pouvons l'observer dans des exemples comme les suivants :
DAGUER. v.act. […]
DAGUER. v.n. […]
DAUPHIN. s.m. […]
DAUPHIN, INE. subst. […]
Ainsi, l'examen de notre échantillon révèle que l'information grammaticale n'apparaît pas dans les sous-articles, sauf dans quatre cas (s.v. DAMOISELLE, DATE, DECOMPOSER et DECORATEUR), lorsque les caractéristiques grammaticales sont identiques à celles de l'entrée principale. La présence de cette information dans ce dernier cas semble liée au fait que les sous-entrées sont des homographes nettement distincts sémantiquement de l'entrée principale. Il paraît alors peut-être nécessaire de rappeler leur appartenance catégorielle:
DATE. s.f. Chiffre ; marque du jour, de l'an
[…].
DATE. s.f. […] C'est le fruit du palmier. […]
DECOMPOSER. v. act. Terme de Physique. Detruire un corps
composé ; le
dissoudre ; reduire un corps simple dans ses principes. […]
DECOMPOSER. v. act. Deconcerter ; faire perdre la
contenance. […]
DECORATEUR. s. m. Homme intelligent en Architecture,
Sculpture,
Perspective,
&c. qui invente, ou qui dispose des ouvrages d'Architecture
feinte ; comme pour
les arcs de triomphe, les fêtes publiques, les
decorations pour les Balets, Comedies,
Canonisations, & autres spectacles.
DECORATEUR. s.m. Gagiste des Comediens, qui sert à orner,
& à parer le
theâtre.
Cette hypothèse devrait néanmoins être vérifiée sur un corpus plus conséquent que notre échantillon. En revanche, on pourra relever que les informations grammaticales ne sont pas systématiques lorsque la sous-entrée diffère sur ce plan de l'entrée principale. Ainsi, sous l'entrée DANSER, le sous-article de MAÎTRE À DANSER, ici substantif, ne comporte aucune information grammaticale :
En bref, le champ grammatical apparaît quasi systématique pour les entrées principales alors qu'il n'apparaît, facultativement, pour les sous-entrées que lorsqu'il ne paraît pas héritable de l'entrée principale.
[Table] -- [Suite]
Notes
10. Les capitales sont conservées dans le balisage pour faciliter le traitement avec le logiciel de balisage SGML Author/Editor. En revanche, le logiciel ne connaît pas la casse des petites capitales, ce qui explique qu'elles n'apparaissent pas dans le texte.
11. Caractérisant respectivement l'entrée principale, la sous-entrée et l'entrée en mention dans une contextualisation.
12. Par « article standard » on exclut les articles de type « renvoi » qui ne sont pas traités ici, comme par exemple : « DANCE. Voyez DANSE », ni les articles grammaticaux pour lesquels on devra produire une DTD particulière.
13. Par commodité, nous avons conservé les étiquettes d'origine de la TEI, qui sont proposées en anglais. Ces étiquettes peuvent bien entendu être modifiées.
14. Les éléments entourés d'une parenthèse sont facultatifs. Ceux qui sont suivis de l'astérisque sont facultatifs et répétables.
15. Les quatre articles ne comportant pas de champ grammatical sont: DAGUET, DAILLOTS, DANNEBROGE, DECISIF.