DictA

Proposition pour un balisage sémiotique neutre


Les présentations et discussions de l'atelier de Limoges ont laissé voir à plusieurs d'entre nous la possibilité d'un terrain d'entente entre le balisage sémiotique "pauvre" mis en oeuvre par le projet Académie et le balisage sémiotique "riche" proposé pour le Furetière-Basnage. Après des discussions préliminaires avec Mark Olsen (ARTFL), je voudrais proposer un modèle de balisage sémiotique qui devrait pouvoir s'appliquer à tout dictionnaire général ancien (grosso modo à partir de Richelet 1680).

Sont balisées dans ce modèle: 1) l'adresse, et 2) la catégorie grammaticale du mot-adresse. Ces informations sont contenues dans une seule balise mise sur une ligne à part au début de l'article (macro- ou micro-article dans le cas d'une nomenclature à deux niveaux comme dans Académie 1694). Sous sa forme de base, la balise se présente ainsi:

Lorsqu'il y a une, ou plusieurs, co-adresse(s) ou lorsque les adresses sont présentées en parallèle et non en série (comme dans le Féraud, par exemple), on aurait: ou Comme le modèle le suggère, ne serait prise en compte que la (ou les) catégorie grammaticale indiquée ou implicite au début de l'article. (Principe du simple et du faisable.)

Alors que les valeurs de "headword" forment une liste ouverte, celles de "pos" sont en nombre fini. La liste des valeurs de "pos" reste néanmoins à établir.

Il est proposé ici de ne retenir comme attributs des parties du discours que le genre des noms (trois cas donc: "s", "sf" et "sm"). La présentation et l'ordre de présentation des attributs du verbe ("v.a.", "v.n.", etc.) sont trop variables pour se prêter à un traitement simple et significatif.

Il y a deux (pour l'instant) questions subsidiaires:

1. Les inter-titres

Partant du principe qu'on saisit le texte sous une forme interrogeable en base de données et qu'on ne retient parmi ses attributs livresques que les références indispensables (tome, page, colonne), il est proposé dans le modèle de supprimer et les titres courants qui sont donnés en haut de la page imprimée et les inter-titres qui sont mis dans le corps du texte: ex. "AIL" au début de la section des mots en "AIL-". Il y a deux raisons de vouloir supprimer les inter-titres: 1) comme les titres courants, ils ne servent de repères que pour l'imprimé; leur fonction disparaît dans le texte électronique; 2) étant des éléments livresques et non pas des unités lexicales, ils ne sont ni adresses lexicographiques ni ne font partie d'un article. Un balisage qui les écarterait d'une interrogation du texte fonctionnel en serait inutilement complexifié.

2. Les renvois alphabétiques

Les renvois alphabétiques utilisés dans les dictionnaires à nomenclature double, alphabétique et étymologique (cf. Académie 1694), constituent des sortes d'articles purement formels (signifiant sans signifié). Ils ont une adresse (le premier mot), mais pas de partie du discours. Les renvois combinés ("A, B, C. Voyez X.") n'auraient toujours comme adresse que le premier mot ("A"). Il est proposé dans le modèle d'utiliser la variable "pos" pour les renvois; a) la valeur de "pos" serait invariablement "renvoi" (pos="renvoi"); b) cette façon de procéder permettra de calculer le nombre total d'articles et de faire le sous-total des articles sémantisés et celui des articles formels (les renvois).

R. Wooldridge, 18 décembre 1998


[Réponse de Christiane Jadelot]

Pour répondre tardivement à votre message du 19/12/98 :

Je voudrais faire une remarque sur l'utilisation des termes balisage "pauvre" vs balisage "riche". Je trouve que le qualificatif "pauvre" comporte une valeur plutôt négative. Je lui préférerais balisage "simple" que vous avez déjà utilisé par ailleurs, ou balisage "minimal", qui relève plus d'un simple constat, à mon sens.

En ce qui concerne la liste des parties du discours (pos), j'ai relevé deux listes :

1. Liste issue du TLFI tome 14

2. Liste issue du Petit Robert électronique (principales catégories, abstraction faite de sous-catégories interrogeables notamment pour les adj. et les v.) La particule "DA" que vous citez est classée comme interjection dans le Petit Robert éléctronique. Je ne sais pas si cette catégorie convient, mais nous pourrions réfléchir sur une liste de catégories incontournables, en nous inspirant de listes existantes et en nous laissant la possibilité d'y ajouter d'autres valeurs, si le besoin s'en faisait sentir.

J'ai cru remarquer que les articles de l'Académie 1932 comportaient des renvois (en petites capitales maigres) à l'intérieur de l'article, introduits par "Voyez", je pense que vous les distinguez des articles dits "formels" ?

C. Jadelot, 3 janvier 1999