Si les principes philologiques énoncés ici sur la transcription du texte, la lemmatisation, l'homographie, les variantes et les mots-clefs métalinguistiques gardent toute leur valeur, un regard porté en 1996 sur les procédés que nous avons utilisés au début des années 80 et notre pratique actuelle dans le contexte de bases interrogeables en temps réel sur disque dur ou en ligne nous amène à faire quelques précisions pour le détail.
La possiblité dont on dispose maintenant de chercher la cooccurrence de séquences textuelles rend caduque la nécessité de distinguer deux types d'apostrophe ou de trait d'union fonctionnels (cf. 2.2) ou celle de faire un sort particulier aux mots de haute fréquence (4.2 et 4.3). L'interrogation interactive rend obsolète également la problématique de la lemmatisation (3); l'auteur d'une base n'a plus à prendre une décision -- toujours insatisfaisante -- à cet égard: le pouvoir du regroupement des formes textuelles est passé entre les mains de l'utilisateur, qui opère les choix qui correspondent à ses objectifs. En revanche, les mots-clefs métalinguistiques (5) ont prouvé leur efficacité pour la structuration a posteriori du texte d'un dictionnaire ancien, tout en laissant intact le texte original (voir T.R. Wooldridge & I. Leroy-Turcan, "Metalinguistic Keywords as a Structural Retrieval Tool for Early Dictionaries"; id., "Les Mots-clés métalinguistiques comme outil d'interrogation structurante des dictionnaires anciens"; T.R. Wooldridge, "Bases dictionnairiques, philologiques, culturelles").
La concordance comporte plusieurs documents. La concordance globale donne tous les mots de texte et rassemble en articles 'méta-dictionnairiques' tous les commentaires sur le mot et tous ses emplois dans le texte; sont créés ainsi des articles plus complets ou des articles nouveaux; est créé en même temps un 'méta-dictionnaire' des termes métalinguistiques du discours lexicographique. Les deux mini-concordances syntagmatiques fournissent, pour les mots français de haute fréquence à fonctionnement syntagmatique intéressant, un mini-contexte facilitant le repérage des locutions prépositives (à, de...), conjonctives (que...) ou adverbiales (par, avec...), et des verbes pronominaux (se). Des listes alphabétique, inverse et de fréquences sont données pour chacune de trois catégories linguistiques, qui sont, par ordre d'importance: mots français, mots latins, autres (grecs, espagnols, italiens, allemands...). Un autre document, le texte source, est le texte du Thresor qui a servi au traitement informatique. L'ensemble des documents constitue un dictionnaire et un index du Thresor et fait fonctionner celui-ci aux niveaux lexical, lexicographique et métalexicographique.
[Retour à la table] -- [Suite]