Morfetik: a lexical resource for the TAL ; Morfetik : une ressource lexicale pour le TAL
Abstract
Automatic language processing requires a lexical census that is as rigorous and comprehensive as possible. To this end, we have developed a morphological dictionary in French which serves as the starting point for a modular assembly (Morfetik) including a flexion engine, consultation interfaces and operating tools. The basic dictionary is described here (the lexicon of simple words). The data, based on many lexicographic sources, are structured in the form of tables. For the most complex words — names, adjectives and verbs — two complementary grids have been developed: on the one hand, bending tables for identifying and coding all types of training (plural, conjugated, etc.) and, on the other hand, tables giving each lemma the corresponding flexional code. On the basis of this double representation, the bending engine can produce all the bending shapes. The lexical resource at the base of Morfetik is characterised by its size (more than 100 000 lemmes recorded and coded), the accuracy of information and its scalability. According to the same principle, we conclude the development of a dictionary of compound words. ; Le traitement automatique des langues exige au préalable un recensement lexical aussi rigoureux et complet que possible. Dans ce but, nous avons élaboré un dictionnaire morphologique du français qui sert de point de départ à un ensemble modulaire (Morfetik) incluant un moteur de flexion, des interfaces de consultation et des outils d'exploitation. C'est le dictionnaire de base qui est ici décrit (le lexique des mots simples). Les données, établies à partir de nombreuses sources lexicographiques, sont structurées sous forme de tables. Pour les mots les plus complexes – noms, adjectifs et verbes –, deux grilles complémentaires ont été élaborées : d'une part des tables de flexion permettant d'identifier et de coder tous les types de formation (pluriels, conjugaisons, etc.), d'autre part des tables attribuant à chaque lemme le code flexionnel correspondant. A partir de cette double représentation, le ...
Themen
Sprachen
Französisch
Verlag
HAL CCSD; Centre National de la Recherche Scientifique
Problem melden