Les technologies du langage se sont rapidement développées ces 20 dernières années et sont aujourd'hui utilisées quotidiennement par le grand public dans des applications comme la correction orthographique, la traduction automatique, la recherche d'information, etc. Dans cet article, nous présentons deux projets qui ont eu recours aux technologies du langage pour venir en soutien d'actions de politique linguistique : Recto/Verso et AMesure. Nous défendons l'idée que ces technologies représentent une opportunité pour illustrer des actions de politique linguistique à très large échelle et dans certains cas, pour contribuer à réaliser celles-ci.
Les technologies du langage se sont rapidement développées ces 20 dernières années et sont aujourd'hui utilisées quotidiennement par le grand public dans des applications comme la correction orthographique, la traduction automatique, la recherche d'information, etc. Dans cet article, nous présentons deux projets qui ont eu recours aux technologies du langage pour venir en soutien d'actions de politique linguistique : Recto/Verso et AMesure. Nous défendons l'idée que ces technologies représentent une opportunité pour illustrer des actions de politique linguistique à très large échelle et dans certains cas, pour contribuer à réaliser celles-ci.
The evaluation of a language learner's proficiency in second language is a task that normally involves comparing the learner's production with a learning framework of the target language. A broad framework is the Common European Framework for Languages (CEFR), which addresses language learning in general and is broadly used in the European Union, while serving as reference in countries outside the EU as well. In this study, we automatically annotated a corpus of texts produced by language learners with pedagogically relevant grammatical structures and we observed how these structures are being employed by learners from different proficiency levels. We analyzed the use of structures both in terms of evolution along the levels and in terms of level in which the structures are used the most. The annotated resource, SGATe, presents a rich source of information for teachers that wish to compare the production of their students with those of already certified language learners.
The evaluation of a language learner's proficiency in second language is a task that normally involves comparing the learner's production with a learning framework of the target language. A broad framework is the Common European Framework for Languages (CEFR), which addresses language learning in general and is broadly used in the European Union, while serving as reference in countries outside the EU as well. In this study, we automatically annotated a corpus of texts produced by language learners with pedagogically relevant grammatical structures and we observed how these structures are being employed by learners from different proficiency levels. We analyzed the use of structures both in terms of evolution along the levels and in terms of level in which the structures are used the most. The annotated resource, SGATe, presents a rich source of information for teachers that wish to compare the production of their students with those of already certified language learners.
International audience ; We present the comparison and combination of two different semi automatic classification methods: an original linguistic based analysis, named extended lexical patterns (motifs lexicaux étendus, MLE) and a machine learning approach (SVM). Classification is supervised because of the use of a thesaurus containing the definition of categories. First, both systems are used and evaluated separately on the same real dataset: law and parliament documents in French. Quite unexpectedly, MLE performs as well as a state-of-the-art method such as SVM. During the second step, the combined method gave a performance improvement which underlines the complementarities of both basis methods. ; Dans le contexte de l'indexation semi-automatique de textes, nous présentons la comparaison et la combinaison de deux méthodes de classification mettant en oeuvre des approches différentes : analyse par une méthode originale à forte composante linguistique que nous nommons motifs lexicaux étendus (MLE) d'une part et apprentissage artificiel SVM d'autre part. La classification est de type supervisée car elle exploite un ensemble de catégories définies par un thésaurus documentaire. Dans un premier temps, les deux systèmes sont appliqués et évalués séparément sur un même jeu de données réelles, des textes de type législatif et parlementaire en français. De manière quelque peu inattendue, la méthode MLE permet d'atteindre des performances tout à fait compétitives par rapport à la technique state-of-the-art que constitue SVM. Les méthodes sont ensuite combinées dans le but d'obtenir une performance finale supérieure aux performances individuelles. Le gain obtenu indique une complémentarité entre les deux méthodes.