Spéculation, hétérogénéité des agents et apprentissage : un modèle de "marché des changes artificiel"
In: Revue économique, Band 48, Heft 4, S. 869-897
ISSN: 1950-6694
16 Ergebnisse
Sortierung:
In: Revue économique, Band 48, Heft 4, S. 869-897
ISSN: 1950-6694
Data privacy is a major problem that has to be considered before releasing datasets to the public or even to a partner company that would compute statistics or make a deep analysis of these data. Privacy is insured by performing data anonymization as required by legislation. In this context, many different anonymization techniques have been proposed in the literature. These techniques are difficult to use in a general context where attacks can be of different types, and where measures are not known to the anonymizer. Generic methods able to adapt to different situations become desirable. We are addressing the problem of privacy related to graph data which needs, for different reasons, to be publicly made available. This corresponds to the anonymized graph data publishing problem. We are placing from the perspective of an anonymizer not having access to the methods used to analyze the data. A generic methodology is proposed based on machine learning to obtain directly an anonymization function from a set of training data so as to optimize a tradeoff between privacy risk and utility loss. The method thus allows one to get a good anonymization procedure for any kind of attacks, and any characteristic in a given set. The methodology is instantiated for simple graphs and complex timestamped graphs. A tool has been developed implementing the method and has been experimented with success on real anonymized datasets coming from Twitter, Enron or Amazon. Results are compared with baseline and it is showed that the proposed method is generic and can automatically adapt itself to different anonymization contexts. ; La confidentialité des données est un problème majeur qui doit être considéré avant de rendre publiques les données ou avant de les transmettre à des partenaires tiers avec comme but d'analyser ou de calculer des statistiques sur ces données. Leur confidentialité est principalement préservée en utilisant des techniques d'anonymisation. Dans ce contexte, un nombre important de techniques d'anonymisation a été proposé dans la littérature. Cependant, des méthodes génériques capables de s'adapter à des situations variées sont souhaitables. Nous adressons le problème de la confidentialité des données représentées sous forme de graphe, données qui nécessitent, pour différentes raisons, d'être rendues publiques. Nous considérons que l'anonymiseur n'a pas accès aux méthodes utilisées pour analyser les données. Une méthodologie générique est proposée basée sur des techniques d'apprentissage artificiel afin d'obtenir directement une fonction d'anonymisation et d'optimiser la balance entre le risque pour la confidentialité et la perte dans l'utilité des données. La méthodologie permet d'obtenir une bonne procédure d'anonymisation pour une large catégorie d'attaques et des caractéristiques à préserver dans un ensemble de données. La méthodologie est instanciée pour des graphes simples et des graphes dynamiques avec une composante temporelle. La méthodologie a été expérimentée avec succès sur des ensembles de données provenant de Twitter, Enron ou Amazon. Les résultats sont comparés avec des méthodes de référence et il est montré que la méthodologie proposée est générique et peut s'adapter automatiquement à différents contextes d'anonymisation.
BASE
Data privacy is a major problem that has to be considered before releasing datasets to the public or even to a partner company that would compute statistics or make a deep analysis of these data. Privacy is insured by performing data anonymization as required by legislation. In this context, many different anonymization techniques have been proposed in the literature. These techniques are difficult to use in a general context where attacks can be of different types, and where measures are not known to the anonymizer. Generic methods able to adapt to different situations become desirable. We are addressing the problem of privacy related to graph data which needs, for different reasons, to be publicly made available. This corresponds to the anonymized graph data publishing problem. We are placing from the perspective of an anonymizer not having access to the methods used to analyze the data. A generic methodology is proposed based on machine learning to obtain directly an anonymization function from a set of training data so as to optimize a tradeoff between privacy risk and utility loss. The method thus allows one to get a good anonymization procedure for any kind of attacks, and any characteristic in a given set. The methodology is instantiated for simple graphs and complex timestamped graphs. A tool has been developed implementing the method and has been experimented with success on real anonymized datasets coming from Twitter, Enron or Amazon. Results are compared with baseline and it is showed that the proposed method is generic and can automatically adapt itself to different anonymization contexts. ; La confidentialité des données est un problème majeur qui doit être considéré avant de rendre publiques les données ou avant de les transmettre à des partenaires tiers avec comme but d'analyser ou de calculer des statistiques sur ces données. Leur confidentialité est principalement préservée en utilisant des techniques d'anonymisation. Dans ce contexte, un nombre important de techniques d'anonymisation a été ...
BASE
Data privacy is a major problem that has to be considered before releasing datasets to the public or even to a partner company that would compute statistics or make a deep analysis of these data. Privacy is insured by performing data anonymization as required by legislation. In this context, many different anonymization techniques have been proposed in the literature. These techniques are difficult to use in a general context where attacks can be of different types, and where measures are not known to the anonymizer. Generic methods able to adapt to different situations become desirable. We are addressing the problem of privacy related to graph data which needs, for different reasons, to be publicly made available. This corresponds to the anonymized graph data publishing problem. We are placing from the perspective of an anonymizer not having access to the methods used to analyze the data. A generic methodology is proposed based on machine learning to obtain directly an anonymization function from a set of training data so as to optimize a tradeoff between privacy risk and utility loss. The method thus allows one to get a good anonymization procedure for any kind of attacks, and any characteristic in a given set. The methodology is instantiated for simple graphs and complex timestamped graphs. A tool has been developed implementing the method and has been experimented with success on real anonymized datasets coming from Twitter, Enron or Amazon. Results are compared with baseline and it is showed that the proposed method is generic and can automatically adapt itself to different anonymization contexts. ; La confidentialité des données est un problème majeur qui doit être considéré avant de rendre publiques les données ou avant de les transmettre à des partenaires tiers avec comme but d'analyser ou de calculer des statistiques sur ces données. Leur confidentialité est principalement préservée en utilisant des techniques d'anonymisation. Dans ce contexte, un nombre important de techniques d'anonymisation a été ...
BASE
An attempt to study "styles of reasoning" specific to machine learning algorithms through their history and usages. Scientific usages in various disciplines are observed with some analysis of WebOfScience data. Engineering usages are observed with data from Kaggle and StackExchange. ; L'apprentissage artificiel, ou machine learning, est un ensemble de méthodes permettant d'établir, à partir de données, des modèles de prise de décision, de prédiction ou de classification. L' axiome plus général qui définirait ce champ de recherche est l'ambition de s'inspirer et d'imiter la capacité humaine et animale à apprendre de l'expérience. Les récents succès de ces méthodes - souvent relayés par des médias grand publics - sont seulement révélateurs de l'attention épisodique portée à des techniques qui remontent quant à elles à une cinquantaine d'années dans le contexte de l'Intelligence Artificielle et de l'informatique, et à plusieurs siècles de traditions scientifiques en mathématique, statistique, physique. Après avoir rendu compte de ces éléments, cette thèse s'intéresse aux différentes épistémès, "styles de pensée" qui rythment cette communauté, en étudiant les principaux algorithmes développés pour parvenir à la prise de décision, la prédiction ou la classification. Chacun des algorithmes est envisagé de manière historique mais aussi via les contraintes techniques et théoriques qu'il porte, et les compromis d'usages qu'il impose - par exemple entre interprétabilité et efficacité. Ces "tribus" de l'apprentissages apparaissent alors comme des tentatives relativement indépendantes de parvenir à un même objectif. Nous envisageons par la suite l'activité de ces sous-communautés algorithmiques dans le champ académique, par l'analyse de corpus bibliographiques extraits de Web of Science. La détection de communautés au sein des réseaux de co-citations construits à partir de ces données nous permet de mettre en lumière les structures thématiques transversales qui innervent les différents types d'algorithmes. Nous avons ainsi pu observer comment chaque discipline scientifique se place de manière spécifique dans le paysage algorithmique de l'apprentissage et entretient ou non des relations privilégiées avec les champs propres à sa recherche fondamentale. Il apparait donc, au terme de cette analyse, qu'il est plus facile pour un auteur de se mouvoir d'une thématique à une autre, que d'une méthode d'apprentissage à une autre. Enfin, nous nous intéressons à des terrains plus ingénieriques de la pratique de l'apprentissage avec une analyse de données issues des forums de questions-réponses Stackexchange et du site de compétitions en ligne Kaggle. On y retrouve plusieurs résultats proches de ceux observés dans le champ académique, comme les disciplines les plus représentées. De nettes différences émergent cependant quant à la diversité et la coprésence de ces algorithmes dans les compétitions et les usages des participants. En conclusion, nous mettons en perspective certains des éléments observés dans cette étude avec les récents débats sur la place de ces algorithmes dans les politiques publiques et discutons la question de leur nature discriminatoire.
BASE
National audience ; Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d'interaction. La simulation d'utilisateurs a pour objectif de simuler le comportement d'un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux, bien que nécessaire à l'utilisation de méthodes d'apprentissage artificiel (tel l'apprentissage par renforcement qui peut être utilisé pour apprendre la politique du gestionnaire de dialogues). Les simulateurs d'utilisateurs existants cherchent essentiellement à produire des comportements d'utilisateurs qui soient statistiquement consistants avec le corpus de dialogues. La contribution de cet article est d'utiliser l'apprentissage par renforcement inverse pour bâtir un nouveau simulateur d'utilisateur. Cette nouvelle approche est illustrée par la simulation du comportement d'un modèle d'utilisateur (artificiel) sur un problème à trois attributs pour un système d'information touristiques. Le comportement du nouveau simulateur d'utilisateur est évalué selon plusieurs métriques (de l'interaction au dialogue).
BASE
National audience ; Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d'interaction. La simulation d'utilisateurs a pour objectif de simuler le comportement d'un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux, bien que nécessaire à l'utilisation de méthodes d'apprentissage artificiel (tel l'apprentissage par renforcement qui peut être utilisé pour apprendre la politique du gestionnaire de dialogues). Les simulateurs d'utilisateurs existants cherchent essentiellement à produire des comportements d'utilisateurs qui soient statistiquement consistants avec le corpus de dialogues. La contribution de cet article est d'utiliser l'apprentissage par renforcement inverse pour bâtir un nouveau simulateur d'utilisateur. Cette nouvelle approche est illustrée par la simulation du comportement d'un modèle d'utilisateur (artificiel) sur un problème à trois attributs pour un système d'information touristiques. Le comportement du nouveau simulateur d'utilisateur est évalué selon plusieurs métriques (de l'interaction au dialogue).
BASE
National audience ; Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d'interaction. La simulation d'utilisateurs a pour objectif de simuler le comportement d'un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux, bien que nécessaire à l'utilisation de méthodes d'apprentissage artificiel (tel l'apprentissage par renforcement qui peut être utilisé pour apprendre la politique du gestionnaire de dialogues). Les simulateurs d'utilisateurs existants cherchent essentiellement à produire des comportements d'utilisateurs qui soient statistiquement consistants avec le corpus de dialogues. La contribution de cet article est d'utiliser l'apprentissage par renforcement inverse pour bâtir un nouveau simulateur d'utilisateur. Cette nouvelle approche est illustrée par la simulation du comportement d'un modèle d'utilisateur (artificiel) sur un problème à trois attributs pour un système d'information touristiques. Le comportement du nouveau simulateur d'utilisateur est évalué selon plusieurs métriques (de l'interaction au dialogue).
BASE
In: https://orbi.uliege.be/handle/2268/208421
This thesis presents research contributions in the study field of Bayesian Reinforcement Learning — a subfield of Reinforcement Learning where, even though the dynamics of the system are un- known, the existence of some prior knowledge is assumed in the form of a distribution over Markov decision processes. In this thesis, two algorithms are presented: OPPS (Offline Prior- based Policy Search) and ANN-BRL (Artificial Neural Networks for Bayesian Reinforcement Learning), whose philosophy consists to analyse and exploit the knowledge available beforehand prior to interacting with the system(s), and which differ by the nature of the model they make use of. The former makes use of formula-based agents introduced by Maes et al. in (Maes, Wehenkel, and Ernst, 2012), while the latter relies on Artificial Neural Networks built via SAMME (Stagewise Additive Modelling using a Multi-class Exponential loss function) — an AdaBoost algorithm developed by Zhu et al. in (Zhu et al., 2009). Moreover, we also describe a comprehensive benchmark which has been created to compare Bayesian Reinforcement Learning algo- rithms. In real life applications, the choice of the best agent to fulfil a given task depends not only on their performances, but also on the computation times required to deploy them. This benchmark has been designed to identify the best algorithms by taking both criteria into account, and resulted in the development of an open-source library: BBRL (Benchmarking tools for Bayesian Reinforcement Learning) (https://github.com/mcastron/BBRL/wiki). ; Cette dissertation présente diverses contributions scientifiques dans le domaine de l'apprentissage par renforcement Bayésien, dans lequel les dynamiques du système sont inconnues et pour lequelles nous disposons de connaissances a priori, existant sous la forme d'une distribution sur un ensemble de processus décisionnels Markoviens. Nous présentons tout d'abord deux algorithmes, OPPS (Offline Prior-based Policy Search — recherche directe de politique hors-ligne) et ANN-BRL (Artificial Neural Networks for Bayesian Reinforcement Learning — réseaux de neurones artificiels pour l'apprentissage par renforcement Bayésien), dont la philosophie repose sur l'analyse et l'exploitation de ces connaissances a priori avant de commencer à intéragir avec le(s) système(s). Ces méthodes diffèrent par la nature de leur modèle. La première utilise des agents à base de formule introduits par Maes et al. dans (Maes, Wehenkel, and Ernst, 2012), tandis que la seconde repose sur l'utilisation de réseaux de neurones artificiels construits grâce à SAMME (Stagewise Additive Modeling using a Multi-class Exponential loss function — modélisation additive par cycle basée sur une fonction de perte exponentielle multi-classe), un algorithme d'adaboosting développé par Zhu et al. dans (Zhu et al., 2009), Nous décrivons également un protocole expérimental que nous avons conçu afin de comparer les algorithmes d'apprentissage par renforcement Bayésien entre eux. Dans le cadre d'applications réelles, le choix du meilleur agent pour traiter une tâche spécifique dépend non seulement des ses performances, mais également des temps de calculs nécessaires pour le déployer. Ce protocole expérimental per- met de déterminer quel est le meilleur algorithme pour résoudre une tâche donnée en tenant compte de ces deux critères. Ce dernier a été mis à la disposition de la communauté scientifique sous la forme d'une bibliothèque logicielle libre : BBRL (Benchmarking tools for Bayesian Reinforcement Learning — outils de comparaison pour l'apprentissage par renforcement Bayésien) (https://github.com/mcastron/BBRL/wiki).
BASE
International audience ; We present the comparison and combination of two different semi automatic classification methods: an original linguistic based analysis, named extended lexical patterns (motifs lexicaux étendus, MLE) and a machine learning approach (SVM). Classification is supervised because of the use of a thesaurus containing the definition of categories. First, both systems are used and evaluated separately on the same real dataset: law and parliament documents in French. Quite unexpectedly, MLE performs as well as a state-of-the-art method such as SVM. During the second step, the combined method gave a performance improvement which underlines the complementarities of both basis methods. ; Dans le contexte de l'indexation semi-automatique de textes, nous présentons la comparaison et la combinaison de deux méthodes de classification mettant en oeuvre des approches différentes : analyse par une méthode originale à forte composante linguistique que nous nommons motifs lexicaux étendus (MLE) d'une part et apprentissage artificiel SVM d'autre part. La classification est de type supervisée car elle exploite un ensemble de catégories définies par un thésaurus documentaire. Dans un premier temps, les deux systèmes sont appliqués et évalués séparément sur un même jeu de données réelles, des textes de type législatif et parlementaire en français. De manière quelque peu inattendue, la méthode MLE permet d'atteindre des performances tout à fait compétitives par rapport à la technique state-of-the-art que constitue SVM. Les méthodes sont ensuite combinées dans le but d'obtenir une performance finale supérieure aux performances individuelles. Le gain obtenu indique une complémentarité entre les deux méthodes.
BASE
International audience ; Cet article s'intéresse aux problématiques liées à l'application d'algorithmes dans les décisions administratives, et plus particulièrement aux données et méthodes utilisées dans ces applications. Le législateur s'est jusqu'à présent focalisé sur la transparence de la "décision" qui n'est qu'un certain type de traitement de données. Mais rien n'est précisé sur les données qui vont influencer ces algorithmes, c'est à dire les données qui se trouvent en amont de la décision. On fait l'hypothèse dans cet article que ce droit à l'explication devrait porter aussi sur les données utilisées pour entraîner ces algorithmes.On fera d'abord un rappel de l'évolution des politiques d'Open data, puis on parlera des nouvelles tendances vers l'algorithmisation du droit et de l'administration dans le contexte du gouvernement ouvert et le rôle joué par les données au sein de ces nouveaux processus décisionnels. Enfin, on analysera la difficulté d'assurer une réelle transparence pour de nouveaux types d'algorithmes (e.g. les algorithmes d'apprentissage automatique) qui seront de plus en plus utilisés au sein de l'administration. Nous soulignerons notamment la nécessité - actuellement encore peu explorée - de garantir non seulement l'accès au code source de ces algorithmes, mais aussi l'accès aux bases de données qui les ont entraînés, ainsi qu'aux critères de sélection utilisés pour construire ces base d'apprentissage.
BASE
In: http://hdl.handle.net/20.500.11794/69184
Malgré leurs excellentes performances, les exigences élevées des réseaux de neurones artificiels en terme de volume de données et de puissance de calcul limitent leur adoption dans plusieurs domaines. C'est pourquoi il reste important de développer de nouvelles architectures moins voraces. Ce mémoire cherche à produire une architecture plus flexible et moins vorace en s'appuyant sur la théorie de l'apprentissage par renforcement. En considérant le réseau comme un agent suivant une politique, on réalise que cette politique est beaucoup plus rigide que celle suivie habituellement par les agents d'apprentissage par renforcement. Nous posons l'hypothèse qu'une architecture capable de formuler une politique plus flexible pourrait atteindre des performances similaires tout en limitant son utilisation de ressources. L'architecture que nous proposons s'inspire de la recherche faite en prédiction de paramètres, particulièrement de l'architecture hypernetwork, que nous utilisons comme base de référence. Nos résultats montrent que l'apprentissage d'une politique dynamique aussi performante que les politiques statiques suivies par les réseaux conventionnels n'est pas une tâche triviale. Nos meilleurs résultats indiquent une diminution du nombre de paramètres de 33%, une diminution des calculs de 12% au prix d'une baisse de l'exactitude des prédictions de 2%. Malgré ces résultats, nous croyons que notre architecture est un point de départ pouvant être amélioré de plusieurs manières que nous explorons rapidement en conclusion. ; Despite their excellent performances, artificial neural networks high demand of both data and computational power limit their adoption in many domains. Developing less demanding architecture thus remain an important endeavor. This thesis seeks to produce a more flexible and less resource-intensive architecture by using reinforcement learning theory. When considering a network as an agent instead of a function approximator, one realize that the implicit policy followed by popular feed forward networks is extremely simple. We hypothesize that an architecture able to learn a more flexible policy could reach similar performances while reducing its resource footprint. The architecture we propose is inspired by research done in weight prediction, particularly by the hypernetwork architecture, which we use as a baseline model.Our results show that learning a dynamic policy achieving similar results to the static policies of conventional networks is not a trivial task. Our proposed architecture succeeds in limiting its parameter space by 20%, but does so at the cost of a 24% computation increase and loss of5% accuracy. Despite those results, we believe that this architecture provides a baseline that can be improved in multiple ways that we describe in the conclusion.
BASE
The aim of the thesis is the design of a "silent speech interface", or system permitting voice communication without vocalization. Two main applications are targeted: assistance to laryngectomized persons; and voice communication when silence must be maintained (public transport, military situation) or in extremely noisy environments. The system developed is based on capturing articulatory activity via ultrasound and video imaging. The problem addressed in this work is that of transforming multimodal observations of articulatory gestures into an audio speech signal. This "visuo-acoustic" conversion is achieved using machine learning methods requiring the construction of audiovisual training databases. To this end, in order to monitor the position of the ultrasound probe relative to the speaker's head during data acquisition, a procedure based on the use of two inertial sensors is first proposed. Subsequently, a system allowing to synchronously acquire high-speed ultrasound and video images of the vocal tract together with the uttered acoustic speech signal is presented. Two databases containing approximately one-hour of multimodal continuous speech data (in English) were recorded. Discrete cosine transform (DCT) and principal component analysis (EigenTongues/EigenLips approach) are then compared as techniques for visual feature extraction. A first approach to visuo-acoustic conversion is based on a direct mapping between visual and acoustic features using neural networks and Gaussian mixture models (GMM). In a second approach, an intermediate HMM-based phonetic decoding step is introduced, in order to take advantage of a priori linguistic information. Finally, two methods are compared for the inference of the acoustic features used in the speech synthesis step, one based on a unit selection procedure, and the second invoking HMMs (HMM-based synthesis system HTS), with the "Harmonic plus Noise" model (HNM) of the speech signal being used in both approaches. ; L'objectif poursuivi dans ce travail de thèse est la réalisation d'un dispositif capable d'interpréter une parole normalement articulée mais non vocalisée, permettant ainsi la " communication parlée silencieuse ". Destiné, à terme, à être léger et portatif, ce dispositif pourrait être utilisé d'une part, par une personne ayant subi une laryngectomie (ablation du larynx suite à un cancer), et d'autre part, pour toute communication, soit dans un milieu où le silence est requis (transport en commun, opération militaire, etc.), soit dans un environnement extrêmement bruité. Le dispositif proposé combine deux systèmes d'imagerie pour capturer l'activité de l'appareil vocal pendant " l'articulation silencieuse " : l'imagerie ultrasonore, qui donne accès aux articulateurs internes de la cavité buccale (comme la langue), et la vidéo, utilisée pour capturer le mouvement des lèvres. Le problème traité dans cette étude est celui de la synthèse d'un signal de parole " acoustique ", uniquement à partir d'un flux de données " visuelles " (images ultrasonores et vidéo). Cette conversion qualifiée ici de " visuo-acoustique ", s'effectue par apprentissage artificiel et fait intervenir quatre étapes principales : l'acquisition des données audiovisuelles, leur caractérisation, l'inférence d'une cible acoustique à partir de l'observation du geste articulatoire et la synthèse du signal. Dans le cadre de la réalisation du dispositif expérimental d'acquisition des données, un système de positionnement de la sonde ultrasonore par rapport à la tête du locuteur, basé sur l'utilisation combinée de deux capteurs inertiaux a tout d'abord été conçu. Un système permettant l'enregistrement simultané des flux visuels et du flux acoustique, basé sur la synchronisation des capteurs ultrasonore, vidéo et audio par voie logicielle, a ensuite été développé. Deux bases de données associant observations articulatoires et réalisations acoustiques, contenant chacune environ une heure de parole (continue), en langue anglaise, ont été construites. Pour la caractérisation des images ultrasonores et vidéo, deux approches ont été mises en œuvre. La première est basée sur l'utilisation de la transformée en cosinus discrète, la seconde, sur l'analyse en composantes principales (approche EigenTongues/EigenLips). La première approche proposée pour l'inférence des paramètres acoustiques, qualifiée de " directe ", est basée sur la construction d'une " fonction de conversion " à l'aide d'un réseau de neurones et d'un modèle par mélange de gaussiennes. Dans une seconde approche, qualifiée cette fois " d'indirecte ", une étape de décodage des flux visuels au niveau phonétique est introduite en amont du processus de synthèse. Cette étape intermédiaire permet notamment l'introduction de connaissances linguistiques a priori sur la séquence observée. Elle s'appuie sur la modélisation des gestes articulatoires par des modèles de Markov cachés (MMC). Deux méthodes sont enfin proposées pour la synthèse du signal à partir de la suite phonétique décodée. La première est basée sur une approche par concaténation d'unités ; la seconde utilise la technique dite de " synthèse par MMC ". Pour permettre notamment la réalisation d'adaptations prosodiques, ces deux méthodes de synthèse s'appuient sur une description paramétrique du signal de parole du type "Harmonique plus Bruit" (HNM).
BASE
The aim of the thesis is the design of a "silent speech interface", or system permitting voice communication without vocalization. Two main applications are targeted: assistance to laryngectomized persons; and voice communication when silence must be maintained (public transport, military situation) or in extremely noisy environments. The system developed is based on capturing articulatory activity via ultrasound and video imaging. The problem addressed in this work is that of transforming multimodal observations of articulatory gestures into an audio speech signal. This "visuo-acoustic" conversion is achieved using machine learning methods requiring the construction of audiovisual training databases. To this end, in order to monitor the position of the ultrasound probe relative to the speaker's head during data acquisition, a procedure based on the use of two inertial sensors is first proposed. Subsequently, a system allowing to synchronously acquire high-speed ultrasound and video images of the vocal tract together with the uttered acoustic speech signal is presented. Two databases containing approximately one-hour of multimodal continuous speech data (in English) were recorded. Discrete cosine transform (DCT) and principal component analysis (EigenTongues/EigenLips approach) are then compared as techniques for visual feature extraction. A first approach to visuo-acoustic conversion is based on a direct mapping between visual and acoustic features using neural networks and Gaussian mixture models (GMM). In a second approach, an intermediate HMM-based phonetic decoding step is introduced, in order to take advantage of a priori linguistic information. Finally, two methods are compared for the inference of the acoustic features used in the speech synthesis step, one based on a unit selection procedure, and the second invoking HMMs (HMM-based synthesis system HTS), with the "Harmonic plus Noise" model (HNM) of the speech signal being used in both approaches. ; L'objectif poursuivi dans ce travail de thèse est la réalisation d'un dispositif capable d'interpréter une parole normalement articulée mais non vocalisée, permettant ainsi la " communication parlée silencieuse ". Destiné, à terme, à être léger et portatif, ce dispositif pourrait être utilisé d'une part, par une personne ayant subi une laryngectomie (ablation du larynx suite à un cancer), et d'autre part, pour toute communication, soit dans un milieu où le silence est requis (transport en commun, opération militaire, etc.), soit dans un environnement extrêmement bruité. Le dispositif proposé combine deux systèmes d'imagerie pour capturer l'activité de l'appareil vocal pendant " l'articulation silencieuse " : l'imagerie ultrasonore, qui donne accès aux articulateurs internes de la cavité buccale (comme la langue), et la vidéo, utilisée pour capturer le mouvement des lèvres. Le problème traité dans cette étude est celui de la synthèse d'un signal de parole " acoustique ", uniquement à partir d'un flux de données " visuelles " (images ultrasonores et vidéo). Cette conversion qualifiée ici de " visuo-acoustique ", s'effectue par apprentissage artificiel et fait intervenir quatre étapes principales : l'acquisition des données audiovisuelles, leur caractérisation, l'inférence d'une cible acoustique à partir de l'observation du geste articulatoire et la synthèse du signal. Dans le cadre de la réalisation du dispositif expérimental d'acquisition des données, un système de positionnement de la sonde ultrasonore par rapport à la tête du locuteur, basé sur l'utilisation combinée de deux capteurs inertiaux a tout d'abord été conçu. Un système permettant l'enregistrement simultané des flux visuels et du flux acoustique, basé sur la synchronisation des capteurs ultrasonore, vidéo et audio par voie logicielle, a ensuite été développé. Deux bases de données associant observations articulatoires et réalisations acoustiques, contenant chacune environ une heure de parole (continue), en langue anglaise, ont été construites. Pour la caractérisation des images ultrasonores et vidéo, deux approches ont été mises en œuvre. La première est basée sur l'utilisation de la transformée en cosinus discrète, la seconde, sur l'analyse en composantes principales (approche EigenTongues/EigenLips). La première approche proposée pour l'inférence des paramètres acoustiques, qualifiée de " directe ", est basée sur la construction d'une " fonction de conversion " à l'aide d'un réseau de neurones et d'un modèle par mélange de gaussiennes. Dans une seconde approche, qualifiée cette fois " d'indirecte ", une étape de décodage des flux visuels au niveau phonétique est introduite en amont du processus de synthèse. Cette étape intermédiaire permet notamment l'introduction de connaissances linguistiques a priori sur la séquence observée. Elle s'appuie sur la modélisation des gestes articulatoires par des modèles de Markov cachés (MMC). Deux méthodes sont enfin proposées pour la synthèse du signal à partir de la suite phonétique décodée. La première est basée sur une approche par concaténation d'unités ; la seconde utilise la technique dite de " synthèse par MMC ". Pour permettre notamment la réalisation d'adaptations prosodiques, ces deux méthodes de synthèse s'appuient sur une description paramétrique du signal de parole du type "Harmonique plus Bruit" (HNM).
BASE
Merging in the highway on-ramp is a significant challenge toward realizing fully automated driving (level 4 of autonomous driving). The combination of communication technology and autonomous driving technology, which underpins the notion of Connected Autonomous Vehicles (CAVs), may improve greatly safety performances when performing highway on-ramp merging. However, even with the emergence of CAVs vehicles, some keys constraints should be considered to achieve a safe on-ramp merging. First, human-driven vehicles will still be present on the road, and it may take decades before all the commercialized vehicles will be fully autonomous and connected. Also, onboard vehicle sensors may provide inaccurate or incomplete data due to sensors limitations and blind spots, especially in such critical situations. To resolve these issues, the present thesis introduces a novel solution that uses an off-board Road-Side Unit (RSU) to realize fully automated highway on-ramp merging for connected and automated vehicles. Our proposed approach is based on an Artificial Neural Network (ANN) to predict drivers' intentions. This prediction is used as an input state to a Deep Reinforcement Learning (DRL) agent that outputs the longitudinal acceleration for the merging vehicle. To achieve this, we first show how the roadside unit may be used to enhance perception in the on-ramp zone. We then propose a driver intention model that can predict the behavior of the human-driven vehicles in the main highway lane, with 99% accuracy. We use the output of this model as an input state to train a Twin Delayed Deep Deterministic Policy Gradients (TD3) agent that learns « safe » and « cooperative » driving policy to perform highway on-ramp merging. We show that our proposed decision-making strategy improves performance compared to the solutions proposed previously. ; L'insertion sur autoroute est un défi pour réaliser une conduite entièrement automatisée (Niveau 4 de conduite autonome). La combinaison des technologies de communication et de conduite autonome, qui sous-tend la notion de Connected Autonomous Vehicles (CAV), peut améliorer considérablement les performances de sécurité lors de l'insertion sur autoroute. Cependant, même avec l'émergence des véhicules CAVs, certaines contraintes clés doivent être prises en compte afin de réaliser une insertion sécurisée sur autoroute. Tout d'abord, les véhicules conduits par des conducteurs humains seront toujours présents sur la route, et il faudra peut-être des décennies avant que tous les véhicules commercialisés ne soient entièrement autonomes et connectés. Aussi, les capteurs embarqués des véhicules peuvent fournir des données inexactes ou incomplètes en raison des limites des capteurs et des angles morts, en particulier dans de telles situations de conduite critiques. Afin de résoudre ces problèmes, la présente thèse propose une nouvelle solution utilisant une unité de bord de route (Road-Side Unit (RSU)) permettant une insertion entièrement automatisée sur autoroute pour véhicules connectés et automatisés. Notre approche est basée sur un réseau de neurones artificiels (ANN) pour prédire l'intention des conducteurs. Cette prédiction est utilisée comme état d'entrée pour un agent Deep Reinforcement Learning (DRL) qui fournit l'accélération longitudinale pour le véhicule qui s'insère. Afin d'y parvenir, nous montrons d'abord comment l'unité Road-Side Unit peut-être utilisée pour améliorer la perception dans la zone d'insertion sur autoroute. Ensuite, nous proposons un modèle de reconnaissance d'intention du conducteur qui peut prédire le comportement des véhicules conduits par des conducteurs humains sur la voie principale de l'autoroute, avec une précision de 99%. Nous utilisons la sortie de ce modèle comme état d'entrée pour entrainer un agent Twin Delayed Deep Deterministic Policy Gradients (TD3) qui apprend une politique de conduite « sûre » et « coopérative » pour effectuer l'insertion sur autoroute. Nous montrons que notre stratégie de prise de décision améliore les performances par rapport aux solutions proposées dans l'état de l'art.
BASE