%0 Thesis %T From self-evaluation to emotions : neuromimetic and bayesian approaches for the learning of complex behavior involving multimodal informations %T De l'auto-évaluation aux émotions : approche neuromimétique et bayésienne de l'apprentissage de comportements complexes impliquant des informations multimodales %+ Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI) %A Jauffret, Adrien %N 2014PA112120 %I Université Paris Sud - Paris XI %Y Philippe Gaussier %Z Michèle Sebag [Président] %Z David Filliat [Rapporteur] %Z Nicolas Rougier [Rapporteur] %Z Philippe Bonnifait %Z Bruno Poucet %Z Philippe Tarroux %8 2014-07-11 %D 2014 %K Bio-inspired robotics %K Artificial neural-networks %K Sensory-motor navigation %K Self- assessment %K Metalearning %K Action selection %K Robotique bio-inspirée %K Réseaux de neurones artificiels %K Navigation sensori-motrice %K Auto-évaluation %K Meta-apprentissage %K Sélection de l’action %Z Computer Science [cs]/Other [cs.OH]Theses %X The goal of this thesis is to build a bio-inspired architecture allowing a robot to autonomouslynavigate over large distances. In a cognitive science point of view, the model also aim at improv-ing the understanding of the underlying biological mechanisms. Previous works showed thata computational model of hippocampal place cells, based on neurobiological studies made onrodent, allows a robot to learn robust navigation behaviors. The robot can learn a round or ahoming behavior from a few associations between places and actions. The learning and recog-nition of a place were only defined by visual information and shows limitations for navigatinglarge environments.Adding other sensorial modalities is an effective solution for improving the robustness of placesrecognition in complex environments. This solution led us to the elementary blocks requiredwhen trying to perform multimodal information merging. Such merging has been done, first,by a simple conditioning between 2 modalities and next improved by a more generic model ofinter-modal prediction. In this model, each modality learns to predict the others in usual situa-tions, in order to be able to detect abnormal situations and to compensate missing informationof the others. Such a low level mechanism allows to keep a coherent perception even if onemodality is wrong. Moreover, the model can detect unexpected situations and thus exhibit someself-assessment capabilities: the assessment of its own perception. Following this model of self-assessment, we focus on the fundamental properties of a system for evaluating its behaviors.The first fundamental property that pops out is the statement that evaluating a behavior is anability to recognize a dynamics between sensations and actions, rather than recognizing a sim-ple sensorial pattern. A first step was thus to take into account the sensation/action couplingand build an internal minimalist model of the interaction between the agent and its environment.Such of model defines the basis on which the system will build predictions and expectations.The second fundamental property of self-assessment is the ability to extract relevant informa-tion by the use of statistical processes to perform predictions. We show how a neural networkcan estimate probability density functions through a simple conditioning rule. This probabilis-tic learning allows to achieve bayesian inferences since the system estimates the probability ofobserving a particular behavior from statistical information it recognizes about this behavior.The robot estimates the different statistical momentums (mean, variance, skewness, etc...) of abehavior dynamics by cascading few simple conditioning. Then, the non-recognition of such adynamics is interpreted as an abnormal behavior.But detecting an abnormal behavior is not sufficient to conclude to its inefficiency. The systemmust also monitor the temporal evolution of such an abnormality to judge the relevance of thebehavior. We show how an emotional meta-controller can use this novelty detection to regu-late behaviors and so select the best appropriate strategy in a given context. Finally, we showhow a simple frustration mechanism allows the robot to call for help when it detects potentialdeadlocks. Such a mechanism highlights situations where a skills improvement is possible, soas some developmental processes. %X Cette thèse a pour objectif la conception d’une architecture de contrôle bio-inspirée permettant à un robot autonome de naviguer sur de grandes distances. Le modèle développé permet également d’améliorer la compréhension des mécanismes biologiques impliqués. De précédents travaux ont montré qu’un modèle de cellules de lieu, enregistrées chez le rat, permettait à un robot mobile d’apprendre des comportements de navigation robustes, tels qu’une ronde ou un retour au nid, à partir d’associations entre lieu et action. La reconnaissance d’un lieu ne reposait alors que sur des informations visuelles. L’ambiguïté de certaines situations (e.g. un long couloir) ne permettait pas de naviguer dans de grands environnements. L’ajout d’autres modalités constitue une solution efficace pour augmenter la robustesse dans des environnements complexes. Cette solution nous a permis d’identifier les briques minimales nécessaires à la fusion d’informations multimodales, d’abord par le biais d’un conditionnement simple entre 2 modalités sensorielles, puis par la formalisation d’un modèle, plus générique, de prédictions inter-modales. C’est un mécanisme bas niveau qui permet de générer une cohérence perceptive : l’ensemble des modalités sensorielles s’entraident pour ne renvoyer qu’une perception claire et cohérente aux mécanismes décisionnels de plus haut niveau. Les modalités les plus corrélées sont ainsi capables de combler les informations manquantes d’une modalité défaillante (cas pathologique). Ce modèle implique la mise en place d’un système de prédiction et donc une capacité à détecter de la nouveauté dans ses perceptions. Ainsi, le modèle est également capable de détecter une situation inattendue ou anormale et possède donc une capacité d’auto-évaluation : l’évaluation de ses propres perceptions. Nous nous sommes ensuite mis à la recherche des propriétés fondamentales à tout système d'auto-évaluation.La première propriété essentielle a été de constater qu’évaluer un comportement sensorimoteur revient à reconnaître une dynamique entre sensation et action, plutôt que la simple reconnaissance d’une forme sensorielle. La première brique encapsule donc un modèle interne minimaliste des interactions du robot avec son environnement, qui est la base sur laquelle le système fera des prédictions.La seconde propriété essentielle est la capacité à extraire l’information pertinente par le biais de calculs statistiques. Il est nécessaire que le robot apprenne à capturer les invariants statistiques en supprimant l’information incohérente. Nous avons donc montré qu’il était possible d’estimer une densité de probabilité par le biais d’un simple conditionnement. Cet apprentissage permet de réaliser l’équivalent d’une inférence bayésienne. Le système estime la probabilité de reconnaître un comportement à partir de la reconnaissance d’informations statistiques apprises. C’est donc par la mise en cascade de simples conditionnements que le système peut apprendre à estimer les moments statistiques d’une dynamique (moyenne, variance, asymétrie, etc...). La non-reconnaissance de cette dynamique lui permet de détecter qu’une situation est anormale.Mais détecter un comportement inhabituel ne nous renseigne pas pour autant sur son inefficacité. Le système doit également surveiller l’évolution de cette anomalie dans le temps pour pouvoir juger de la pertinence du comportement. Nous montrons comment un contrôleur émotionnel peut faire usage de cette détection de nouveauté pour réguler le comportement et ainsi permettre au robot d’utiliser la stratégie la plus adaptée à la situation rencontrée. Pour finir, nous avons mis en place une procédure de frustration permettant au robot de lancer un appel à l’aide lorsqu’il détecte qu’il se retrouve dans une impasse. Ce réseau de neurones permet au robot d’identifier les situations qu’il ne maîtrise pas dans le but d’affiner son apprentissage, à l’instar de certains processus développementaux. %G French %2 https://theses.hal.science/tel-01082116v1/document %2 https://theses.hal.science/tel-01082116v1/file/VD2_JAUFFRET_ADRIEN_11072014.pdf %L tel-01082116 %U https://theses.hal.science/tel-01082116 %~ CNRS %~ UNIV-PSUD %~ STAR %~ LIMSI %~ UNIV-PSUD-SACLAY %~ SORBONNE-UNIVERSITE %~ SU-INF-2018 %~ SU-TI %~ LISN %~ GS-SPORT-HUMAN-MOVEMENT %~ ALLIANCE-SU