Automation of documentary tasks for an online health catalogue
Automatisation des tâches documentaires dans un catalogue de santé en ligne.
Résumé
Information Retrieval aims at enabling users to access the content of documents quickly and efficiently. In the medical domain, an increasing number of resources are available in electronic format, and there is a growing need for automatic solutions at several levels. Documents, and in particular texts, need to be selected and quality assessed to appear in catalogues; they need to be described with keywords and categorized within
medical specialties to allow searches within the catalogues. These tasks are a challenge for Natural Language Processing, as they imply an "understanding" of the documents content by an automatic system. My PhD work has addressed this issue, and applied it to the automatisation of documentary tasks in a French online health catalogue, CISMeF. More specifically, this work has involved contributing to the enrichment of linguistic resources available in French for the medical domain, and developping systems for document watch and resource description. In this particular area, my focus was on MeSH automatic indexing with Main Heading/Sub Heading pairs.
medical specialties to allow searches within the catalogues. These tasks are a challenge for Natural Language Processing, as they imply an "understanding" of the documents content by an automatic system. My PhD work has addressed this issue, and applied it to the automatisation of documentary tasks in a French online health catalogue, CISMeF. More specifically, this work has involved contributing to the enrichment of linguistic resources available in French for the medical domain, and developping systems for document watch and resource description. In this particular area, my focus was on MeSH automatic indexing with Main Heading/Sub Heading pairs.
La Recherche d'Information a pour objectif de permettre aux utilisateurs d'accéder rapidement et efficacement au contenu d'une collection de document.
Dans le domaine de la santé, le nombre de ressources électroniques disponibles augmente de manière exponentielle, et la nécessité de disposer de solutions
automatiques se fait sentir à plusieurs étapes de la chaîne d'information. Les documents, en particulier les textes, doivent être sélectionnés selon des critères de qualité pour être inclus dans des catalogues; ils doivent également être décrits à l'aide de mots clés et catégorisés en spécialités médicales afin de faciliter les recherches effectuées dans les catalogues. Ces taches
constituent un défi pour le Traitement Automatique de la Langue Naturelle car elles impliquent une "compréhension" du contenu des documents par un système automatique. Ce travail de thèse engage une réflexion sur la répartition des tâches documentaires entre l'homme et la machine dans le cadre particulier du Catalogue et Index des Sites Médicaux Francophones (CISMeF). A ce titre, il aborde l'automatisation des tâches documentaires dans le catalogue de santé en ligne CISMeF. Cette thèse apporte une contribution au développement de ressources linguistiques en français pour le domaine de la santé, et présente des systèmes de veille documentaire et de description automatiques de ressources de santé. Sur ce dernier point, l'accent a été mis sur l'indexation à l'aide de paires de descripteurs issues du thésaurus MeSH.
Dans le domaine de la santé, le nombre de ressources électroniques disponibles augmente de manière exponentielle, et la nécessité de disposer de solutions
automatiques se fait sentir à plusieurs étapes de la chaîne d'information. Les documents, en particulier les textes, doivent être sélectionnés selon des critères de qualité pour être inclus dans des catalogues; ils doivent également être décrits à l'aide de mots clés et catégorisés en spécialités médicales afin de faciliter les recherches effectuées dans les catalogues. Ces taches
constituent un défi pour le Traitement Automatique de la Langue Naturelle car elles impliquent une "compréhension" du contenu des documents par un système automatique. Ce travail de thèse engage une réflexion sur la répartition des tâches documentaires entre l'homme et la machine dans le cadre particulier du Catalogue et Index des Sites Médicaux Francophones (CISMeF). A ce titre, il aborde l'automatisation des tâches documentaires dans le catalogue de santé en ligne CISMeF. Cette thèse apporte une contribution au développement de ressources linguistiques en français pour le domaine de la santé, et présente des systèmes de veille documentaire et de description automatiques de ressources de santé. Sur ce dernier point, l'accent a été mis sur l'indexation à l'aide de paires de descripteurs issues du thésaurus MeSH.