Recherche

L’équipe de R&D a été créée en février 2018 avec pour objectif de concevoir et développer une technologie originale et performante d’extraction et de structuration de textes standards. L’objectif premier est de disposer d’une technologie à base d’IA capable de structurer 100% de l’information véhiculée dans les textes, de sorte à ce que les ordinateurs/algorithmes puissent les manipuler. Grâce à notre R&D, il s’agit d’obtenir la capacité à :

Peupler des bases de données automatiquement à partir de textes bruts

Découvrir des connaissances qui n’apparaissaient pas au premier abord dans les textes

Générer des tableaux de bord pour visualiser et croiser les informations

Grâce à son équipe de chercheuses et chercheurs spécialistes des Intelligences Artificielles (IA) applicables aux textes, augmentés par le transfert des compétences depuis les laboratoires publics grâce aux projets de recherches collaboratifs, Emvista dispose aujourd’hui d’une technologie mature. L’expression des besoins de nos clients permet d’identifier de nouveaux verrous, y compris scientifiques, ce qui permet pas après pas de faire évoluer notre technologie. 

Structurer l’information

L’axe de recherche principal de l’équipe de R&D de Emvista est la structuration de l’information à partir de textes bruts. Cet axe a pour objectif de répondre à trois questions : 

Quel formalisme de représentation générique utiliser de sorte à ce qu’il soit adaptable à tous les cas d’usage ?

Le formalisme de représentation du contenu d’un texte est fondamental lorsqu’il s’agit de structurer l’information. Le formalisme permet, entre autres, de standardiser la façon dont les données sont décrites, facilitant ainsi leur contrôle, leur partage et leur intégration entre différents systèmes.

Ces trente dernières années ont été les témoins de nombreuses propositions de formalismes dont les plus récents sont Universal Conceptual Cognitive Annotation (UCCA) (Abend et Rappoport, 2013),  Abstract Meaning Representation (AMR) (Banarescu et al. 2013), Uniform Meaning Representation (UMR) (Van Gysel, 2021) ou encore BabelNet Meaning Representation (BMR) (Navigli et al., 2022). L’adoption d’un formalisme de représentation sémantique n’est pas un choix anodin, notamment dans un contexte industriel. Dans ce contexte, il est absolument requis qu’un formalisme soit explicite et factuel, tout en maximisant la richesse et la précision des phénomènes linguistiques les plus saillants sur le plan sémantique afin de capter les signaux les plus faibles.

Emvista a publié en juin 2023 son formalisme de représentation sémantique MR4AP (Meaning Representation for Application Purposes) qui réunit tous les points forts des formalismes précédents (Giordano et Lopez, 2023), cf. Tableau 1. Un point important est la capacité de MR4AP à représenter la structure d’un texte dans son ensemble, là où quasiment tous les autres formalismes ne proposent qu’une structuration au niveau de la phrase. L’article de référence, le guide d’annotation ainsi que des données annotées avec ce formalisme sont disponibles ici : https://github.com/Emvista/MR4AP 

Abend, O., & Rappoport, A. (2013). Universal conceptual cognitive annotation (UCCA). In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 228-238).

Banarescu, L., Bonial, C., Cai, S., Georgescu, M., Griffitt, K., Hermjakob, U., … & Schneider, N. (2013, August). Abstract meaning representation for sembanking. In Proceedings of the 7th linguistic annotation workshop and interoperability with discourse (pp. 178-186).

Giordano, B., & Lopez, C. (2023). MR4AP: Meaning representation for application purposes. In Proceedings of the Fourth International Workshop on Designing Meaning Representations (pp. 110-121).

Navigli, R., Blloshmi, R., & Lorenzo, A. C. M. (2022, June). Babelnet meaning representation: A fully semantic formalism to overcome language barriers. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 36, No. 11, pp. 12274-12279).

Van Gysel, J. E., Vigus, M., Chun, J., Lai, K., Moeller, S., Yao, J., … & Xue, N. (2021). Designing a uniform meaning representation for natural language processing. KI-Künstliche Intelligenz, 35(3), 343-360.

Comment structurer et extraire l’information correspondant au formalisme de représentation ?

La tâche de structuration de l’information selon des formalismes de représentation sémantique est complexe. De nombreuses recherches sont effectuées à ce sujet. Techniquement, il s’agit de transformer un texte en un graphe manipulable par les machines. Emvista a été le premier acteur à publier un système de structuration de l’information évalué sur du français (Kang et al. 2023). Chez Emvista, plusieurs recherches sont en cours et ont donné lieu à des résultats permettant de faire avancer l’état de l’art scientifique.

En juin 2023, nous avons présenté un système de structuration de texte en français zéro-ressource entraîné par transfert translingue, ainsi qu’un premier jeu de données d’évaluation (Kang et al. 2023). Nos résultats montrent que l’utilisation de données bilingues est plus bénéfique que l’utilisation de données multilingues pour construire un système pour la structuration du français avec l’approche zéro-ressource. Dans la mesure où les données cibles sont soigneusement choisies, cette observation pourrait être généralisée aux analyses dans d’autres langues. Ces travaux se sont appuyés sur le formalisme AMR  et s’orientent actuellement vers le formalisme MR4AP. L’article scientifique, l’implémentation de ce système et les données sont disponibles ici : https://github.com/Emvista/French-Amr-Parser.

En juillet 2024, nous avons publié les résultats de notre étude sur l’efficacité du méta-apprentissage par rapport à l’apprentissage conjoint dans l’analyse AMR translingue. Nous évaluons nos modèles dans des langues peu ou pas étudiées pour l’analyse AMR, notamment le français, le chinois, le coréen, le farsi et le croate. Pour faciliter l’évaluation, nous avons développé de nouveaux jeux de tests pour le coréen et le croate et publions les données pour promouvoir la diversité des langues d’évaluation pour l’analyse AMR translingue. Nous avons exploré différents contextes afin d’effectuer une analyse approfondie du méta-apprentissage par rapport à l’apprentissage conjoint. Nos résultats suggèrent que la méthode d’apprentissage conjoint est une approche de base robuste, tandis que le méta-apprentissage semble être une approche non optimale pour l’analyse AMR translingue en raison de ses performances peu robustes aux variations de configurations expérimentales. L’article scientifique, l’implémentation de ce système et les données sont disponibles ici : https://github.com/Emvista/Meta-XAMR-2024.

Aujourd’hui, Emvista dispose d’une technologie 100% propriétaire qui s’appuie sur de nombreux modèles d’extraction d’information (reconnaissance d’entités nommées, extraction de relations, étiquetage en rôles sémantiques, résolution de coréférences, …) dont certains sont contrôlés et orientés par des règles métiers et des ressources termino-ontologiques. En 2019, la technologie recevait sa première distinction (1er prix à la conférence EGC’19 ; Mekaoui et al. 2019) au sujet de la structuration de l’information contenue dans les e-mails.

Kang, J., Coavoux, M., Lopez, C., & Schwab, D. (2023, June). Analyse sémantique AMR pour le français par transfert translingue. In 18e Conférence en Recherche d’Information et Applications–16e Rencontres Jeunes Chercheurs en RI–30e Conférence sur le Traitement Automatique des Langues Naturelles–25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (pp. 55-62). ATALA.

Kang, J., Coavoux, M., Lopez, C., & Schwab, D. (2024). Méta-apprentissage pour l’analyse AMR translingue. In Actes de JEP-TALN-RECITAL 2024. 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1: articles longs et prises de position (pp. 144-156). ATALA & AFPC

Mekaoui, M., Tisserant, G., Dodard, M., & Lopez, C. (2020). Extraction de tâches dans les e-mails: une approche fondée sur les rôles sémantiques. In EGC (pp. 193-204).

Comment utiliser un formalisme générique pour l’adapter rapidement à un cas d’usage métier ?

Le formalisme MR4AP a été conçu de sorte à être interopérable avec tous les besoins métiers. Chaque nouveau client permet à notre technologie d’augmenter sa capacité à structurer/extraire les informations d’intérêt. Aujourd’hui, la technologie permet de structurer et d’extraire nativement plusieurs centaines de types d’informations. L’extraction et la structuration des informations pour un cas d’usage métier se fait sans données d’apprentissage puisque toutes les informations recherchées sont représentées au sein du graphe. Lorsque des informations recherchées ne sont pas couvertes par la technologie, nous faisons le nécessaire afin d’augmenter rapidement sa capacité à couvrir ces nouvelles informations.

Pour les cas d’usage les plus complexes, une interface a été développée afin de configurer l’alignement entre le formalisme MR4AP et le formalisme spécifique à chaque métier. La technologie permet ainsi de manipuler l’information véhiculée dans les textes avec la perspective métier.

Projets de recherche collaboratifs

POPCORN

Emvista coordonne le projet POPCORN (outils de financement RAPID de l’Agence Innovation Défense) en collaboration avec le laboratoire public LIG (Laboratoire d’Informatique de Grenoble / Université Grenoble Alpes) et Airbus Defence and Space. L’objectif de ce projet est de peupler les bases de connaissances métiers à partir des contenus textuels non structurés. Les recherches menées ont pour objectif de structurer l’information (en particulier les événements dans le cadre sécurité/défense)

XP-Event

Emvista est partenaire du projet XP-Event (outils de financement READYNOV de la région Occitanie) en collaboration avec le laboratoire public IRIT (Institut de Recherche en Informatique de Toulouse) et la société Geotrend qui coordonne ce projet. L’objectif de ce projet est de développer une technologie générique d’extraction d’événements et, à partir de ces événements, d’en prédire de nouveaux. Les recherches menées ont pour objectif de structurer l’information (en particulier les événements du quotidien

Thèse CIFRE

Emvista co-encadre la thèse CIFRE de Jeongwoo Kang en collaboration avec le Laboratoire Informatique de Grenoble (LIG), plus précisément avec l’équipe GETALP. Cette thèse est dirigée par Didier Schwab (LIG) sur le sujet « Apprentissage par transfert pour l’analyse sémantique » et co-encadrée par Cédric Lopez (Emvista). L’objectif est d’expérimenter et de proposer un modèle d’IA capable de générer un graphe sémantique (de type AMR) à partir d’un texte. La compréhension du langage via ce type de modèle est un enjeu mondial et permettra à Emvista de déployer rapidement ses produits à l’international.

Animation de la recherche

Emvista anime la recherche de différentes façons

Experte

auprès de l’Agence Nationale de la Recherche (ANR) et est intégrée dans certains comités d’évaluation d’appels à projets collaboratifs

Membre

de plusieurs comités scientifiques de conférences nationales et internationale

Co-fondatrice

avec le CNRS-Inist du groupe de travail TextMine (animation de la communauté scientifique / lancement de défis en IA, organisation de conférences, …) sous l’égide de EGC ;

Participe

à des groupes de travail : France Hub IA, The Voice Lab, …

Enseigne

dans les universités à des niveaux Master

Labos partenaires

Le Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier – LIRMM – est une Unité Mixte de Recherche (UMR), dépendant conjointement de l’Université Montpellier et du Centre National de la Recherche Scientifique (CNRS). Notre partenariat permet, notamment à travers une thèse CIFRE,  d’expérimenter des systèmes (modèles d’IA, systèmes symboliques, réseaux lexico-sémantiques, …) pour développer la meilleure solution de résolution de coréférences et d’anaphores dans les e-mails.

Le laboratoire d’informatique de Grenoble (LIG) est sous la tutelle conjointe de l’Université Grenoble-Alpes, Grenoble INP et du CNRS. Il est partenaire de l’INRIA. Emvista coordonne le projet POPCORN (Peuplement OPérationnel de base de COnnaissances et Réseaux de Neurones) et le LIG et l’un de ses partenaires. Dans le cadre de ce projet, Emvista, le LIG et Airbus mènent des recherches qui visent à expérimenter des modèles à l’état de l’art pour structurer les contenus des rapports sécurité/défense et à concevoir des solutions plus performantes. Avec le LIG, Emvista dirige une thèse CIFRE dont le sujet est l’expérimentation du transfer learning pour le développement d’un parser sémantique multilingue.

L’Institut de recherche en informatique de Toulouse (IRIT) est une unité mixte de recherche (UMR 5505) fondée sur le partenariat entre l’Université Toulouse 3 – Paul-Sabatier (UT3), le Centre national de la recherche scientifique (CNRS), l’Institut national polytechnique de Toulouse et l’Université Toulouse Capitole (UT Capitole). Emvista est impliqué avec l’IRIT dans le projet de recherche collaboratif XP-Event qui a pour objectif de structurer les articles de presse, en particulier les informations relatives aux fusions/acquisitions d’entreprises.

Publications

L’équipe de recherche de Emvista partage régulièrement les résultats issus de ses expériences avec la communauté scientifique nationale et internationale. Les articles scientifiques décrivent en détail ces expériences et contribuent ainsi à l’évolution de l’état de l’art scientifique. 

Rajesh Piryani, Nathalie Aussenac-Gilles, Nathalie Hernandez, Cédric Lopez and Camille Pradel (2024)

Ontology based Event Knowledge Graph enrichment using case based reasoning

In Proceedings of Semantics 2024, to appear, Amsterdam.

 

Bastien Giordano, Cédric Lopez (2023)

In Proceedings of the Fourth International Workshop on Designing Meaning Representations, to appear, ICWS’23, Nancy, 110-121

Sylvain Verdy, Maxime Prieur, Guillaume Gadek, Cédric Lopez (2023) DWIE-FR :

Actes de la conférence TALN’23, Paris, 2023, à paraître

Jeongwoo Kang, Maximin Coavoux, Cédric Lopez, Didier Schwab (2023)

Actes de la conférence TALN’23, Paris, 2023, à paraître

Pascal Cuxac, Cédric Lopez, Vincent Lemaire (2023)

(EGC’23), 87 pages

Kevin Cousot, Nilofar Moradi Farisar, Waleed Ragheb, Mehdi Mirzapour (2023)

Actes de l’atelier TextMine’23 dans le cadre de la conférence Extraction et Gestion des Connaissances -EGC’23), p. 3-13, Lyon

Kévin Cousot, Thibaud Sanchez, Antoine Nguyen, Anthony Calpas, Ghislaine Martinez, Cédric Lopez (2022)

IC 2022, p…, Saint Etienne

Mehdi Mirzapour, Waleed Ragheb, Mohammad Javad Saeedizade, Kévin Cousot, Hélène Jacquenet, Lawrence Carbon, Mathieu Lafourcade (2022)

LREC 2022, Marseille

Nihed Bendahman, Kevin Cousot, Cédric Lopez (2022)

Actes de TextMine’22, Blois, p. 55-66

Théo Oriol, Mathieu Dodard, Kévin Cousot, Melissa Mekaoui, Hani Guenoune, Jean Bort, Antoine Nguyen, Thibaud Sanchez, Philippe GarnierCédric Lopez (2021)

Actes de la conférence EGC’21, Montpellier

Hani Guenoune, Kevin Cousot, Mathieu Lafourcade, Melissa Mekaoui, Cédric Lopez (2020)

In Proceedings of the Third Workshop on Computational Models of Reference, Anaphora and Coreference (pp. 165-175)

Melissa Mekaoui, Guillaume Tisserant, Mathieu Dodard, Cédric Lopez (2020)

EGC’2020, p. 193-204

Rachel Panckhurst, Cédric Lopez, Mathieu Roche (2020)

In “Corpus complexes Traitements, standardisation et analyse des corpus de communication médiée par les réseaux”, CORPUS, 21, to appear

Cédric Lopez, Melissa Mekaoui, Kevin Aubry, Guillaume Tisserant, Hani Guenoune, Mathieu Dodard, Jean Bort and Philippe Garnier (2020)

Advances in Knowledge Discovery and Management, à paraître

Coralie Reutenauer, Luce Lefeuvre, Aurélie Fouqueray, Thibault Prouteau, Valentin Pelloin, Nathalie Camelin, Nicolas Dugué, Cédric Lopez, Frédérique Segond, Didier Bourigault (2020)

22e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ22, à paraître

Kévin Deturck, Namrata Patel, Pierre-Alain Avouac, Cédric Lopez, Damien Nouvel, Ioannis Partalas and Frédérique Segond (2019)

In AICT (Application of Information and Communication Technologies), AI4M 2017, Held at IJCAI 2017, p. 113-131

Hani Guenoune, Cédric Lopez, Guillaume Tisserant, Mathieu Lafourcade, and Melissa Mekaoui (2019)

Actes du colloque Jeunes Chercheurs PRAXILING, p. 139-150

Cédric Lopez, Melissa Mekaoui, Kevin Aubry, Jean Bort and Philippe Garnier (2019)

Revue des Nouvelles Technologies de l’Information, RNTI-E-35, p. 81-92 (présenté à Metz à la conférence EGC’19)

Cédric Lopez, Molka Tounsi Dhouib, Elena Cabrio, Catherine Faron-Zucker, Fabien Gandon, Frédérique Segond (2018)

Revue d’Intelligence Artificielle, vol. 32/3, p. 287-31

Une question ? Une démo ?

    Du texte aux connaissances… des connaissances aux décisions

    +33 4 65 84 17 10

    Immeuble Le 610 – Bâtiment D
    10, rue Louis Breguet
    34830 Jacou – France

    Mentions légalesCookies – Copyright © 2024 Emvista SAS – Tous droits réservés – Emvista est une société du groupe India Juliet