Université de Franche-Comté

Le traitement automatique des langues

Des échanges de plus en plus internationaux, une information disponible quasi infinie… les besoins sont croissants en outils automatiques de traitement de la langue. Exploration des confins de la linguistique et de l'informatique

 

Peut-être qu’une nouvelle forme de la mythique tour de Babel est en train d’émerger. Peut-être qu’après une dissémination des langues à la surface de la Terre, nous avons plus que jamais besoin de faciliter nos échanges… et donc de nous comprendre. Mais l’ancienne tour de Babel serait remplacée par les tours d’ordinateurs qui traitent, cherchent, compilent, traduisent, extraient du sens dans une masse d’informations. Peut-être.

 

Les spécialistes en traitement automatique des langues ― ou TAL ― semblent néanmoins avoir fait le deuil de systèmes capables de traduire Shakespeare en chinois ou la poésie de Rimbaud en swahili. Le langage reste le propre de l’homme.

 

Mais il n’en demeure pas moins que les innovations dans le TAL font leurs preuves et révèlent leur efficacité pour des applications spécifiques, plus circonscrites, dédiées. Il peut s’agir d’obtenir, via un moteur de recherche, des informations en plusieurs langues, ou s’assurer de la justesse d’un message d’alerte ou encore d’aller chercher le sens enfoui dans une quantité de messages. La globalisation des échanges, la numérisation des messages, les masses d’informations produites, l’internationalisation de nos vies, le développement des NTIC… Tous ces éléments rendent les besoins immanents, et Google n’est qu’une partie émergée d’un iceberg dans lequel se côtoient grands comptes, start-ups et laboratoires, linguistes et informaticiens.

 

L’ingénierie linguistique se situe bien à l’exacte confluence de la linguistique ― Qu’est-ce que la langue ? Où réside le sens ? Comment est construite chaque langue ? ― et de l’informatique. Autour de cette confluence, on retrouve deux stratégies qui se complètent dans les solutions logicielles développées. La première part d’une description linguistique pour aller vers une formalisation mathématique. La seconde part de l’analyse statistique de la langue et apprend à l’ordinateur les informations qu’il doit retirer et retenir de cette analyse. Bien entendu, en fonction des applications visées, l’un sera utilisé préférentiellement à l’autre, et bien souvent la combinaison des deux méthodologies donne les résultats les plus pertinents.

 

 

 

SOMMAIRE

 

 

Expliquer à un ordinateur ce qu'un enfant de quatre ans comprend

 

À la recherche de la règle des règles

 

Fiabilité, traçabilité dans les secteurs où règnent urgence et haute sécurité

 

Le sense mining ou comment enlever les scories pour trouver le sens

 

Des moteurs de recherche encore plus intelligents

 

Un effet feed-back

 

 

 

Expliquer à un ordinateur ce qu’un enfant de quatre ans comprend

La description d’une langue, de ses logiques propres, des règles qui la régissent, n’est pas chose aisée. Tous les éléments implicites qu’un enfant de quatre ans comprend doivent être explicités… C’est pourtant l’angle qu’ont choisi les linguistes spécialistes du traitement des langues à l’université de Franche-Comté. Et ils doivent être parmi les rares au monde. Au LaSeLDI — Laboratoire de sémiotique, linguistique, didactique et informatique — Max Silberztein adopte une stratégie « extensive » dans le cadre du développement du logiciel Nooj d’analyse des langues. C’est-à-dire qu’il tente — et avec lui plus d’une centaine de collègues d’universités du monde entier — de définir tous les cas possibles existant dans une classe de mots et de définir aussi toutes les règles dirigeant l’agencement des mots entre eux pour faire des phrases. Et ceci dans une douzaine de langues. Les dictionnaires recensent les unités linguistiques qui peuvent être des mots, des compositions de mots (déchiraquisation), des mots composés (carte bancaire) ou encore des expressions figées ou discontinues. Les grammaires, quant à elles, sont formalisées sous la forme de graphes pour aboutir à un logiciel capable d’analyser des corpus entiers. Max Silberztein estime que 10 000 graphes sont nécessaires pour décrire le français, de la règle « à le » devient « au » à l’ordre d’appel des pronoms (je le lui donne).

 

Cette recherche fondamentale apporte des enseignements sur la structure de la langue, peut aider à l’analyse de textes par les linguistes, et trouve aussi des applications dans l’industrie du text mining. Par exemple, sa capacité à reconnaître toutes les formes possibles d’écriture d’une date a été utilisée par Le Monde pour rechercher des textes dans des corpusd’informations. Toutes les dépêches associant une date donnée à un nom propre, par exemple. Nooj est également utilisé dans le projet VODEL — Valorisation ontologique des dictionnaires électroniques — porté par le CHU de Rouen et financé par l’ANR, pour analyser automatiquement des textes médicaux. Qu’un malade se plaigne de trop de tension et d’un cœur qui bat trop vite et le système interroge toutes les publications comprenant les notions d’hypertension et de tachycardie. 

 

 

Grammaire exprimée sous forme de graphe, tirée du logiciel Nooj

 

Grammaire exprimée sous forme de graphe, tirée du logiciel Nooj

 

Retour sommaire 

 

 

À la recherche de la règle des règles

Si une stratégie consiste à décrire exhaustivement les règles d’une langue, l’autre cherche à définir et à formaliser des « métarègles », c’est-à-dire en qualifiant la classe d’appartenance du mot. C’est cette logique en intension qu’explore le Centre de recherche Lucien Tesnière de l’université de Franche-Comté, linguistique et traitement automatique des langues, dirigé par Sylviane Cardey. Spécialisé dans la représentation mathématique formelle des langues, le Centre Tesnière trouve ses champs d’expérimentation dans la traduction automatique (un brevet a été déposé), les langues contrôlées, la recherche d’information (sense mining). Tous des sujets d’intérêt éminent pour les industriels. Ce qui amène le centre de recherche, fort d’une soixantaine de personnes (enseignants-chercheurs, ingénieurs, doctorants et masters) à signer de nombreux contrats avec des grands comptes tels qu’AIRBUS (ce qui a abouti à un brevet commun) ou NESTLÉ… 

 Retour sommaire

  

Un master TAL labellisé Erasmus Mundus

 

Le master international en traitement automatique des langues et industries des langues, coordonné par le Centre Tesnière et construit avec les universités de Franche-Comté, d’Algarve (Portugal), de Wolverhampton (Grande Bretagne) et de l’université autonome de Barcelone (Espagne) a été reconnu formation d’excellence par l’Union européenne qui l’a labellisée Erasmus Mundus. Seule une vingtaine de formations passe ce cap chaque année, toutes disciplines confondues. Dans cette formation, les étudiants, qu’ils soient linguistes ou informaticiens d’origine, apprennent à construire une formalisation de la langue, en se fondant sur les savoir-faire des laboratoires associés. Ceux qui ne continuent pas en recherche irriguent ensuite les entreprises, souvent dans leurs laboratoires R & D. Ainsi GOOGLE, COMPAQ, MICROSOFT, AIRBUS, NESTLÉ recrutent ces spécialistes du TAL.

Retour sommaire 

                                                                                                                                                                   

 

 

/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

 

 

Fiabilité, traçabilité dans les secteurs où règnent urgence et haute sécurité

Si la traduction automatique n’est actuellement pas très fiable, c’est à cause des ambiguïtés de la langue. « La belle porte le voile » peut être entendu de deux façons parce que trois mots de la phrase ont chacun deux sens. Les langues contrôlées, inventions de linguistes, sont des langues dans lesquelles toutes les ambiguïtés ont été levées. Il n’y paraît rien à les entendre, elles ressemblent aux langues naturelles, mais elles sont utilisées par le Centre Tesnière en préalable aux traductions en état d’urgence. Imaginons une catastrophe dans une ville cosmopolite. Des appels et messages doivent être envoyés en plusieurs langues à la population en quasi temps réel. Comment s’assurer de la justesse et de la clarté de ces messages ? Dans le système développé par le Centre Tesnière, une interface de saisie du texte pointe les ambiguïtés, en fonction de la langue d’arrivée (il peut en gérer jusqu’à quatre), pour que l’opérateur change sa formulation. Ces protocoles sont développés dans le cadre du programme LiSe financé par l’Agence nationale de la recherche qui concerne la linguistique de sécurité et associe AIRBUS et le CHU de Besançon. Avec ce dernier, l’objectif est de contrôler l’écriture des protocoles médicaux pour qu’il n’y ait pas de difficultés à l’interprétation et à la traduction. Actuellement, huit langues sont concernées : l’anglais, le polonais, le français, l’espagnol, l’arabe, le chinois, le thaï et le japonais. Plus globalement, ce projet permet un travail sur les normes de la langue. Dans le cadre du projet MESSAGE, inscrit dans les programmes européens, le laboratoire forme des spécialistes pour qu’ils s’approprient les méthodologies et technologies développées afin de les adapter dans leurs langues. Ils peuvent ensuite les transférer aux entreprises utilisatrices.  

Retour sommaire 

 

 

Le sense mining ou comment enlever les scories pour trouver le sens  

La construction de grammaires, de règles les plus globales possible pour qu’un ordinateur puisse analyser la langue sert aussi à exploiter les textes, à en rechercher le sens sans passer par un traducteur humain, le sense mining selon l’expression anglaise intraduisible en français. Dans ce domaine, deux jeunes chercheuses formées au Centre Tesnière, ont créé ERDIL, une entreprise spécialisée dans le développement de logiciels pour analyser, dans une entreprise, les messages reçus de sa clientèle. Retours sur ses produits, réclamations, analyse des services proposés… l’écoute du degré de satisfaction des clients constitue un volet stratégique de toute entreprise. Mais le temps consacré au déchiffrage de tous ces messages se révèle aussi un point noir.

 

ERDIL propose donc une solution logicielle. Les conversations téléphoniques sont résumées dans un message numérique, les lettres sont scannées et passées par un système de reconnaissance de forme et viennent s’ajouter aux mèls. Toute cette masse d’informations alimente le logiciel qui est capable de traiter trois pages en quelques secondes seulement. « Traiter » veut ici dire « extraire » toutes les informations contenues dans le message : le thème principal, mais aussi des précisions annexes. Par exemple, de la phrase « J’ai toujours trouvé votre produit très bon, mais depuis quelque temps j’ai changé d’opinion », le logiciel retient la fidélité du client et la critique de la qualité. Ainsi, le cumul des informations extraites peut faire rapidement apparaître un problème récurrent sur un produit, une lacune dans l’accueil des clients, une baisse tendancielle de satisfaction…

 

Autre avantage, les messages, une fois analysés, peuvent être envoyés directement au service concerné — maintenance, achats… — pour un traitement plus rapide.

 

La pertinence du logiciel d’ERDIL vient d’un travail en profondeur entre l’entreprise et les clients. Les grammaires sous-jacentes sont ajustées en fonction des besoins spécifiques de chacun. Grammaires et dictionnaires qui s’échappent parfois du canon, puisqu’il faut pouvoir comprendre aussi l’écriture SMS et les fautes d’orthographe ! Le logiciel ERDIL CRM Analytics est notamment installé depuis plusieurs mois chez LEROY MERLIN pour analyser tous les retours clients de tous les magasins de France… et l’analyse de satisfaction est très positive !

Retour sommaire

 

 

Les experts mondiaux du TAL appliqué aux domaines de la sécurité et de l’urgence réunis à Besançon

 

Du 1er au 3 juillet 2009, le Centre Tesnière organise à Besançon un colloque international (ISMTCL) qui vise à réunir des spécialistes de la traduction automatique, du data et sense mining et des langues contrôlées. Si ces trois disciplines se sont toutes développées à partir des années 1960, elles l’ont souvent fait indépendamment les unes des autres. Il est sans doute temps maintenant de les combiner pour créer de nouvelles théories. Des chercheurs internationalement reconnus, Igor Melcuk (université de Montréal), Makoto Nagao (Japon), John Hutchins (Angleterre) et Richard Kittredge (États-Unis), aborderont les différents volets du TAL.

Retour sommaire 

 

 

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////// 

 

 

Des moteurs de recherche encore plus intelligents  

Toute autre approche pour le même objectif, rechercher du sens dans tout un corpus de texte. À l’Institut d’informatique de l’université de Neuchâtel, Jacques Savoy, qui tient la chaire de traitement automatique de la langue, part avant tout d’analyses statistiques, en les couplant parfois avec une approche logique. La recherche de faits ou de pages par mots-clés via un moteur de recherche est actuellement très efficace. L’étape suivante consiste à partir à la recherche des opinions, des sens exprimés dans ces corpus sur internet. À titre d’exemple, le gouvernement japonais lance tous les cinq ou six ans de grands défis aux équipes académiques ou privées travaillant sur le sujet dans le monde. Une des questions en cours est posée en ces termes : « Quelle est l’image des Japonais véhiculée par les blogues ? » Le problème est décomposé en étapes courant sur un an et demi : trouver les opinions, puis les classer (le concours en est actuellement à ce stade), trouver l’émetteur et enfin repérer les unités linguistiques exprimant cette opinion.

 

Les éléments contextuels tels que les !, …, « », les superlatifs ou comparatifs, les verbes comme « critiquer » sont des indices de l’expression d’une opinion. Si cette opinion doit être cherchée dans toutes les pages mondiales, il devient nécessaire de gérer le multilinguisme. Jacques Savoy travaille aussi en ce sens. Une requête faite dans une langue donnée doit pouvoir retrouver les documents pertinents écrits dans toutes les langues — ou du moins dans les langues programmées.

 

Pour cela, le logiciel doit, bien sûr, traduire les requêtes (bien que cette opération soit transparente pour l’utilisateur). Trois méthodes sont couplées pour assurer cette traduction : l’utilisation de Google, de Yahoo ou de Reverso, l’implémentation de dictionnaires multilingues disponibles dans le commerce, et l’utilisation du web : en comparant des articles traitant de mêmes sujets dans plusieurs langues, typiquement les Jeux olympiques ou encore le Journal officiel de la Communauté européenne, il est possible de mettre en place des traductions. Un algorithme travaillant en routine charge les pages, les compare et extrait les équivalences d’une langue à l’autre. C’est la fréquence d’apparition qui fait office de validation. Pour lever certaines ambiguïtés (bank en anglais signifie à la fois berge et banque), il faut parfois faire appel à un petit contexte.

 

Cette méthode a fait ses preuves puisque l’institut a été plusieurs fois classé premier dans les défis lancés par l’Europe ou le Japon.

Retour sommaire

 

 

Un effet feed-back 

Tous ces travaux sur la conception de logiciels, que ce soit pour la recherche de sens ou pour la traduction, n’ont pas que des effets sur l’ingénierie. En forçant les chercheurs à interroger la langue pour résoudre des points particuliers, en les obligeant à décortiquer pour une machine des mécanismes que l’humain utilise sans s’en rendre compte, ce travail amène une connaissance plus approfondie, peut-être moins intuitive de la structure de la langue, et donc une meilleure compréhension des fonctionnements de notre cerveau et de cette invention géniale qu’est la langue.

Retour sommaire

 

 

La face cachée de Google

 

On se fait « googlisé » et on « googlise » à foison… Ce quasi monopole du moteur de recherche — il atteindrait 80 à 90 % des recherches faites sur l’internet — le rend convoité par les entreprises et puissant. S’il défend une neutralité dans son référencement des sites, Jacques Savoy, de l’université de Neuchâtel, signale qu’il existe quelques biais introduisant des préférences. Par exemple, les entreprises de haute technologie sont favorisées, ont un meilleur pagerank, l’indice de notation de Google, et leurs sites apparaissent plus haut dans les pages de résultats. De même que les sites des entreprises citées dans le classement Fortune 500 ou Most Admired US Companies. Comme si la notoriété amenait la notoriété. De façon statistiquement significative, les sites « .com » ont un point de plus, sur une échelle de 0 à 10, que les mêmes sites sur les domaines « .ch ».

 

Les recherches menées en analyse de textes et recherche d’information peuvent se révéler particulièrement intéressantes pour un tel moteur de recherche, en améliorant la connaissance des internautes, de leurs goûts, de leurs besoins. Et si l’on imagine, en plus de l’utilisation de tels outils, une alliance de Google avec Facebook, alors l’anonymat n’est plus possible !

Retour sommaire

 

 

Contact : Sylviane Cardey

Centre Lucien Tesnière

Université de Franche-Comté

Tél. (0033/0) 3 81 66 53 94

 

Max Silberztein 

LaSeLDI

Université de Franche-Comté

Tél. (0033/0) 1 42 02 15 50

 

Jacques Savoy

Institut d’informatique

Université de Neuchâtel

Tél. (0041/0) 32 718 13 75

 

Helena Morgadinho – Séverine Vienney

ERDIL

Tél. (0033/0) 3 81 25 29 86

 

Retour en haut de page

 

 

 

 

 

 

retour