Corpus français : 700 millions de mots en ligne

Si je lui dis « capteur », il répond « megapixels, infrarouge, photosites » ou encore « température ». Lui, c'est Corpus français, une banque de données en ligne pour explorer le lexique français contemporain écrit. Complément logique du sacro-saint dictionnaire, il a la particularité de s'adresser aux chercheurs comme au grand public. Corpus français répertorie la bagatelle de 37 millions de phrases, soit quelque 700 millions de mots issus de la presse francophone, des pages web et de l'encyclopédie Wikipédia. Sa consultation permet de découvrir des phrases exemples autour d'un mot-clé, de constater la fréquence d'utilisation de ce mot et, mieux encore, de repérer son association à d'autres mots dans le français écrit. Des graphes indiquent la proximité sémantique entre le mot-clé et les termes qui lui sont le plus souvent liés.

Replacés dans différents contextes, les mots prennent tout leur sens et deviennent de véritables sésames pour appréhender la langue française autrement.

Corpus français a été mis au point par le groupe de recherche en traitement automatique des langues de l'université de Leipzig, en collaboration avec l'université de Neuchâtel. Son accès est gratuit et simplissime à l'adresse http://wortschatz.uni-leipzig.de/ws_fra/

Contact : Daniel Elmiger

Institut de recherche et de documentation pédagogique et Institut de langue et littérature allemandes

Université de Neuchâtel

Tél. (0041/0) 32 718 19 46

Alain Kamber

Institut de langue et civilisation françaises

Université de Neuchâtel

Tél. (0041/0) 32 718 18 77

retour