Si je lui dis « capteur », il répond « megapixels, infrarouge, photosites » ou encore « température ». Lui, c'est Corpus français, une banque de données en ligne pour explorer le lexique français contemporain écrit. Complément logique du sacro-saint dictionnaire, il a la particularité de s'adresser aux chercheurs comme au grand public. Corpus français répertorie la bagatelle de 37 millions de phrases, soit quelque 700 millions de mots issus de la presse francophone, des pages web et de l'encyclopédie Wikipédia. Sa consultation permet de découvrir des phrases exemples autour d'un mot-clé, de constater la fréquence d'utilisation de ce mot et, mieux encore, de repérer son association à d'autres mots dans le français écrit. Des graphes indiquent la proximité sémantique entre le mot-clé et les termes qui lui sont le plus souvent liés.
Replacés dans différents contextes, les mots prennent tout leur sens et deviennent de véritables sésames pour appréhender la langue française autrement.
Corpus français a été mis au point par le groupe de recherche en traitement automatique des langues de l'université de Leipzig, en collaboration avec l'université de Neuchâtel. Son accès est gratuit et simplissime à l'adresse http://wortschatz.uni-leipzig.de/ws_fra/
Contact : Daniel Elmiger
Institut de recherche et de documentation pédagogique et Institut de langue et littérature allemandes
Université de Neuchâtel
Tél. (0041/0) 32 718 19 46
Institut de langue et civilisation françaises
Université de Neuchâtel
Tél. (0041/0) 32 718 18 77