Université de Franche-Comté

Big data : des universités triées sur le volet par la physique théorique

Big data et complexité des connexionsVingt-quatre éditions linguistiques de Wikipédia, représentant quelque dix-huit millions de pages web, soit plus de 60 % de la totalité de l’encyclopédie libre, c’est ce fantastique panel que José Lagès a mouliné à coups d’algorithmes pour que les ordinateurs crachent à l’arrivée les noms des universités et écoles les plus influentes dans le monde.
Enseignant-chercheur en physique théorique à l’université de Franche-Comté, José Lagès, avec la complicité de ses collègues de l’Institut UTINAM et du laboratoire de physique théorique de l’université de Toulouse III, a-t-il fait un pied de nez à l’indétrônable classement de Shanghaï ? Oui et non, puisque neuf établissements sont communs au top 10 des deux listes. Mais pas dans le même ordre. Dans le classement français, les célébrissimes Cambridge et Oxford dament le pion aux huit non moins prestigieuses universités américaines qui se succèdent ensuite. L’explication ? La french touch prend en compte l’importance historique, culturelle et sociale en plus de l’excellence académique sur laquelle se focalise Shanghaï. Côté français, si l’École normale supérieure et l’université de Strasbourg figurent dans le top 100 des deux classements, l’École polytechnique et l’Institut polytechnique des sciences avancées (IPSA) les rejoignent avec bonheur dans celui de Wikipédia. En définitive, soixante des cent premiers noms sont communs aux deux listes.
Mais l’intérêt de l’exercice ne réside pas tant dans le classement lui-même, malgré la valeur de ses enseignements, que dans la méthode utilisée, dont il n’est qu’une application spectaculaire et qui n’a pas manqué de faire le buzz. La physique théorique s’est-elle jamais montrée aussi proche des préoccupations du quotidien ?…

Réactions en chaîne

ConnexionsLe point de départ du travail des chercheurs, c’est la matrice Google, bâtie sur les mêmes principes que certains outils de la physique théorique capables de traiter des problèmes complexes, comme les chaînes de Markov. Le PageRank de Google est l’algorithme d’analyse de popularité des pages web, qui permet d’opérer leur classement de façon très efficace à partir du nombre de pointages dont elles font l’objet de la part d’autres pages. « C’est l’architecture de la matrice elle-même qui donne cette indication, et non le contenu des informations. »
C’est dans le même esprit que les algorithmes de calcul ont été développés pour établir le classement Wikipédia. Des algorithmes que les chercheurs vont développer pour d’autres applications encore, notamment par le biais du projet Apligoogle. Partagé entre le Laboratoire de Physique Théorique (LPT) de Toulouse, l’Institut de Recherche en Informatique de Toulouse  (IRIT), l’Institut Curie de Paris et l’Institut UTINAM, ce programme de recherche faisait partie des lauréats 2016 du défi Mastodons du CNRS, qui alloue une aide financière à des projets spécifiquement liés à la qualité des données dans les big data.
L’objectif est ici d’identifier des « nœuds » dissimulés dans un réseau, de repérer des entités qui a priori n’ont pas de lien : une page renvoie à une autre page, qui elle-même fait référence à une troisième, le processus se répétant au fil d’une longue chaîne dont on s’aperçoit que le dernier maillon a finalement à voir avec le premier.
« Un cheminement analogue prévaut dans la biologie des systèmes. C’est justement pour donner de nouvelles pistes de réflexion aux chercheurs en médecine, et notamment en oncologie, que ce programme a été mis sur pied. L’objectif est d’établir des corrélations entre les rôles de certaines entités comme les protéines, pour trouver des clés de compréhension des mécanismes en jeu.

 

Crédit photos : service communication de l’université de Neuchâtel
Contact : Institut UTINAM - Université de Franche-Comté / CNRS - José Lagès - Tél. + 33 (0)3 81 66 66 67 - josé.lages[at]utinam.cnrs.fr
retour