Dompter le big data

SOMMAIRE

– Du data au big data

– Le portail Dat@OSU, outil de diffusion et de valorisation

– L’UTBM, très concentrée sur ses données

– SequaNEt, c’est quoi ?

– Les universités triées sur le volet par la physique théorique

– Réactions en chaîne

– Apprendre aux ordinateurs à analyser intelligemment les données

– Sens des mots et pertinence de l’information

– Au commencement était le verbe

– Sentinelles de l’information

– Systèmes complexes et big data

Énorme, puissant, inquiétant même, le big data s’impose sur les écrans d’ordinateur, s’immisce dans la gestion de l’entreprise et changera peut-être même sa façon de penser. S’il recèle un formidable potentiel de connaissance et de développement, il reste à apprivoiser pour donner le meilleur de lui-même et ne pas outrepasser son rôle de ressource informatique.

« Le big data désigne des données massives en volume, en variété et en vélocité, que les méthodes et outils traditionnels peuvent difficilement explorer et exploiter. » Cette définition est apportée par Abdelmalek Berkani, enseignant-chercheur à la Haute école de gestion Arc, qui précise bien que « big data ne signifie pas big company ». C’est pour décomplexer les PME et surtout leur donner des clés de compréhension du phénomène, qu’il a animé des conférences sur le sujet en collaboration avec Cédric Baudet, comme lui spécialiste des systèmes d’information d’entreprise à l’école neuchâteloise. « Il s’agissait de présenter les concepts de base et les atouts du big data, et aussi d’adresser certaines mises en garde aux entrepreneurs », précise ce dernier.

Un peu à la manière dont on construit un objet inédit à partir de matériaux de récupération, tirer profit du big data signifie créer un produit, un concept, une méthode, bref apporter de la valeur ajoutée à son entreprise à partir de l’exploitation de données en tout genre. Des données qui peuvent être classées en trois catégories : les informations propres à l’entreprise, celles issues de son contexte, clients, fournisseurs, concurrents, et enfin les données publiques, émises par les gouvernements, inscrites sur les réseaux sociaux, le web… Mais, de la même façon que l’objet créé avec des matériaux de récupération peut prendre des allures improbables, l’avantage concurrentiel à tirer du big data n’est pas identifié au départ, pas plus que la façon de s’y prendre.

Des solutions informatiques font peu à peu leur chemin, comme nous le verrons plus loin, mais pour l’heure les dirigeants d’entreprise sont démunis pour imaginer ce qu’ils peuvent espérer du traitement de telles données.

Du data au big data

Abdelmalek Berkani a conceptualisé pour eux un processus en cinq étapes, de l’exploration de leurs données à celles qui arrivent massivement de l’extérieur, un cheminement qu’il a intitulé « du data au big data », rappelant au passage l’importance pour l’entreprise de commencer par le début, à savoir apprendre du traitement de ses propres informations, ce qu’elle rechigne parfois à faire faute de compétences ou de moyens. L’étape 1 concerne les données « internes, actuelles et structurées » de l’entreprise, auxquelles s’ajoute un aspect historique à l’étape 2 : à partir de là, il est déjà possible d’établir des prévisions de marché ou des prédictions de pannes machines à l’aide de statistiques. Dès l’étape 3, les données arrivent de l’extérieur, mais elles restent structurées : les tableaux financiers et autres résultats chiffrés sont toujours propices à l’analyse.

C’est à la quatrième étape que l’entreprise aborde le big data proprement dit, avec des informations sans vraie organisation, donc plus difficilement exploitables. « Un ordinateur ne sait pas entrer dans ce type d’informations, en revanche il peut compter. S’il relève que quinze mails ont été échangés pour passer une simple commande, c’est en soi déjà identifier qu’il y a problème. La cinquième étape se complique considérablement, avec des données provenant par flux entiers de journaux, de streamings et réseaux sociaux en tous genres. Volume, variété, vélocité : si deux de ces critères en V peuvent être appliqués aux données, alors on peut parler de big data.

big data

Pour les spécialistes en système d’information, bien traiter les données, quelles qu’elles soient, commence par un changement d’attribution de la place de l’informatique dans la stratégie et dans la hiérarchie de l’entreprise. « Il est temps de considérer l’informatique non plus comme un centre de coût indispensable, mais comme une source de valeur. Pour utiliser le big data, il est nécessaire de développer les compétences et de ne plus séparer les gens de métier et les informaticiens qui doivent travailler ensemble, de repenser le management et de faire évoluer la culture de l’entreprise. »

En amont cependant, l’envers technique du décor est lui-même déjà largement méconnu des utilisateurs…

retour au sommaire

Le portail Dat@OSU, outil de diffusion et de valorisation

Valoriser les données de la recherche d’une université tout entière, en créant une banque de données dédiée, la tâche est à la mesure de l’ampleur des informations : gigantesque. C’est pourquoi l’équipe qui s’est attaquée à ce vaste chantier a choisi de procéder par étapes. L’équipe, c’est Sylvie Damy, enseignante en informatique à l’université de Franche-Comté et chercheur au laboratoire Chrono-environnement, et Bernard Debray, ingénieur informatique à l’Institut UTINAM, un tandem rejoint ensuite par Gaëlle Laporte, chargée de ressources documentaires, et Raphaël Melior, ingénieur informatique, tous deux à l’OSU THETA¹.

« Cela fait des années que nous avons pressenti l’intérêt et l’importance de gérer nos données en propre, expliquent les deux instigateurs du projet. Collecter et diffuser l’information, c’est aussi avoir la connaissance et la maîtrise de cette connaissance. Pour les établissements, la gestion des données devient un outil de valorisation comme peut l’être une publication. » D’un point de vue technique, l’habitude historique d’archivage, d’accessibilité et de traitement des données collectées sur l’univers, mise en œuvre depuis des décennies dans la recherche en astronomie, a servi de modèle à l’élaboration d’un portail de métadonnées accessibles à tous.

Car ce ne sont pas les données elles-mêmes qui sont directement accessibles, mais des informations les concernant, une sorte de fiche de renseignements indiquant les principaux éléments d’identification et de description d’un travail de recherche. Un lien pourra ensuite être établi entre ces métadonnées et les données proprement dites en accès libre ou restreint, selon le niveau d’avancement de la recherche ou son caractère confidentiel.

Les structures membres de l’OSU THETA sont naturellement les premières à servir de terrain d’expérience. L’astronomie, la climatologie, l’écologie, la physique moléculaire, la chimie bientôt, font par exemple partie d’un premier groupe auquel s’agrègeront peu à peu les autres disciplines, dans tous les domaines. « Le profil de métadonnées élaboré a un noyau très générique, ce qui permet à tous les champs scientifiques de l’utiliser. »

Inauguré en avril dernier, le portail Dat@OSU s’enrichit très régulièrement de fiches nouvelles ; il est alimenté par les chercheurs et animé par des correspondants dans chaque structure de recherche, en lien permanent avec l’équipe chargée du traitement des données et de la gestion du site. Le portail, accessible en français et en anglais, est construit selon des standards éprouvés et reconnus, un gage de qualité et une bonne option pour son développement futur, puisqu’il est prévu dans une seconde phase de le connecter à des portails nationaux et internationaux.

¹OSU-THETA: l’Observatoire des sciences de l’univers Terre Homme Environnement Temps Astronomie de Franche-Comté – Bourgogne est composé des structures de recherche suivantes : l’Institut UTINAM, le laboratoire Chrono-environnement, le laboratoire Biogéosciences (Dijon), le Département Temps-Fréquence de l’Institut FEMTO-ST, l’équipe spectroscopie moléculaire, processus collisionnels et applications de l’ICB (Dijon).

portail dataosu

retour au sommaire

L’UTBM, très concentrée sur ses données

Toute l’université de technologie de Belfort-Montbéliard confinée dans quelques dizaines de mètres cubes! Le data center de l’établissement, opérationnel depuis un an et demi, centralise à Belfort données administratives, pédagogiques et de recherche derrière les baies noires d’une armoire high tech, où s’empilent une centaine de serveurs. De Belfort, Sevenans et Montbéliard, les 1500 ordinateurs du parc informatique de l’UTBM sont connectés à ce centre par fibre optique.

Outre un stockage et une gestion des données facilités, le système est à l’origine d’économies d’énergie substantielles, en complète adéquation avec les préoccupations environnementales actuelles. « D’un point de vue économique, mutualiser l’hébergement informatique représente un gain financier de l’ordre de 30 à 40 % », raconte Dominique Dal Ponte, responsable du pôle Infrastructures de la Direction des systèmes d’information (DSI) de l’université de technologie.

utbm

L’optimisation du système de refroidissement des machines est principalement à l’origine de ce bénéfice : au niveau des baies un gain important a été obtenu par la séparation des flux d’air chaud et froid d’une part, et l’intégration directe des échangeurs entre les baies informatiques d’autre part. L’évacuation des calories ainsi récupérées est réalisée grâce à un groupe froid de nouvelle génération de type « free cooling », qui fonctionne d’un côté grâce à des compresseurs classiques, de l’autre par captage de l’air extérieur.

Le recours à l’air extérieur est viable une bonne partie de l’année mais présente évidemment plus d’intérêt les jours de frais, ce en quoi notre région est assez bien placée. Le système atteint une efficacité maximale avec des températures extérieures inférieures à 5°C. Les informaticiens mènent en parallèle une réflexion avec les chercheurs du département Énergie de l’UTBM, afin d’étudier les possibilités de récupération de la chaleur pour le chauffage de bâtiments.

Adaptation et évolution sont des mots qui ont présidé à la conception du data center, qui bénéficie d’une installation sur plus de 100 m² au cœur de Techn’hom, un dimensionnement et une position géographique potentiellement intéressants si la vocation de mutualisation et de partage des données du centre doit un jour prendre de nouvelles dimensions.

retour au sommaire

SequaNEt, c’est quoi ?

Il ne fait pas parler de lui (ce qui prouve son bon fonctionnement), pourtant c’est par lui que transitent les communications téléphoniques et les accès internet de tout l’enseignement supérieur franc-comtois. Relié au réseau national RENATER et aux principaux opérateurs web, SequaNET est le réseau régional dédié à la transmission et à la circulation de l’information numérique dans le monde académique. Il a été conçu et mis au point conjointement par les Directions des systèmes d’information (DSI) de l’UTBM et de l’université de Franche-Comté. De facture classique mais doté de bonnes performances avec une puissance de 10 Go, SequaNET est opérationnel depuis neuf ans.

retour au sommaire

Des universités triées sur le volet par la physique théorique

Cette mise au point technique faite, installons-nous devant nos écrans. Vingt-quatre éditions linguistiques de Wikipédia, représentant quelque dix-huit millions de pages web, soit plus de 60 % de la totalité de l’encyclopédie libre, c’est ce fantastique panel que José Lagès a mouliné à coups d’algorithmes pour que les ordinateurs crachent à l’arrivée les noms des universités et écoles les plus influentes dans le monde.

Enseignant-chercheur en physique théorique à l’université de Franche-Comté, José Lagès, avec la complicité de ses collègues de l’institut UTINAM et du laboratoire de physique théorique de l’université de Toulouse III, a-t-il fait un pied de nez à l’indétrônable classement de Shanghaï ? Oui et non, puisque neuf établissements sont communs au top 10 des deux listes. Mais pas dans le même ordre. Dans le classement français, les célébrissimes Cambridge et Oxford dament le pion aux huit non moins prestigieuses universités américaines qui se succèdent ensuite. L’explication ? La french touch prend en compte l’importance historique, culturelle et sociale en plus de l’excellence académique sur laquelle se focalise Shanghaï.

« C’est ainsi que l’université Humboldt de Berlin figure à la 11^e position alors qu’elle est oubliée par Shanghaï », raconte José Lagès. Côté français, si l’École normale supérieure et l’université de Strasbourg figurent dans le top 100 des deux classements, l’École polytechnique et l’Institut polytechnique des sciences avancées (IPSA) les rejoignent avec bonheur dans celui de Wikipédia. En définitive, soixante des cent premiers noms sont communs aux deux listes.

branchements big data

Mais l’intérêt de l’exercice ne réside pas tant dans le classement lui-même, malgré la valeur de ses enseignements, que dans la méthode utilisée, dont il n’est qu’une application spectaculaire et qui n’a pas manqué de faire le buzz. « Quatre-vingt-dix-neuf articles provenant de journaux de 22 pays sont parus à son sujet sur le net. » La physique théorique s’est-elle jamais montrée aussi proche des préoccupations du quotidien ?…

retour au sommaire

Réactions en chaîne

Le point de départ du travail des chercheurs, c’est la matrice Google, bâtie sur les mêmes principes que certains outils de la physique théorique capables de traiter des problèmes complexes, comme les chaînes de Markov. Le PageRank de Google est l’algorithme d’analyse de popularité des pages web, qui permet d’opérer leur classement de façon très efficace. La popularité d’une page n’a rien à voir avec le nombre de consultations, mais signifie que cette page fait l’objet de nombreux pointages par d’autres pages. « C’est l’architecture de la matrice elle-même qui donne cette indication, et non le contenu des informations. »

C’est dans le même esprit que les algorithmes de calcul ont été développés pour sonder les dix-huit millions de pages Wikipédia et établir le classement. Des algorithmes que les chercheurs vont développer pour d’autres applications encore, notamment par le biais du projet Apligoogle.

Partagé entre le Laboratoire de Physique Théorique (LPT) de Toulouse, l’Institut de Recherche en Informatique de Toulouse (IRIT), l’Institut Curie de Paris et l’Institut UTINAM, ce programme de recherche fait partie des lauréats 2016 du défi Mastodons du CNRS, qui alloue une aide financière à des projets spécifiquement liés à la qualité des données dans les big data. L’objectif est ici d’identifier des « nœuds » dissimulés dans un réseau, de repérer des entités qui a priori n’ont pas de lien : une page renvoie à une autre page, qui elle-même fait référence à une troisième, le processus se répétant au fil d’une longue chaîne dont on s’aperçoit que le dernier maillon a finalement à voir avec le premier.

« Un cheminement analogue prévaut dans la biologie des systèmes. C’est justement pour donner de nouvelles pistes de réflexion aux chercheurs en médecine, et notamment en oncologie, que ce programme a été mis sur pied. L’objectif est d’établir des corrélations entre le rôle de certaines entités, ici par exemple les protéines, leurs effets, les processus à l’œuvre, pour trouver des clés de compréhension des mécanismes en jeu.

retour au sommaire

Apprendre aux ordinateurs à analyser intelligemment les données

Dix milliards de pages web disponibles, cinquante minutes de vidéos créées sur youtube et trois millions de mails échangés dans la même seconde… l’explosion du volume des données sur le net signifie aussi une perte de leur qualité, ainsi que l’estime Kilian Stoffel, directeur de l’Institut du management de l’information à l’université de Neuchâtel, et tout récemment nommé recteur de l’alma mater. À la règle des trois V (volume, variété, vélocité) définissant le big data, Kilian Stoffel ajoute deux critères, avec les termes valeur et véracité. « Nous mettons au point des techniques analytiques pour transformer toutes les informations brutes distillées par internet en informations utiles. »

La démarche a trait à l’intelligence artificielle, dont les méthodes sont adaptées aux spécificités du big data. À partir de processus d’apprentissage qu’on leur inculque grâce à des algorithmes, les ordinateurs systématisent les données et en tirent des concepts. C’est de ces corrélations que naît leur valeur, et que s’affirme leur intérêt dans des champs d’application aussi variés que la santé publique ou la lutte contre la criminalité.

Pour le premier, un projet de recherche lie actuellement les informaticiens et les spécialistes du droit de la santé de l’université de Neuchâtel à des collègues de six autres universités suisses, chacun expert dans un domaine particulier, médecine, économie, éthique/morale… Une approche interdisciplinaire garantissant la pertinence des algorithmes d’apprentissage par machine. En matière de criminologie, le projet récemment mené avec la police scientifique de Lausanne avait pour objet de mettre en relation les données issues des différentes instances impliquées dans la sécurité des biens et des personnes.

« Grâce aux méthodes nouvelles, les outils informatiques aideront à établir des liens, à donner sens aux données et à assurer la cohérence des actions à mettre en place » conclut Kilian Stoffel.

retour au sommaire

Sens des mots et pertinence de l’information

Quand la puissance de l’informatique s’allie à l’analyse de la linguistique, la sélection des données prend un tour que maîtrise parfaitement le centre Lucien Tesnière à l’université de Franche-Comté, rompu à cet exercice de longue date. « Les linguistes sont de plus en plus sollicités pour appréhender la question de la gestion de données » confie Sylviane Cardey-Greenfield, directrice du centre où est né le concept scientifique de « data excellence ».

« Le langage naturel est à la base d’élaboration de modèles, qui servent à extraire le sens des données à partir de celui des mots et de la syntaxe. » La modélisation sémantique constitue ainsi un socle sur lequel a été bâtie la plateforme DEMS (Data Excellence Management System), créée par l’entreprise genevoise GLOBAL DATA EXCELLENCE. Une entreprise fondée et pilotée par Walid El Abed, qui a fait ses armes au centre Tesnière où il a obtenu un doctorat en 2001. « Près de vingt ans de R&D ont été nécessaires pour mettre cet outil au point et le peaufiner » explique le chef d’entreprise, pour qui « le système s’annonce comme une fracture de la pensée industrielle ».

branchements bigdata

La gestion d’une entreprise ou d’une entité administrative ne s’opère plus ici selon des indicateurs traditionnels, mais par la mise en confrontation des données concernant l’établissement avec les objectifs que celui-ci s’est assignés. Les données sont celles de l’entreprise elle-même, ses résultats, ses bilans, et celles du contexte dans lequel elle évolue, règles de lois, concurrence, réseaux sociaux…, l’ensemble constituant sa réalité. « On part moins de la notion de performance que de celle de valeur : selon l’objectif annoncé, le système dira si la réalité de l’entreprise atteint un degré de conformité suffisant pour pouvoir réaliser cet objectif, ou quels sont les paramètres à modifier pour s’en rapprocher. »

Les données, utilisées comme indicateurs d’excellence et clés de valeur, deviennent des outils de gouvernance et de valorisation de l’entreprise. L’approche originale de la data excellence, applicable à une société comme à un gouvernement, doit se frayer un chemin dans la culture de l’entreprise ; elle a cependant déjà séduit de grands noms puisque MICHELIN, LAFARGE-HOLCIM, le groupe MUTUEL ASSURANCES, BNP PARIBAS, BACARDI ou EDF, pour citer quelques grands comptes, et les cantons de Genève, du Valais et de Fribourg pour illustrer un versant plus administratif, figurent au nombre des clients de GLOBAL DATA EXCELLENCE.

retour au sommaire

Au commencement était le verbe

Identifier et valoriser le sens des données sont à l’origine de nombreux travaux de recherche au centre Tesnière. Dans son travail de post-doctorant, Ibrahim Soumana interroge internet. Son idée est de sélectionner les informations les plus pertinentes par rapport à un objectif de recherche sur la toile, en croisant un modèle linguistique avec un langage naturel. « Cette façon d’opérer va à l’encontre des algorithmes standard de Google, qui, eux, travaillent selon un profil d’utilisateur », explique le jeune chercheur.

Un autre aspect du projet est d’amener les entreprises à partager en petit comité les données qui pourraient être utiles à chacune, sachant que « plus de 80 % des informations sont ignorées des moteurs de recherche en raison de leur caractère confidentiel ». Le logiciel mis au point par Ibrahim Soumana fera l’objet d’une démonstration sous forme de prototype dès cet automne auprès des entreprises, pour lesquelles il peut représenter une alternative ou un complément aux méthodes statistiques traditionnelles.

Celle logique du sens prévaut aussi dans le travail de Iana Atanassova, qui, elle, s’attache au tri sélectif des données de la recherche. « L’objectif est d’analyser le contenu d’articles scientifiques à très grande échelle pour établir l’état de l’art d’un domaine particulier », explique la chercheuse, qui a choisi la biologie pour tester sa méthode à partir d’un corpus de quelque 100 000 articles. C’est le verbe qui concentre toutes les attentions.

Des algorithmes sont chargés d’identifier les verbes dans un texte, de les relier entre eux, d’étudier leur sens précis et leur contexte linguistique. Il n’est pas ici question de statistiques, mais de sélection d’informations par le sens, là encore selon un objectif défini. « L’extraction de catégories sémantiques permet à chacun de consulter rapidement ce qui l’intéresse à l’intérieur d’une vaste somme d’informations », conclut la chercheuse, dont le travail a fait l’objet de plusieurs publications.

retour au sommaire

Sentinelles de l’information

La sécurité et la protection des données sont le revers de médaille inévitable à tout stockage ou diffusion d’envergure sur le net. À l’université de Neuchâtel, le groupe de recherche en systèmes complexes de l’Institut d’informatique vient d’obtenir 1,6 million de francs suisses pour la conduite de ses travaux au sein de deux projets européens consacrés aux clouds. « Dans les deux cas, il s’agit de consortiums regroupant laboratoires académiques et partenaires industriels », précise Valerio Schiavoni, collaborateur à l’Institut d’informatique et coordinateur du Centre de compétences en systèmes complexes et big data (cf encart). SafeCloud veut empêcher toute possibilité de manipuler ou d’accéder à des données privées stockées sur des plateformes publiques comme Dropbox ou Google Drive.

Si la santé et les informations confidentielles qui lui sont apparentées sont une application du projet, les technologies développées à l’université de Neuchâtel sont adaptables à tout autre domaine. Le secure multiparty computation, ou calcul multipartie sécurisé, permet de fractionner les données puis de les recombiner de manière à ce que chaque partie, prise individuellement, soit complètement aléatoire. L’entanglement, ou enchevêtrement, empile les documents les uns sur les autres en les sauvegardant tous à chaque fois qu’un nouveau est créé : dès qu’un document est sauvegardé, il est automatiquement relié à un document stocké précédemment qui fera à nouveau l’objet d’une sauvegarde, la chaîne ainsi constituée garantissant la protection des données.

Le second projet, intitulé SecureCloud, est complémentaire au premier : il prévoit de stocker et d’exploiter sous forme sécurisée des données sensibles sur les plateformes publiques, pourtant peu dignes de confiance. « Ici, ce sont les ressources matérielles qui sont à la base de la sécurisation, explique Valerio Schiavoni. Les calculs appliqués aux données sont protégés dans des enclaves à l’intérieur du processeur, grâce à une technologie fournie par INTEL, que nous développons et adaptons à ce contexte ». Le traitement de l’information pourra être effectué sur les clouds publics sans qu’il soit possible d’ouvrir ces données, un procédé garantissant la confidentialité de négociations financières comme de dossiers sur la santé des personnes.

retour au sommaire

Crédit photo dossier : service communication de l'Université de Neuchâtel,

sauf p. 19 : service communication de l'UTBM.

Systèmes complexes et big data

C’est l’un des dadas de l’université de Neuchâtel et l’un de ses domaines clés : le big data est à l’origine de la création d’un centre de compétences fédérant les spécialistes du domaine, qui à l’université œuvrent dans différents instituts de recherche. Valerio Schiavoni coordonne les aspects technologiques du centre. « Au-delà du regroupement d’informaticiens et de leurs travaux sur le vaste sujet du big data, nous sommes en lien avec les autres instituts de l’université. Des projets communs aident à sensibiliser les collègues moins directement concernés aux nouvelles technologies et à de nouvelles façons de travailler. »

Le big data n’en est qu’à ses premiers pas : s’il est de bon ton de s’y intéresser, il ne faut pas perdre de vue qu’il est un outil parmi d’autres au service des décideurs et des utilisateurs, et non une fin en soi. Selon les mots de Cédric Baudet, « la prudence reste de mise tant que des normes n’auront pas été élaborées à son sujet, et que des solutions pérennes pour l’entreprise se fassent jour ». En attendant, les chercheurs travaillent à faire progresser le développement raisonné de cette nouvelle création du numérique…

retour au sommaire

Contact :

Cédric Baudet / Abdelmalek Berkani

Haute Ecole Arc Gestion
Tél. + 41 (0)32 930 20 53 / 20 85

Dominique Dal Ponte

Direction des systèmes d’information (DSI)

UTBM
Tél. + 33 (0)3 84 58 30 00

José Lagès

Institut UTINAM

Université de Franche-Comté / CNRS

Tél. + 33 (0)3 81 66 66 67

Sylviane Cardey-Greenfield