L’édito du hors-série spécial « Big Data et Data Mining » !

Il y a des chercheurs et des ingénieurs qui, dans un travail long et fastidieux, cherchent des corrélations complexes, qui veulent faire parler les données et les lier entre elles. Leur objectif est d’extraire un maximum d’informations et de bien comprendre les articulations existant entre celles-ci.

Et puis, il y a l’expérience de sites web administratifs ou d’entreprises qui détiennent sur nous tous des milliers de données. En nous rendant sur des sites proposant différents services, il n’est pas rare de s’interroger sur la réflexion qui a eu lieu quant à l’usage de données complètement basiques telles que l’état civil. Que dire en effet lorsque vous contactez un service client par téléphone (nécessairement parce que l’option chat/mail est défaillante sur le site) et que le serveur vous communique votre numéro de contrat à transmettre au téléconseiller qui va vous répondre ? Pour connaître ce numéro de contrat, le serveur a effectué une requête à partir de votre numéro de téléphone ; et, c’est ce même serveur qui va vous mettre en relation avec un téléconseiller… Alors pourquoi ne transmet-il pas directement le numéro de contrat à notre interlocuteur qui doit lui aussi être identifié dans la base ?

J’avais déjà exprimé mon étonnement lorsqu’après avoir rempli une demande de carte d’identité il faut donner les mêmes renseignements pour obtenir un acte de naissance (GNU/Linux Magazine n°214). On ne se retrouve pas ici dans des cas où l’on tente d’inférer de nouvelles connaissances depuis un jeu de données existant, il faut simplement transmettre l’information entre applications ! Il est assez sidérant de constater la cassure entre ces deux mondes : d’un côté, on va utiliser couramment des méthodes de prédiction, du clustering, etc., et de l’autre les requêtes SQL de base ne sont pas mises en place.

Imaginons parallèlement des sociétés maîtrisant tous les processus d’analyse de données et conservant les informations relatives au comportement de ses clients. Cela semble irréel, mais c’est un bon exemple… restons dans l’imaginaire et supposons qu’une telle entreprise puisse exister. Cette société vendrait un peu de tout et elle aurait donc accès aux informations suivantes :

▪ le nom, le prénom et l’adresse de ses clients, ce qui peut facilement conduire à une estimation du niveau de vie en fonction du quartier dans lequel se trouve le logement et du type de celui-ci ;

▪ la liste des recherches des clients ainsi que, bien entendu, leurs commandes. En supposant que la société vende vraiment toutes sortes de produits, on peut en déduire :

– les habitudes alimentaires ;

– les goûts musicaux, littéraires et cinématographiques ;

– les hobbies et éventuellement la profession.

Imaginez toutes les informations qui pourraient en être inférées : allergies, tendances politiques, etc. ! Tout cela pouvant éventuellement être renforcé en proposant des services complémentaires d’écoute de musique et de visionnage de films et séries à la demande. Bien entendu, ladite société arguerait du fait que toute l’analyse n’est effectuée que dans le but d’améliorer l’expérience utilisateur en lui proposant des produits adaptés à ses envies. Et nous pourrions imaginer pire avec une entreprise ayant accès à des données plus « sensibles » : mails, photos, position, recherches sur le Web, etc. Heureusement que tout cela ne reste que pure spéculation !

Dans ce numéro hors-série, nous ne vous proposerons pas de simplement transférer des données entre applications, ça nous savons que vous savez le faire ! Nous ne développerons pas non plus de programme permettant de profiler les gens. Nous nous attacherons à comprendre comment extraire des connaissances d’un jeu de données et quels outils employer. Et si par hasard vous croisez l’un des sombres individus responsable de ces applications inergonomiques, n’hésitez pas à lui prêter votre magazine pour porter la bonne parole ! Sur ce, je vous souhaite une bonne lecture !

Tristan Colombo


Retrouvez GNU/Linux Magazine Hors-série n°101 :