Cette fiche technologique sur le big data synthétise quelques faits jugés significatifs par nos Fellows dans le cadre de l’activité Presans Platform.

 

1. Qu’est-ce que le big data ? 

Le thème du big data fait partie du sujet plus général de l’intelligence artificielle. Il renvoie à des actifs numériques généralement caractérisés par 3, 4 ou 5 attributs commençant par « V » : volumineux, véloces, variés, véraces, valorisés. L’industrialisation des opérations sur ces actifs afin de croiser des données de manière inédite a pris place dans l’agenda des entreprises vers 2014, en partant du principe que tout le monde devait recruter des data scientists et commencer à créer de la valeur avec ses données, pas seulement les plateformes digitales.

 

2. Le big data déjà dépassé ?

Synergy Factory

We create on-demand multicorporate & multiexpertise task forces for innovation & Intelligence.

L’application des big data s’avère plus difficile que prévu dans certains secteurs, notamment dans celui de l’industrie où la killer app n’a pas encore été touvée. L’arrêt du projet Google Flu est souvent cité pour relativiser d’autres échecs.

Pour autant il semble prématuré d’annoncer la fin des big data. Au contraire, l’affinité étroite entre big data et deep learning devrait continuer à engendrer des gains de performance massifs au sein d’écosystèmes dotés d’une gouvernance adaptée. Le deep learning est en effet très sensible au volume et à la qualité des données disponible : plus les données couvrent une large variété de situations, plus l’apprentissage a des chances correctement automatiser le comportement souhaité.

Le big data ne semble effectivement pas pertinent là où les acteurs clés ne disposent ni d’un accès à une grande base centralisée, ni de la capacité de se coordonner entre eux pour constituer une grande base ensemble.

 

3. Applications 

Google et Facebook basent leur modèle économique publicitaire sur le ciblage permis par les big data. Amazon est l’un des pionniers de la tarification dynamique, qui constitue l’une des applications majeures des big data dans le monde économique. La servicisation et la fonctionalisation reposent sur les big data générés par des capteurs placés sur des actifs industriels ou autres. De même pour les réseaux énergétiques intelligents et les villes intelligentes.

Mais les big data ont aussi des applications en politique, dans le monde du sport ou encore dans tous les domaines où il s’agit de prévenir de risques, ou de détecter des régularités… Prédiction : les big data ne font que commencer.

 

4. Acteurs

Le mouvement des big data se confond avec celui de la transformation digitale et trouve son origine dans le monde des géants de l’Internet. Ce sont les géants du digital qui ont commencé, dès le milieu des années 2000, à constituer des capacités massives de stockage et de traitement des données, puis à mettre ces capacités massives à disposition d’autres acteurs par le cloud. La concentration des données au sein des plateformes, complétée par l’activité des courtiers en données, a rapidement fait exploser le volume des données accessibles.

Dans une perspective plus longue, la big data marque une étape dans la généralisation à des acteurs non-étatiques ou non-publics de la capacité à produire des statistiques sur des populations. À l’origine de ce développement nous trouvons, non pas une volonté d’extraction fiscale, mais le rêve d’individualiser au maximum le ciblage publicitaire.

 

5. Limite épistémologique et conséquences éthiques

La limite épistémologique fondamentale de la big data est inhérente à la statistique en générale : corrélation n’implique pas causalité. Une limite à ne pas perdre de vue, car l’augmentation en volume et en variété des données entraîne aussi une augmentation des corrélations sans lien causal.

Un data scientist peu scrupuleux peut choisir de ne pas tenir de cette limite épistémologique, et ce d’autant plus que les intérêts économiques en jeu pèsent lourd. De manière générale, la probité statistique des études à prétention scientifique ne repose pas sur un système d’incitations favorables : il n’y a guère de ressources allouées à la réplication des études.

À ce premier problème éthique s’ajoute un second, qui est celui de la protection de la vie privée. Les big data permettent aux entreprises de mieux cerner les préférences d’un individu que ses proches. Issue de la Big Tech, la Big Data s’épanouit for bien dans le Big Business et le Big Government. Posons qu’il ne suffira pas de se draper dans une posture de supériorité éthique pour déjouer un scénario de type Big Brother imposé par les grandes puissances de la data.