La revue audiovisuelle de l'économie, la stratégie et du management
CONNEXION
Newsletter #006A9E
économie #00aeef
stratégie & management #572475
business #C43031
Fenêtres ouvertes sur la gestion #F9BE13
secteurs

Secteurs

#1BB899
campus

Campus

#7030A0
chaînes partenaires

Partenaires

#BABEC4
Qui sommes-nous ?

QSN

#006A9E
https://player.vimeo.com/video/149648181?autoplay=1 Julien-Pillot-Les-3-bugs-majeurs-du-big-data-4465.jpg
05/01/201604:54

Et s’il y avait un mirage du big data ? Et si le Big Data ne tenait pas toutes ses promesses, notamment celles avancées par certains cabinets de conseil ? Il faut dire que les modèles centrés sur l’analyse quantitative des données souffrent de nombreuses failles que révélaient encore récemment Gary Marcus et Ernest Davis dans l’article « Eight Problems with Big Data ». Nous allons mettre l’accent ici sur 3 faiblesses majeures avec des exemples évocateurs des limites actuelles des modèles prédictifs.

 

Le 1er bug du Big Data, c’est qu’il tend à supprimer les données aberrantes, où plutôt toute donnée qui ne suivrait pas le modèle statistique dominant. Ceux qui se souviennent du film « Minority Report » de Steven Spielberg auront retenu que les données écartées sont parfois celles qui véhiculent les informations de meilleure qualité. Or, en supprimant systématiquement toute donnée contraire à la loi statistique dominante, l’algorithme en vient souvent à confirmer ce que l’on savait déjà ! Prenons l’exemple de Predpol, le logiciel de prévention des crimes et délits déployé dans certaines grandes villes américaines. En dépit d’effets d’annonces flatteurs, Predpol a jusqu’ici surtout réussi à établir que 80% des crimes ont lieu sur 20% du territoire… ce qui n’est rien d’autre de la vieille loi de Pareto des 80/20.

 

Le 2ème bug du Big Data concerne le manque de fiabilité des résultats. Le Big Data a, en effet, la fâcheuse tendance à aspirer et traiter un maximum de données, mais sans faire de tri qualitatif .Et nul ne réchappe à ce problème, pas même Google. En 2011, Google se vantait dans la revue Nature de pouvoir prédire l’apparition et l’évolution des épidémies de grippe grâce à son algorithme maison « Flu Trends ». On peut imaginer l’enthousiasme devant cet outil qui croisait les recherches de mots-clés tels que « grippe », « toux », « fièvre » et d’autres, avec l’origine géographique des requêtes. Google prétendait ainsi suivre l’évolution de la maladie avec un temps d’avance sur les organismes de santé officiels. Mais plus dur a été le constat sur la durée : les épidémies étaient totalement surestimées. L’une des raisons, exposée dans le très sérieux le magazine Science, mettait en cause la qualité des données récoltées. En effet, en période d’évolution épidémique, les requêtes sur Google étaient déformées et exagérées, et les résultats faussés. Sans solution face à ce biais important, Google a dû stopper son expérience en septembre dernier, et les apôtres du Big Data en ont été pour leurs frais.

 

Le 3ème bug du Big Data, c’est qu’il ne peut traiter ce qui n’a pas été détecté et anticipé. Cela en fait un outil peu performant face à la nouveauté et aux ruptures. Vous le constatez tous les jours avec vos smartphones pour envoyer vos messages : les logiciels d’écriture prédictive, qui fonctionnent avec des algorithmes de type Big data, sont très efficaces sur vos expressions courantes, et surtout avec des suites usuelles de mots telles que « à tout à l’heure ». Mais ils se révèlent d’une faiblesse navrante quand il s’agit d’appréhender des expressions créatives comme « je te calcule trop pas » ou « ça passe crème ».
Ce que met bien en relief cet exemple, c’est l’impossibilité du Big Data à prendre en compte correctement l’imprévu, à faire face à l’incertitude . Alors pensons à ce qui se passe quand les résultats des algorithmes se percutent dans une configuration imprévue. Prenons un exemple réel dans la finance : en mai 2010, un flash crash de 14 minutes a ébranlé l’ensemble des places financières, plongeant les traders dans l’angoisse. Après des semaines d’enquête, l’explication tombe. Et elle fait froid dans le dos : d’erreur en erreur d’interprétation, les algorithmes de trading haute fréquence, qui traitent les 2/3 des transactions boursières du NYSE, se sont emballés hors de tout contrôle. Une seule solution : tout débrancher ! Voilà une preuve que lorsque les Frankenstein mathématiques échappent à leurs créateurs, on est soulagé que le bon sens humain reprenne le pouvoir.


En savoir plus

Mots clés : StratégieMutation digitaleBig dataJulien Pillot

x

CONNEXION

Pour poursuivre votre navigation, nous vous invitons à vous connecter à votre compte Xerfi Canal
Déjà utilisateur
Identifiant/email :
Mot de passe :
Rester connecté Mot de passe oublié?
Le couple email / mot de passe n'est pas valide  
 
x
Veuillez saisir l'adresse e-mail utilisée pour créer votre compte Xerfi Canal.
Email :
S'identifier