Connexion
Accédez à votre espace personnel
Recevez nos dernières vidéos et actualités quotidiennementInscrivez-vous à notre newsletter
ÉCONOMIE
Décryptages éco Intelligence économique Intelligence sectorielle Libre-propos Parole d'auteur Graphiques Notes de lecture
STRATÉGIE & MANAGEMENT
Comprendre Stratégies & Management A propos du management Parole d'auteur
IQSOG
RUBRIQUES
Économie généraleFranceEurope, zone euroÉconomie mondiale Politique économique Emplois, travail, salairesConsommation, ménagesMatières premières Finance Géostratégie, géopolitique ComprendreManagement et RHStratégieMutation digitaleMarketingEntreprisesFinanceJuridiqueRecherche en gestionEnseignement, formation
NEWSLETTERS
QUI SOMMES-NOUS ?


Les 3 bugs majeurs du big data

Publié le mardi 5 janvier 2016 . 4 min. 54

Voir plus tard
Partager
Imprimer

Et s’il y avait un mirage du big data ? Et si le Big Data ne tenait pas toutes ses promesses, notamment celles avancées par certains cabinets de conseil ? Il faut dire que les modèles centrés sur l’analyse quantitative des données souffrent de nombreuses failles que révélaient encore récemment Gary Marcus et Ernest Davis dans l’article « Eight Problems with Big Data ». Nous allons mettre l’accent ici sur 3 faiblesses majeures avec des exemples évocateurs des limites actuelles des modèles prédictifs.

 

Le 1er bug du Big Data, c’est qu’il tend à supprimer les données aberrantes, où plutôt toute donnée qui ne suivrait pas le modèle statistique dominant. Ceux qui se souviennent du film « Minority Report » de Steven Spielberg auront retenu que les données écartées sont parfois celles qui véhiculent les informations de meilleure qualité. Or, en supprimant systématiquement toute donnée contraire à la loi statistique dominante, l’algorithme en vient souvent à confirmer ce que l’on savait déjà ! Prenons l’exemple de Predpol, le logiciel de prévention des crimes et délits déployé dans certaines grandes villes américaines. En dépit d’effets d’annonces flatteurs, Predpol a jusqu’ici surtout réussi à établir que 80% des crimes ont lieu sur 20% du territoire… ce qui n’est rien d’autre de la vieille loi de Pareto des 80/20.

 

Le 2ème bug du Big Data concerne le manque de fiabilité des résultats. Le Big Data a, en effet, la fâcheuse tendance à aspirer et traiter un maximum de données, mais sans faire de tri qualitatif .Et nul ne réchappe à ce problème, pas même Google. En 2011, Google se vantait dans la revue Nature de pouvoir prédire l’apparition et l’évolution des épidémies de grippe grâce à son algorithme maison « Flu Trends ». On peut imaginer l’enthousiasme devant cet outil qui croisait les recherches de mots-clés tels que « grippe », « toux », « fièvre » et d’autres, avec l’origine géographique des requêtes. Google prétendait ainsi suivre l’évolution de la maladie avec un temps d’avance sur les organismes de santé officiels. Mais plus dur a été le constat sur la durée : les épidémies étaient totalement surestimées. L’une des raisons, exposée dans le très sérieux le magazine Science, mettait en cause la qualité des données récoltées. En effet, en période d’évolution épidémique, les requêtes sur Google étaient déformées et exagérées, et les résultats faussés. Sans solution face à ce biais important, Google a dû stopper son expérience en septembre dernier, et les apôtres du Big Data en ont été pour leurs frais.

 

Le 3ème bug du Big Data, c’est qu’il ne peut traiter ce qui n’a pas été détecté et anticipé. Cela en fait un outil peu performant face à la nouveauté et aux ruptures. Vous le constatez tous les jours avec vos smartphones pour envoyer vos messages : les logiciels d’écriture prédictive, qui fonctionnent avec des algorithmes de type Big data, sont très efficaces sur vos expressions courantes, et surtout avec des suites usuelles de mots telles que « à tout à l’heure ». Mais ils se révèlent d’une faiblesse navrante quand il s’agit d’appréhender des expressions créatives comme « je te calcule trop pas » ou « ça passe crème ».
Ce que met bien en relief cet exemple, c’est l’impossibilité du Big Data à prendre en compte correctement l’imprévu, à faire face à l’incertitude . Alors pensons à ce qui se passe quand les résultats des algorithmes se percutent dans une configuration imprévue. Prenons un exemple réel dans la finance : en mai 2010, un flash crash de 14 minutes a ébranlé l’ensemble des places financières, plongeant les traders dans l’angoisse. Après des semaines d’enquête, l’explication tombe. Et elle fait froid dans le dos : d’erreur en erreur d’interprétation, les algorithmes de trading haute fréquence, qui traitent les 2/3 des transactions boursières du NYSE, se sont emballés hors de tout contrôle. Une seule solution : tout débrancher ! Voilà une preuve que lorsque les Frankenstein mathématiques échappent à leurs créateurs, on est soulagé que le bon sens humain reprenne le pouvoir.


Téléchargez l'application


Les dernières vidéos
Stratégie

Les dernières vidéos
de Julien Pillot

x
Cette émission a été ajoutée à votre vidéothèque.
ACCÉDER À MA VIDÉOTHÈQUE
x

CONNEXION

Pour poursuivre votre navigation, nous vous invitons à vous connecter à votre compte Xerfi Canal :
Déjà utilisateur
Adresse e-mail :
Mot de passe :
Rester connecté Mot de passe oublié?
Le couple adresse-mail / mot de passe n'est pas valide  
  CRÉER UN COMPTE
x
Saisissez votre adresse-mail, nous vous enverrons un lien pour définir un nouveau mot de passe.
Adresse e-mail :