Dans les débats sur la place croissante des algorithmes, un thème revient sans cesse : « l’humain doit garder la main ». L’IA ne saurait être qu’une aide à la décision ; et un humain doit pouvoir passer outre sa recommandation (comme quand vous tracez votre route en ignorant le conseil de Waze).
Ce principe sans cesse réaffirmé se décompose en réalité en deux idées bien distinctes.
La première idée, c’est que la responsabilité doit rester humaine. Ici, on adopte le point de vue de l’utilisateur : Quand vous prenez conseil, vous voulez le conseil d’un humain. Et si votre conseiller financier vous a fait faire un mauvais investissement, ou si votre médecin a fait une erreur de diagnostic, c’est à une personne que vous en ferez le reproche, pas à une machine.
La seconde idée, c’est qu’un humain doit toujours vérifier ce que suggère l’algorithme. Celle fois, on adopte le point de vue de la personne responsable – dans les exemples précédents, le conseiller financier ou le médecin. Et on se dit : étant donné que je suis responsable de la décision, et que je veux donc prendre la meilleure décision possible, c’est à moi de décider quand faire confiance à la machine, et quand ignorer sa recommandation.
Et sur cette question, l’écrasante majorité des managers sont convaincus de pouvoir répondre au cas par cas, c’est-à-dire prendre conseil auprès de l’IA, mais rester maîtres de la décision finale. On entend souvent, d’ailleurs, que c’est ainsi qu’on prendrait les meilleures décisions : la combinaison « homme + machine » serait meilleure que la machine seule.
Ce discours est très rassurant : l’IA pourrait nous aider, mais pas nous remplacer. Le problème, c’est qu’il n’est pas exact. En voici trois exemples.
Le premier exemple est déjà ancien à l’échelle de l’IA – il a été publié en 2018 dans le Quarterly Journal of Economics. Les auteurs ont étudié les tests à l’embauche dans 15 entreprises, et se sont demandé ce qui se passe quand les recruteurs décident de ne pas suivre la recommandation des tests. Et le résultat, c’est que leurs décisions sont moins bonnes. Quand les managers passent outre les recommandations du test, ils s’imaginent qu’ils tiennent compte de qualités ou de défauts que les tests ne décèlent pas, mais que eux ont perçus. Ils croient, en d’autres termes, qu’ils disposent d’une information supérieure. Mais en réalité, ils introduisent leurs propres biais et leurs propres erreurs dans la décision.
Deuxième exemple : deux chercheuses de Harvard ont étudié des juges qui accordent ou non une liberté sous caution avec l’aide d’un algorithme de prédiction de la récidive. Là aussi, bien sûr, les juges peuvent décider différemment de ce que conseille l’algorithme – et ne se privent pas de le faire. Mais là aussi, il vaudrait mieux s’en tenir à ce que recommande l’algorithme : pour 90% des juges, les interventions humaines dégradent la qualité des décisions. Il reste bien 10% des juges qui, quand ils contredisent l’algorithme, améliorent les décisions, ce qui suggère qu’ils utilisent à bon escient des informations « soft » que l’algorithme n’a pas. Le problème, bien sûr, c’est que tout le monde ne fait pas partie des meilleurs 10%...
Le troisième exemple est tout récent, et porte sur des diagnostics médicaux. Les chercheurs ont comparé, sur des cas complexes, la qualité du diagnostic fait par des médecins seuls, par une IA seule, et par des médecins assistés par l’IA. Ils s’attendaient, bien sûr, à ce que cette dernière combinaison soit gagnante. Mais ce n’est pas ce qui s’est produit. L’IA a trouvé le bon diagnostic dans 90% des cas ; les médecins dans 74% des cas, et le tandem dans 76% des cas – à peine mieux, donc, que les médecins seuls, et nettement moins bien que l’IA seule. Pourquoi ? parce que ces médecins ont une très grande confiance dans leur propre diagnostic, même quand une IA leur en suggère un meilleur.
Ce que ces différents exemples illustrent est confirmé par une méta-analyse parue dans Nature en octobre 2024 : dans les tâches de décision, les équipes humain+IA sont moins bonnes que les IA seules. La raison est facile à comprendre – c’est même une question de simple logique. Quand vous utilisez une aide à la décision (un test, un modèle, ou un chatbot), de deux choses l’une. Soit l’outil n’a pas, en moyenne, une meilleure performance que vous, et alors il n’y a pas de raison de l’utiliser. Soit il a, en moyenne, une meilleure performance que vous, ce qui est le cas dans tous ces exemples… mais alors, c’est forcément parce qu’il y a des cas où vous n’êtes pas d’accord avec l’outil, et où c’est l’outil qui a raison. Il y a bien sûr des cas limites où il faut savoir passer outre la recommandation, mais ils sont rares. En règle générale, c’est précisément quand une IA n’est pas d’accord avec nous qu’elle nous rend service.
Si nous utilisons des outils d’aide à la décision, il faut donc d’abord s’assurer qu’ils soient effectivement performants, sur la qualité de décision comme sur l’absence de biais. Mais ensuite, il faut accepter de suivre son avis. Même, et surtout, quand cet avis nous surprend.
l’humain doit garder la main : https://www.cnil.fr/sites/cnil/files/atoms/files/cnil_rapport_garder_la_main_web.pdf
deux chercheuses de Harvard : https://www.nber.org/papers/w31747
Publié le mercredi 22 janvier 2025 . 6 min. 00
Les dernières vidéos
Mutation digitale




Les dernières vidéos
d'Olivier Sibony




LES + RÉCENTES



LES INCONTOURNABLES

