Le scoring

Nous avons tous été confrontés à la tyrannie du scoring, voici pourquoi.

Prenons le cas d’Aline qui travaille dans une direction métier. Aline rassemble dans un tableau des éléments qu’elle veut pouvoir sélectionner selon des critères. Elle va voir Kevin, son informaticien préféré, qui lui annonce que c’est très simple. Il suffit qu’elle lui communique le tableau avec les évaluations de chaque critère pour chaque élément et il fera un scoring. Ce serait bien de commencer par un petit test lui dit-il en bon professionnel.

Aline revient avec un fichier de 20 éléments et 3 critères évalués de 0 à 5. En un tour de main Kevin forme la requête et le tiercé des 3 meilleurs éléments tombe. Aline jette un œil et constate que ce résultat est conforme à sa connaissance sur les éléments présents dans le tableau. La validation est faite.

Aline revient voir Kevin le lendemain avec un fichier de 587.623 éléments associés à 137 critères évalués de 0 à 5 et repart avec le tiercé gagnant, les 3 meilleurs scores de Kevin.

De retour dans sa direction métier, ses collègues apportent beaucoup de critiques sur la sélection, qui ne semble pas correspondre à leur interprétation des dossiers. On conclut qu’un bug a dû se glisser, certains ne manquant pas d’ajouter : « comme d’hab ! ».

Kevin est sûr de sa requête, il vérifie 3 fois et dit à Aline que les données sont surement fausses. Aline, entre le marteau et l’enclume, cherche une solution. Elle vérifie les données mais tout à l’air bon. A ce stade, Aline ne sait pas encore que la méthode n’a fonctionné hier que parce qu’il n’y avait peu de critères.

Elle propose d’élargir la proposition générée par l’algorithme, on retiendra 10 éléments au lieu de 3, pour voir. Les 10 éléments reçoivent les mêmes critiques, toutefois le 10eme semble un peu meilleur que les autres à la direction métier. Personne ne comprend pourquoi. Aline est victime de la tyrannie du scoring.

Ou est le problème ?

Le problème réside dans le fait que ni la direction métier, ni Aline, ni Kevin ne veulent s’encombrer de la gestion de l’incertitude. Se faisant, ils finissent par se leurrer.

Les critères sont évalués avec une note de 0 à 5. Lorsque l’on donne 4 a un élément cela signifie qu’il vaut entre 3.5 et 4.5 car en dehors de cet intervalle on lui aurait affecté 3 ou 5. L’incertitude est donc sur chaque critère de + ou – 0.5 et lorsque l’on fait la moyenne des critères on a aussi une incertitude de + ou – 0.5 sur le résultat aux effets de bord près.

Mais quand on fait la moyenne d’un grand nombre de critères, on ne trouve pratiquement plus d’éléments ayant des valeurs extrêmes, la plage des valeurs se réduit autour d’une moyenne générale. A cause de l’incertitude de l’évaluation des critères, celui qui arrive en deuxième est peut-être meilleur que celui qui arrive en premier, il faut retenir les deux. Sur les 587.623 éléments associés aux 137 critères d’Aline, on constate que les scores évoluent entre 1.817 et 3.204 soit une amplitude de 1.387 seulement, ce qui est à peine supérieur à l’intervalle d’incertitude de 1 (deux fois 0.5). Il n’y a pas « un premier » mais « 341.547 premiers potentiels » dans cet exemple transposé d’un cas réel.

Bien sûr lorsque l’on annonce la vérité, personne ne veut l’entendre. La direction métier dit à Aline de se débrouiller pour réduire ça à 3 éléments. Kevin demande à Aline si elle peut ajouter plus de critères pour « être plus sélectif », ce qui aura pourtant l’effet inverse car cela réduirait encore un peu plus la plage de valeurs prise par le scoring et augmenterait mécaniquement les premiers potentiels.

Certains proposent de pondérer les critères, ce qui est une bonne idée pour limiter la subjectivité dans les avis des membres de la direction métier qui devront établir un référentiel commun, mais cela ne changera rien au problème car l’intervalle d’incertitude sur le résultat ne sera pas modifié par la pondération.

Quelle est la solution ?

La bonne solution consiste à abandonner ce scoring simpliste et dévastateur dans le cas présent, et conserver la signature formée par les 137 critères. Cela permet de comparer des éléments deux à deux en tenant compte des incertitudes et des pondérations éventuelles.

Il est toujours intéressant de disposer des 137 critères évalués pour chaque élément, mais il est rare que pour une situation donnée la sélection doive porter sur les 137 critères. En réduisant le nombre de critères jugés importants par rapport à la situation à traiter on améliore le résultat (ce qui n’est pas toujours intuitif pour le non mathématicien). D’expérience, ne pas classer les éléments dans l’absolu mais par rapport à chaque situation à traiter permet de produire un résultat bien plus pertinent.

Une étude de la distribution de l’incertitude sur les critères permet aussi de réduire de façon importante la plage des éléments potentiels théoriques. Par exemple si la notation de tous les critères et de tous les éléments vient de la même source ou non, si certaines incertitudes peuvent se compenser, si le phénomène répond à une distribution statistique spécifique, etc.

Enfin en analysant la distribution des éléments sélectionnables par des techniques différentielles on peut encore réduire le volume des éléments susceptibles de répondre à la demande. Par exemple un point d’inflexion dans la distribution peut attester de la banalisation d’une caractéristique des éléments portant sur un sous-ensemble de valeurs de critères, ce qui est surement interprétable au niveau métier et donc exploitable pour affiner le résultat.

Mais il ne faut pas se leurrer dans une telle situation, avec 587.623 éléments et 137 critères, les premiers potentiels se compterons encore par milliers ou par centaines au mieux.

Les incertitudes ont la vie dure ! les ignorer revient à produire des faux positifs. Cela se voit régulièrement et parfois sans que les directions métier en soient conscientes, malheureusement.

Jean Pierre MALLE