Un métier nouveau

Il y a quelques années est né le métier de datascientist. A l’origine ce métier nouveau venait s’ajouter aux métiers de statisticiens et de dataminer en apportant des spécificités propres à la datascience telles que :

  • Une forte orientation métier pour être en mesure de comprendre les données (le datascientist n’est donc pas un profil généraliste)
  • Une forte compétence en mathématique pour traiter de problématiques complexes
  • Un profil ingénieur pour conceptualiser et produire rapidement une solution dans un monde où chaque seconde perdue offre des avantages aux concurrents (faire des algorithmes qui fonctionnent, plutôt que des algorithmes qui s’expliquent)

Dans ces circonstances concevoir un système big data devait mettre en œuvre à la fois des compétences de dataminer pour définir une architecture appropriée d’hébergement, de circulation et de préparation des données, des compétences de statisticiens pour traiter des signaux forts et optimiser des traitements, ainsi que des compétences de datascientists pour traiter des signaux faibles fortement imprégnés des spécificités des métiers. Tout ceci paraissait sain.

Un amalgame de court-termisme

C’était sans compter avec les sociétés de service qui disposaient de nombre de dataminer et de statisticien quand les clients demandaient des datascientists non disponibles sur le marché. Cette carence en datascientists a alimenté la tentation de faire l’amalgame et de repeindre plus ou moins les CVs de statisticiens ou de dataminers à la couleur du datascientisme.

Au fond, tant que le client ne connait pas la différence, pourquoi ne pas en profiter, se sont dit quelques-uns !

Les consultants eux même n’étaient pas en reste. Certains n’ont pas hésité à changer d’entreprise en se refaisant une virginité de datascientist au passage. Ainsi les datascientists recrutés n’étaient parfois pas très différents des statisticiens métamorphosés en interne.

De fait, aujourd’hui on trouve nombre de statisticiens et dataminers qui ont migré vers la data-science. Ce n’est pas un problème en soi, bien évidemment. L’évolution est un mécanisme nécessaire et progressif. Parmi eux certains avaient d’ailleurs préalablement le « gène » du datascientist.

Mais tout repose sur l’acquisition des compétences liées au datascientisme, et dans ce domaine certaines semblent totalement occultées.

Une problématique plus complexe

Il faut dire que la datascience (la vraie) est bien moins confortable que la statistique. En statistique l’approche mise en œuvre est intégrative, relativement indépendante du métier, on élimine tout ce qui ne rentre pas dans le modèle, c’est mathématiquement assez accessible. En datascience l’approche est différenciative, on est confronté à des signaux faibles, des discontinuités, des phénomènes liés aux métiers, c’est mathématiquement beaucoup plus ardu et bien moins reproductible.

Pour s’en convaincre, analysons les sujets des derniers mathématiciens récompensés par la médaille Fields, l’exploration du champ du calcul différentiel y arrive en très bonne place.

Les qualités des datascientists sont pour certains aspects duales de celles des statisticiens d’origine ce qui rend la migration d’un domaine à l’autre assez difficile. Le statisticien a le reflexe « fédérateur », il regroupe les données, catégorise, forme des « clusters » pour traiter les informations par lots. A l’inverse le datascientist (le vrai) est « discriminant », il cherche ce qui différentie les données, traite chaque cas individuellement. Les signaux faibles sont par définition peu fréquents, très divers, ils ne peuvent pour la plupart être prédéterminés, il faut les capturer en analysant les différences d’un état à un autre sans à priori. Le « câblage intellectuel » du datascientist (le vrai) est alors sensiblement différent de celui du statisticien. On a vraiment besoin des deux métiers. Il n’existe pas d’échelle de valeur entre ces compétences, elles sont toutes indispensables.

L’échec et la déception pour seul horizon

Bien évidemment certains esprits brillants peuvent manier avec la même dextérité ces concepts antagonistes, certains statisticiens peuvent travailler pour acquérir les compétences manquantes en mathématiques différentielle et tensorielle par exemple. Mais force est de constater que les sociétés de service n’ont pas toutes ouvert un budget de formation suffisant pour cela, certaines n’en ont même pas conscience. De plus cela nécessite des prédispositions mathématiques, irrégulièrement réparties au sein de la population.

Cet amalgame s’est propagé dans toute la profession, la presse spécialisée, les experts, les constructeurs, les clients et même certains formateurs confondent encore datascience et statistique. Les algorithmes disponibles sur le marché sont en grande majorité statistiques.

Dans ces conditions, tant que l’on demandera à un datascientist de faire des statistiques, tout se passera bien, mais tôt ou tard cela peut se corser. J’en rencontre souvent se plaignant que leurs modèles de recherche de signaux faibles soient inopérants. Je mesure alors le gouffre qui existe entre leur technicité et les problèmes auxquels ils doivent faire face. C’est bien connu quand on dispose d’un marteau tous les problèmes sont en forme de clous. Alors forcément ce marteau fournit dans certaines situations de bien piètres résultats, sources de multiples déceptions.

Combien de temps les uns et les autres, refuseront-ils de regarder la vérité en face ?

Une prise de conscience émergente

Ces échecs s’avèrent toutefois « bénéfiques » dans un sens. Certains clients commencent à se plaindre, ou avoir des doutes, demandent des audits, des expertises. Certaines sociétés de service commencent à se poser de vraies questions. Quelle est la différence entre un statisticien et un datascientist ? Que doit connaitre un datascientist ? Comment le recruter ? Comment le former ? Quelles sont les bases réelles du datascientisme ? On avance petit à petit sur la bonne voie, le marché devrait se clarifier.

Finalement peu importe la terminologie employée, peu importe le passé des uns et des autres, l’essentiel réside dans la prise de conscience du périmètre du métier et des compétences nécessaires pour le conduire efficacement.

Bien évidemment ces sociétés de service plus matures, plus courageuses, remettant en cause  l’autruchisme ambiant, risquent fort de gagner des marchés à l’avenir. C’est d’ailleurs tout ce qu’on leur souhaite !