Mon data-lake est plus gros que le tiens !

Un data lake : une expression qui désigne un stock de donnée de taille exceptionnelle. Comment l’entreprise arrive-t-elle à la conclusion qu’elle doit investir dans un data-lake ? y-a-t-il une limite au gigantisme ?

D’un côté il y a l’entreprise qui collecte et produit de plus en plus de données, ce qui milite pour augmenter sa capacité de stockage et pour accélérer ses processus d’accès aux données. De l’autre il y a la raison, une petite voix qui nous interroge sur le fait que l’on se situe ou non sur le bon chemin ? Peut-on raisonnablement tout conserver ?

Techniquement parlant, la réponse est oui. L’entreprise peut accéder à des espaces de stockage très volumineux au sein de data center gigantesques ou se doter de systèmes performants existants à ce jour. Les constructeurs ont d’ailleurs flairé le filon et proposent des solutions adaptées à la demande des entreprises.

Economiquement parlant, la réponse est « peut-être ». Le prix du téraoctet de stockage est régulièrement revu à la baisse ce qui autorise l’accès à des capacités croissantes pour un cout abordable. Mais cette baisse du cout du stockage est-elle compatible avec la croissance exponentielle du volume de données ? La réponse est clairement non mais ça ne se voit pas encore.

Ça fuit !

Il faut bien se rendre compte du phénomène auquel nous sommes confrontés. Peu de gens font la différence entre « données produites » et « données disponibles ». La faute à l’habitude des petits volumes ou ces deux notions pouvaient aisément se confondre. Mais aujourd’hui la croissance des données produites est de 80% par an dans le monde et celle des données disponibles n’est que de 40%. Les deux courbes exponentielles se séparent irrémédiablement. Des montagnes de données sont produites mais non disponibles !

Donc mathématiquement parlant, le stockage de toutes les données produites et collectées est un leurre depuis plusieurs années déjà. Nous pouvons stocker ce que nous avons collecté, mais nous ne savons même pas évaluer ce que nous n’avons pas entrevu. Nous n’avons pas la possibilité de disposer de toutes les données, de prendre en compte toutes leurs évolutions, de tracer toutes leurs provenances, de connaitre tous les référentiels de sens dans lesquels elles ont été établies.

Ça sent la vase !

Il faut se rendre à l’évidence nous entrons manifestement dans un monde d’incertitude et c’est bien la caractéristique première du big data. Nos données, même avec d’infinies précautions, sont incertaines. Elles le sont pour toutes les raisons énumérées ci-dessus mais aussi car il existe forcément des données produites dont nous n’avons pas la possibilité matérielle d’avoir connaissance qui peuvent considérablement relativiser nos propres données.

Dans ce monde d’incomplétude, d’ambiguïté et d’incertitude des données, il apparait bien illusoire de vouloir tout conserver. Il y a donc impérieuse nécessité de gérer ce que l’on va conserver et ce dont on peut se passer. Mais accepter de perdre certaines données plutôt que d’autres peut s’avérer un choix cornélien. D’autant que l’on n’a généralement pas d’idée de ce dont l’avenir sera fait, de ce que l’entreprise aura besoin demain, de quelles valorisations seront affublées nos données conservées ?

Je nage !

Il existe pourtant une machine big data qui sait résoudre ce dilemme, une machine qui dispose des techniques pour traiter de flux colossaux de données sans chercher à tout conserver, une machine qui existe en un peu plus de 7 milliards d’exemplaires, l’homme. L’homme collecte à chaque instant des milliards de données de perception, parmi celles-ci la palme revient à la vue. Mais l’homme ne conserve pas chaque pixel observé, il en fait une analyse et extrait des concepts par abstraction. La quasi-totalité des informations est perdue dans les secondes qui suivent, mais l’information conservée lui permet de bâtir une connaissance et une expérience réutilisables.

L’homme oublie, c’est parfois regrettable, mais c’est aussi un formidable moteur au développement. En effet si l’on conserve trop de données, on limite considérablement notre capacité d’action car chaque situation en rappelle une dans laquelle un incident est survenu ce qui induit un risque et donc une réserve. Le sacro-saint principe de précaution se révèle être un abominable frein à l’action. Alors des petites structures sans historique agissent là ou des entreprises établies disposant d’immenses data-lakes peuplés de connaissances et d’expériences restent figées.

Mon data-lake ne sert à rien alors !

Si, bien sûr que si ! La problématique du stockage et de l’accès à des informations de formes très variées existe bel et bien. Les solutions disponibles issues des recherches menées par les constructeurs sont performantes et nécessaires. Mais leur usage doit être réfléchi. Dans un nombre trop important de cas le projet data-lake est justifié par la phrase caricaturale : « on va y stocker nos données en attendant de savoir quoi en faire ».

Un data-lake a le mérite de casser les silos et d’intégrer de multiples sources de données mais il ne doit pas être un déversoir pour données brutes en attente d’hypothétiques exploitations. Les données doivent être transformées pour en extraire des concepts de plus haut niveau qui méritent d’être stockés et exploités en continu ou pour en extraire les singularités riches d’enseignements.

Alors un data-lake plus petit, plus agile, plus mature, plus construit est bien préférable à une débauche de téraoctets, mais appelle-t-on cela encore un data-lake ?