POURQUOI L’INDUSTRIALISATION EST UN FACTEUR CLÉ DE SUCCÈS DES DATA LAKE ?
Toutes vos données ont de la valeur. Pas seulement celles structurées et déjà exposées à vos usages analytiques, mais aussi et surtout celles qui échappent à votre contrôle et à des exploitations innovantes. Quelles sont ces données ? On parle ici des données brutes - bureautique, messagerie, images, vidéos, etc.
Ces informations non-structurées possèdent une valeur qui ne doit plus être négligée, notamment lorsqu’elles sont croisées avec des informations issues de vos référentiels de données d’entreprise.
C’est la raison pour laquelle, en 2010, sont apparus les Data Lake (ou lacs de données en français). Le Chief Technical Officer (CTO) de Pentaho*, James Dixon, définissait à l’époque le Data Lake comme « la somme des données à usage analytique présentes dans l’entreprise ». Le Data Lake constitue ainsi une opportunité pour l’entreprise de devenir réellement Data centric. Grâce à de nouvelles technologies de stockage et de traitement, les organisations vont pouvoir positionner l’ensemble de leurs données, de provenance interne ou externe, au centre de leur système d’information pour produire et diffuser des informations stratégiques vers l’ensemble de leurs applications à partir de données issues de multiples sources.
L’approche privilégiée consiste à n’ajouter de nouvelles données qu’en fonction des besoins identifiés pour les usages. Néanmoins, la pratique montre qu’une approche plus volontariste se dessine sur les projets Data Lake à plus ou moins long terme pour ajouter des données en grand nombre sans avoir identifié d’usage a priori, ce qui peut engendrer de la dette technique a posteriori. Le développement de projets Data Lake s’est avéré particulièrement dynamique ces dernières années, même si certains acteurs ont connu des échecs. Avec le recul, les causes de ces échecs ont pu être identifiées.
Chez CGI, nous sommes convaincus que l’industrialisation permet d’assurer le succès d’un Data Lake.
Vincent Ambroise