Le data mesh, ou maillage de données, consiste à transformer des architectures centralisées et monolithiques de données, telles que les data warehouse ou les data lake, en une architecture plus distribuée, qui permet de démocratiser la donnée en la rendant accessible à tous. Dans le détail, outre une plateforme technique à repenser, c’est aussi et surtout une (r)évolution culturelle, dans l’approche même de la gestion et de l’exposition de la donnée, qui doit s’opérer.

Les limites des architectures centralisées pour exploiter la donnée

La donnée est au cœur du business et de la croissance des entreprises. C’est d’ailleurs la raison pour laquelle ces dernières ont, depuis de nombreuses années déjà, déployé des infrastructures spécifiques pour collecter, traiter et transformer les données opérationnelles ou transactionnelles (issues des applications) en données analytiques, en les enrichissant parfois de données externes.

La mise en œuvre de ces infrastructures – qu’il s’agisse d’entrepôts de données (data warehouse) ou de lacs de données (data lake) – montre cependant certaines limites, parmi lesquelles :

  • Cloisonnement entre les données opérationnelles et les données analytiques, tant au plan technologique (entre système d’information opérationnel et plateforme analytique) que des équipes en charge de chaque système.
  • Manque d’agilité pour obtenir de nouvelles données et métriques : les modèles de données évoluent constamment et de manière rapide et chaque nouvelle demande des métiers nécessite de réaliser de nouvelles requêtes pour produire de nouvelles métriques. Les plateformes centralisées ne favorisent pas une prise en compte et une adaptation rapide aux changements.
  • Connaissance métier insuffisante au sein des équipes responsables des données, qui ne disposent pas de l’expertise pour traiter les données et les problématiques métiers à résoudre. Ce qui engendre de nombreux allers-retours entre l’équipe en charge des données et les équipes métiers.
  • Multiplications des sources de données et qualité de la donnée : nouvelles applications, ouverture du SI sur l’extérieur grâce aux API, big data, machine learning, essor des objets connectés sont autant de facteurs qui conduisent à une démultiplication des données à récolter et à traiter. Ce qui peut conduire à une moindre qualité de la donnée, pourtant essentielle pour prendre les bonnes décisions.
  • Augmentation du nombre de consommateurs de données : avec l’avènement du big data et de l’IA, notamment, de plus en plus d’utilisateurs métiers sont en demande de nouvelles métriques, d’agrégation et de croisement de quantité de données de plus en plus importante.

Les piliers du data mesh : domaines de données, produits et gouvernance fédérée

Le data mesh a pour objectif de pallier ces limites, en décentralisant la donnée et son exposition, afin de la mettre plus facilement à la disposition des métiers.

Les piliers conceptuels du data mesh sont au nombre de trois :

  • Le domaine de données : chaque unité organisationnelle d’une entreprise (par exemple, les ventes, le service client, la finance, les RH, etc.), qualifiée de « domaine », est responsable de la gestion et de l’exposition de ses propres données auprès du reste de l’organisation. Cette approche permet d’accélérer la mise à disposition des données et d’en améliorer la qualité globale. Le maillage de données porté par le data mesh est fondé sur la décentralisation et la distribution des responsabilités aux personnes les plus proches des données afin de favoriser le changement et l’évolutivité continue. Les domaines de données font, en outre, coexister les données opérationnelles et les données analytiques.
  • Les données sont considérées en tant que produit : les données doivent être facilement découvrables, compréhensibles et utilisables par les autres domaines. De la même manière que les applications sont de plus en plus développées dans une logique de microservices, où chaque élément a ses propres responsabilités, le data mesh peut être considéré comme l’équivalent pour les plateformes de données : chaque domaine met à disposition ses données, qui peuvent être exploitées par l’ensemble des utilisateurs d’une organisation. Cette approche induit de nouveaux rôles dans les entreprises : le « product owner » est responsable de la qualité des données, de la réduction de leur délai de mise à disposition pour pouvoir être consommées et de la satisfaction des consommateurs de la donnée. Les « développeurs de produits de données » ont de leur côté pour responsabilité la création et la maintenance du service d’exposition des données auprès des autres unités.
  • Gouvernance des données fédérée au niveau de l’organisation : dans le modèle data mesh, les échanges de données sont normalisées en amont afin de faciliter l’interopérabilité, lier rapidement et facilement les données de différents domaines, et développer plus rapidement de nouvelles applications utiles pour les métiers. Les règles de sécurité et la conformité réglementaire (par exemple, le respect du RGPD) sont également facilitées, car l’équipe en charge de la gouvernance des données est constituée de spécialistes de chaque domaine, qui dispose de l’expertise requise pour contrôler les données qui sont mises à disposition des autres domaines.

Data mesh : une plateforme de données en libre-service

La construction d’une plateforme de données en libre-service est l’aboutissement technologique du data mesh et de ses trois piliers conceptuels précédemment détaillés. C’est sur cette plateforme que les domaines peuvent exposer leurs données ou consommer les données des autres domaines.

Cette plateforme permet en outre d’automatiser un certain nombre de prérequis propres aux données partagées : intégration et transformation des données, application des politiques de sécurité et de conformité de l’organisation, traçabilité ou encore gestion des identités.

Ce changement de paradigme implique de mettre en œuvre une infrastructure complexe pour accéder aux données de manière fiable et sécurisée. Il nécessite l’intervention de profils spécialisés et expérimentés pour s’assurer qu’elle soit bien provisionnée et administrée, et qu’elle bénéficie d’un haut niveau de reproductibilité pour s’adapter à tous les domaines. Pour réussir ce type de projet, la conduite du changement est capitale car le data mesh amène l’ensemble des parties prenantes à penser la donnée comme un produit exploitable par l’ensemble des métiers de l’entreprise.

Cette nouvelle approche de la gestion et de la mise à disposition de la donnée, qui apporte simplicité et flexibilité aux métiers, et simplifie l’accès aux données, n’est cependant pas recommandée dans toutes les organisations. Compte-tenu de l’investissement à réaliser, elle s’adresse majoritairement aux entreprises « data-driven », qui intègrent la donnée à tous les niveaux et l’exploitent systématiquement pour faciliter la prise de décision.

Vous souhaitez valoriser vos données ? Vous avez besoin de conseils pour savoir quelle architecture mettre en œuvre ? Contactez-nous !

Vous souhaitez en savoir plus ? Contactez-nous !



* Ces champs sont obligatoires.

Lounes ACHAB

Responsable offre sectoriel

SUR LE MÊME THÈME

Dreamforce 2018 : Innovations & actualités

Dreamforce 2018 : Innovations & actualités

Google Cloud Next 2019 : les principales nouveautés annoncées

Google Cloud Next 2019 : les principales nouveautés annoncées

Squadra : à la rencontre de Simon Berna

Squadra : à la rencontre de Simon Berna