Bannière de fond article blog

Au fil des différentes missions et rencontres que je suis amené à faire, un sujet est récurrent : celui de la qualité des données. 

 C’est une bonne chose. Mais ce qui me chagrine souvent c’est que le sujet arrive par le biais de projets d’analyses des données (la business intelligence, ou BI, ou data visualization, faites votre choix). 

Pourquoi la qualité des données en bout de chaîne me chagrine ?

Si cela me chagrine, c’est parce que d’importants efforts sont fournis pour nettoyer les données des datawarehouses, datamarts etc. afin que les analystes et les data scientists disposent de données sur lesquelles il est possible de calculer des indicateurs. Cependant, tous ces efforts ne bénéficieront pas aux opérationnels, ceux qui créent, utilisent et qui font vivre ces données. 

 Souvent, on m’oppose le fait qu’il est plus important (ou plus urgent) de pouvoir fournir des indicateurs fiables aux managers et au comité exécutif plutôt que de gérer des problématiques opérationnelles. 

 Soit. 

 Néanmoins ces fameux rapports sont basés sur des données « propres », qu’on a filtrées, qu’on a triturées et transformées selon ce que l’on estime être la vérité. En fait, il ne s’agit pas véritablement de données propres : il s’agit de données exploitables par les data analystes et les data scientists. Rien de plus. 

 Finalement, le résultat produit n’est qu’une approximation (plus ou moins fine selon la maitrise des données de l’analyste). Il ne reflète pas l’exacte réalité. 

 Dommage, nos décideurs devront s’en contenter et prendre des décisions en connaissant les biais… dans le meilleur de cas !  

 Voilà pourquoi je m’échine à ramener le sujet de la qualité des données bien en amont du cycle de vie des données. Car une fois dans le datalake, il est presque trop tard pour la donnée. Et qui connait mieux la donnée que ceux qui la produisent et l’utilisent au quotidien ? 

Mon conseil pour mieux gérer la qualité des données

Il faut impliquer tous les métiers, leur inculquer une culture de la data (leur faire comprendre l’impact de la manière dont ils traitent la data pour le reste de l’entreprise) et leur fournir les outils nécessaires pour leur faciliter cette grande mission. C’est d’eux dont dépend la capacité des managers à prendre les bonnes décisions. 

 Il est donc primordial de travailler la qualité des données avec les métiers qui, par ailleurs, peinent à construire leurs propres tableaux de bord : beaucoup de temps perdu finalement. 

 La conséquence immédiate de ce travail en amont est l’alimentation de la chaine décisionnelle avec des données de qualité. Il n’y aura donc plus rien à faire de ce côté-là. 

 Naturellement, le chemin est plus long mais tellement plus durable avec des effets positifs à tous les étages : de l’opérationnel au décisionnel et également sur des sujets AI/ML. 

 Donc : la qualité des données : OUI ! Mais en bout de chaine : NON ! 

Photo de profil Marc Daudin

Marc Daudin

Expert & manager data

SUR LE MÊME THÈME

banniere de fond article

Top 10 des idées reçues sur le cloud public

Encore beaucoup d’idées reçues circulent sur le modèle du cloud public, démêlons ensemble le vrai du faux ! 

banniere de fond article

Gouvernance de données : un parcours semé d’embûches ?

Gouvernance de données : un parcours semé d’embûches ?

banniere de fond article

Le Cloud computing – Quelques définitions

Le Cloud computing - Quelques définitions