Pourquoi parle-t-on de Data Preparation ? La plupart des projets « Data » et en particulier ceux de la business intelligence, reposent en grande partie sur la centralisation et l’interprétation de ces données. Il faut donc ABSOLUMENT que les données soient exploitables et surtout fiables… Sinon on retombera sur le bon vieil adage « Garbage In, Garbage Out »!
C’est pour s’assurer que les données soient propres et correctement manipulées que des logiciels de data preparation sont apparus sur le marché. Ils facilitent la manipulation des données et le respect des bonnes pratiques, afin d’obtenir la meilleure qualité de data possible.
Un marché en forte croissance
Selon l’étude prévisionnelle de Mordor Intelligence, le marché de la préparation des données croit de 14,5% par an, d’ici à 2025. En 2019, il était évalué à 1,02 milliards de dollars et devrait atteindre 2,18 milliards de dollars en 2025.
Des chiffres majorés selon l’institut Grand View Research qui prévoit, lui, un taux de croissance annuel de 25,1%. Avec une valorisation totale de 8,47 milliards dollars en 2025.
La réduction du temps et des coûts consacrés à la préparation des données, nécessaires pour l’analyse, alimentent la forte demande du marché pour les cinq années à venir. La demande devrait également augmenter à mesure que les entreprises adopteront des initiatives de gouvernance des données.
L’Amérique du Nord domine le marché, principalement en raison des investissements dans les solutions cloud orientées données. En outre, l’adoption précoce de technologies nouvelles ainsi que la présence d’un grand nombre de fournisseurs, alimentent le marché de toute la région nord-américaine.
Par ailleurs, l’Asie Pacifique devrait connaître une croissance significative. Et cela en raison de l’utilisation à grande échelle d’outils de préparation des données. Notamment pour l’analyse dans le commerce de détail. Le besoin d’analyser les préférences et les habitudes d’utilisation des services par les clients, en temps réel, incitent ces entreprises à adopter des systèmes de préparation des données. Ce qui aura un impact sur la croissance du marché.
La BI dépendante de la Data Preparation
Les outils de Business Intelligence bien connus (Tableau, Power Bi, Qlik, etc.) ont évité la complexité des projets data. Cette complexité qui n’est autre que leur besoin de données structurées, réside justement dans la préparation des données. Il faut rapprocher les données, détecter les données erronées qui peuvent être mal codifiées ou mal formatées. Comme par exemple, des codes postaux sur moins de 5 chiffres.
Il faut aussi identifier les données manquantes et enfin, éliminer les doublons. Toutes ses opérations constituent la valeur ajoutée d’un projet data. A noter que la plus-value de la data preparation se trouve aussi dans l’outil utilisé qui enregistrera les modifications comme des scripts. Ils participent à l’amélioration continue des rapports produits. L’idée est d’enregistrer les processus de l’entreprise lorsqu’elle modifie, nettoie et enrichi les données. Dans l’objectif de pouvoir appliquer le script à d’autres jeux de données, faisant ainsi gagner un temps précieux à l’équipe en charge de la business intelligence.
Data Preparation : un processus complexe
Schématiquement, la data preparation requiert sept étapes plus ou moins longues. Mais les analyses détaillées, comme la vision 360 du client, en valent la peine.
Dans l’ordre, il faut importer les données à partir de plusieurs sources. Puis, les découvrir, les organiser, les nettoyer, les enrichir, les valider et enfin les publier pour accéder à leur analyse.
Certains outils prennent en charge des algorithmes d’apprentissage automatique qui peuvent automatiser des actions pour accélérer la préparation des données.
Les acteurs majeurs
Le cabinet Gartner a agrégé les retours des utilisateurs pour souligner les solutions les plus efficaces. En tête, on trouve ainsi Alteryx, très bien notée et accompagnée de la solution de Talend. Talend Data Prep qui a séduit de nombreux clients et qui s’avère très bien notée également.
Le rapport met également en avant les solutions proposées par Trifacta et Paxata cités comme des leaders du marché par l’institut Forrester.
Par ailleurs, la liste se termine avec les produits fournis par Altair, Cambridge Semantics, Datameer, TMMData, Unifi et Yellowfin.
Mes sujets préférés sont les processus, la data et l’excellence opérationnelle!
N’hésitez pas à me faire un retour sur cet article ou à me contacter sur LinkedIn pour partager nos actualités!
Stéphane