Dataiku… ou Comment je me suis pris pour un expert Datascience

Dataiku, premières impressions

Datascience ou science des données, vous connaissez ? J’ai récemment utilisé la plateforme Dataiku et ça a été l’occasion de reprendre ces concepts et surtout de les mettre en pratique.  

Datascience : Créer des modèles complexes mais inexploitables?

Cela fait maintenant quelques années que la promesse du Big Data est en marche… Et  aussi quelque temps que la désillusion s’installe au sein des Directions Métiers. Effet classique d’une promesse non tenue : plus l’attente est forte, plus la désillusion est grande en cas de rendez-vous manqué.

Les raisons sont nombreuses et souvent prévisibles : Qualité de la donnée, Complétude des informations, Données techniques absconses, mais peut-être essentielles, compréhension de la donnée et du contexte… Autant d’écueils, qui souvent, ne sont pas traités lors des premières expériences de ceux qui se lancent dans la Datascience.

La différence entre Théorie et Pratique (ou l’effet Kaggle)

Je ne leur jette pas la pierre ! Les jeux de données mis à disposition sont souvent déjà “prêts à l’emploi”. Tout est bien unifié dans une table, bien rangé, bien typédans… loin de la Data Quality qu’on observe dans la réalité du terrain (je n’ai que 20 ans d’expériences dans le domaine et un background scientifique qui m’a donné un peu de rigueur avec les données…).

Avec des jeux de données (ou dataset) comme ceux du Titanic, des Iris de Fisher, de la détection de Churn etc… sans être spécialiste du Bureau enquête Accident maritime, Docteur en biologie ou Responsable d’un Back-office avec 15 ans d’expérience en relation client dans les Telco, nous nous surprenons à réaliser des modèles de prédiction à coup de Deep Learning, d’algorithmes tels que le Support Vector machine et d’avoir le sentiment d’avoir tout compris aux problématiques que ces spécialistes essaient de résoudre depuis des années.

Vous pourrez fièrement conclure qu’un homme en 3e classe confiné au dernier pont avait moins de chance de s’en sortir qu’une femme en première classe… surprenant non ?

Apporter les données aux utilisateurs métiers

Nous autres Consultants, sommes aujourd’hui à la croisée des chemins entre le Métier et l’IT. Naturellement c’est la Data qui fait le lien entre ses deux domaines. C’est ce qui m’a poussé à m’intéresser depuis plusieurs années aux outils et aux méthodes qui permettent d’exploiter les données. J’ai pour ma part testé et utilisé beaucoup de solutions de Data : Data Management, Data Quality, Data ou Process mining,… et force est de constater que les choses avancent vite, fortement et dans le bon sens.

Comme beaucoup de domaines, au commencement, ces outils étaient faits pour des spécialistes, des experts. La maturité vient aujourd’hui au travers d’une certaine universalité de ce type de solution. Elle a l’ambition de s’ouvrir au plus grand nombre. En tout cas de façon transverse (Responsables applicatifs, Analystes, Opérationnels Métier, etc…). 

Dataiku Studio : Premières impressions!

Ainsi, le dernier outil que j’ai testé est Dataiku Studio de Dataiku, licorne française dont les levées de fonds successives et l’arrivée de Google dans son capital témoignent du potentiel de cette solution.

Je voudrais ici mettre en avant les points forts de cet outil :

  • Tout d’abord le modèle “en libre accès” avec il faut le reconnaître assez peu de restrictions, permet de prendre en main et de tester l’outil très facilement. Associé à une interface et des guides et tutoriels nombreux permettent vraiment d’utiliser et tester l’outil très facilement. Le meilleur conseil que je puisse vous donner: Essayez ! Testez, recommencez.
  • La puissance des fonctionnalités dans un affichage de type “Pipeline” très intuitif qui supporte notamment la traçabilité complète des actions, l’affichage instantané des résultats en fait un vrai point fort de cet outil. Plus spécifiquement, à mon sens, 2 items très intéressants
    • La data Preparation” : la détection du type de données, mais aussi de leur nature (Nom, Adresse, Coordonnées géographiques, N° de téléphone, adresse email) associée à des vues “statistiques” des champs – tellement utile pour comprendre ses données. Cela permet de traiter les problèmes de qualité des données.
    • Transformation” : La multiplicité des opérations (Création de champs calculés, jointures entre tables…) permet là aussi de faciliter les traitements ultérieurs.

La prétention d’être un Data Scientist grâce à Dataiku

Mais l’avantage de Dataiku n’est pas seulement dans la manipulation de la donnée. Il est dans le fait d’avoir tout unifier sur une même plateforme afin de collaborer et d’industrialiser les projets de Datascience.

Ainsi, l’utilisateur est par exemple accompagné dans la réalisation de modèles prédictifs ou “simplement” de clustering :

  • Création de modèles “pour les nuls”. On peut « pré-parametrer » une sélection de modèles prédictifs. Ils permettent d’avoir des premiers résultats très rapidement et de pouvoir discuter avec les métiers. Des aides à la compréhension des analyses est extrêmement didactiques et éviter de conclure n’importe quoi…
  • La possibilité pour les plus exigeants de créer ses propres modèles. Soit en paramétrant plus spécifiquement les nombreux algorithmes disponibles, soit en intégrant un modèle externe.


Enfin… Last but not least ! Chaque projet peut être ouvert au plus grand nombre au travers de
Dashboards construit et alimenté des indicateurs et analyses réalisé dans le back-office. On retrouve donc là les fonctionnalités de base de la Business Intelligence, mais cela permet là aussi de faciliter et accélérer les échanges.

Alors, doit-on continuer à créer des modèles aussi complexes qu’inexploitables ? Doit-on laisser les métiers avec leurs données ? ou doit-on tout mettre dans les mains d’un nouveau gourou de la data, Le Data Scientist ? Bien sûr que non ! Et c’est ce genre de solution qui permet réellement de faire travailler non pas un Data Scientist mais une équipe. Au sein d’un projet, ils ont des objectifs communs : Compréhension de la donnée et surtout de son exploitation.


Stéphane HugotMes sujets préférés sont les processus, la data et l’excellence opérationnelle!

N’hésitez pas à me faire un retour sur cet article ou à me contacter sur LinkedIn pour partager nos actualités!
Stéphane

Vous aimerez aussi ...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Recevez nos articles

Recevez chaque mois par e-mail les derniers articles et livres blancs publiés, ainsi que des informations concernant l’actualité IT ! 

Partagez nos articles

Rechercher

Rechercher

Vous faites partie des 10 000 visiteurs mensuels du blog !

Merci pour votre visite ! 

Restez informé.e des dernières tendances en vous inscrivant à notre newsletter mensuelle