Un tour d’horizon des data sciences

La science des données ou data science est souvent un domaine assez mal compris par les personnes extérieures. Cela provient peut être en partie du fait qu’il s’agit d’un sous domaine des sciences de la technique, à cheval entre recherche et ingénierie. En effet, la science des données regroupe plusieurs facettes qu’il est possible de différencier simplement.

L’analyse pure des données et la conception de modèles de prédictions représentent la partie du travail de science des données la plus tournée vers la recherche. Les tâches d’intégration des modèles et de mise en place d’une infrastructure pour traiter les données, relèvent quant à elles d’un travail d’ingénierie. Aussi, il existe une autre facette, bien moins ancrée dans une démarche scientifique et technique. Cela concerne des aspects plus stratégiques et organisationnels qui visent à tirer une réelle valeur ajoutée des données, d’un point de vue métier. Il s’agit notamment de mettre en place une planification et une méthodologie pour assurer que les nouvelles solutions conçues soient en phase avec l’écosystème logiciel global existant et que la validité des modèles soit garantie à plus long terme en s’adaptant à l’évolution des données.

L’analyse de données constitue une partie essentielle, car elle est le socle de tout projet fondé sur les données. En effet, il est difficile d’imaginer et de concevoir un produit qui puisse apporter de la valeur sans connaître la nature même des données qu’il aura à traiter en amont. L’analyse et l’exploration des données ont pour objectif principal d’isoler des informations pertinentes. Cela revient par exemple à distinguer un ou plusieurs groupes d’individus qui présentent des caractéristiques particulières. À noter que le terme individu est à prendre ici au sens statistique et fait donc référence à toute chose pouvant être décrite au moyen de variables quantitatives ou qualitatives. Par ailleurs, les modèles sont créés dans le but de résoudre une tâche dans un cadre particulier. Le travail du data scientist consiste alors à entraîner un modèle statistique à partir des données disponibles de façon à ce que les performances obtenues lors de son évaluation soient suffisantes. Il s’agit là du schéma le plus couramment mis en œuvre dans un projet de data science. Or, il ne constitue qu’une partie du chemin qui doit être parcouru.

Il est nécessaire d’ajouter à cela les éléments du système sur lesquels s’appuie le modèle et qui vont former les flux de données. Cela signifie définir et mettre en place les moyens de collecte et d’organisation des données. C’est-à-dire être capable de répondre à la question suivante : « Où sont capturées les informations et comment sont-elles structurées ? ». Cela nécessite généralement d’avoir une bonne connaissance du domaine d’application, notamment vis-à-vis des contraintes techniques qui se posent, par exemple la disponibilité des ressources de calculs, l’intermittence des données, etc. D’autres éléments essentiels de la chaîne de traitement de l’information doivent être mentionnés. Notamment les données provenant du modèle et de son utilisation, les métriques de performance, les retours utilisateurs et comment ces informations seront exploitées dans une optique d’amélioration continue.

Enfin, il y a la partie stratégique orientée sur le métier, propre à chacune des applications des méthodes d’analyse, de modélisation et d’intégration que nous venons d’évoquer. Cette partie du travail doit dans l’idéal faire l’objet d’une collaboration étroite du data scientist avec les experts métiers détenteurs du savoir humain que l’on cherche à modéliser. La principale question à laquelle cette partie du travail cherche à répondre est de savoir où l’application de ces méthodes est à même d’être le plus bénéfique pour l’organisation. Cela implique de mesurer l’impact en termes d’amélioration de la productivité au regard du risque inhérent au projet, mais aussi de définir formellement les critères d’évaluation des modèles et de fixer les indicateurs de réussites du projet qu’il est raisonnable d’espérer obtenir au niveau global. Il s’agit également d’anticiper sur les questions d’organisation du travail et d’acceptabilité de la solution par les utilisateurs. Ainsi, il peut être préférable de privilégier des projets d’automatisation partielle qui sont mieux perçus par l’utilisateur, plutôt qu’une solution de substitution complète qui sera dans tous les cas, plus difficile à établir. Par ailleurs, les contraintes qu’il est nécessaire de prendre en considération varient selon le domaine d’application. Par exemple dans le domaine de la santé pour ce qui concerne le caractère confidentiel des données, ou encore les risques liés aux prédictions réalisées pour des systèmes critiques. Le travail du scientifique des données consiste donc à construire une solution capable de prendre en compte ces différentes informations, par exemple en choisissant d’utiliser une méthode plutôt qu’une autre ou de réaliser des opérations de prétraitements spécifiques.