De nos jours, nombreux sont ceux qui aspirent à devenir Data Scientist. L'augmentation de la volumétrie des données a permis à ce nouveau métier de voir le jour. Étant relativement récent, beaucoup d'idées fausses circulent sur la description de ce poste, ce qui peut prêter à confusion. Pour mieux comprendre de quoi il s'agit, voici une liste non exhaustive des principales missions du Data Scientist.
La compréhension du projet et des données
Le Data Scientist a pour rôle d'analyser des données volumineuses pour en extraire des informations significatives en vue d'une prise de décision. La première étape de son travail consiste à comprendre les objectifs du projet pour déterminer comment l'exploration de données lui permettra d'atteindre les objectifs prédéfinis. Puis, vient la phase de compréhension des données qui lui permettra de se familiariser avec celles-ci. Cela commence par l'acquisition et l'intégration des données. Les données provenant des sources disponibles sont d'abord collectées puis traitées pour pouvoir être stockées. Le Data Scientist procède ensuite à une première exploration pour évaluer la qualité des données et effectuer une analyse statistique simple.
La préparation des données
Après la compréhension des objectifs et la compréhension des données, le Data Scientist s'occupe de préparer les données pour la modélisation. La préparation des données est considérée comme la phase la plus longue du travail d'un Data Scientist. En effet, il représente généralement 60 à 80% du temps consacré au projet. La tâche est particulièrement chronophage puisque les données brutes sont rarement prêtes à être modélisées. Le Data Scientist doit alors effectuer un nettoyage et un prétraitrement rigoureux des données. Il doit également mettre à jour les valeurs vides et traiter les valeurs manquantes. A l'issue de ce long processus, les données sont propres et prêtes à être utilisées.
La modélisation, l'évaluation et le déploiement du modèle
Une fois que les données sont traitées, le Data Scientist procède à la construction du modèle de données. Des algorithmes d'apprentissage sont utilisés pour une exploration proprement dite des données. A cette étape, il évalue les résultats de l'exploration afin de déterminer si les objectifs initialement fixés ont été atteints ou non. Lorsque la qualité du modèle est satisfaisante, le Data Scientist se charge du déploiement. Il peut s'agir d'un simple rapport, d'une API ou d'une application Web. Devenir Data Scientist requiert alors de nombreuses compétences telles que la programmation, les statistiques, le Machine Learning, les mathématiques et l'ingénierie logicielle.