Chargé de la gestion, de l’analyse et de l’exploitation des données massives au sein d’une entreprise, le Data Scientist est l’évolution du Data Analyst à l’ère du Big Data. Le Data scientist est de plus en plus demandé en entreprise : son rôle est de collecter et d’analyser des données en masse pour aider l’entreprise ou les clients à la prise de décision. Il s’agit d’être le plus efficace possible dans un état d’esprit data-driven.
Compétences techniques
Les outils sont en pleine évolution, donc le plus important pour les compétences techniques est de valider la bonne connaissance en méthode de machine learning et la capacité à apprendre de nouveaux outils.
- Logiciel d’analyse des données : SAS ou R
- Langage de programmation : Python, Java, Perl, C++, Pig, Hive, Matlab, Julia, C…
- Méthodes de machine learning : forêts d’arbre décisionnels, K plus proches voisins (KNN), ou méthodes d’ensembles, Scikit Learn
- Calculs statistiques : algèbre linéaire, etc.
- Modélisation : UML, MERISE
- Plateforme de big data : hadoop, Apache Spark…
- Bases de données : MongoDB, Cassandra, Redis, Postgrès, SQL, NoSQL, Hortonworks
- Visualisation des données : ElasticSearch / Kibana
Mission
Ces spécialistes des chiffres, des statistiques et des programmes informatiques traitent les données d’une entreprise pour en extraire les informations susceptibles de l’aider dans sa prise de décisions. A l’inverse du data scientist, qui a une vision transverse, le data analyst prend en charge un type de données spécifique. Parmi ses missions principales, le Data Scientist doit gérer les sources de données, exploiter les informations et accélérer les temps de traitements.
Soft skills
Le métier de Data Scientist est passionnant. Cependant, il s’agit également d’un poste à haute responsabilité, qui nécessite des prédispositions naturelles et une éducation de haut niveau. À l’heure actuelle, 88% des Data Scientists sont diplômés au minimum d’un master et 46% d’entre eux sont titulaires d’un doctorat. Cette éducation scolaire semble nécessaire pour développe le niveau de connaissance suffisant à l’exercice de ce métier.
Pour devenir Data Scientist, il est indispensable de savoir gérer des données non structurées en provenance des réseaux sociaux, ou encore des flux vidéo ou audio. Ces données sont le principal défi du Big Data. Au sein d’une petite entreprise peu accoutumée à la science des données, un Data Scientist doit avoir des compétences d’ingénieur logiciel. Celles-ci lui permettront notamment de prendre en charge le développement d’un produit dirigé par les données ou le data logging.
La curiosité intellectuelle est indispensable pour déceler les données les plus intéressantes et exploitables au sein d’un gigantesque volume de data. Pour mener à bien le travail de Data Scientist, il est nécessaire d’être créatif et de poser ses propres questions plutôt que de simplement répondre à celles habituellement posées.
Pour parvenir à exploiter le Big Data d’une entreprise, il est indispensable de comprendre les problèmes à résoudre et les nouvelles possibilités que les données peuvent offrir. C’est pourquoi le Data Scientist doit comprendre le monde de l’entreprise en général et l’industrie à laquelle il est affilié plus particulièrement.
Intégré au sein de l’entreprise, le Data Scientist doit être doté de bonnes capacités de communication, car il doit impérativement être en mesure de communiquer ses découvertes techniques aux autres employés, des pôles marketing ou commerciaux par exemple. Son rôle est d’aider les décideurs à prendre les bonnes décisions, en leur fournissant les informations nécessaires.
Il doit également comprendre les problèmes des autres équipes et les aider à relever ces défis grâce à l’analyse des données. Pour ce faire, il est également important de maîtriser les outils de visualisation de données tels que ggplot ou d3.js.
Voir les offres d’emplois sur inovallée.