Enseignement et Recherche

Ressources pour se former à enseigner et pratiquer la Data Science

Share this post:

La Data Science est une des compétences les plus demandées sur le marché de l’emploi, tant pour les profils « Business » que pour les techniciens et ingénieurs. De nombreuses formations intègrent cette notion dans leurs cursus. Cependant, les établissements manquent d’enseignants compétents et d’outils pour former leurs étudiants.

Voici un panorama des ressources à la disposition des (futurs) enseignants pour se former ou se perfectionner, et pratiquer avec leurs élèves.

 

Qu’est-ce que la Data Science ?

La Data Science est la science (ou l’art) d’analyser les nombreuses données disponibles en interne dans les entreprises, et en externe sur l’Open Data. Objectif : comprendre des phénomènes fonctionnels ou sociaux, prévoir des comportements, et prendre des décisions basées sur l’expérience passée.

C’est une des compétences les plus recherchées sur le marché de l’emploi, et de nombreux étudiants se demandent comment l’aborder, comment s’y former et comment la pratiquer de façon très concrète.

Par ailleurs, dans les universités et grandes écoles proposant ce type de formations, les enseignants eux-mêmes cherchent de la « matière première » pour alimenter leurs cours.

Enfin, pour pratiquer la Data Science de façon concrète, il faut avoir accès à de puissants environnements matériels et logiciels capables de compiler de grands volumes de données.

 

Des ressources pour se former

La majorité des fournisseurs de MOOC (Coursera, edX, Udacity, etc…) proposent des cours de data science : https://en.wikipedia.org/wiki/List_of_MOOC_providers.

Voici deux programmes proposés sur Coursera :

https://www.coursera.org/professional-certificates/ibm-data-science

https://www.coursera.org/specializations/advanced-data-science-ibm

On peut trouver, par ailleurs, des données ouvertes (open data) un peu partout. En voici un exemple : https://developer.ibm.com/exchanges/data/ .

 

Des ressources pour enseigner la Data Science

The Open Ecosystem of Big Data (ODPI) propose un jeu complet de cours et de travaux pratiques (labs). Il est destiné aux enseignants et aux étudiants pour construire des cours de Data Science, sous le nom d’OpenDS4All : https://github.com/odpi/OpenDS4All.

Ce référentiel n’est pas un MOOC, mais bien un ensemble de ressources que chaque enseignant peut personnaliser pour créer son propre cours.

 

Des ressources pour pratiquer la Data Science

Pour s’auto-former ou enseigner la Data Science, il est nécessaire de pratiquer dans un environnement, via des labs et des projets. La plupart des fournisseurs d’infrastructures proposent des environnements gratuits, limités en volume, mais suffisants pour des labs ou des projets de taille modeste. IBM propose le sien gratuitement.

Ce studio de développement de modèles s’appelle Watson Studio. Il a l’avantage de regrouper la plupart des outils open-source d’une part (Jupiter, Python, R, Scala, Spark, ScikitLearn, et autres bibliothèques d’algorithmes). Et pour celles et ceux qui veulent éviter la barrière programmatique, des ateliers en mode « menu » et « drag & drop », d’autre part.

Comme (presque) tous les services de son Cloud public, Watson Studio existe en version « freemium » offrant de nombreuses fonctionnalités, simplement limitées en volume ou en CPU. C’est donc une bonne façon de tester les produits et de se former sur différentes technologies.

Une fois votre compte freemium créé, vous le gardez indéfiniment à condition de l’utiliser régulièrement. Vous pouvez aussi le faire évoluer en passant à l’échelle ou pour un usage professionnel grandeur nature. Watson Studio existe aussi en version desktop, afin de travailler hors ligne, sur sa propre machine.

 

Accéder à Watson Studio, c’est simple

Vous devez cliquer sur https://dataplatform.cloud.ibm.com/ puis suivre les instructions de création d’un nouveau compte. Aucune carte de crédit ou autre moyen de paiement ne vous sera demandé. Les « académiques » (professeurs et étudiants) auront avantage à accéder au vaste ensemble de services et produits gratuits qu’IBM leur réserve : https://www.ibm.com/academic/technology, et en particulier en data science : https://www.ibm.com/academic/technology/data-science.

 

Quelques notions et liens proposés, parmi d’autres

Nous conseillons le tutoriel sur SPSS Modeler qui, dans cet environnement, permet de gérer le cycle complet de développement de modèles :https://developer.ibm.com/tutorials/watson-studio-spss-modeler-flow/

Watson Studio s’utilise via des environnements Open Source, comme Jupyter, Python, Scikit-Learn. Voici un lab d’apprentissage basé sur la classification. Facile à utiliser, il se présente sous forme de notebook Jupyter, avec des cellules à compléter : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/9794395a-e1fb-437c-9a81-20a64f15b325/view?access_token=64de2893f18a51e6cdbc008372f0b8c37a06a89a26d8791331311b5cdc908bbd

La solution à la question demandée en bas du notebook est également disponible : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/a0747fcf-2a44-4074-bc06-2316feafae8e/view?access_token=0b2eb3e5bc93dceb5ff72476c9568c9b2bfb5ee1ed10727bf1ab11de1af9e502

Différents problèmes de Data Science ont une composante temporelle. Il existe diverses techniques pour adresser ce problème dont ARIMA (Autoregressive Integrated Moving Average), assez ancien mais toujours un excellent point de départ avec l’avantage d’être « transparent ». Là encore, nous proposons deux notebooks de familiarisation : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/2ce4d2c6-acb1-4a48-a656-38ab9dea9cd1/view?access_token=56cd5138e55daa4441429de3f55f74e72951b20e300109a0db4aec150422fb8b

… avec la solution : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/7976df67-0899-4d87-aa89-222b9f4eeff2/view?access_token=90e16a6d8c4f8c3d5fa1060f6a0f98827f58f2dd95fa695fdb8048793dd92499

Gérer les volumes de données

La Data Science se doit de traiter de gros volumes de données. Le « data parallélisme », sur des clusters importants, le permet. Spark est l’infrastructure adéquate actuelle, sur laquelle se greffent de nombreux algorithmes, comme ceux de la bibliothèque SparkML. Pour s’y initier, dans la même ligne que pour le tutoriel 3, deux notebooks : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/14b2fc9c-1b4c-4633-af4f-e80a0895812c/viewaccess_token=2c5b7f8593e1334bb1254a4b70c2479632771714ec38572fc8226d145662b07d

Et la solution : https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/c38a65eb-9f09-4148-901b-2df2fbec8a9a/view?access_token=7da641a1ba1fefd73be68141f14259bcaddbe0a9bec92a63fb6c960efff5c0b2

Pour terminer, j’ai écrit un article il y a quelques temps montrant de multiples tutoriels Cloud et Data Science. Vous y trouverez certainement votre bonheur : https://www.ibm.com/blogs/ibm-france/2019/10/21/comment-se-former-aux-technologies-du-cloud-et-de-lintelligence-artificielle/

A vous de jouer !

 

 

Digital Developer Advocate - Data Scientist - Master Inventor - IDT Lead

More Enseignement et Recherche stories
3 juillet 2024

Intégration par design : la clé de la réussite de la transformation cloud

La transformation cloud est un processus complexe qui nécessite une planification méticuleuse et une exécution soignée pour réussir. Alors que les organisations se lancent dans la transformation du cloud, elles se concentrent souvent sur la migration des applications et des données vers le cloud, négligeant un aspect critique : l’intégration. L’un des défis majeurs que […]

Continue reading

12 juin 2024

Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (2/2) ?

Dans notre article « Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (1/2) ? », nous avons présenté les différentes étapes du pré-assessment technique qui consiste à analyser l’ensemble des applications du patrimoine applicatif. Dans cette seconde partie, nous allons détailler l’assessment technique à réaliser pour chacune des applications.   Phase […]

Continue reading

12 juin 2024

Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (1/2) ?

Contrairement aux applications conçues et développées spécifiquement pour un environnement cloud, un parc applicatif « on premises » a généralement été bâti au fil du temps, avec des technologies datant d’époques différentes. Il est par nature plus ou moins hétérogène. Pour différentes raisons (par exemple la scalabilité horizontale et verticale de manière automatique en fonction du besoin, […]

Continue reading