Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :

Connaître les fondamentaux du langage Python
Maîtriser les bibliothèques Python dédiées à la data science
Effectuer de la data visualisation
Utiliser les technologies autour de la data science (data visualisation, machine learning, big data, deep learning…)
Comprendre les systèmes complexes et l’intelligence artificielle (IA)

Certification :

IBM Certified Data Scientist – Machine Learning Specialist v1

Toutes les personnes ayant une appétence pour la programmation et la manipulation des données.

Création et manipulation d’un tableau NumPy array.
Présentation des opérations matricielles et manipulation d’un NumPy array.
Création d’un indicateur statistique et opérations sur un NumPy array.
Introduction à la bibliothèque Pandas.
Introduction au nettoyage des données (data cleaning).
Introduction au data processing.
En option : Data quality (principes, variables, nettoyage de données, gestion des valeurs manquantes).

Introduction à Scikit-learn et présentation de la classification support vector machines (SVM).
Application de la méthode des k plus proches voisins (k-nearest neighbors ou KNN).
Sélection de modèles et classification semi-supervisée.
Présentation des algorithmes des k-moyennes.
Découvertes des algorithmes de mean shift.
Introduction à la régression linéaire simple et multiple.
Introduction à la régression linéaire régularisée.
Feature selection process.
Initiation aux analyses en composantes principales.
Application de l’approche manifold learning.

Introduction aux 3V du big data (volume, variété, vélocité).
Présentation des bases de données et des architectures.
Mise en production de données.
Data processing et machine learning sur des grandes bases de données.
Introduction à PySpark.
Découverte des fonctions de PySpark : data processing, dataframes, régression avec PySpark, ML pipelines, model turning.

Découverte de concepts : Dense neural networks, convolutional neural networks, architecture LeNet, transfer Learning.

Mise en relation de TensorFlow et Keras.
Application du word embedding avec Word2vec.
Présentation du recurrent neural network.
Présentation du generative adversial network.
Définition des éléments de l’apprentissage par renforcement.
Mise au point sur les fondamentaux mathématiques pour le reinforcement learning.
Présentation de la principale famille d’algorithmes de reinforcement learning : Monte-Carlo.
Application des algorithmes d’apprentissage par différence temporelle : SARSA.
Application des algorithmes d’apprentissage par différence temporelle : Q-Learning.
Comparaison entre apprentissage par différence temporelle et Monte-Carlo.

Application à des business cases.
Introduction au deep reinforcement learning.
Compréhension des fondements des méthodes basées sur la valeur.
Compréhension des problèmes de variance élevée, des risques de surestimation, application des méthodes de résolution.
Introduction à la méthode de policy gradient.
Compréhension des fondamentaux de la structure acteur-critique utilisée dans l’apprentissage en deep reinforcement learning.