Ce cursus permet aux apprenants de comprendre et monter en compétences sur les fonctions du poste de Data Analyst. Il s’agit
de l’exploitation de l’information pour faciliter la prise de décision au sein de l’entreprise.
Le métier intervient à plusieurs niveaux :
+ La collecte de quantités importantes de données structurées et non structurées.
+ Pouvoir normaliser les données en conservant leur intégrité (qualité de données).
+ Savoir interpréter les données, identifier les tendances.
+ L’exploitation de données massives en s’appuyant sur les outils d’analyse de données du Big Data afin d’extraire des indicateurs
utiles aux décideurs.
+ Pouvoir présenter les résultats sous forme graphique (Dashboard).
+ Aider à la prise de décision en se basant sur l’analyse effectuée.
Métiers cibles : Data Analyst, BI manager, Développeur Python, Développeur Data.
A qui s’adresse cette formation ?
Pour qui
- Responsables financiers, dirigeants, investisseurs.
Prérequis
- Aucun.
Le programme de la formation
Présentation du cursus, du projet fil rouge.
Les fondamentaux du Big Data, gouvernance et RGPD :
Introduction – Enjeux et évolutions du Big Data – Enjeux stratégiques
et organisationnels – Technologies utilisées dans des projets Big Data –
Sécurité, éthique et enjeux juridiques.
Agilité, pilotage de projet Bases de données :
Apprendre les pratiques agiles – Maîtriser la méthode agile Scrum.
Culture DevOps :
Principes du mouvement DevOps – Gestion des sources – Outils de build –
Virtualisation et gestion de configuration – Définition et construction des
images Docker – Intégration continue et Containerisation.
Les fondamentaux de Linux et du scripting :
Introduction – Distributions Linux – Démarrage – Aperçu des fonctionnalités –
Ligne de commande (Shell) et commandes UNIX – Atelier pratique :
utilisation pratique des commandes UNIX – Utilisation avancée – Premier
pas vers l’administration – Atelier pratique : installation de nouveaux
logiciels, mise en place d’utilisateurs – Concevoir des scripts.
Scraping de données :
Comprendre l’intérêt et le processus du scraping, – Architecture d’internet –
Où et comment valoriser les données web – Présentation et explication
d’exemples concrets – Extraction de base de données via les réseaux sociaux
(extraction LinkedIn, Facebook, Twitter…) – Codage et automatisation.
Data Ingestion avec NiFi :
Introduction NiFi – Différence entre données froides et données chaudes –
Présentation des outils et technologies Big Data – Hadoop (HDFS et
MapReduce) – Installation et configuration de NiFi – Vue d’ensemble
de l’architecture NiFi – Approches de développement – Outils de
développement d’applications et état d’esprit – Extraction, transformation
et chargement (ETL) des outils et de la mentalité.
Les bases de données NoSQL :
Introduction – Caractéristiques NoSQL – Principaux acteurs – Mise
en œuvre – Introduction au Big Data et à Cassandra – Installation,
configuration et mise en œuvre locale de Cassandra – Introduction
aux différents outils proposés par Cassandra – Architecture interne de
Cassandra – Découvrir MongoDB – Découvrir HBase.
La suite Elasticsearch :
Introduction à la recherche d’information – Maîtriser l’utilisation du moteur
de recherche – Ingérer des données provenant d’une multitude de sources
avec Logstash – Analyser et visualiser des données avec Kibana – Mettre en
place une architecture avancée (scalabilité et clustering) – Administrer et
déployer la suite Elastic.
Hadoop Data Analysis :
Ecosystème Hadoop – Manipulation des données dans un Cluster Hadoop –
Particularités des distributions – Utilisation des différents outils.
Ecosystem Spark :
Les bases de Spark – Manipulation des dataframes et des schémas – Analyser
des données avec des requêtes sur dataframes – Les RDD – Structure
fondamentale de Spark – Transformer les données avec des rd – Agrégation
de données avec les RDD de paires – Requêtage de tables et de vues avec
Spark SQL – Travailler avec les datasets Spark en scala – Ecrire, configurer et
lancer des applications Spark – Traitement distribué avec Spark – Persistance
de la donnée distribuée – Introduction à Spark Structured Streaming
Introduction à la Data Science et Machine Learning :
Ingénierie de la décision – Sélection d’instances – Data Mining (fouille de
données) – Machine Learning.
Introduction à la BI :
Limites du système d’information opérationnel – Objectif d’un entrepôt des
données – Défis d’un entrepôt de données.
Dataviz et Storytelling :
Qu’est-ce que la dataviz ? – Best practices – Tableau de Bord – Data
Storytelling et Histoire – Applications Dataviz ou BI 2.0 – Mise en situation,
première visualisation – Etudes de cas.
Tableau Desktop :
Introduction à Tableau Software – Concepts essentiels de démarrage :
architecture et vocabulaire – Présentation de l’interface Tableau Software
Desktop – Les différentes sources de données – Types de jointures – Création
d’une requête simple sous forme de tableau simple et croisé dynamique –
Trier – Grouper – Hiérarchiser – Filtrer – Formater vos données – Appliquer des
totaux, des sous-totaux, des calculs simples avec Tableau Software – Données
sources – Calculs dans tableau – Mettre en œuvre des visualisations avancées
avec Tableau Desktop – Bonnes pratiques du tableau de bord