Cours pour les praticiens de la science des données

Introduction

La science des données est la pratique qui consiste à extraire des connaissances à partir de quantités massives de données, en utilisant des méthodes telles que les statistiques, l'apprentissage automatique, l'exploration de données et l'analyse prédictive.

IBM SkillsBuild pour le monde universitaire

Aperçu SA DA Praticien

Ce cours vous met au défi d'assumer les différents rôles impliqués dans une équipe de science des données, en résolvant des scénarios du monde réel de bout en bout dans différents secteurs d'activité.

Objectifs

Praticiens de la science des données

Utiliser des méthodes et des outils avancés de science des données, en s'appuyant sur les sciences statistiques, les technologies d'apprentissage automatique et les ensembles de données spécifiques à l'industrie, pour mettre en œuvre des modèles de données uniques qui peuvent résoudre des problèmes difficiles dans tous les secteurs d'activité.

Objectifs d'apprentissage :

  • Comprendre l'évolution et la pertinence de la science des données dans le monde actuel.
  • Explorer les cas d'utilisation de l'industrie de la science des données de bout en bout en utilisant le cycle de vie de l'analyse des données.
  • Comprendre la méthode scientifique employée dans les projets, et les rôles clés de l'équipe de science des données.
  • Acquérir une expertise technique à l'aide de cadres de science des données open-source populaires, notamment Jupyter notebooks et Python.
  • Gagnez un avantage concurrentiel en utilisant une plate-forme basée sur le cloud à code bas pour la science des données (Data Science) - IBM Watson Studio
  • Comprendre les pratiques d'ingénierie et de modélisation des données à l'aide de l'apprentissage automatique.
  • Explorez les études de cas de l'industrie de la science des données : transport, automobile, ressources humaines, aérospatiale, banque et santé.
  • Expérience du travail en équipe et des pratiques industrielles agiles utilisant le design thinking.
  • Participez à des jeux de rôle basés sur des scénarios de défis afin de proposer des solutions concrètes.
Aperçu SA DA Praticien Objectif Article

La science des données révolutionne la manière dont les organisations résolvent les problèmes et acquièrent un avantage concurrentiel.

Qu'est-ce que la science des données ?

Dans le domaine de la science des données, résoudre des problèmes et répondre à des questions grâce à l'analyse des données est une pratique courante. Souvent, les scientifiques des données construisent un modèle pour prédire les résultats ou découvrir des modèles sous-jacents, dans le but d'obtenir de meilleures informations.

Les organisations peuvent intégrer ces informations pour agir et améliorer les résultats futurs. De nombreuses technologies évoluent rapidement pour faciliter l'analyse des données et l'élaboration de modèles. En un temps remarquablement court, on est passé rapidement des ordinateurs de bureau à l'hébergement d'entrepôts parallèles massifs contenant d'énormes volumes de données ; ainsi, on assiste à une transformation palpable des fonctionnalités d'analyse dans les bases de données relationnelles vers des outils de big data non structurés.

L'analyse des données non structurées ou semi-structurées devient de plus en plus importante pour intégrer les sentiments et d'autres informations utiles écrites en langage naturel dans les modèles prédictifs ; cela conduit souvent à des améliorations significatives de la qualité et de la précision des modèles.

Les approches analytiques émergentes cherchent à automatiser les étapes de la construction et de l'application des modèles, ce qui fait de la technologie de l'apprentissage automatique une évolution nécessaire vers la science des données moderne.

Les projets de ML réussis nécessitent une combinaison d'algorithmes, de données et d'équipe, ainsi qu'une infrastructure informatique très puissante.

Le scientifique des données figure parmi les trois premiers emplois émergents

Bien que la science des données existe depuis plusieurs décennies, la croissance rapide de l'intelligence artificielle (IA) dans les entreprises au cours des cinq dernières années a généré une demande de scientifiques des données qui dépasse de loin la disponibilité de professionnels formés. Aujourd'hui, 63 % des dirigeants citent le manque de talents comme l'un des principaux obstacles à l'adoption de la technologie de l'IA[1]. Cette pénurie de talents est une opportunité pour les professionnels en devenir et un défi pour les entreprises qui s'efforcent d'obtenir un avantage concurrentiel sur le marché.

Selon le rapport LinkedIn Emerging Jobs[2], 2020, Data Scientist est en tête de la liste des "emplois émergents" depuis trois années consécutives et devrait connaître une croissance annuelle de 37 %. Il s'agit d'une spécialité qui continue à se développer de manière significative dans tous les secteurs, en raison de l'évolution des emplois existants et de l'importance accrue accordée aux données dans la recherche universitaire.

Quelles sont les compétences nécessaires à un scientifique des données pour réussir ?

La science des données est un ensemble interdisciplinaire de compétences qui se situe à l'intersection des statistiques, de la programmation informatique et de l'expertise dans un domaine. Elle comprend trois domaines distincts qui se chevauchent :

  • les statistiques, pour modéliser et résumer des ensembles de données
  • l'informatique, pour concevoir et utiliser des algorithmes permettant de stocker, de traiter et de visualiser des données
  • L'expertise du domaine, nécessaire pour formuler les bonnes questions et replacer les réponses dans leur contexte.
  • D'autres compétences souvent manquées sont :
    1. Leadership
    2. Travail d'équipe
    3. Communication

[1] Francesco Brenna, Giorgio Danesi, Glenn Finch, Brian Goehring et Manish Goyal. "Shifting toward Enterprise-grade AI : Resolving data and skills gaps to realize value". Institut IBM pour la valeur commerciale, septembre 2018. https://ibm.com/downloads/cas/QQ5KZLEL

[2] "LinkedIn U.S. Emerging Jobs Report", LinkedIn, 2020. https://business.linkedin.com/content/dam/me/business/en-us/talent-solutions/emerging-jobs-report/Emerging_Jobs_Report_U.S._FINAL.pdf

Étude de cas

Wunderman Thompson + IBM : Améliorer l'apprentissage automatique grâce aux données et à l'IA

Le géant de la publicité, Wunderman Thompson, a fait appel à IBM pour l'aider à utiliser l'apprentissage automatique afin de mieux découvrir des idées humaines - des idées qui contribuent à augmenter le retour sur investissement pour ses clients. Avec l'aide d'IBM Watson Studio et d'outils open-source, l'entreprise et ses clients consacrent désormais plus de temps à la découverte et à la création d'hypothèses et moins de temps aux tâches banales.
Wunderman Thompson + IBM

Un algorithme personnalisé pour détecter les fraudes potentielles

Grâce à l'algorithme de détection des fraudes piloté par l'IA sur IBM Cloud, Thélem assurances, une compagnie d'assurance basée en France, a pu détecter cinq fois plus de fraudes potentielles. Cela s'est traduit par une réduction des coûts, une plus grande flexibilité et la possibilité d'anticiper toute fraude éventuelle. ibm.com/case-studies/thelem-assurances-hybrid-cloud-services

Outils

Ce cours utilise les outils suivants :

  • AutoAI
  • IBM Cloud
  • IBM Data Refinery
  • IBM Object Storage
  • Apprentissage automatique IBM Watson
  • Studio IBM Watson
  • Reconnaissance visuelle IBM Watson
  • Jupyter Notebook
  • Matplotlib
  • Node.js
  • NumPy
  • Pandas
  • PixieDust
  • Python
  • scikit-learn
  • XGBoost

Conditions préalables

Prérequis pour les instructeurs

Les animateurs qui dispensent ce cours ont déjà suivi le cours et ont réussi l'examen.

  • Conférencier avide avec de bonnes compétences de présentation
  • Compétences pédagogiques en matière de gestion de groupe
  • Encourager la pensée critique et l'exploration des domaines
  • Expérience de la gestion des ensembles de données et des droits de propriété intellectuelle

Prérequis pour l'apprenant

Les personnes souhaitant activement postuler à des emplois de débutant dans les domaines liés à la cybersécurité.

  • Familiarité avec les statistiques
  • Connaissances de base en informatique*.

*Connaissances informatiques de base - Il s'agit des compétences requises pour utiliser, au niveau de l'utilisateur, un environnement de système d'exploitation graphique tel que Microsoft Windows® ou Linux Ubuntu®, en exécutant des commandes d'exploitation de base telles que le lancement d'une application, le copier-coller d'informations, l'utilisation de menus, de fenêtres et de périphériques tels que la souris et le clavier. En outre, les utilisateurs doivent être familiarisés avec les navigateurs Internet, les moteurs de recherche, la navigation dans les pages et les formulaires.

Certificat numérique

Certificat de praticien

Certificat IBM Data Science Practitioner

Certificat IBM Data Science Practitioner

Voir badge

À propos de ce certificat

Grâce à une formation validée dispensée par un instructeur en science des données, ce titulaire a acquis les compétences et la compréhension des technologies et des concepts fondamentaux de la science des données. Il a démontré sa compétence et sa compréhension des sujets techniques de la science des données et de la pensée conceptuelle. Le titulaire a acquis la capacité d'appliquer les concepts et la technologie de la science des données avec les outils open source applicables qui sont pertinents pour les scénarios de la science des données dans le monde réel, adaptés à des fins éducatives.

Compétences

Collaboration, Communication, Nettoyage des données, Collecte des données, Ingénierie des données, Exploitation des données, Raffinage des données, Science des données, Fondements de la science des données, Méthodologie de la science des données, Visualisation des données, Traitement des données, Apprentissage profond, Design Thinking, Empathie, Conception de l'expérience, IBM Cloud, IBM Watson, Idéation, Apprentissage automatique, Matplotlib, Déploiement de modèles, Visualisation de modèles, Compréhension du langage naturel, pandas, Personas, Résolution de problèmes, Storyboard, Travail d'équipe, Cas d'utilisation, Conception centrée sur l'utilisateur, Centrée sur l'utilisateur, Expérience utilisateur, Recherche utilisateur, UX, Reconnaissance visuelle, Watson discovery, Watson Studio.

Critères

  • Doit participer à une session de formation dans un établissement d'enseignement supérieur qui propose le programme IBM Skills Academy.
  • Doit avoir suivi la formation des praticiens de la science des données dispensée par un instructeur.
  • Il faut avoir obtenu le Insigne de praticien de la réflexion sur le design d'entreprise.
  • Il faut réussir l'examen des praticiens de la science des données et effectuer de manière satisfaisante l'exercice de groupe.

Certificat d'instructeur

Badge d'instructeur pour le certificat IBM Data Science Practitioner

Certificat IBM Data Science Practitioner : Instructeur

Voir badge

À propos de ce certificat

Dans le cadre d'un atelier dirigé par un instructeur IBM, ce titulaire a acquis des compétences dans les concepts, la technologie et les cas d'utilisation de la science des données. Il a démontré ses compétences dans les domaines suivants : Fondements de la science des données, Collecte des données, Compréhension des données, Modélisation et optimisation des données, Pensée conceptuelle pour la science des données et Cas d'utilisation de la science des données dans l'industrie. Le lauréat démontre sa capacité à enseigner le cours de science des données en appliquant des compétences pédagogiques pour diriger le travail de groupe à l'aide de scénarios basés sur des défis.

Compétences

Conseiller, Communication, Nettoyage des données, Collecte des données, Ingénierie des données, Exploitation des données, Raffinage des données, Science des données, Fondements de la science des données, Méthodologie de la science des données, Visualisation des données, Traitement des données, Apprentissage profond, Design Thinking, Empathie, Conception de l'expérience, IBM Cloud, IBM Watson, Idéation, Conférencier, Apprentissage automatique, Matplotlib, Déploiement de modèles, Visualisation de modèles, Compréhension du langage naturel, pandas, Personas, Résolution de problèmes, Storyboarding, Travail d'équipe, Formateur, Cas d'utilisation, Conception centrée sur l'utilisateur, Centrée sur l'utilisateur, Expérience utilisateur, Recherche utilisateur, UX, Reconnaissance visuelle, Watson discovery, Watson Studio.

Critères

  • Doit être un instructeur désigné d'un établissement d'enseignement supérieur qui a mis ou met en œuvre le programme IBM Skills Academy.
  • Doit avoir suivi l'atelier IBM Data science practitioners - Instructors.
  • Il faut avoir obtenu le Insigne de praticien de la réflexion sur le design d'entreprise.
  • Doit répondre aux exigences du processus de validation des enseignements de l'IBM Skills Academy.