Titanic Kaggle

6 projets pour apprendre la data science

L’apprentissage par la pratique est de loin le meilleur moyen pour monter en compétences. C’est vrai dans n’importe quel domaine, mais encore plus dans les domaines en liens avec la programmation.

Dans cet article j’ai compilé 10 projets, de simple à difficile, qui permettent de monter rapidement en compétences sur le machine learning.

Titanic : machine learning from disaster

Beaucoup de data scientist ont commencé par là. C’est un des premiers projets que je propose à ceux qui débutent en machine learning.

Le principe du projet est simple. On a un dataset qui réunit des données sur les passagers du Titanic pendant son naufrage : nom, prénom, classe, age, sexe, numéro de cabine, etc. Et pour chaque passager on a une variable qui nous dit s’il a survécu au naufrage ou non.

L’idée est d’utiliser ces données pour entraîner un modèle capable de prédire la survie ou le naufrage d’un passager.

Ce projet permet de se familiariser avec des librairies comme Pandas et Scikitlearn, et d’utiliser des algorithmes comme Random forest ou XGBoost.

Je vous laisse commencer à vous amuser sur Kaggle 🙂

Prédire la gravité d’un accident

Pour trouver des projets intéressants à réaliser je me rend souvent sur datagouv. Une base de données libre proposée par l’état.

Parmi les dataset avec lesquels vous pouvez jouer, il y a une base de données qui recense les accidents par gravité. On a des informations comme le nombre de véhicules impliqués, le lieu, le moment, et pour chaque accident on a un indice de gravité compris entre 1 et 5.

L’objectif est de construire un modèle qui puisse prédire ce degré de gravité.

En plus d’apprendre à manipuler des données plus complexes avec Pandas, vous verrez comment gérer les problèmes liés aux données manquantes ou au déséquilibre des classes.

Prédire le loyer d’un appartement à Paris

Pour ce projet là aussi vous trouverez les données sur datagouv.

Contrairement aux 2 premiers projets, dans celui ci on ne fait pas de classification mais une régression. Ce qui est légèrement différent, même si les étapes de traitement des données et les algorithmes utilisés sont très similaires.

L’objectif sera de pouvoir prédire les loyers d’appartements parisiens à partir de localisation, de leur surface et d’autres données.

Je vous propose de suivre mon tutoriel ici.

MNIST : le premier réseau de neurones

Ce projet là est le hello world du deep learning.

Il s’agit de classifier des images de chiffres manuscrits en utilisant des techniques simples de deep learning.

Ce projet permet de se familiariser avec la manipulation de données sous forme d’images. Il permet aussi de travailler avec une librairie plus haut niveau comme Tensorflow ou PyTorch, et d’entraîner un premier réseau de neurones simples.

L’intérêt de travailler sur ce projet est que les tutoriels et vidéos sur ce dataset ne manquent pas, vous serez soutenu du début à la fin du projet.

Vous trouverez le dataset et des propositions de solutions sur Kaggle.

Fashion MNIST

Pour rester sur le même type de projets, vous pouvez enchaîner avec Fashion MNIST. Le principe est exactement le même, et les outils utilisés sont les mêmes.

Sauf que cette fois les données sont moins uniformes (on dit que la variance intra-classe est plus élevée. Le modèle de classification devra donc être un peu plus fin.

Cette fois l’objectif est de construire un modèle de classification d’images d’articles de modes. Le dataset avait été proposé par Zalando. Et comme pour la base MNIST classique vous trouverez beaucoup d’articles et de tutoriels sur ce projet.

Classification des musiques

Pour le dernier projet, encore un peu plus difficile, je vous propose de travailler avec des données sonores. Le travail sur les données sonores est similaire au traitement de séries temporelles.

L’idée de ce projet est d’entraîner un modèle pour classifier des sons en fonction de leur types (jazz, rock, hip-hop, etc.).

Pour ce projet je vous conseille de tester plusieurs modèles sur les mêmes données et de comparer les résultats. J’ai fait ce travail pour vous dans le tutoriel suivant 🙂