Julien D.

Data Scientist

570 dollar

My experience

More

Projet d'étudesJune 2019 - March 2020

1) Analyse exploratoire de la Banque Mondiale de données sur l'éducation afin d’apporter une aide décisionnelle d’expansion à l’international d’une entreprise de cours en ligne.

Lien des données : https://datacatalog.worldbank.org/dataset/education-statistics

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows - Anaconda – Jupyter Notebook
- Librairies : Pandas – Matplotlib

Travaux réalisés :
- Cibler les bonnes features dans des bases de données conséquentes.
- Faire des analyses statistiques (Quantiles, Moyenne, Médiane, Ecart-type, etc.)
- Proposition de deux hypothèses pour répondre à la problématique avec présentation à l’aide de graphiques (Boxplot, Bars, courbes, etc.)


2)Proposition d’application en lien avec l’alimentation au service de la santé publique.


Données OpenFoodFacts : https://world.openfoodfacts.org/

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – JupyterLab
- Librairies : Pandas – Numpy - Matplotlib – Scikit-Learn

Travaux réalisés :
- Analyse de la base de données OpenFoodFacts.
- Suppression de lignes dupliquées – Outliers – Colonnes vides ou très peu remplies.
- Analyse Pairplot – Corrélation et distributions de features.
- Matrice de corrélation – Coefficient de corrélation linéaire – ANOVA.
- Essai d’une régression linéaire + Arbre de décision pour prédire le Nutriscore, avec la RMSE comme
unité de mesure de performances.
- Détermination du grade nutritionnel avec un kNN.


3)Prédire la consommation de CO2 et consommation totale des bâtiments de la ville de Seattle en se basant sur des bases de données existantes.


Données : https://www.kaggle.com/city-of-seattle/sea-building-energy-benchmarking#2015-building-energy-benchmarking.csv

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – JupyterLab
- Librairies : Pandas – Numpy – Pandas Profiling – Matplotlib – Seaborn – Scikit-Learn

Travaux réalisés :
- Faire abstraction de la fuite de données pour les prédictions.
- Utilisation de Pandas Profiling pour l’analyse exploratoire.
- Analyse de corrélation des variables.
- Preprocessing des données : Suppression d’Outlier – Imputation valeurs manquantes –
- OneHotEncoding – Echantillonnage – Passage au Log – Normalisation – ACP.
- Tests de plusieurs modèles avec Scikit-Learn. Optimisation du plus prometteur avec GridSearchCV.
- Analyse des résultats : RMSE, Pourcentage de bonnes prédictions, coefficient de régression linéaire,
- Features importances, Learning Curve.


4)Classifiez automatiquement des biens de consommation

Réaliser une première étude de faisabilité d'un moteur de classification en se basant sur une image et une description pour l’automatisation de l’attribution de la catégorie de l’article.

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – JupyterLab
- Librairies : Pandas – Numpy – Matplotlib – Seaborn – Scikit-Learn – mglearn – wordcloud – openCV – Pillow – nltk – gensim (Word2Vec) - Keras

Travaux réalisés :
- Données textuelles : Analyse de corpus – Bag of words – Stopwords – Tf-Idf – N-grammes – Stemming – Lemmatisation – LDA – Word2Vec
- Données visuelles : Transformation d’image (contraste, taille, etc…) – Bag of Visual Words avec ORB –
- Transfer Learning (VGG-16, ResNet50).
- Réduction dimensionnelle : ACP - NMF
- Classification multi-classes, essai de plusieurs modèles, matrice de confusion.
- Clustering K-means – ARI.
- Vérification visuelle par TSNE.


5)Segmentez des clients d'un site e-commerce.

Comprendre les différents types d’utilisateurs grâce à leur comportement et à leurs données personnelles.
Evaluer la fréquence à laquelle la segmentation doit être mise à jour.

Outils utilisés :
- Langage : Python 3.6
- Environnement : Windows – Anaconda – JupyterLab
- Librairies : Pandas – Numpy – Matplotlib – Seaborn – Scikit-Learn

Travaux réalisés :
- Analyses statistiques des données.
- Preprocessing des données : Échantillonnage – Normalisation des données par normalisation quantile – ACP.
- Tests de plusieurs modèles de clustering : K-means, CAH, DBScan.
- Vérification visuelle par TSNE.
- Définition de la segmentation, tableau de bord de chaque cluster facilement exploitable par l’équipe marketing.
- ANOVA pour déterminer les variables significatives de chaque cluster.
- Détermination de l’intervalle de temps pour la maintenance du modèle par l’analyse des données.


6)Implémentez un modèle de Scoring

Prédiction de risque de faillite d’un client pour une entreprise de crédits.

Outils utilisés :
- Langage : Python 3.7.5
- Environnement : Windows – VirtualEnv – JupyterLab – Microsoft Azure – Git & GitHub
- Librairies : Pandas – Numpy – Matplotlib – Seaborn – Scikit-Learn – imblearn – XGBoost – Streamlit – Flask – Docker

Travaux réalisés :
- Classification binaire sur un jeu de données déséquilibré.
- Preprocessing des données avec rééquilibrage des données.
- Essai de plusieurs modèles : Régression logistique – Random Forest – Xgboost.
- Optimisation du modèle le plus prometteur.
- Etudes des différentes métriques : Accuracy – Precision – Recall – F1Score
- Matrice de confusion – Courbe ROC – Score AUC – Features Importances
- Réalisation d’un Dashboard avec Flask et Streamlit.
- Déploiement du modèle sur Microsoft Azure : Docker – Registry – Azure Service Plan – Web App Service – Azure CLI
- Voir mon article LinkedIn expliquant en détails la procédure


7)Déployez un modèle dans le Cloud

Préparation d’un modèle de classification d’images en tenant compte d’une future mise à l’échelle des calculs due à l’augmentation du volume de données.

Outils utilisés :
- Langage : Python 3.6
- Environnement : Linux Mint – VirtualEnv – JupyterLab – AWS – Git & GitHub
- Librairies : Spark 2.4.5 – OpenCV – Boto3

Travaux réalisés :
- Code :
- Preprocessing d’un modèle de classifieur par chargement des images dans un dataframe Spark.
- Extraction des descripteurs de chaque image avec l’algorithme ORB inclut dans OpenCV.
- Enregistrement du dataframe final au format parquet.
- Déploiement sur AWS :
- Création d’un dépôt S3, avec AWS CLI et sans.
- Création d’une instance EMR pour la distribution des calculs.
- Configuration des rôles dans AWS IAM.
- Utilisation d’un Notebook EMR pour charger et visualiser les résultats.
More

MINERVA CONCEPTJanuary 2018 - June 2019

Mission dessinateur - Concepteur chez Dassault Aviation.

Conception de maquettes pour essais aérodynamiques en souffleries. Principalement sur Tronçon T5 / Dérive / PH et voilure.

Conception de la maquette à partir des formes avion fournies par le service aéro :
- Recherche de solution pour respecter les spécifications de la maquette (pesées ou non, type de pesées, etc.).
- Calcul de pré-dimensionnement des efforts.
- Mise en liasse de la maquette.
- Réunions d'avancement avec le service aéro.

Outils utilisés : Catia V5 3D (Volumique, surfacique, Assemblage), Mise en plan, Calcul
More

Groupe PSA \June 2011 - January 2018

Responsable synthèse d'architecture sur projets en avance de phase :

Le technicien d'études doit avoir connaissance des items suivants :
- Environnement véhicule
- Contraintes techniques structure véhicule
- Toutes les préconisations des différents métiers (Faisceaux, insonorisation, aérolique, aérodynasme, style, etc...)
- Les réglementations d'homologations nécessaires à la commercialisation du véhicule dans différents pays

Il doit savoir maitrîser les items suivants :
- La communication, afin de trouver le meilleur compromis entre toutes les contraintes des différents métiers, ceci dans le but d'offrir le meilleur rendement d'architecture au client.
- La rigueur, afin d'assurer la meilleure traçabilité de son travail pour un transfert de dossier le plus clair possible.
- Les logiciels CAO (Catia V5, PLM), afin de construire la synthèse de la zone véhicule dont il est responsable.
- Assurance. Il est force de proposition et doit savoir vendre les différentes hypothèses dont il est à l'origine.

A côté de sa partie projet, le technicien d'études est :
- Responsable de la création d'outils CAO paramétrés qui auront pour but d'optimiser les futures études en répondant à tous les cas de figures possibles.
- En charge d'assurer la fiche explicative de chaque outil créé pour les futurs utilisateurs de ce même outil.

SOGECLAIR aerospaceJune 2009 - June 2011

More

GROUPE ALTELIOS TECHNOLOGYJanuary 2009 - April 2009

Prestation chez Sogitec.

Modélisation et mise en plan de simulateur de vol de combat.

Maîtrise des items suivants :
- Logiciel CAO (Catia V5)
- Connaissance tôlerie et technologie soudure

AssystemJune 2006 - December 2008

My stack

Big Data

Data Visualization, Big Data

Others

Data Science, Data analysis, GitHub

IT Infrastructure

Git, Docker

Frameworks

OpenCV

Languages

SQL

Analysis methods and tools

Agile Methodology

CAD&CAM

Catia

Machine Learning

Scikit-Learn, AzureML

Technologies

Pandas, Machine Learning, Amazon Web Services (AWS), NumPy, Matplotlib

My education and trainings

Data Scientist - OpenClassrooms2019 - 2020

Licence Professionnelle - Université Paris-Sud2002 - 2003

Brevet de Technicien Superieur - IAE Gustave Eiffel2000 - 2002

Baccalaureat, STI Génie mécanique et productique - IAE Gustave Eiffel1998 - 2000