Christian M.

Data Scientist

760 dollar
Freelancer
29 years
Boulogne-Billancourt, FRANCE

My experience

More

2019Ingénieur MaturationJanuary 2018 - Present

: Agorithmeset RGPD
Laboratoire de Recherche Informatique LRI Paris-
Développement pour la SATT et la « Marie de Vanves » d'un outils de mapping/Liage automatique des bases de données. Algorithmes Liage, Sackey, Frisk. Dépôt de brevets en cours.
- Dans un réseau de bases, identification des Données à caractères personnels (DCP), recherche de clefs.

- Détermination des centres d'intérêts des users.

- Création d'une chaine de processde la Data Acquisition, Curation, Analysis, Usage
- Génération des requêtés pré-calculées avec leurs jointures

- Lancement parallélisé des requêtes sur les bases, agrégation inter-base des DCP

- Création d'une Api python et d'un front Reactjs de recherche DPO des DCP
2019/03 Compétition Kaggle deep learning: Predict future sales
L'objectif est de prédire lesprochainesventes d'articles d'une chaîne de magasin.
- Modèle autoregressif Arima, lightgbm, Xgboost, Réseau de neurones récurrents
LSTM

- Publication sur Kaggle d'une solution combinant Xgboost et LSTM.
- Doc de présentation et dossier Data Science
2019/01 Détection de changements urbains ou environnementaux par Cartes auto-adaptatives (Self-organizing map) avec la librairie Mini-Som.
A partir de séries temporelles d'images satellite Landsat, de données démographique et environnementales (niveau des mers, mesures de surface des Glaciers) de 1984 à
2016.
- Etude démographique des villesde Brisbanes,Las Vegas,Comté de Miami

- Etude environnementale du glacier de Columbia en Alaska
- Doc de présentation et dossier de Data Science
2018/12 Projet Deep Learning d'identification automatique de 120 races de chiens
Modélisation avec bags of features Sift,Gradient Morphologique.
- Transfer learning CNN avec lesmodèles Vgg16,Vgg19,Resnet50
- Ajout de couches Relu,Polling,Convolution. Optimizer SGD,Adam

- Remplacement de la couche Fully-connected par softmax.
- Création d'un batch d'identification des images.
- Doc de présentation et dossier de Data Science

EXPERIENCES (suite)

2018/10 Projet Catégorisation automatique / NPL de questions StackOverFlow
- ML non supervisé LDA, Allocation de Dirichlet Latente, calcul de la matrice de probabilité de présence de chaque mot
- L supervisé, classification multi class avec la stratégie One Versus Rest (OVR)
- Modèles Logistique avec pénalité de Ridge, SVM, RN multilayer perceptron, Random Forest, Gradient Boosting classifier, réduction des dimensions avec PCA.
- Création de deux Api de catégorisation, non supervisé et supervisé, Rédaction d'un document de Datascience

2018/09 Projet Datazone, Segmentation automatique des clients.
- Recherche de la classification/segmentation client optimale, Clustering Kmean++ , Score RFM
- Sélection du meilleur classifieur : Précision, taux de bon classement, matrice de confusion, courbe ROC.
- Hyperparamètres optimaux obtenus par Cross-validation
- Modèle Regression Logistique avec pénalité, Gradient Boosting classifier, Random Forest classifier, SVM Support Vector
Machine ou Séparateur à Marges Maximales, Classifieur à réseau de neurones multi-layer perceptron
- Appli python de classification des clients, Dossier de Datascience
More

société de miseJuly 2018 - July 2018

Primaxia société de mise en relation immobilière -
- initialisation d'une transformation numérique autour de la chaîne de valeur du Big Data.
- Pour la Directrion Financière de Primaxia - comprendre le comportement client.
- Mémoire de recherche sur la création de la valeur par donnée dans le big data.
2018/07 Projet de Prédiction des retards de vols de compagnies aériennes.

- Apprentissage supervisé :Modèlisation Ridge, Lasso, Elasticnet, Random Forest, SGD Regressor, perte Huber.
- Cross validation des hyperparamètres optimaux.
- Api python de prédiction du retard de vols du modèle choisit.
- Doc de présentation et dossier de Data Science
2018/05 Projet Moteur de recommandation de films « recommandé pour vous »

- Apprentissage non supervisé, Calcul automatique choix optimal des Clusters /Segmentation.
- Algorithme de LIoyed, Kmeans++ , scipy.spatial.distance, sklearn, pca, Visualisation des clusters avec Tsne.
- Déploiement de l'Api en cloud Heroku, Doc de présentation et dossier de Data Science
2018/02 Projet de proposition des compositions nutritionnelles pertinentes / base de données nutritionnelles
- Analyse graphique ACP en R pour donner les compositions pertinentes.

- Correction des données manquantes par la méthode KNN, Cross-validation. Python et R. Interprétation et préconisation de compositions.
- Création d'une librairie python KNN avec distance Euclidienne, Chi2, One Hot Encoding, distance de Canberra, Jaccard, Hamming, Manhattan, Standardisation, vérité de terrain.
- Python Multithreads, Automatisation du Reporting des statistiques descriptives

2018/01 Etude Econométrique d'un Réseau social d'inventeurs, une base de brevets de l'Ocde, par la Théorie des Graphes.
Modèle de Poisson et Binomial négatif pour prévoir les nombres de Claims/revendications, et les Forward Citations. Avec R, Stata et Python. Profiler les inventeurs star et les paramètres de brevet donnant de la valeur aux brevets.
2018/01 Pour l'Onf : Inventaire Statistiques de réseaux de placettes selon des algorithmes d'Agroparitech. Suivit du projet et
Création d'une Application R de génération d'une appli de control (en R) des données manquantes, aberrantes, erreur de typologie.
2017/11 Etude économétrique des facteurs socio-économiques du chômage dans les régions européennes. Agrégation de 8 bases Eurostat. Modélisation en données de panel, modèles between, within, pooling langage R.
More

PrimaxiaJuly 2018 - July 2018




Data Scientist / Manager.
- Société de mise en relation immobilière, initialisation d’une transformation numérique autour de la chaîne de valeur du Big Data.
- Création de sub process Data Curation et Data Analyse.
- Automatisation des rapports d’activité hebdomadaire. Pour prédire le comportement client., Scoring RFM, segmentation Kmeans++  des acheteurs.
- Mémoire de recherche sur la création de la valeur par donnée dans le big data.
- Apprentissage supervisé des retards de vols de compagnies aériennes.
- Modélisation Ridge, Lasso, Elasticnet, Random Forest, SGD Regressor, perte Huber.
- Sélection des Hyperparamètres optimaux.
- API Python de prédiction du retard de vols du modèle choisit.
More

Aménagement OnfJuly 2017 - July 2017

: Aménagement Onf : c'est l'application de gestion durable des forêts publiques françaises.
- création du schéma postgres, et d'un framework Angular js, appli R de génération automatique des formulaires d'écran + dao
+Ctrlr, et html de statistiques descriptives
More

IndépendentJune 2017 - June 2017




- Mémoire Analytique, étude d’ impact sur le thème de la ‘Cybersecurity from people point of view’ study from an Eurobameter survey to find social and individual factors that influence consumers behaviors.
- Logistic modelling (modélisation logistique)  with Stata, and R script.
- Project report in latex with overleaf.
- Fonctionnel  économie, environnement technique: collecte des données, datamining, statistiques, économétrie.
More

Malakoff-MédéricJune 2016 - April 2017




Assurance/ Mutuelle.
- Développement de la plateforme DSN  Déclaration Sociale Nominative.
- Création et suivi de la plateforme de supervision/suivi/déploiement des batchs de la chaîne DSN 8 Servers,60 batchs, 16 bases: JSP / Python HTTP / Shell.
- Suivi des injections de DSN en temps réel multi base (intégration, recette): Excel/VBA.
- Statistiques descriptives des injections des 5 derniers jours (R script).
- Appli Python, d’analyse des versions de schéma et de génération des script SQL de mises à jours MySQL.
More

Société GénéraleJanuary 2011 - June 2016




Développeur.
- Solutions Risques.
- Notation entreprises, banques, pays.
More

EnedisJanuary 2014 - May 2016




Responsable Backoffice.
- Mise à disposition des clients d’ERDF des données de prévision.
- Conversion d’applications Matlab  d’alimentation Météo et de moteurs de calculs  en JAVA.
- Automatisation de la conversion d’une base MySQL en base PostgreSQL.
- Développeur des Moteurs d’alimentation.
- Machine Learning : Modélisation (série chronologique) pour la prévision de remplissage des Files System.
- Développement d’un planificateur de lancement de job et d’une supervision des batchs.
- Le projet SYPEL a reçu la médaille de Bronze pour les victoires ERDF.
More

OrangeDecember 2012 - September 2013




Développeur.
- Application interne développée en JAVA JSP et jQuery script.
- Création d’un outil de génération automatique de SQL de mise à jour des schémas de la base pour upgrading de version.
More

ONFAugust 2012 - December 2012




Chef de Projet.
- Jeux de piste forestière pour Android, Google API, PhoneGap.
More

CEA Services GénérauxJuly 2012 - August 2012




Développeur.
- Audit et revue de code applicatif.
More

Edelia EDFNovember 2010 - December 2010




Développeur.
- Supervision TED Edelia.
- Moteur d’insertion des données au format SAGEM.
More

Courtier en AssuranceJanuary 2008 - January 2009




Freelance.
- Administration GED, Fonctions de recherche, WS.
More

Ministère de l’IntérieurJanuary 2008 - December 2008




Développeur.
- Application « SPD » : amélioration des performances.
More

IBM SDDCJanuary 2006 - January 2007




Développeur.
- Application RFTB de crédit de consommation en ligne - Galeries Lafayettes.
More

FreelanceJanuary 2004 - January 2006




Editeur Sinequa.
- Moteur de recherche sémantique, Le Sénat, L’Est Républicain.
More

AmalthisJanuary 2003 - January 2004




Éditeur.
- Editeur de progiciels Intranet RH.
More

CGBI / NestléJanuary 2002 - December 2002




Développeur.
- Workflow des emballages de la société en J2EE, Struts, Oracle de suivi logistique.
More

Banque de FranceMarch 2000 - December 2000




Développeur.
- BCME2 : Séries chronologiques de données statistiques et monétaires.
More

TelecomJanuary 1988 - January 2000

Développeur.

My stack

Frameworks

jQuery, AngularJS, Struts, Spring

Other

Brevet, IT Security, économiste, Stata, au market design, Diplôme Data Sientist, Licence > Licence Droit, Economie, Python Programming, BTS Informatique > BTS Informatique PSI, Web 3.0, LSI StoreAge > StoreAge SVM, Consultant, chef de projet, Data Scientist, Manager, industry~it, apprentissage, recherche > recherche informatique, REACTJS, cours, SAS System > SAS Statistical Package, Baccalaureat > Baccalaureat D

Business Intelligence

SAS

Mobile

PhoneGap

Databases

PostGreSQL, SQL Server, MySQL, Oracle, Cassandra, NoSQL, MongoDB

Big Data

Data Mining, Big Data

Technologies

J2EE, Flask

Analysis methods and tools

Scrum, Agile

IT Infrastructure

Windows, Linux, Heroku

Languages

UML, PL/SQL, PHP, Python, HTML, CSS, JavaScript, LaTeX, Matlab, SQL, Java

My education and trainings

Diplome Data Scienctits - CentraleSupelec

Licence, Droit, Economie - Paris Sud

Licence, Droit, Economie - appliquée Paris Sud

Baccalaureat, D - Lycée Honoré de Balzac

- Master 2 Iren Industrie de Réseau et Economie Numérique - École Polytechnique, Paris-Sud, Dauphine.2017 - 2018

- École Polytechnique2018

- SAS Institute2017

- Master 1 Economie Innovation, Entreprise et Société IES ead, Paris-Saclay.2017 - 2017

- Paris Sud2017

- Licence de Droit, Economie, Gestion Ead, Parcours Économie Appliquée - Université Paris Sud.2016 - 2016

- BTS Informatique PSI.1987 - 1987