Christian M.

DATA SCIENTIST

805 dollar
Freelancer
30 years
Boulogne-Billancourt, FRANCE

My experience

More

2019Ingénieur MaturationJanuary 2018 - Present

: Agorithmeset RGPD
Laboratoire de Recherche Informatique LRI Paris-
Développement pour la SATT et la « Marie de Vanves » d'un outils de mapping/Liage automatique des bases de données. Algorithmes Liage, Sackey, Frisk. Dépôt de brevets en cours.
- Dans un réseau de bases, identification des Données à caractères personnels (DCP), recherche de clefs.

- Détermination des centres d'intérêts des users.

- Création d'une chaine de processde la Data Acquisition, Curation, Analysis, Usage
- Génération des requêtés pré-calculées avec leurs jointures

- Lancement parallélisé des requêtes sur les bases, agrégation inter-base des DCP

- Création d'une Api python et d'un front Reactjs de recherche DPO des DCP
2019/03 Compétition Kaggle deep learning: Predict future sales
L'objectif est de prédire lesprochainesventes d'articles d'une chaîne de magasin.
- Modèle autoregressif Arima, lightgbm, Xgboost, Réseau de neurones récurrents
LSTM

- Publication sur Kaggle d'une solution combinant Xgboost et LSTM.
- Doc de présentation et dossier Data Science
2019/01 Détection de changements urbains ou environnementaux par Cartes auto-adaptatives (Self-organizing map) avec la librairie Mini-Som.
A partir de séries temporelles d'images satellite Landsat, de données démographique et environnementales (niveau des mers, mesures de surface des Glaciers) de 1984 à
2016.
- Etude démographique des villesde Brisbanes,Las Vegas,Comté de Miami

- Etude environnementale du glacier de Columbia en Alaska
- Doc de présentation et dossier de Data Science
2018/12 Projet Deep Learning d'identification automatique de 120 races de chiens
Modélisation avec bags of features Sift,Gradient Morphologique.
- Transfer learning CNN avec lesmodèles Vgg16,Vgg19,Resnet50
- Ajout de couches Relu,Polling,Convolution. Optimizer SGD,Adam

- Remplacement de la couche Fully-connected par softmax.
- Création d'un batch d'identification des images.
- Doc de présentation et dossier de Data Science

EXPERIENCES (suite)

2018/10 Projet Catégorisation automatique / NPL de questions StackOverFlow
- ML non supervisé LDA, Allocation de Dirichlet Latente, calcul de la matrice de probabilité de présence de chaque mot
- L supervisé, classification multi class avec la stratégie One Versus Rest (OVR)
- Modèles Logistique avec pénalité de Ridge, SVM, RN multilayer perceptron, Random Forest, Gradient Boosting classifier, réduction des dimensions avec PCA.
- Création de deux Api de catégorisation, non supervisé et supervisé, Rédaction d'un document de Datascience

2018/09 Projet Datazone, Segmentation automatique des clients.
- Recherche de la classification/segmentation client optimale, Clustering Kmean++ , Score RFM
- Sélection du meilleur classifieur : Précision, taux de bon classement, matrice de confusion, courbe ROC.
- Hyperparamètres optimaux obtenus par Cross-validation
- Modèle Regression Logistique avec pénalité, Gradient Boosting classifier, Random Forest classifier, SVM Support Vector
Machine ou Séparateur à Marges Maximales, Classifieur à réseau de neurones multi-layer perceptron
- Appli python de classification des clients, Dossier de Datascience
More

société de miseJuly 2018 - July 2018

Primaxia société de mise en relation immobilière -
- initialisation d'une transformation numérique autour de la chaîne de valeur du Big Data.
- Pour la Directrion Financière de Primaxia - comprendre le comportement client.
- Mémoire de recherche sur la création de la valeur par donnée dans le big data.
2018/07 Projet de Prédiction des retards de vols de compagnies aériennes.

- Apprentissage supervisé :Modèlisation Ridge, Lasso, Elasticnet, Random Forest, SGD Regressor, perte Huber.
- Cross validation des hyperparamètres optimaux.
- Api python de prédiction du retard de vols du modèle choisit.
- Doc de présentation et dossier de Data Science
2018/05 Projet Moteur de recommandation de films « recommandé pour vous »

- Apprentissage non supervisé, Calcul automatique choix optimal des Clusters /Segmentation.
- Algorithme de LIoyed, Kmeans++ , scipy.spatial.distance, sklearn, pca, Visualisation des clusters avec Tsne.
- Déploiement de l'Api en cloud Heroku, Doc de présentation et dossier de Data Science
2018/02 Projet de proposition des compositions nutritionnelles pertinentes / base de données nutritionnelles
- Analyse graphique ACP en R pour donner les compositions pertinentes.

- Correction des données manquantes par la méthode KNN, Cross-validation. Python et R. Interprétation et préconisation de compositions.
- Création d'une librairie python KNN avec distance Euclidienne, Chi2, One Hot Encoding, distance de Canberra, Jaccard, Hamming, Manhattan, Standardisation, vérité de terrain.
- Python Multithreads, Automatisation du Reporting des statistiques descriptives

2018/01 Etude Econométrique d'un Réseau social d'inventeurs, une base de brevets de l'Ocde, par la Théorie des Graphes.
Modèle de Poisson et Binomial négatif pour prévoir les nombres de Claims/revendications, et les Forward Citations. Avec R, Stata et Python. Profiler les inventeurs star et les paramètres de brevet donnant de la valeur aux brevets.
2018/01 Pour l'Onf : Inventaire Statistiques de réseaux de placettes selon des algorithmes d'Agroparitech. Suivit du projet et
Création d'une Application R de génération d'une appli de control (en R) des données manquantes, aberrantes, erreur de typologie.
2017/11 Etude économétrique des facteurs socio-économiques du chômage dans les régions européennes. Agrégation de 8 bases Eurostat. Modélisation en données de panel, modèles between, within, pooling langage R.
More

PrimaxiaJuly 2018 - July 2018

Data Scientist / Manager.
- Société de mise en relation immobilière, initialisation d’une transformation numérique autour de la chaîne de valeur du Big Data.
- Création de sub process Data Curation et Data Analyse.
- Automatisation des rapports d’activité hebdomadaire. Pour prédire le comportement client., Scoring RFM, segmentation Kmeans++  des acheteurs.
- Mémoire de recherche sur la création de la valeur par donnée dans le big data.
- Apprentissage supervisé des retards de vols de compagnies aériennes.
- Modélisation Ridge, Lasso, Elasticnet, Random Forest, SGD Regressor, perte Huber.
- Sélection des Hyperparamètres optimaux.
- API Python de prédiction du retard de vols du modèle choisit.
More

Aménagement OnfJuly 2017 - July 2017

: Aménagement Onf : c'est l'application de gestion durable des forêts publiques françaises.
- création du schéma postgres, et d'un framework Angular js, appli R de génération automatique des formulaires d'écran + dao
+Ctrlr, et html de statistiques descriptives
More

IndépendentJune 2017 - June 2017

- Mémoire Analytique, étude d’ impact sur le thème de la ‘Cybersecurity from people point of view’ study from an Eurobameter survey to find social and individual factors that influence consumers behaviors.
- Logistic modelling (modélisation logistique)  with Stata, and R script.
- Project report in latex with overleaf.
- Fonctionnel  économie, environnement technique: collecte des données, datamining, statistiques, économétrie.
More

Malakoff-MédéricJune 2016 - April 2017

Assurance/ Mutuelle.
- Développement de la plateforme DSN  Déclaration Sociale Nominative.
- Création et suivi de la plateforme de supervision/suivi/déploiement des batchs de la chaîne DSN 8 Servers,60 batchs, 16 bases: JSP / Python HTTP / Shell.
- Suivi des injections de DSN en temps réel multi base (intégration, recette): Excel/VBA.
- Statistiques descriptives des injections des 5 derniers jours (R script).
- Appli Python, d’analyse des versions de schéma et de génération des script SQL de mises à jours MySQL.
More

Société GénéraleJanuary 2011 - June 2016

Développeur.
- Solutions Risques.
- Notation entreprises, banques, pays.
More

EnedisJanuary 2014 - May 2016

Responsable Backoffice.
- Mise à disposition des clients d’ERDF des données de prévision.
- Conversion d’applications Matlab  d’alimentation Météo et de moteurs de calculs  en JAVA.
- Automatisation de la conversion d’une base MySQL en base PostgreSQL.
- Développeur des Moteurs d’alimentation.
- Machine Learning : Modélisation (série chronologique) pour la prévision de remplissage des Files System.
- Développement d’un planificateur de lancement de job et d’une supervision des batchs.
- Le projet SYPEL a reçu la médaille de Bronze pour les victoires ERDF.
More

OrangeDecember 2012 - September 2013

Développeur.
- Application interne développée en JAVA JSP et jQuery script.
- Création d’un outil de génération automatique de SQL de mise à jour des schémas de la base pour upgrading de version.
More

ONFAugust 2012 - December 2012

Chef de Projet.
- Jeux de piste forestière pour Android, Google API, PhoneGap.
More

CEA Services GénérauxJuly 2012 - August 2012

Développeur.
- Audit et revue de code applicatif.
More

Edelia EDFNovember 2010 - December 2010

Développeur.
- Supervision TED Edelia.
- Moteur d’insertion des données au format SAGEM.
More

Courtier en AssuranceJanuary 2008 - January 2009

Freelance.
- Administration GED, Fonctions de recherche, WS.
More

Ministère de l’IntérieurJanuary 2008 - December 2008

Développeur.
- Application « SPD » : amélioration des performances.
More

IBM SDDCJanuary 2006 - January 2007

Développeur.
- Application RFTB de crédit de consommation en ligne - Galeries Lafayettes.
More

FreelanceJanuary 2004 - January 2006

Editeur Sinequa.
- Moteur de recherche sémantique, Le Sénat, L’Est Républicain.
More

AmalthisJanuary 2003 - January 2004

Éditeur.
- Editeur de progiciels Intranet RH.
More

CGBI / NestléJanuary 2002 - December 2002

Développeur.
- Workflow des emballages de la société en J2EE, Struts, Oracle de suivi logistique.
More

Banque de FranceMarch 2000 - December 2000

Développeur.
- BCME2 : Séries chronologiques de données statistiques et monétaires.
More

TelecomJanuary 1988 - January 2000

Développeur.

My stack

Windows, UML, Struts, SQL Server, SQL, Spring, Scrum, SAS, Python, PostgreSQL, PL/SQL, PHP, PhoneGap, Oracle, NoSQL, MySQL, MongoDB, Matlab, Linux, LaTeX, jQuery, JavaScript, Java, J2EE, IT Security, HTML, Heroku, Flask, Data Mining, CSS, Cassandra, Big Data, AngularJS, Agile