: Agorithmeset RGPD Laboratoire de Recherche Informatique LRI Paris- Développement pour la SATT et la « Marie de Vanves » d'un outils de mapping/Liage automatique des bases de données. Algorithmes Liage, Sackey, Frisk. Dépôt de brevets en cours. - Dans un réseau de bases, identification des Données à caractères personnels (DCP), recherche de clefs.
- Détermination des centres d'intérêts des users.
- Création d'une chaine de processde la Data Acquisition, Curation, Analysis, Usage - Génération des requêtés pré-calculées avec leurs jointures
- Lancement parallélisé des requêtes sur les bases, agrégation inter-base des DCP
- Création d'une Api python et d'un front Reactjs de recherche DPO des DCP 2019/03 Compétition Kaggle deep learning: Predict future sales L'objectif est de prédire lesprochainesventes d'articles d'une chaîne de magasin. - Modèle autoregressif Arima, lightgbm, Xgboost, Réseau de neurones récurrents LSTM
- Publication sur Kaggle d'une solution combinant Xgboost et LSTM. - Doc de présentation et dossier Data Science 2019/01 Détection de changements urbains ou environnementaux par Cartes auto-adaptatives (Self-organizing map) avec la librairie Mini-Som. A partir de séries temporelles d'images satellite Landsat, de données démographique et environnementales (niveau des mers, mesures de surface des Glaciers) de 1984 à 2016. - Etude démographique des villesde Brisbanes,Las Vegas,Comté de Miami
- Etude environnementale du glacier de Columbia en Alaska - Doc de présentation et dossier de Data Science 2018/12 Projet Deep Learning d'identification automatique de 120 races de chiens Modélisation avec bags of features Sift,Gradient Morphologique. - Transfer learning CNN avec lesmodèles Vgg16,Vgg19,Resnet50 - Ajout de couches Relu,Polling,Convolution. Optimizer SGD,Adam
- Remplacement de la couche Fully-connected par softmax. - Création d'un batch d'identification des images. - Doc de présentation et dossier de Data Science
EXPERIENCES (suite)
2018/10 Projet Catégorisation automatique / NPL de questions StackOverFlow - ML non supervisé LDA, Allocation de Dirichlet Latente, calcul de la matrice de probabilité de présence de chaque mot - L supervisé, classification multi class avec la stratégie One Versus Rest (OVR) - Modèles Logistique avec pénalité de Ridge, SVM, RN multilayer perceptron, Random Forest, Gradient Boosting classifier, réduction des dimensions avec PCA. - Création de deux Api de catégorisation, non supervisé et supervisé, Rédaction d'un document de Datascience
2018/09 Projet Datazone, Segmentation automatique des clients. - Recherche de la classification/segmentation client optimale, Clustering Kmean++ , Score RFM - Sélection du meilleur classifieur : Précision, taux de bon classement, matrice de confusion, courbe ROC. - Hyperparamètres optimaux obtenus par Cross-validation - Modèle Regression Logistique avec pénalité, Gradient Boosting classifier, Random Forest classifier, SVM Support Vector Machine ou Séparateur à Marges Maximales, Classifieur à réseau de neurones multi-layer perceptron - Appli python de classification des clients, Dossier de Datascience
Primaxia société de mise en relation immobilière - - initialisation d'une transformation numérique autour de la chaîne de valeur du Big Data. - Pour la Directrion Financière de Primaxia - comprendre le comportement client. - Mémoire de recherche sur la création de la valeur par donnée dans le big data. 2018/07 Projet de Prédiction des retards de vols de compagnies aériennes.
- Apprentissage supervisé :Modèlisation Ridge, Lasso, Elasticnet, Random Forest, SGD Regressor, perte Huber. - Cross validation des hyperparamètres optimaux. - Api python de prédiction du retard de vols du modèle choisit. - Doc de présentation et dossier de Data Science 2018/05 Projet Moteur de recommandation de films « recommandé pour vous »
- Apprentissage non supervisé, Calcul automatique choix optimal des Clusters /Segmentation. - Algorithme de LIoyed, Kmeans++ , scipy.spatial.distance, sklearn, pca, Visualisation des clusters avec Tsne. - Déploiement de l'Api en cloud Heroku, Doc de présentation et dossier de Data Science 2018/02 Projet de proposition des compositions nutritionnelles pertinentes / base de données nutritionnelles - Analyse graphique ACP en R pour donner les compositions pertinentes.
- Correction des données manquantes par la méthode KNN, Cross-validation. Python et R. Interprétation et préconisation de compositions. - Création d'une librairie python KNN avec distance Euclidienne, Chi2, One Hot Encoding, distance de Canberra, Jaccard, Hamming, Manhattan, Standardisation, vérité de terrain. - Python Multithreads, Automatisation du Reporting des statistiques descriptives
2018/01 Etude Econométrique d'un Réseau social d'inventeurs, une base de brevets de l'Ocde, par la Théorie des Graphes. Modèle de Poisson et Binomial négatif pour prévoir les nombres de Claims/revendications, et les Forward Citations. Avec R, Stata et Python. Profiler les inventeurs star et les paramètres de brevet donnant de la valeur aux brevets. 2018/01 Pour l'Onf : Inventaire Statistiques de réseaux de placettes selon des algorithmes d'Agroparitech. Suivit du projet et Création d'une Application R de génération d'une appli de control (en R) des données manquantes, aberrantes, erreur de typologie. 2017/11 Etude économétrique des facteurs socio-économiques du chômage dans les régions européennes. Agrégation de 8 bases Eurostat. Modélisation en données de panel, modèles between, within, pooling langage R.
Data Scientist / Manager. - Société de mise en relation immobilière, initialisation d’une transformation numérique autour de la chaîne de valeur du Big Data. - Création de sub process Data Curation et Data Analyse. - Automatisation des rapports d’activité hebdomadaire. Pour prédire le comportement client., Scoring RFM, segmentation Kmeans++ des acheteurs. - Mémoire de recherche sur la création de la valeur par donnée dans le big data. - Apprentissage supervisé des retards de vols de compagnies aériennes. - Modélisation Ridge, Lasso, Elasticnet, Random Forest, SGD Regressor, perte Huber. - Sélection des Hyperparamètres optimaux. - API Python de prédiction du retard de vols du modèle choisit.
: Aménagement Onf : c'est l'application de gestion durable des forêts publiques françaises. - création du schéma postgres, et d'un framework Angular js, appli R de génération automatique des formulaires d'écran + dao +Ctrlr, et html de statistiques descriptives
- Mémoire Analytique, étude d’ impact sur le thème de la ‘Cybersecurity from people point of view’ study from an Eurobameter survey to find social and individual factors that influence consumers behaviors. - Logistic modelling (modélisation logistique) with Stata, and R script. - Project report in latex with overleaf. - Fonctionnel économie, environnement technique: collecte des données, datamining, statistiques, économétrie.
Assurance/ Mutuelle. - Développement de la plateforme DSN Déclaration Sociale Nominative. - Création et suivi de la plateforme de supervision/suivi/déploiement des batchs de la chaîne DSN 8 Servers,60 batchs, 16 bases: JSP / Python HTTP / Shell. - Suivi des injections de DSN en temps réel multi base (intégration, recette): Excel/VBA. - Statistiques descriptives des injections des 5 derniers jours (R script). - Appli Python, d’analyse des versions de schéma et de génération des script SQL de mises à jours MySQL.
Responsable Backoffice. - Mise à disposition des clients d’ERDF des données de prévision. - Conversion d’applications Matlab d’alimentation Météo et de moteurs de calculs en JAVA. - Automatisation de la conversion d’une base MySQL en base PostgreSQL. - Développeur des Moteurs d’alimentation. - Machine Learning : Modélisation (série chronologique) pour la prévision de remplissage des Files System. - Développement d’un planificateur de lancement de job et d’une supervision des batchs. - Le projet SYPEL a reçu la médaille de Bronze pour les victoires ERDF.
Développeur. - Application interne développée en JAVA JSP et jQuery script. - Création d’un outil de génération automatique de SQL de mise à jour des schémas de la base pour upgrading de version.
As Pentalog’s Talent Sourcing branch, SkillValue relies on a pool of 400,000+ Tech & Marketing Specialists – including 15,000+ Freelancers, a comprehensive catalog of IT assessments, available projects and job opportunities. Our SkillValue consultants are always ready and willing to help you boost your career.
A Pentalog account allows convenient access to our global price catalog featuring competitive prices for top software engineering and digital profiles.
Our catalog contains everything you need to build and scale a high-performing agile development team.
Why create a Pentalog account?
View transparent pricing for world-class developers
Build and price your development “dream team”
Compare pieces across 3 continents & 8 countries
Receive updates on available devs and special offers
Pro tip: Talk to a Pentalog Solution Specialist for help with technical profiles not listed in the catalog.