Meryem C.

Data Scientist

415 dollar

My experience

More

OrangeMay 2019 - Present

Recueillir des données et les analyser : Collecter des données et les analyser pour produire des connaissances et des dispositifs centré?s-utilisateur, Utiliser et sécuriser les données : Traiter correctement les données client, Utiliser et sécuriser les données :
  • Traiter correctement les données client, Être capable d'analyser et traiter des données métiers en maitrisant le SI associé, Utiliser et sécuriser les données: Savoir identifier, traiter et sécuriser les données utiles, Utiliser et sécuriser les données : Avoir un esprit d'analyse – inclus rigueur, fiabilité & prise de recul,
  • Savoir utiliser les techniques-outils mis à ma disposition pour mener à bien mon activité,
  • Utiliser et sécuriser les données : savoir expliciter les données les analyser, les synthétiser pour mieux orienter les décisions,
  • Connaissance de la méthodologie et des techniques de machine learning, Python

Projet RDB

  • Définir les règles métier pour traiter le dataset IR21
  • Traitement du fichier IR21(csv) en Pandas
  • Correspondance entre les données IR21 et les REALMs (json)
  • Comprendre les gisements de données disponibles de mon domaine métier,
  • Comprendre les différents types de données, Culture software: savoir implémenter un algorithme dans un langage de programmation orienté big data et data science, 
  • Utiliser et sécuriser les données : Traiter correctement les données client, Python, SQL ,Base de données

Projet CDN

Data Science :

  • Pre-traitement des logs CDN (Pandas)
  • Définir les règles métier et les besoins derrière l'étude data science
  • Analyse de données : Implémentation des modèles Machine Learning pour les tester et analyser leurs résultats (à partir des logs avec les infos de qualité des flux vidéo streaming) - Scikit-learn
  • Mise en place des premiers KPIs et dashboards en DashPython

Big Data :

  • Extraction des informations utiles des users-agents afin d'enrichir les datasets des modèles Machine learning implémentés
  • Refaire le traitement de données en Scala et les agréger avec Spark Streaming
  • Envoi de ces données à Cockroachdb et visualisation des KPIs sur Grafana
  • Maitriser les principes et méthodes d'analyse de données et de la data science, Culture software: savoir implémenter un algorithme dans un langage de programmation orienté big data et data science,
  • Avoir une vision stratégique de la Data Science, Mesurer l'efficacité des actions :
  • Savoir identifier les bons KPIs, les suivre et prendre en compte le feedback, Grafana, 
  • Connaissance de la méthodologie et des techniques de machine learning, 
  • Connaissances d'un ou plusieurs outils et/ou langages pour la Data Science et/ou le Data Engineering, 
  • Connaissance d'un ou plusieurs écosystèmes techniques pour gérer le Big Data, Scala, Spark, Python, Base de données

Projet CDN

  • Développement de l'agent en GO
  • Encryptions TLS entre l'agent et le serveur Kafka
  • Définition des paramètres utiles et développement de modules de statistiques pour l'agent
  • Implémentation des tests unitaires
  • Partage de la connaissance de l'agent avec la Dataroom (TPs organisés)
  • Déploiement de l'agent sur AWS (l'environnement de tests) - Étude dimensionnement avant le déploiement sur Flexible Engine
  • Vagrant, Culture software: savoir implémenter un algorithme dans un langage de programmation orienté big data et data science, 
  • Mesurer l'efficacité des actions 
  • Savoir identifier les bons KPIs, les suivre et prendre en compte le feedback, Kafka, AWS, Golang, Systèmes multi-agents / programmation orientée agent, et sécurité (clés asymétriques/symétrique, hashage)

Projet Otarie

  • Étudier et mettre en œuvre un prototype de sonde 100Gbps permettant de générer des métriques et des statistiques extensiés à partir des données du trafic reçu par les cartes d'acquisition sur les réseaux mobiles (2G à 4G). Ce prototype permet d'augmenter la capacité d'acquisition de données mobiles, de comparer les performances des différentes cartes à partir des statistiques générées et de détecter les pertes de paquets IP.
  • Développement en langage C et utilisation de la librairie DPDK et de l'outil XLSTAT.
  • Avoir un esprit d'analyse, Mesurer l'efficacité des actions :Savoir identifier les bons KPIs, les suivre et prendre en compte le feedback, Avoir des compétences statistiques,
  • Connaissance de la méthodologie et des techniques statistiques, C, Linux
More

Université LavalJanuary 2019 - April 2019

Projet académique

Projet Kaggle: Microsoft Malware Prediction

▪ Après avoir traité les données, chercher l'algorithme le plus optimal pour prédire les probabilités que des ordinateurs de Microsoft soient attaqués par un virus. Training set de plus que 9 millions d'ordinateurs et plus que 90 paramètres

Culture software: savoir implémenter un algorithme dans un langage de programmation orienté big data et data science, Connaissance de la méthodologie et des techniques de machine learning

My stack

Databases

NoSQL

Technologies

Matplotlib, Pandas, Machine Learning, AWS

Big Data

Data Visualization, Big Data, PySpark, Spark, Apache Kafka

Languages

Scala, SQL, Go, Java

Business Intelligence

Power BI

Machine Learning

TensorFlow, Scikit-Learn, Deep learning

Environment of Development

Vagrant

IT Infrastructure

Linux

Others

Research and development, Data Science, Data analysis

Protocols

TLS/SSL

My education and trainings

Ingénieur en informatique - ENSSAT2019

Maths/Physique - Université LAVAL2016