XiKO au DataXDay le 17 Mai 2018 !

data-x-day-paris-conference-big-dataNous avons participé avec joie à la conférence DataXDay organisée par la société de conseil Xebia. Il s’agit d’une journée dédiée à la Data d’un point de vue technique et opérationnel. Ce parti pris est original : de nombreux rendez vous autour de la Data existent en effet déjà mais ils le traitent plutôt sous un angle business ou métier. Nous nous sommes donc rendu avec grand plaisir au Pan Piper, dans le 20ème arrondissement afin de profiter de ce cycle de conférences.

data-x-day-paris-2018

Data-x-day-paris-2018

Les talks ont rapidement démarrés :

A crash course on Google Cloud AutoML and machine learning APIs 
Kevin-Nelson- Google-Data-x-Day
Kevin Nelson de Google a ouvert la conférence avec un talk sur les différentes API de machine learning proposées par Google. Ces API permettent de fournir du “machine learning as a service” en mode boite noire. Kevin est donc revenu sur les différents cas d’usage couvert par ces API : analyse de vidéo et d’image, speech to text, traduction automatique, etc.

 

Deep learning for vision into the wild

 

Charles-Ollion- Heuritech-Data-x-Day

Charles nous a mis en garde sur les difficultés de construire un système basé sur des réseaux profonds from scratch et nous a plutôt encouragé à utiliser les offres “clé en main” si possible. Afin d’illustrer ces difficultés, Charles nous a proposé d’évaluer la difficultés de 4 cas d’usages différents :

  • reconnaître des panneaux de circulations
  • reconnaître une rétine saine d’une rétine malade
  • identifier un sac sur des images provenant d’Instagram
  • identifier la marque et le modèle d’une paire de chaussure

Comme souvent, la solution n’est pas conforme à l’intuition : le problème le plus ardu consiste à reconnaître les sacs. La définition d’un sac est en effet non formelle est un grand nombre d’objets peuvent répondre à cette appellation. Par ailleurs, la variabilité des images Instagram est très importante et il est nécessaire de positionner le sac au sein des images.

The wonders of deep learning: how to leverage it for natural language processing
Ana-Peleteiro-Ramallo-Tendam-Data-x-day
La présentation suivante proposé par Ana Peletairo Ramallo est dédiée aux réseaux profonds appliqué au traitement du langage naturel (TALN). A travers une présentation très dense, Ana nous a présenté les words embedding et les char embedding qui sont les représentations intermédiaires utilisées pour des tâches de TALN. Ana nous a ensuite rappelé que les réseaux classiques n’ont pas de mémoire, qu’ils sont donc mal adapté pour des tâches de TALN ou le contexte est très important et que les réseaux Long Short-Term Memory (LSTN) permettent d’adresser cette limite.

 

Data lineage: visualize the data life cycle
Matthieu-Blanc-Zeenea-Data-x-day
Matthieu Blanc – Zeenea – a ensuite fait une courte présentation sur le Data Lineage. La thèse de Matthieu est que la profusion d’outils de traitement des données rend difficile toute tentative de construire la “lignée” d’une donnée et que les ETL classiques sont devenus insuffisant pour accomplir correctement cette tâche. Matthieu propose alors d’utiliser une visualisation généalogique pour tracer l’origine des données. Ces généalogies de données sont constituées par rétro-ingénierie en parsant les requêtes SQL ou les plans d’exécution Spark par exemple.
data-x-day-zeenea
Exploring graphs: looking for communities & leaders
Alberto-Guggiola-Quantmetry-Data-x-dayAurélia-Nègre-Quantmetry-Data-x-day
Aurélia Nègre & Alberto Guggiola – Quantmetry – ont ensuite proposé un talk très intéressant au sujet du Graph Mining, ils ont passé en revu les outils, les techniques et les algorithmes permettant de repérer les communautés et les leaders au sein d’un graphe. La fouille de graphe est un sujet passionnant mais souvent délaissé car il est parfois considéré comme excessivement coûteux en ressources computationnelles (de nombreux problèmes de ce type sont NP difficiles). Aurélia et Alberto ont démontré que des solutions existent et qu’il est possible d’apprendre quelque chose à partir d’un graphe.
quantmetry-data-x-day
The internals of query execution in Spark SQL
Jacek-Laskowski-Data-X-Day
Jacek Laskowski a quand a lui proposé un talk relevé mais plein d’humour sur les dessous de Spark SQL.
 jacek-laskowski-data-x-day

 

Building a Real Time Analytics API at Scale 
Sylvain-Friquet-Algolia-Data-x-Day
Sylvain Friquer a fait un retour d’expérience très intéressant au sujet de l’application permettant d’afficher les métriques de recherche qu’Algolia propose à ces clients. Tout d’abord Sylvain donne les contraintes : latence faible, historique des données important, pas de quotas d’utilisation, mode SaaS. Ces contraintes exclues des outils comme Google BigQuery ou Amazon Redshift. Algolia s’est donc tourné vers l’offre de Citus Data basé sur des base de données Postgre SQL partitionnées et répliquées. Des pré-aggrégations périodiques et un partitionnement intelligent basé sur l’id client permettent d’assurer un service rapide et efficace. La solution est élégante car l’utilisation intelligente d’une technologie établie depuis longtemps permet de résoudre le cas d’usage.
 algolia-data-x-day

 

En conclusion, les talks sont d’un niveau élevé et le pari de proposer une conférence sur la Data à des développeurs et des opérationnels est clairement atteint. Un grand merci à Xebia pour cette très belle journée.

 

22 May 2018 • by • in Big Data

Leave a comment