A l »occasion des TechDays 2012, nous avons eu le plaisir d »animer aux côtés de Laurent MARZOUK de Microsoft, une session dédiée à la problématique BigData, et particulièrement à l »intégration de HadoopOnAzure. Cette démo mettait en avant un cas d »usage tiré d »un scénario réèl :

  • Des clients s »abonnent à un service qui leur permet de diffuser des contenus publicitaires dans leurs lieux de vente sur des écrans de télévision
  • Ils uploadent leurs contenus vers une plateforme centralisée
  • Les sites de diffusion téléchargent les contenus en local
  • Un système de schedule permet aux clients de créer des listes de diffusion, autorisant ainsi la lecture des médias en pilotant unitairement chacun des écrans des lieux de vente
  • A chaque fois qu’2014-02-20 17:02:41’un film est joué sur un écran, un log de diffusion est remonté vers la plateforme centrale et stocké en BDD
  • Des outils de reporting sont mis en place pour permettre à différents intervenants d »avoir une vue sur l »activité du système :
    • Rapports système pour les administrateurs de la plateforme
    • Rapports d »usage en vue de la facturation client
    • Rapports destinés au service commercial des client pour éventuelle re-facturation
    • Outils d »analyse croisée pour chaque client

L »ensemble des diffusions sur chaque écrans génère une volumétrie considérable qu »il est couteux de stocker dans une BDD relationnelle à des fins d »analyse (3 Go de données / jour).

Nous avons donc démontré l »usage de HadoopOnAzure pour réaliser le stockage et l »analyse de ces données.

HaddopOnAzure est actuellement disponible en CTP sur invitation (ici). La version actuelle permet de créer un cluster temporaire qui peut contenir jusqu »à 32 noeuds et 16 TB de disques.

Lors de la création du cluster un nom DNS est choisi afin de pouvoir adresser la machine depuis l »extérieur du cluster, ou de s »y connecter en RDP.

Le cluster ainsi créé est adressable :

  • Depuis une console Hive inclue dans le portail HadoopOnAzure
  • Depuis une console Javascript inclue dans le portail HadoopOnAzure
  • Depuis l »extérieur du cluster grâce à un driver ODBC Hive QL (en ouvrant le port dédié)
  • En upload en FTPS (en ouvrant le port dédié)
  • En RDP

Le système permet, entre-autres d »exécuter des jobs de Map/Reduce écrits en .Net (C#, F#).

Le matériel de cette démo :

Vos retours sont les bienvenus.

Enjoy 🙂

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.