Démonstration préparée pour l »Après-midi du développement : Big Data : Hadoop sur Azure qui aura lieu le 24 mai 2012 chez Microsoft : https://aka.ms/amdev-hadoop
1 – Hadoop dans le cloud avec Windows Azure
Hadoop est une librairie open source pour traiter d »importantes masses de données en mode distribuée. Hadoop est aujourd »hui le leader du domaine et du Big Data.
2 – Rapatrier des données provenant d’un Blob Storage Azure
- Dans Manage Cluster, configurer votre Azure Blob Storage.
- Connectez vous en Remote Desktop
- Exécuter les commandes shell afin de distribué sur le cluster vos données
Hadoop distcp asv://demo/iislogsTB-out-H demo/iislogsTB-out-H
Hadoop distcp asv://demo/iislogsTB-out-D demo/iislogsTB-out-D
Information sur la commande Distcp : https://hadoop.apache.org/common/docs/current/distcp.html
3 – Requête Hive
Dans Interactive Console, Interactive Hive nous allons créer des « External Table » afin de pouvoir accéder aux données rapatriées.
4 – Interrogation des données dans Excel
Afin de pouvoir interroger vos données de votre cluster Hadoop depuis Excel il vous faut télécharger et installer :
- Hive ODBC driver
- Hive Add-in for Excel.
Ouvrez le port « ODBC Server » :
Configuration de la connexion Hive ODBC :
5 – Projet de Business Intelligence
Nous allons alimenter un petit Datamart à partir de notre cluster Hadoop. Création de notre base de données dans SQL Server 2012 :
- Création d »un Package SSIS :
Création d’un cube SSAS Tabular :
6 – Drill-Down
Nous avons alimenté le Datamart à partir de données agrégées provenant du cluster Hadoop. Grace à une requête Hive, les données de granularités les plus fines peuvent toujours être récupérées !
0 commentaires