BigData

File merging sur Hive (HDP 2.6)

Hive est une technologie Big Data capable de manipuler de très important volume de données. Pour ce faire, il existe plusieurs fonctionnalités sur hive pour découper la données en ensemble plus petit. Comme la plupart des technologies liées à la data, il existe une possibilité de partitionner la donnée. L'avantage de Hive par rapport à d'autres technologies est qu'il peut utiliser des clés composites comme clé de partitionnement. Et le partitionnement n'est pas le seul moyen de découper une table en plus petits ensemble, il existe le bucketing et les skewed tables.

(suite…)

Arnaud Voisin
BigData

Configurer Hive LLAP sur HDInsight

Azure HDInsight est un service PAAS qui permet d’instancier des plateformes préconfigurées à partir des solutions proposées par Hortonworks Data Plaform telles que Hadoop, Spark, Storm, Hbase, Kafka, Hive LLAP, R Server, etc … Hive LLAP, appelé Interactive Query sur HDInsight, est un service dont la promesse est de fournir des performances en dessous de la seconde pour des requêtes portant sur des volumétries très importantes et sans limite puisque LLAP n’empêche en rien les capacités de mise à l’échelle d’Hadoop. Pour atteindre des niveaux de performance interactif, Interactive Query s’appuie sur Hadoop en utilisant le moteur d’exécution Tez (une évolution de Map Reduce) en rajoutant des démons LLAP pour mettre en cache les données et les exécuter en parallèle.

(suite…)

Arnaud Voisin
.Net

Scale automatique HdInsight

  Avec HdInsight, il est possible de modifier le nombre de worker node depuis le portail azure. Mais une fois que c'est fait, il faut encore modifier les configurations dans Ambari pour que les modifications Hardware soient prises en compte au niveau software. Cela peut s'avérer fastidieux si on le fait souvent, nous allons voir comment automatiser tout ça. (suite…)

Nicolas Bailly
.Net

Conférence Microsoft WPC 2016 : ce qu’il faut en retenir…

16 000 personnes, 144 pays représentés, presque un parfum de Jeux Olympiques pour cette édition 2016 de la WPC, conférence mondiale des partenaires Microsoft (Worldwide Partners Conference, en bon anglais) qui s'est déroulée à Toronto en Juillet 2016. En tant que partenaire Microsoft sur de nombreux domaines, DCube était présent à cet évènement J'ai eu la chance de faire partie de la délégation DCube et de participer à ma première WPC. Je me propose ici de vous faire un compte rendu très personnel sur cet évènement, sur les informations, les messages qui ont été communiqués par Microsoft pour ses partenaires, notamment en les mettant en perspective avec les éléments d'actualités de l'industrie informatique qui sont arrivés dans la foulée de l'évènement. (suite…)

Eric FAUQUEMBERGUE
BigData

Cortana Analytics

Atelier Cortana Analytics chez Microsoft : Le but ultime de cet atelier n’est pas la BI traditionnelle basée sur des moyennes, des min. et max. depuis le cloud Azure, mais la prédiction. Et c’est là Lire la suite

Sarah Bessard
BigData

Polybase : vers de nouvelles possibilités

Polybase est une des fonctionnalités majeures de la version SQL Server 2016. Polybase permet de répondre aux nouveaux défis de la BI contemporaine. Comment traiter des volumes de données de plus en plus grands, avec des structures que l'on ne sait pas encore exploiter aujourd'hui ? (suite…)

Arnaud Voisin
BigData

[MPP] Présentation de l’appliance Microsoft

Vous avez sans doute l'habitude de travailler sur l'édition SMP de SQL Server. Il existe également une autre édition "Parallel Data Warehouse", massivement parallèle (MPP). Une version repackagé de l'ancienne appliance PDW embarquant la possibilité de gréffer des régions HDInsight au sein de l'appliance a été lancé sous le nom de APS (Analytics Platform System).

(suite…)

Fatou FALL
BigData

HDInsight & Remote Desktop Connection Manager

Remote Desktop Connection Manager est un gestionnaire de connexion de bureau à distance (RDCMan) il permet de regrouper dans une même interface plusieurs connexions RDP et ainsi faciliter le passage d'un environnement à un autre tout en limitant l'encombrement sur le bureau principal.

Depuis Novembre 2014 une nouvelle version du gestionnaire est disponible : Remote Desktop Connection Manager 2.7

RDCMan (suite…)

Ludovic Nascimbeni
BigData

Predict Wine Quality with Microsoft Azure Machine Learning

1 - Introduction

Dans cet article je vais présenter le service Cloud Azure ML de Microsoft. C’est à travers un exemple concret, une problématique bien réelle que nous aborderons l’outil : Comment prédire la qualité d’un vin en fonction de ses caractéristiques !

Avant de rentrer dans le vif du sujet nous verrons dans un premier temps ce qu’est le Machine Learning, quel est son but et quels sont les différents algorithmes utilisés pour l’apprentissage automatique. Dans un second temps je ferai un focus sur l’outil Azure ML proposé par Microsoft et sur ses caractéristiques. Par la suite je présenterai le jeu de données utilisé pour notre analyse, nous testerons et évaluerons différents algorithmes de prédiction dans le but d’obtenir le « meilleur » modèle. Enfin nous publierons notre expérimentation à travers un Web Service que nous interrogerons via un ETL (SSIS) pour simuler une industrialisation, une mise en production de notre algorithme.

(suite…)

Romain Casteres