BigData

File merging sur Hive (HDP 2.6)

Hive est une technologie Big Data capable de manipuler de très important volume de données. Pour ce faire, il existe plusieurs fonctionnalités sur hive pour découper la données en ensemble plus petit. Comme la plupart des technologies liées à la data, il existe une possibilité de partitionner la donnée. L'avantage de Hive par rapport à d'autres technologies est qu'il peut utiliser des clés composites comme clé de partitionnement. Et le partitionnement n'est pas le seul moyen de découper une table en plus petits ensemble, il existe le bucketing et les skewed tables.

(suite…)

Arnaud Voisin
BigData

Configurer Hive LLAP sur HDInsight

Azure HDInsight est un service PAAS qui permet d’instancier des plateformes préconfigurées à partir des solutions proposées par Hortonworks Data Plaform telles que Hadoop, Spark, Storm, Hbase, Kafka, Hive LLAP, R Server, etc … Hive LLAP, appelé Interactive Query sur HDInsight, est un service dont la promesse est de fournir des performances en dessous de la seconde pour des requêtes portant sur des volumétries très importantes et sans limite puisque LLAP n’empêche en rien les capacités de mise à l’échelle d’Hadoop. Pour atteindre des niveaux de performance interactif, Interactive Query s’appuie sur Hadoop en utilisant le moteur d’exécution Tez (une évolution de Map Reduce) en rajoutant des démons LLAP pour mettre en cache les données et les exécuter en parallèle.

(suite…)

Arnaud Voisin
.Net

Scale automatique HdInsight

  Avec HdInsight, il est possible de modifier le nombre de worker node depuis le portail azure. Mais une fois que c'est fait, il faut encore modifier les configurations dans Ambari pour que les modifications Hardware soient prises en compte au niveau software. Cela peut s'avérer fastidieux si on le fait souvent, nous allons voir comment automatiser tout ça. (suite…)

Nicolas Bailly
BigData

HDInsight & Remote Desktop Connection Manager

Remote Desktop Connection Manager est un gestionnaire de connexion de bureau à distance (RDCMan) il permet de regrouper dans une même interface plusieurs connexions RDP et ainsi faciliter le passage d'un environnement à un autre tout en limitant l'encombrement sur le bureau principal.

Depuis Novembre 2014 une nouvelle version du gestionnaire est disponible : Remote Desktop Connection Manager 2.7

RDCMan (suite…)

Ludovic Nascimbeni
BigData

SQL Saturday Paris 2014

La deuxième édition du SQL Saturday Paris aura lieu le Samedi 13 septembre 2014 à partir de 9h30 ! C’est un événement international organisé par le Groupe Utilisateur SQL Server Francophone (GUSS) en partenariat avec Lire la suite

Romain Casteres