BigData

File merging sur Hive (HDP 2.6)

Hive est une technologie Big Data capable de manipuler de très important volume de données. Pour ce faire, il existe plusieurs fonctionnalités sur hive pour découper la données en ensemble plus petit. Comme la plupart des technologies liées à la data, il existe une possibilité de partitionner la donnée. L'avantage de Hive par rapport à d'autres technologies est qu'il peut utiliser des clés composites comme clé de partitionnement. Et le partitionnement n'est pas le seul moyen de découper une table en plus petits ensemble, il existe le bucketing et les skewed tables.

(suite…)

Arnaud Voisin
BigData

Configurer Hive LLAP sur HDInsight

Azure HDInsight est un service PAAS qui permet d’instancier des plateformes préconfigurées à partir des solutions proposées par Hortonworks Data Plaform telles que Hadoop, Spark, Storm, Hbase, Kafka, Hive LLAP, R Server, etc … Hive LLAP, appelé Interactive Query sur HDInsight, est un service dont la promesse est de fournir des performances en dessous de la seconde pour des requêtes portant sur des volumétries très importantes et sans limite puisque LLAP n’empêche en rien les capacités de mise à l’échelle d’Hadoop. Pour atteindre des niveaux de performance interactif, Interactive Query s’appuie sur Hadoop en utilisant le moteur d’exécution Tez (une évolution de Map Reduce) en rajoutant des démons LLAP pour mettre en cache les données et les exécuter en parallèle.

(suite…)

Arnaud Voisin
.Net

Scale automatique HdInsight

  Avec HdInsight, il est possible de modifier le nombre de worker node depuis le portail azure. Mais une fois que c'est fait, il faut encore modifier les configurations dans Ambari pour que les modifications Hardware soient prises en compte au niveau software. Cela peut s'avérer fastidieux si on le fait souvent, nous allons voir comment automatiser tout ça. (suite…)

Nicolas Bailly
.Net

Ma VM Azure est-elle démarrée ou pas?

Lorsqu'on démarre une VM dynamiquement par powershell par exemple, on aimerait savoir  tout aussi dynamiquement si la VM est démarrée et opérationnelle. Pour cela, nous disposons de différentes informations sur la VM, mais lesquels prendre. Par exemple, on peut trouver le statut du réseau, des disques, ... Nous allons voir quels statuts récupérer et comment les interpréter. (suite…)

Nicolas Bailly
.Net

Fiabiliser les applications .Net avec l’amie Polly

Polly n'est pas qu'une balade de Nirvana, que les jeunes générations peuvent ne pas connaître mais qui, pour les autres, vous restera maintenant en tête pendant la lecture du reste de cet article. Polly est aussi une librairie Open Source .NET permettant de renforcer considérablement la robustesse de votre application en implémentant assez simplement des politiques de rejeu (retry), de circuit breaker, de gestion des timeouts, d'isolation et de fonctionnement de repli (fallback mode). (suite…)

Eric FAUQUEMBERGUE