BigData

File merging sur Hive (HDP 2.6)

Hive est une technologie Big Data capable de manipuler de très important volume de données. Pour ce faire, il existe plusieurs fonctionnalités sur hive pour découper la données en ensemble plus petit. Comme la plupart des technologies liées à la data, il existe une possibilité de partitionner la donnée. L'avantage de Hive par rapport à d'autres technologies est qu'il peut utiliser des clés composites comme clé de partitionnement. Et le partitionnement n'est pas le seul moyen de découper une table en plus petits ensemble, il existe le bucketing et les skewed tables.

(suite…)

Arnaud Voisin
BigData

Configurer Hive LLAP sur HDInsight

Azure HDInsight est un service PAAS qui permet d’instancier des plateformes préconfigurées à partir des solutions proposées par Hortonworks Data Plaform telles que Hadoop, Spark, Storm, Hbase, Kafka, Hive LLAP, R Server, etc … Hive LLAP, appelé Interactive Query sur HDInsight, est un service dont la promesse est de fournir des performances en dessous de la seconde pour des requêtes portant sur des volumétries très importantes et sans limite puisque LLAP n’empêche en rien les capacités de mise à l’échelle d’Hadoop. Pour atteindre des niveaux de performance interactif, Interactive Query s’appuie sur Hadoop en utilisant le moteur d’exécution Tez (une évolution de Map Reduce) en rajoutant des démons LLAP pour mettre en cache les données et les exécuter en parallèle.

(suite…)

Arnaud Voisin