Azure

HdInsight : lancer des requêtes hive en python

Mai 24, 2019

Nicolas Bailly

Retour

Nous allons voir dans cet article comment lancer des requêtes Hive en python à l’aide de PyHive.
Le langage Hive permet d’effectuer des requêtes sur les données mais n’est pas dynamique. Impossible d’utiliser des variables ou de faire des boucles par exemples. C’est pourquoi, il peut être intéressant d’utiliser un langage dynamique comme Python. La librairie que nous allons utiliser pour effectuer les requêtes est PyHive. Nous allons voir comment l’installer et l’utiliser sur un cluster HdInsight

Qu’est-ce que PyHive?

PyHive est un package Python qui permet de lancer des requêtes Hive ou Presto. Vous pouvez ainsi récupérer le résultat d’une requête et le manipuler.
Ce package est basé sur Thrift qui est lui-même un package maintenu par Apache.

Installation des composants pré-requis

Tout d’abord nous allons nous connecter en SSH sur le cluster. Ainsi nous allons pouvoir installer les composants par scripts.
Nous allons utiliser la version Python3 des packages, pour cela il faut préalablement l’installer : pip3

sudo apt install python3-pip -y

Nous allons ensuite installer les packages python nécessaires au fonctionnement de PyHive : sasl et thrift_sasl

pip3 install sasl
pip3 install thrift_sasl

Enfin nous pouvons installer le package PyHive. Nous installons plus précisément la version Hive de ce package, car il existe une version pour Presto de cette librairie :

pip3 install pyhive[hive]

Afin d’éviter de devoir répéter l’ensemble des manipulations énoncées ci-dessus, il est intéressant de mettre ce script en tant qu’ActionScript à la création du cluster. Ainsi pour tout nouveau cluster, vous pouvez utiliser PyHive.

Création du script Python

Dans un cas classique, voici comment on utiliserait PyHive:

from pyhive import hive

query = "SHOW DATABASES"
cursor = hive.connect(host='localhost').cursor()
cursor.execute(query)

Ceci ne fonctionnera pas sur HdInsight car PyHive utilise une communication en mode binaire alors que HdInisght est paramétré par défaut pour utiliser une communication en mode HTTP. Vous pouvez trouver cette configuration dans le paramètre « hive.server2.transport.mode » de la configuration Hive. Au lieu de modifier ce paramètre, qui pourrait avoir de mauvaises conséquences sur le cluster, nous allons passer un objet THttpClient à la méthode connect, ce qui permettra d’utiliser une communication HTTP. Ce qui donne ceci :

import base64
from pyhive import hive
from thrift.transport.THttpClient import THttpClient

def add_http_mode_support(username, password, port=10001, httpPath="/cliservice", host="localhost"):
     auth_string = "%s:%s" % (username, password)
     _transport = THttpClient(host, port=port, path=httpPath)
     _transport.setCustomHeaders({"Authorization": "Basic "+base64.b64encode(auth_string.encode()).decode()})
     return _transport

query='SHOW DATABASES'
cursor = hive.connect(thrift_transport=add_http_mode_support(username='toto', password='xxx')).cursor()
cursor.execute(query)
print(str(cursor.fetchall()))

La méthode connect a un paramètre optionel « thrift_transport » que nous utilisons ici. Ce paramètre attend un objet de type TTransportBase et il existe différents modes de communication possibles. THttpClient est une classe qui surcharge TTransportBase qui permet justement la communication HTTP.

A partir de là, vous pouvez effectuer vos algorithmes en fonction du résultat de vos requêtes.
Attention, votre requête ne doit contenir qu’une seule instruction : un seul « SELECT » ou un seul « INSERT »… Si vous voulez lancer plusieurs instructions dans la même chaîne de caractères (dans la variable query de l’exemple ci-dessus), vous devez appeler autant de fois la méthode execute qu’il y a d’instructions. Sinon vous devrez utiliser la commande Beeline qui peut prendre en paramètre un script HQL.

Quelques liens :
Projet PyHive : https://pypi.org/project/PyHive/
Code source PyHive : https://github.com/dropbox/PyHive
Code source Thrift : https://github.com/apache/thrift

0 commentaires

Soumettre un commentaire Annuler la réponse

Découvrez nos autres articles

Databricks AI Summit 2025

par Ahmed Hamid | 23 Juin 2025 | Data, Intelligence Artificielle

Après le Snowflake Summit, Databricks a pris le relais au Data + AI Summit 2025 avec une évolution notable. La plateforme ne se limite plus à l’ingénierie ou à la science des données : elle se positionne désormais comme un système d’activation intelligent, où modèles,...

lire plus

Vous connaissiez Snowflake… mais avez-vous vu les nouveautés annoncées lors du Summit 2025 ?

par Ahmed Hamid | 13 Juin 2025 | Data, Intelligence Artificielle, Uncategorized

On le savait : Snowflake, ce n’est pas juste un entrepôt de données cloud. Mais au Summit 2025, on a assisté à une transformation : la plateforme devient un véritable système intelligent de données. IA générative intégrée, ingestion temps réel simplifiée, compute...

lire plus

Le Clusif obtient le statut d’établissement d’utilité publique

par Fabien Tanquerel | 16 Déc 2024 | Infra-Sécurité

Le décret du journal officiel du 26 novembre 2024 reconnait le Clusif comme établissement d’utilité publique. Cette association regroupe des RSSI d’entreprises ou organisations françaises depuis 30 ans. Ces acteurs de la Cybersécurité publient, animent des...

lire plus

« Entrées précédentes