Déploiement automatisé d’un projet dbt
Nous retrouvons de plus en plus d’architecture Data contenant du dbt. Nous verrons dans cet article comment déployer dbt et l’exécuter dans une Azure Container App par terraform et CI/CD
Nous retrouvons de plus en plus d’architecture Data contenant du dbt. Nous verrons dans cet article comment déployer dbt et l’exécuter dans une Azure Container App par terraform et CI/CD
Databricks nous met à disposition un provider Terraform avec lequel nous pouvons déployer des clusters, des Sql Warehouses, des clusters, … Nous allons voir dans cet article comment utiliser ce provider avec quelques exemples de workload
Découvrez, dans cet article, un exemple de déploiement d’un workspace Databricks en utilisant des scripts Terraform.
Un workspace est déployé sur lequel les flux réseaux sont controlés pour restreindre les accès à un data lake et à un coffre de clé.
Dans un article précédent (lien) nous avons vu comment créer une image contenant le driver ODBC de Databricks.Dans cet article, nous utiliserons ce que nous avons fait pour déployer une application Shiny qui affiche un dashboard avec des données issues de Databricks. Récupérer un token Azure AD Comme nous avons …
Si vous voulez créer des dashboards en dehors d’un Notebook, dans une Web Application par exemple, vous devrez d’abord permettre la connexion à Databricks en utilisant le driver fournit par l’éditeur. Dans cet article nous allons voir comment créer une image contenant tout ce qu’il faut pour permettre une connexion …
La préparation des données est l’une des phases les plus importantes dans le cycle de vie d’un projet data science. Les recherches qui se focalisent sur ce domaine nous proposent une panoplie de solutions que nous allons voir à travers cet article. Introduction : Techniques de préparation des données. Pour la …
Depuis plusieurs années j’ai la chance de pouvoir travailler sur la plateforme Azure et de pouvoir expérimenter des services Big Data comme SQL Data Warehouse Gen 1 et Gen 2, HD Insight, Data Lake Store Gen 1 et Data Factory
Les projets Business Intelligence sont traditionnellement très cadrés. Un besoin exprimé par des utilisateurs (issus du métier), des règles métiers, rapports, dashboards et KPI qui viennent généralement eux aussi des utilisateurs finaux. La DSI est consultée parce qu’elle sait d’où proviennent les données et qu’elle sera sollicitée pour le développement …
Nous avons vu dans un précédent article comment exécuter des requêtes Hive avec python. Nous allons maintenant voir comment faire de même en .Net Core, ce qui permettra d’exécuter une application .Net sur le cluster qui est sous linux.Pour cela, on va s’appuyer sur un package NuGet que j’ai développé …
HdInsight permet d’utiliser Zeppelin comme notebook. Par defaut, zeppelin n’a pas d’interpreter python. Nous allons voir comment l’installer et automatiser cette installation pour qu’à chaque création du cluster, l’interpreter python soit présent.