BigData | Blog dcube

Déploiement automatisé d’un projet dbt

Nicolas Bailly | mai 23, 2023

Nous retrouvons de plus en plus d’architecture Data contenant du dbt. Pour rappel dbt est un outil de transformation de données à utiliser à la sauce ELT et disponible via une offre SaaS (dont les éléments de tarification sont disponibles ici) ou bien en version open-source mais là, c’est à vous de le positionner comme il se doit dans votre architecture.Chez dcube, nous aimons les architectures simples, efficaces, scalables et peu onéreuses. Nous verrons dans cet article comment...

Azure BigData databricks

1. Déploiement d’un Workspace Databricks dans Azure avec Terraform

Nicolas Bailly | octobre 24, 2022

Cet article est le 1er d’une série de 3 articles sur l’automatisation des déploiements Databricks : Déploiement d’un Workspace Databricks dans Azure avec TerraformParamétrage d’un workspace Databricks par TerraformPipelines de déploiement d’un environnement Databricks (Infra, paramétrage, notebooks,…) Nous allons voir dans cet article un exemple de déploiement d’un workspace Databricks en utilisant des scripts Terraform.Nous déploierons un workspace sur...

BigData Docker image

Web App Shiny pour afficher des données Databricks

Nicolas Bailly | octobre 14, 2021

Dans un article précédent (lien) nous avons vu comment créer une image contenant le driver ODBC de Databricks.Dans cet article, nous utiliserons ce que nous avons fait pour déployer une application Shiny qui affiche un dashboard avec des données issues de Databricks. Récupérer un token Azure AD Comme nous avons vu, l’article précédent, comment créer une image avec une connexion ODBC, nous allons pouvoir y déployer une application qui se connecte à Databricks. Pour ça, nous devons générer...

ALM BigData DevOps Docker

Créer une image Docker pour une connexion ODBC à Databricks

Nicolas Bailly | septembre 29, 2021

Si vous voulez créer des dashboards en dehors d’un Notebook, dans une Web Application par exemple, vous devrez d’abord permettre la connexion à Databricks en utilisant le driver fournit par l’éditeur. Dans cet article nous allons voir comment créer une image contenant tout ce qu’il faut pour permettre une connexion à Databricks par ODBC Databricks ODBC Driver Databricks met à disposition un driver ODBC en fonction de l’OS désiré :...

BigData Data Machine Learning

Préparation de données pour un projet Data science

Mehdi ZARRIA | octobre 23, 2020

La préparation des données est l’une des phases les plus importantes dans le cycle de vie d’un projet data science. Les recherches qui se focalisent sur ce domaine nous proposent une panoplie de solutions que nous allons voir à travers cet article. Introduction : Les données utilisées dans chaque projet de machine learning ne sont pas toujours structurées, complètes, bien formatées. Lors du nettoyage et la transformation des données, nous essayons de régler ces problèmes avant tout...

Azure BigData Data

Retour d’expérience d’implémentation de projet Big Data sur Azure

Arnaud Voisin | novembre 23, 2019

Depuis plusieurs années j’ai la chance de pouvoir travailler sur la plateforme Azure et de pouvoir expérimenter des services Big Data comme SQL Data Warehouse Gen 1 et Gen 2, HD Insight, Data Lake Store Gen 1 et Data Factory. Contexte du projet : Note client, Believe, est le premier distributeur de musique indépendante international. 30% du catalogue distribué sur les plateformes digitales (Deezer, Spotify, Youtube, …) sont des tracks dont la distribution est assurée par Believe. Créé en...