Vous avez sans doute l'habitude de travailler sur l'édition SMP de SQL Server. Il existe également une autre édition "Parallel Data Warehouse", massivement parallèle (MPP). Une version repackagé de l'ancienne appliance PDW embarquant la possibilité de gréffer des régions HDInsight au sein de l'appliance a été lancé sous le nom de APS (Analytics Platform System).

Cette appliance est basée sur une architecture dites MPP (Massive Parallel Processing). La force de MPP est de pouvoir distribuer la charge sur plusieurs unités de calcul en parallèle et de profiter des IO d’un très grand nombre de disque bon marché (JBOD). L’architecture MPP présente l’avantage de pouvoir faire du Scale out, donc d’améliorer les performances globales et la capacité de stockage par l’ajout d’une simple unité de calcul supplémentaire. Là où pour augmenter les capacités de traitement avec une architecture SMP, il fallait changer le hard (Scale up), le MPP apporte de la flexibilité et permet de commencer par un investissement initial plus faible ajustable par la suite aux besoins du projet.

Il existe deux constructucteurs de cette appliance : Dell et HP (Hewlett Packard).

Les configurations de HP et DELL diffère légèrement mais sont néanmoins proche en terme de capacité et performance.

L’objectif de PDW/APS est d’apporter une réponse  pour gérer les entrepôts de données dépassant la dizaine de Tera Octets et allant jusqu’à 6 Peta Octets. Pour des volumétries plus faibles que 10To il est préférable de se tourner vers une architecture SMP classique.

La dernière édition arrive avec son lot de nouveautés :

  • Polybase : C’est la fonctionnalité phare du produit. Elle permet d’interconnecter des données issues de HDFS (Hadoop) et de les présenter de manière transparente sous forme de table. Permettant de travailler les données à la volée et de fournir des analyses à partir de données non-structurés issu de Hadoop.
  • ColumnStore updatable : Sortie dans l’édition MPP avant même celle de l’édition classique, cette index permet plus de souplesse que la précédente version tout en garantissant un niveau de performance optimal. Cette version permet le tri physique de données (Clustered) et permet aussi la modification de données tout en gardant un haut niveau de compression des données.

Avant de se lancer dans l’aventure, il est important de bien comprendre l’architecture MPP. La migration d’une application taillée pour SMP ne se migre pas sans une longue réflexion préalable.

Voici à la volée quelques limitations : Pas d’index unique, la taille maximale d’une ligne 8060 bytes, dbo est le seul schema surpporté, certains type ne sont pas supporté (XML, text, CLR UDT, timestamp, …), les identités et contraintes default non supportées, limitation sur les collation, etc …

Toutes ces contraintes vous obligeront à revoir votre design, il vous faudra prévoir une réécriture de tout ou partie de votre entrepôt en prenant en compte les limitations et les forces de l’architecture MPP basé sur la distribution.

Au-delà des contraintes, PDW/APS ouvre la porte à de nouveaux cas d’usage de BI temps réel :

  • Architecture Multidim ROLAP : Ce mode permet de profiter de la puissance du ColumStore Index et de la puissance de la distribution qui s’avère une réponse perfomante aux problématiques de groupes de mesures DistinctCount. Attention : il est important de noter que les vues ne sont pas encore disponibles dans cette édition.

Remarque : prévoir un serveur SSAS au sein du même réseau infinyband pour éviter les bottleneck.

  • Architecture tabulaire DirectQuery : ce mode permet de proposer des temps de réponses pour des volumétries dépassant les capacités en mémoire de la machine. Comme ROLAP pour multidim, DirectQuery pour Tabular permet de déporter la charge sur PDW/APS et donc de profiter des performances exceptionnelles de lecture.

APS apporte à PDW la possibilité de rajouter des régions Hadoop (HDInsight) au sein de l'appliance. A chaque Compute Node SQL correspond un Compute Node Hadoop.

Polybase, qui est le lien entre le SQL et les données non structurées sur système distribués, va permettre d'envisager à la fois des scénarios hybride avec Hadoop dans le cloud et On-Premise grâce à APS.

schema_aps_hdinsight

L'architecture scalable du massivement parallèle va vous permettre de moduler la puissance et le stockage en fonction de votre utilisation et ce même sur votre Big Data On-Premise.

La combinaison de HD Insight et de l'edition MPP est tout à fait pertinente. Les nœuds peuvent travailler de manière synchrone en exploitant la vitesse du réseau Infiniband pour les mouvements de données. Les données non structurés peuvent être stockés dans l'appliance sans modélisation, sans structure et être exploité directement sur l'appliance avec un CTAS, c'est un moyen rapide d'importer des données dans le Datawarehouse.

APS est une évolution de PDW et est inscrit dans le projet du Datawahouse moderne selon Microsoft. Ce produit va évoluer au fur et à mesure, et on y verra sans doute de nouveaux produits faire leur apparitions dans l'appliance (Pourquoi pas Azure Data Lake ou d'autres) ...

Catégories : BigDataSQL Server

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *