Cloud

Les avantages de la data virtualisation

Share this post:

Le webinar de la série ‘Les rencontres du cloud’ du 27 mars, délivré par Francis Arnaudies et Vincent Perrin d’IBM, nous fait (re)découvrir les avantages de la virtualisation des données.

Avec un éclairage particulier sur les conditions de succès d’un projet de ce type qui intéresse notamment les architectes, les data engineers et les Chief Data Officers.

La data virtualisation répond au besoin de présenter des données de qualité aux utilisateurs métier, de manière extrêmement rapide, afin que ceux-ci puissent les monitorer et intervenir dessus. Elle accélère aussi le développement de nouveaux métiers.

Le constat est simple : l’analyse des données se révèle difficile dès qu’elle fait appel à plusieurs entrepôts de données existants qui n’obéissent pas aux mêmes règles de modélisation et manquent de cohérence entre eux.
La data virtualisation propose de construire un data warehouse unique au service de plusieurs entités qui se partagent une vue unifiée sur toutes les données.

Elle offre ainsi une vue logique, mais les données elles-mêmes restent physiquement gérées dans les silos existants, comme les systèmes opérationnels.

On distingue quatre cas d’usage et de bénéfices de la virtualisation des données :

  1. Le Décisionnel, dont le périmètre s’élargit à l’aide d’un « data mart » orienté métier,
    car on n’a pas toujours besoin que les données utilisées par le décisionnel persistent éternellement dans l’entrepôt de données
  2. La Business Intelligence, pour comparer par exemple des données opérationnelles avec des données historisées. La data virtualisation permet de se passer des traditionnelles couches d’extraction, transformation puis consolidation vers un entrepôt de données avant la génération d’un état.
    On obtient des rapports beaucoup plus utiles aux métiers avec des données qui sont directement tirées des systèmes opérationnels
  3. Le Big Data : grâce à la virtualisation, on peut travailler simultanément avec différents types de stockage et consolider des données provenant de plateformes de type Hadoop ou de type data store dans le cloud (AWS S3, IBM Objects Storage). La data virtualisation est le seul moyen pour les métiers d’accéder en une seule fois au données, stockées dans un entrepôt de données d’un côté, dans un système d’archivage ou dans un environnement Hadoop de l’autre. Un cas d’usage est l’offload de données de l’entrepôt de données (Oracle, DB2 ou Teradata) vers le big data. Un autre usage fréquemment demandé par les data scientists, consiste à visualiser des données qui se trouvent dans des silos historiques pour les comparer avec des nouvelles données, préparées et mises à disposition des data scientists grâce à la virtualisation des données.
  4. Le self-service de données basé sur une notion de bibliothèque.

 

Tous ces avantages se heurtent cependant à une limite : la puissance du réseau.
Notamment pour les requêtes puisant dans plusieurs entrepôts de données.
Il faut donc veiller à ne pas déplacer de gros volumes de données.

 

Sur le plan de l’architecture technique, la data virtualisation est basée sur un moteur d’exécution. Il utilise le langage SQL et se connecte simultanément aux sources de données structurées (relationnelles), non-structurées (Hadoop) ou semi-structurées (XML, Json). Le moteur restitue toujours l’information dans un format lignes-colonnes. Sur le marché des solutions de data virtualisation, la qualité et les performances du moteur font la différence. L’architecture se compose aussi d’une couche de ‘consommation’ qui intègre l’existant, comme les solutions de reporting et la data science.

La mise en œuvre de la data virtualisation se conduit comme un projet avec une attention particulière sur la gouvernance.

Pourquoi ? La gouvernance prend ici une importance fondamentale car il ne s’agit pas de standardiser un modèle de données pour un usage précis, mais ‘n’ modèles de données au sein desquels les règles de nommage des objets et des attributs peuvent varier.

La variable ‘client’ par exemple est nommée ‘client’ dans un modèle, mais ‘customer’ ou encore ‘cust’ dans un autre modèle. Il s’agit donc de maîtriser chaque terme métier en faisant un choix au niveau de l’entreprise afin que tout ce qui sera exposé aux utilisateurs-consommateurs soit unifié. Ce travail aboutit à la constitution d’un modèle de données logique qui rajoute une couche de complexité à la conception d’un entrepôt de données.

La gouvernance s’attache aussi à la mise en place de règles pour la sécurité et l’accès à l’information, et à tracer les chaînes de traitements de l’information (lineage).
En résumé, un projet de data virtualisation se mène en équipe transverse entre l’IT et les métiers. Elle réunit des architectes, des data engineers, des responsables de domaine.

Aujourd’hui, IBM propose un nouveau moteur de virtualisation – IBM Parrallel Processing Engine basé sur un ‘Common SQL Engine’ – qui présente l’avantage de prendre en compte les modèles préexistants et de les migrer de manière transparente car la couche d’accès à l’information reste inchangée.

Dans l’ancien système, le moteur allait chercher les données dans différentes sources, les unes à la suite des autres pour les remonter vers le coordonnateur central. Si plusieurs applications ou utilisateurs le sollicitaient en même temps, ce coordinateur se retrouvait rapidement engorgé. La nouvelle approche architecturale, dite ‘en constellation’ permet aux sources de données (edge nodes) de s’auto-organiser entre elles et réaliser elles-mêmes en grand partie l’analyse des données avant de remonter un résultat quasiment complet au coordinateur.

Cette parrallélisation massive des flux, divise les temps de traitement par trois !

Elle offre aussi une grande scalabilité dans la découverte d’informations.

Les sources de données accessibles par ce nouveau moteur sont Oracle, DB2, SQL Server, Hadoop, Amazon S3 comme on l’a vu plus haut, ainsi que Mongo DB et Informix, et aussi RStudio et Python grâce à la présence de plug-ins natifs qui permettent d’exécuter les analyses au plus près des données. La roamap produit apportera l’accès à MAP-R, SAP HANA et bien d’autres.

La data virtualisation, c’est donc bien plus qu’un simple moteur. Elle s’accompagne d’une gouvernance pour faciliter la découverte des données exposées à travers un Data Catalog et un Business Glossary et pour sécuriser leurs accès (policy rules).

La construction d’un modèle de données logique d’entreprise s’inscrit dans une démarche de collaboration entre les métiers et l’IT.

Dans ce but, IBM propose la plateforme Cloud Pak for Data qui permet de tirer les bénéfices complets de la data virtualisation en aidant à la formalisation, des demandes par les métiers et en améliorant le travail de l’IT (rapidité de réponse, délais de réalisation)

 

Pour retrouver l’ensemble des webinars IBM sur le thème du cloud, mais aussi d’autres sujets IT tels que la Blockchain, la Supply Chain, l’IoT, l’IA ou l’Analytics, rendez-vous sur cette page https://www.ibm.com/easytools/runtime/hspx/prod/public/X0033/Webinars/page/technology-solutions-webinars

 

Events Manager - Hybrid Cloud & Cognitive Solutions

More Cloud stories
12 juin 2024

Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (2/2) ?

Dans notre article « Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (1/2) ? », nous avons présenté les différentes étapes du pré-assessment technique qui consiste à analyser l’ensemble des applications du patrimoine applicatif. Dans cette seconde partie, nous allons détailler l’assessment technique à réaliser pour chacune des applications.   Phase […]

Continue reading

12 juin 2024

Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (1/2) ?

Contrairement aux applications conçues et développées spécifiquement pour un environnement cloud, un parc applicatif « on premises » a généralement été bâti au fil du temps, avec des technologies datant d’époques différentes. Il est par nature plus ou moins hétérogène. Pour différentes raisons (par exemple la scalabilité horizontale et verticale de manière automatique en fonction du besoin, […]

Continue reading

6 mai 2024

IBM dévoile une nouvelle plateforme de stockage flash d’entrée de gamme, l’IBM FlashSystem 5300

IBM a annoncé le 25 avril la nouvelle IBM FlashSystem 5300, une solution performante d’entrée de gamme qui offre un rapport prix/performance exceptionnel, la haute disponibilité et des services de données haut de gamme aux entreprises de toutes tailles en occupant une seule unité de rack. Pour les entreprises devant faire face à des demandes […]

Continue reading