Qu’est-ce que Presto ?

Qu’est-ce que Presto ?

Presto, ou base de données Presto (PrestoDB), est un moteur de requête SQL distribué open source qui peut interroger de grands ensembles de données provenant de différentes sources, permettant aux entreprises de résoudre les problèmes de données à grande échelle.

Presto offre aux entreprises de toutes tailles un moyen rapide et efficace d’analyser des données volumineuses provenant de diverses sources, y compris des systèmes sur site et dans le cloud. La solution aide également les entreprises à interroger des pétaoctets de données à l’aide de leurs fonctionnalités SQL actuelles, sans avoir à apprendre un nouveau langage.

Aujourd’hui, Presto est le plus souvent utilisé pour exécuter des requêtes sur Hadoop et d’autres fournisseurs de stockage de données courants, ce qui permet aux utilisateurs de gérer plusieurs langages et interfaces de requête vers les bases de données et le stockage.

À l’ère numérique, l’analyse big data est en passe de devenir une compétence essentielle pour les entreprises de toutes tailles et de tous secteurs. La capacité à collecter, stocker et analyser de grandes quantités de données relatives aux processus métier, aux préférences des clients et aux tendances du marché est extrêmement précieuse. Le principal point fort de Presto est sa capacité à analyser les données quel que soit leur emplacement de stockage et sans avoir à les déplacer dans un système plus structuré, comme un entrepôt de données ou un data lake.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA  

La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Avantages de Presto

Presto est devenu un outil populaire pour les data scientists et les ingénieurs des données confrontés à de multiples langages d’interrogation, des bases de données cloisonnées et différents types de stockage. Ses capacités haute performance permettent aux utilisateurs d’interroger de grands volumes de données en temps réel, quel que soit leur emplacement, à l’aide d’une simple interface ANSI SQL. Presto se distingue par sa vitesse et ses performances dans l’exécution de requêtes sur de grands volumes de données, un outil désormais indispensable pour certaines des plus grandes entreprises au monde, notamment Facebook, Airbnb, Netflix, Microsoft, Apple (iOS) et AWS (Athena et Amazon s3).

Presto est unique par son architecture conçue pour interroger les données quel que soit leur emplacement de stockage, ce qui la rend plus évolutive et plus efficace que les autres solutions similaires. Les requêtes Presto permettent aux ingénieurs d’utiliser les données sans avoir à les déplacer physiquement d’un emplacement à l’autre. Cette capacité est particulièrement précieuse pour les entreprises qui font face à une quantité toujours croissante de données qu’elles doivent stocker et analyser.

Presto a été conçu pour permettre aux data scientists et aux ingénieurs d’interroger de grandes quantités de données de manière interactive, quelle que soit la source ou le type de stockage. Comme Presto ne stocke pas de données, mais communique avec une base de données distincte pour ses requêtes, il est plus flexible que ses concurrents et peut adapter rapidement sa capacité de requêtes en fonction des besoins changeants de l’entreprise. Selon un livre blanc d’IBM, Presto, optimisé pour les workloads de business intelligence (BI), aide les entreprises à optimiser la tarification de leurs entrepôts de données et à réduire les coûts de moitié.

Voici quelques-uns des principaux avantages de l’utilisation d’un workflow Presto :

Réduction des coûts : à mesure que la taille des entrepôts de données et le nombre d’utilisateurs effectuant des requêtes augmentent, il n’est pas rare pour les entreprises de voir leurs coûts monter en flèche. Optimisé pour de grandes quantités de petites requêtes, Presto permet toutefois d’interroger facilement n’importe quelle quantité de données pour un coût réduit. De plus, comme Presto est open source, il n’y a pas de frais associés au déploiement, une source d’économies importante pour les entreprises qui souhaitent traiter de grands volumes de données.

Évolutivité accrue : la mise en place de plusieurs moteurs et langages sur un seul système de stockage de data lake est une pratique courante chez les ingénieurs, avec le risque plus tard de devoir repenser la plateforme et limiter l’évolutivité de la solution. Avec Presto, toutes les requêtes sont effectuées à l’aide du langage et de l’interface universels ANSI SQL, ce qui rend inutile la refonte de la plateforme. En outre, Presto traite aussi bien de petites quantités de données que de gros volumes et permet de passer aisément d’un ou deux utilisateurs à des milliers. Grâce au déploiement de plusieurs moteurs de calcul avec des API et dialectes SQL uniques, il est l’outil idéal des ingénieurs et data scientists pour mettre à l’échelle les workloads les plus complexes et chronophages.

Performances améliorées : de nombreux moteurs de requête qui exécutent SQL sur Hadoop sont limités en performance de calcul, car ils sont conçus pour écrire les résultats sur disque. Le modèle en mémoire distribué de Presto, au contraire, permet d’exécuter en une seule fois de grandes quantités de requêtes interactives sur de grands ensembles données. Suivant une conception classique de traitement massivement parallèle (MPP), Presto planifie autant de requêtes que possible sur un seul nœud de calcul et utilise la lecture aléatoire de flux de données en mémoire pour augmenter encore plus ses vitesses de traitement. L’exécution de tâches en mémoire rend les opérations de lecture et d’écriture à partir du disque redondantes entre les étapes et réduit le temps d’exécution de chaque requête, ce qui permet à Presto d’offrir une latence inférieure à celle de ses concurrents.

Flexibilité améliorée : Presto utilise un modèle prêt à l’emploi pour toutes ses sources de données, notamment Cassandra, Kafka, MySQL, le système de fichiers distribué Hadoop (HDFS), PostgreSQL et autres, ce qui facilite et accélère l’exécution des requêtes par rapport à d’autres outils comparables dépourvus de cette fonctionnalité. De plus, grâce à son architecture flexible, Presto n’est pas limité à un seul fournisseur et fonctionne sur la plupart des distributions Hadoop, ce qui en fait l’un des outils les plus portables disponibles actuellement.

Si Presto n’est pas la seule solution SQL sur Hadoop disponible pour les développeurs et les ingénieurs de données, il est l’une des plus flexibles par son architecture unique qui sépare les fonctionnalités de requête du stockage de données. Contrairement à d’autres outils, Presto sépare le moteur de requête du stockage de données et utilise des connecteurs pour communiquer entre eux. Cette fonctionnalité supplémentaire offre aux ingénieurs plus de latitude que les autres outils dans la façon dont ils développent des solutions avec Presto.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Comment fonctionne Presto ?

Presto utilise un système de gestion de base de données MPP avec un nœud coordinateur qui fonctionne en tandem avec d’autres nœuds. Un écosystème Presto est composé de trois types de serveurs : un serveur coordinateur, un serveur worker et un serveur gestionnaire de ressources.

Coordinateur : un coordinateur est considéré comme le « cerveau » d’une installation Presto. Il est responsable de certaines des tâches les plus critiques, notamment l’analyse des instructions, la planification des requêtes et la gestion des nœuds de calcul Presto. En fin de compte, il est responsable de la récupération des données des nœuds de calcul et de la livraison des résultats au client.

Worker : responsable de la collecte des données des nœuds de calcul et de la fluidité des échanges de données entre lui-même et les connecteurs.

Gestionnaire de ressources : Le gestionnaire de ressources rassemble les données de tous les nœuds coordinateurs et travailleurs et crée une vue d'ensemble, ou « cluster Presto ».

Lorsque le serveur SQL coordinateur Presto reçoit une requête SQL d’un utilisateur, il commence par utiliser une requête personnalisée pour analyser, construire et programmer un plan distribué sur les autres nœuds. L’API Presto REST envoie ensuite les instructions de requête pour l’exécution sur un serveur et la récupération des résultats pour le client. Presto prend en charge les expressions ANSI SQL standard, y compris les jointures, les requêtes, les sous-requêtes et les agrégations. Une fois la requête compilée, Presto la répartit en différentes étapes entre les nœuds de calcul.

Comme Presto est construit selon le concept d’abstraction des données, il est extensible à n’importe quelle source de données et peut facilement interroger des sources telles que des data lakes, des entrepôts de données et des bases de données relationnelles. L’abstraction des données est un processus de programmation qui permet de stocker et de manipuler les données plus efficacement en séparant leur représentation de leur stockage physique. Cette abstraction permet au moteur de requête de se concentrer exclusivement sur les aspects des données qui sont pertinents pour sa requête. Grâce au processus d’abstraction des données, celles-ci sont interrogées là où elles sont stockées plutôt qu’après avoir été déplacées dans un autre système d’analyse.

Comment est né Presto

Initialement développé chez Facebook pour exécuter des requêtes interactives sur un grand entrepôt de données Apache Hadoop, les développeurs de Presto l’ont toujours envisagé comme logiciel open source et cherché à le rendre libre d’accès pour permettre à tout le monde de l’utiliser pour l’analyse et la gestion des données. En 2013, il a été proposé en open source sur GitHub pour que chacun puisse le télécharger sous la licence Apache Software. En 2019, trois des membres d’origine de l’équipe de développement Presto ont quitté le projet et fondé un « fork » de Presto, connu sous le nom de Presto Software Foundation, ou plus communément prestosql.

La fondation Linux et d’autres communautés open source proposent des webinaires et des formations sur Presto en anglais et dans d’autres langues pour les ingénieurs et les développeurs qui souhaitent obtenir une certification. Ces forums sont également le bon endroit pour découvrir les nouveautés de Presto.

Cas d’utilisation Presto

Presto permet aux entreprises d’interroger rapidement et efficacement des référentiels de données à grande échelle et des bases de données NoSQL à diverses fins commerciales. Voici quelques-uns de ses cas d’utilisation les plus courants :

Requêtes ad-hoc

Presto permet une exploration rapide des données et un reporting simple à diverses fins commerciales. À l’aide de connecteurs Presto populaires tels que Hive, MongoDB ou Cassandra, les utilisateurs peuvent interroger les données qui les intéressent et obtenir les résultats en quelques secondes. Avec sa vitesse et sa flexibilité, Presto permet aux utilisateurs d’effectuer des itérations et d’explorer en profondeur les ensembles de données, quel que soit leur emplacement.

Voici quelques-uns des référentiels de données les plus largement utilisés auxquels Presto peut se connecter :

BigQuery
HDFS
Stockage dans le cloud
Cloud SQL pour MySQL
Apache Cassandra ou Kafka

Déploiements cloud et cloud hybride

Selon une évaluation des performances réalisée en 2021 par RedHat, l’utilisation croissante des environnements cloud hybrides par les entreprises exerce une pression accrue sur le stockage cloud natif, pour lequel Presto, « le moteur de requêtes distribué le plus rapide disponible aujourd’hui », est idéal.¹ Le transfert des charges de travail d’un environnement sur site vers une infrastructure cloud ou cloud hybride présente de nombreux avantages, notamment des performances et une évolutivité accrues. L’architecture de Presto est une excellente option pour de tels déploiements, car il peut être lancé en quelques minutes sans provisionnement, configuration ni réglage supplémentaire.

Machine learning (ML)

Presto aide les ingénieurs à préparer les données et à effectuer l’ingénierie et l’extraction des fonctionnalités de manière très efficace qui garantit leur opérabilité pour le machine learning (ML). Son nombre de connecteurs, son moteur SQL et ses capacités d’interrogation en font un excellent choix pour les ingénieurs qui recherchent un accès rapide et facile à de grands volumes de données. Presto dispose également d’outils spécialement conçus pour les fonctions ML comme l’agrégation, qui permettent aux data scientists d’entraîner des modèles de classification et de régression sur des machines à vecteur de support (SVM) pour résoudre les problèmes d’apprentissage supervisé.

Production de rapports

Presto permet d’interroger des données provenant de plusieurs sources, générant un rapport ou un tableau de bord unique et facilement accessible à des fins de BI. Grâce à sa simplicité d’utilisation, les analystes peuvent effectuer des requêtes et créer des rapports sans l’aide d’ingénieurs.

Analyses

Presto permet aux analystes d’effectuer des requêtes sur des données structurées et non structurées directement sur un data lake, sans passer par un processus de transformation des données.

Préparation des données

Le processus de collecte et de préparation des données peut être coûteux et inefficace. Les data scientists passent parfois des heures chaque jour à collecter et à préparer des données avant même qu’elles ne puissent être analysées. Presto automatise ce processus avec rapidité et précision afin que les data scientists et les ingénieurs puissent consacrer plus de temps à des tâches à forte valeur ajoutée.

Quatre étapes pour améliorer le forecasting commercial grâce à l’analytique

Exploitez tout le potentiel de l’analytique et de la business intelligence pour planifier, prévoir et façonner des résultats futurs optimaux pour votre entreprise et vos clients.

Ressources

Le data lakehouse hybride et ouvert pour l'IA

Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

La différence par les données

Explorez le guide pour les responsables des données sur le développement d’une organisation axée sur les données et d’un avantage métier.

Gestion des données pour l’IA et l’analyse

Consultez notre guide et découvrez comment exploiter les bases de données adéquates pour les applications, les analyses et l’IA générative.

Gestion des données pour une IA et des analyses à l’échelle

Découvrez comment une approche de type data lakehouse ouvert peut fournir des données fiables et accélérer l’exécution des analyses et des projets d’IA.

Gartner predicts 2024: How AI will impact analytics users

Obtenez des informations uniques sur l’évolution des solutions ABI, mettant en évidence les principales conclusions, hypothèses et recommandations pour les responsables des données et de l’analytique.

Favoriser l’adoption de l’IA avec des données prêtes pour l’IA

Découvrez pourquoi l’intelligence des données et l’intégration des données alimentées par l’IA sont essentielles pour préparer les données structurées et non structurées et accélérer les résultats de l’IA.

Solutions connexes

Logiciels et solutions de base de données

Utilisez les solutions de base de données IBM pour répondre aux différents besoins en matière de workload sur le cloud hybride.

Découvrir les solutions de bases de données

Base de données cloud native avec IBM Db2

Découvrez IBM Db2, une base de données relationnelle qui offre des performances, une évolutivité et une fiabilité élevées pour le stockage et la gestion des données structurées. Elle est disponible en tant que solution SaaS sur IBM Cloud ou en autohébergement.

Découvrez Db2

Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique

Passer à l’étape suivante

Utilisez les solutions de base de données IBM pour répondre aux différents besoins en matière de workload sur le cloud hybride.

Notes de bas de page

¹ « External-mode performance characterization for databases and analytics », Red Hat, 18 janvier 2021