Analizar datos de Apache Hadoop (Execution Engine for Apache Hadoop)

Puede crear y entrenar modelos en un clúster Hadoop. Si tiene datos en un sistema de almacenamiento Hive o HDFS en un clúster Hadoop, puede trabajar con dichos datos directamente en el clúster de Hadoop.

Servicio El servicio Execution Engine for Apache Hadoop no está disponible de forma predeterminada. Un administrador debe instalar este servicio en la plataforma IBM Cloud Pak for Data. Para determinar si un servicio está instalado, abra el Catálogo de servicios y compruebe si el servicio está habilitado.

Dentro de un proyecto de análisis con Watson Studio, puede encontrar plantillas de entorno de Hadoop en la página Entornos . Consulte Entornos de Hadoop.

Puede utilizar entornos de Hadoop de estas formas:

Puede entrenar un modelo en el clúster de Hadoop seleccionando un entorno de Hadoop en un cuaderno de Jupyter.
Puede gestionar un modelo en el clúster de Hadoop ejecutando los métodos de programa de utilidad de integración de Hadoop en un cuaderno de Jupyter.
Puede ejecutar flujos de Data Refinery en el clúster de Hadoop seleccionando un entorno de Hadoop para el trabajo de Data Refinery.

En este diagrama se muestra cómo los expertos de datos que trabajan en un proyecto de análisis en un clúster de Cloud Pak for Data pueden entrenar un cuaderno en un clúster de Hadoop con datos del clúster de Hadoop.

Arquitectura de Hadoop

Fuera de Cloud Pak for Data, puede gestionar modelos y datos en clústeres de Hadoop de este modo:

Puede gestionar modelos en HDFS con métodos de programa de utilidad de integración de Hadoop en una sesión de livy remota.
Puede transferir archivos entre el clúster de HDP y el clúster de Cloud Pak for Data con funciones de programa de utilidad Python.
Si el clúster de Hadoop incluye el software de orquestación de datos Alluxio, puede interactuar con los datos a través de Alluxio.

Más información

Tema principal: Análisis de datos y modelos de construcción