IFCD0056

Administración de Cloudera para apache hadoop

Usar clúster Cloudera para instalar Cloudera Manager y CDH, ejecutar la ingesta de datos de fuentes externas en un clúster, detección, solución y reparación de problemas, así como manejar las funciones de seguridad Key Cloudera.

Diseñado y producido por Smartmind

Disponibilidad:

Descatalogado

Contenidos de la especialidad formativa

IFCD0056 — Administración de Cloudera para apache hadoop

Módulo 1

Introducción, instalación y configuración al entorno Cloudera

Objetivo. Analizar de forma adecuada las herramientas de Cloudera, y diseñar un clúster de Cloudera. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 3

Conocimiento/capacidades cognitivas y prácticas

Identificación del entorno Cloudera Enterprise Data

Cloudera Enterprise Data Hub

Descripción general de CDH

Descripción general de Cloudera Manager

Responsabilidades del administrador de Hadoop

Construcción y ejecución de Cloudera Manager y CDH

Descripción general de la instalación de un Clúster

Experimentación con Cloudera Manager

Instalación de CDH

Servicios CDH Clúster

Análisis de un Clúster de Cloudera

Descripción general

Parámetros de configuración

Modificación de configuraciones de servicio

Ficheros de configuración

Administración de Role Instances

Añadir nuevos servicios

Añadir y extraer hosts

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Adquisición de los conocimientos necesarios para manejar las herramientas de Cloudera y diseñar un clúster.

Rigor en el uso de este sistema e interés por arquitecturas de datos más actuales.

Módulo 2

Sistemas de ficheros distribuidos de Hadoop e ingesta de datos con HDFS

Objetivo. Gestionar apropiadamente los sistemas de ficheros de Hadoop así como recolectar datos de fuentes externas utilizando HDFS. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 2

Conocimiento/capacidades cognitivas y prácticas

Gestión del sistema de ficheros distribuidos de Hadoop.

Descripción general

Topología de HDFS y roles

Edición de logs y puntos de control

Rendimiento de HDFS y tolerancia a errores

Descripción general de seguridad HDFS y Hadoop

Interfaces de usuario web por HDFS

Utilización de la interfaz de línea de pedidos HDFS

Otras utilidades de línea de órdenes

Observación y recolección de datos con HDFS

Información general de recolección de datos

Formatos de ficheros

Recolección de datos mediante la transferencia de archivos o interfaces

REST

Importación de datos de bases de datos relacionales con Apache Sqoop

Recopilación de datos de fuentes externas con Apache Flume

Mejores prácticas para la importación de datos

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Adquisición de los conocimientos imprescindibles para manejar ficheros de Hadoop y recolectar datos de fuentes externas.

Curiosidad por las nuevas tecnologías y su desarrollo

Módulo 3

Herramientas Hive, Impala, Yarn, MapReduce, Spark

Objetivo. Analizar el funcionamiento de las herramientas Hive, Impala, Yarn, MapReduce, Spark. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 3

Conocimiento/capacidades cognitivas y prácticas

Descripción y utilización de las herramientas Hive e Impala

Apache Hive

Apache Impala

Análisis y utilización de las herramientas YARN i MapReduce

Composición general de YARN, ejecución y visualización de logs y aplicaciones con YARN.

Aplicaciones de MapReduce

Configuración de memoria y CPU de YARN

Exposición y experimentación con la herramienta Apache Spark

Composición general de Spark, aplicaciones Spark con YARN

Monitorización de aplicaciones Spark

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Asimilación de los conocimientos necesarios para gestionar herramientas asociadas a Hadoop.

Coordinación con el resto del equipo que interviene en la gestión, seguimiento y evaluación de la formación.

Responsabilidad en el uso de las herramientas YARN i MapReduce.

Módulo 4

Tratamiento integral, configuración y gestión de un clúster

Objetivo. Planificar un clúster, configurar sus elementos, gestionar los recursos necesarios, mantener y monitorizar clústers, y resolver los posibles problemas que se planteen en un clúster. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 6

Conocimiento/capacidades cognitivas y prácticas

Gestión de un Clúster

Consideraciones generales de planificación

Escoger el hardware adecuado

Consideraciones de red

Opciones de virtualización

Opciones de implementación Cloud

Manipulación de nodos

Utilización avanzada del clúster

Configuración de puertos de servicio

Modificar HDFS y MapReduce

Habilitar alta disponibilidad en HDFS

Gestión de recursos

Composición de cgroups con Static Service Pools

El Fair Scheduler

Formulación de Dynamic Resource Pools

Programación de consultas en Impala

Caracterización de un Clúster

Comprobación del estado de HDFS

Copia de datos entre Clústeres

Rebalanceo de datos en HDFS

Instantáneas del directorio HDFS

Actualización de un clúster

Observación de Clústeres

Funciones de monitorización de Cloudera Manager

Pruebas de salud

Acontecimientos y alertas

Gráficos e informes

Recomendaciones de monitorización

Experimentación y análisis de problemas de un clúster

Descripción general

Herramientas de resolución de problemas

Ejemplos de mala configuración

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Atención a los puntos básicos para gestionar, de forma integral, un clúster.

Disposición a resolver y diagnosticar los problemas que pueda generar la gestión del clúster.

Módulo 5

Instalación y gestión de Hue, Apache Kudu y Apache Kafka y Hadoop

Objetivo. Describir de forma apropiada los pasos necesarios para instalar y gestionar Hue, Apache Kudu y Apache Kafka, así como confeccionar un plan de seguridad con las funciones de Key Cloudera, y utilizar Hadoop para el almacenamiento de objetos. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 5

Conocimiento/capacidades cognitivas y prácticas

Creación y gestión de Hue

Descripción general

Administración y configuración de Hue

Autenticación y autorización a Hue

Observación de la seguridad

Conceptos de seguridad en Hadoop

Autenticación en Hadoop mediante Kerberos

Autorización a Hadoop

Cifrado en Hadoop

Securización de un clúster de Hadoop

Descripción de Apache Kudu

Descripción general de Kudu

Arquitectura

Instalación y configuración

Herramientas de monitorización y administración

Análisis de Apache Kafka

¿Qué es Apache Kafka?

Descripción general de Apache Kafka

Arquitectura de un Clúster Apache Kafka

Herramientas de línea de mandos Apache Kafka

Uso de Kafka con Flume

Gestión del almacenamiento de objetos Cloud

Almacenamiento de objetos

Conexión de Hadoop con el almacenamiento de objetos

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Asimilación de los conocimientos necesarios para manejar las herramientas Hue, Kudu, Kafka, gestionar la seguridad y el almacenamiento de objetos.

Coordinación con el resto del equipo que interviene en la gestión, seguimiento y evaluación de la formación.