IFCD0043

Cloudera data analyst training

Identificar el ecosistema y los retos de código abierto de herramientas Big Data y aplicar Apache Hive y Apache Impala combinando los datasets con el uso de JOIN o UNION.

Diseñado y producido por Smartmind

Disponibilidad:

Descatalogado

Contenidos de la especialidad formativa

IFCD0043 — Cloudera data analyst training

Módulo 1

Fundamentos de Hadoop, descripción y consultas en Hive e Impala

Objetivo. Definir las características generales de Hadoop, en almacenamientos, gestión y consulta de datos con las herramientas Hive e Impala. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 3

Conocimiento/capacidades cognitivas y prácticas

Descripción de los Fundamentos Hadoop

Identificación de Hadoop

Aspectos generales de Hadoop

Almacenamiento de datos: HDFS

Procesamiento de datos distribuidos: YARN, MapReduce, y Spark

Procesamiento y análisis de datos: Hive, e Impala

Integración de datos: Sqoop

Otras herramientas de datos de Hadoop

Explicación del escenario con ejercicios

Explicación de Hive e Impala

Definción de Hive

Definción de Impala

Descripción de Hive e Impala

Schema y almacenamiento de datos

Comparación entre Hive y las bases de datos tradicionales

Casos de utilización

Aplicación de Hive e Impala

Tablas y bases de datos

Sintaxis básica en consultas Hive e Impala

Tipos de datos

Hue para ejecutar consultas

Beeline (la Shell de Hive)

Shell de Impala

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Interés por la innovación tecnológica y a la formación en línea, siendo consciente de sus utilidades y de la necesidad de actualización permanente

Módulo 2

Operadores comunes, funciones integradas, administración, almacenamiento y rendimiento de los datos

Objetivo. Enumerar los operadores y funciones integradas en el sistema, elaborando bases de datos para la gestión y el tratamiento completo de los datos cargados. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 3

Conocimiento/capacidades cognitivas y prácticas

Definición de operadores comunes y funciones integradas

Operadores

Funciones escalares

Funciones de agregación

Indicación de la administración de datos

Almacenamiento de datos

Creación de bases de datos y tablas

Carga de datos

Alteración de bases de datos y tablas

Simplificación de consultas con vistas

Almacenamiento de resultados de consultas

Síntesis sobre el Almacenamiento de datos y rendimiento

Partición de tablas

Carga de datos en tablas particionadas

Cuando utilizar las particiones

Elección del formato de archivo

Utilización de los formatos de archivo Avro y Parquet

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Interés por las bases de datos y adquisición de técncas y habilidadades para la gestión y administración.

Módulo 3

Múltiples datasets, funciones analíticas y de ventana, gestión de datos complejos

Objetivo. Formular consultas en las que intervienen múltiples datasets, aplicando funciones analíticas y de ventanas a los datos, mediante las herramientas Hive e Impala y el manejo de grupos de datos complejos CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 3

Conocimiento/capacidades cognitivas y prácticas

Aplicación de múltiples Datasets

UNION y Joins

Manejo de valores NULL en Joins

Joins avanzados

Utilización de Funciones analíticas y funciones de ventana

Utilización de funciones analíticas comunes

Otras funciones analíticas

Ventanas deslizantes

Gestión de Datos complejos

Datos complejos con Hive

Datos complejos con Impala

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Coordinación y responsabilidad a la hora de aplicar funciones analíticas y de ventanas a los datos.

Módulo 4

Análisis de textos, optimización y extensiones de Hive e Impala

Objetivo. Sintetizar expresiones regulares para un análisis de textos, aplicando factores de optimización a Hive e Impala y la mejora de su rendimiento en las consultas, extendiendo el funcionamiento de dichas herramientas para el incremento de su eficacia. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 4

Conocimiento/capacidades cognitivas y prácticas

Aplicación del Análisis de texto

Expresiones regulares

Procesamiento de texto con SerDes en Hive

Análisis de Sentimiento y n-grams

Utilización de Optimización Hive

Rendimiento de las consultas

Bucketing

Indexación de datos

Hive con Spark

Gestión de Optimización de Impala

Ejecución de consultas

Mejorar el rendimiento de Impala

Formulación de preguntas sobre Hive e Impala

Customizar SerDes y formatos de archivo en Hive

Transformación de datos con Scripts personalizados en Hive

Funciones definidas por el usuario

Consultas parametrizadas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Implicación en la sintetización de expresiones regulares para realizar un análisis de textos.

Rigor en la aplicación de factores de optimización a Hive e Impala para la mejora del rendimiento en las consultas.

Módulo 5

Selección de opciones. Introducción a Apache Kudu

Objetivo. Seleccionar la opción idonea para realizar una buena gestión de los datos analizados, integrando Apache Kudu en el marco de la herramienta Impala. CONOCIMIENTOS / CAPACIDADES COGNITIVAS Y PRÁCTICAS

Contenidos: 2

Conocimiento/capacidades cognitivas y prácticas

Resumen de la mejor opción

Comparación entre MapReduce, Hive, Impala y bases de datos relacionales

Síntesis de Apache Kudu

Descripción de Kudu

Tablas Kudu

Uso de Impala con Kudu

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Coordinación con el resto del equipo que interviene en la gestión, seguimiento y evaluación de la formación y interés por por la integración de Apache Kudu en el marco de la herramienta Impala.