IFCD0043

Cloudera data analyst training

60HORAS |

Especialidades formativas del SEPE

Identificar el ecosistema y los retos de código abierto de herramientas Big Data y aplicar Apache Hive y Apache Impala combinando los datasets con el uso de JOIN o UNION.

Diseñado y producido por Smartmind

Disponibilidad:

Descatalogado

Contenidos de la especialidad formativa

IFCD0043 — Cloudera data analyst training

Conocimiento/capacidades cognitivas y prácticas

Descripción de los Fundamentos Hadoop

Identificación de Hadoop

Aspectos generales de Hadoop

Almacenamiento de datos: HDFS

Procesamiento de datos distribuidos: YARN, MapReduce, y Spark

Procesamiento y análisis de datos: Hive, e Impala

Integración de datos: Sqoop

Otras herramientas de datos de Hadoop

Explicación del escenario con ejercicios

Explicación de Hive e Impala

Definción de Hive

Definción de Impala

Descripción de Hive e Impala

Schema y almacenamiento de datos

Comparación entre Hive y las bases de datos tradicionales

Casos de utilización

Aplicación de Hive e Impala

Tablas y bases de datos

Sintaxis básica en consultas Hive e Impala

Tipos de datos

Hue para ejecutar consultas

Beeline (la Shell de Hive)

Shell de Impala

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Interés por la innovación tecnológica y a la formación en línea, siendo consciente de sus utilidades y de la necesidad de actualización permanente

Conocimiento/capacidades cognitivas y prácticas

Definición de operadores comunes y funciones integradas

Operadores

Funciones escalares

Funciones de agregación

Indicación de la administración de datos

Almacenamiento de datos

Creación de bases de datos y tablas

Carga de datos

Alteración de bases de datos y tablas

Simplificación de consultas con vistas

Almacenamiento de resultados de consultas

Síntesis sobre el Almacenamiento de datos y rendimiento

Partición de tablas

Carga de datos en tablas particionadas

Cuando utilizar las particiones

Elección del formato de archivo

Utilización de los formatos de archivo Avro y Parquet

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Interés por las bases de datos y adquisición de técncas y habilidadades para la gestión y administración.

Conocimiento/capacidades cognitivas y prácticas

Aplicación de múltiples Datasets

UNION y Joins

Manejo de valores NULL en Joins

Joins avanzados

Utilización de Funciones analíticas y funciones de ventana

Utilización de funciones analíticas comunes

Otras funciones analíticas

Ventanas deslizantes

Gestión de Datos complejos

Datos complejos con Hive

Datos complejos con Impala

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Coordinación y responsabilidad a la hora de aplicar funciones analíticas y de ventanas a los datos.

Conocimiento/capacidades cognitivas y prácticas

Aplicación del Análisis de texto

Expresiones regulares

Procesamiento de texto con SerDes en Hive

Análisis de Sentimiento y n-grams

Utilización de Optimización Hive

Rendimiento de las consultas

Bucketing

Indexación de datos

Hive con Spark

Gestión de Optimización de Impala

Ejecución de consultas

Mejorar el rendimiento de Impala

Formulación de preguntas sobre Hive e Impala

Customizar SerDes y formatos de archivo en Hive

Transformación de datos con Scripts personalizados en Hive

Funciones definidas por el usuario

Consultas parametrizadas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Implicación en la sintetización de expresiones regulares para realizar un análisis de textos.

Rigor en la aplicación de factores de optimización a Hive e Impala para la mejora del rendimiento en las consultas.

Conocimiento/capacidades cognitivas y prácticas

Resumen de la mejor opción

Comparación entre MapReduce, Hive, Impala y bases de datos relacionales

Síntesis de Apache Kudu

Descripción de Kudu

Tablas Kudu

Uso de Impala con Kudu

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Coordinación con el resto del equipo que interviene en la gestión, seguimiento y evaluación de la formación y interés por por la integración de Apache Kudu en el marco de la herramienta Impala.

IFCD0043

Cloudera data analyst training

Especialidades formativas del SEPE

Módulo 1

Fundamentos de Hadoop, descripción y consultas en Hive e Impala

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Módulo 2

Operadores comunes, funciones integradas, administración, almacenamiento y rendimiento de los datos

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Módulo 3

Múltiples datasets, funciones analíticas y de ventana, gestión de datos complejos

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Módulo 4

Análisis de textos, optimización y extensiones de Hive e Impala

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Módulo 5

Selección de opciones. Introducción a Apache Kudu

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

IFCD0043

Cloudera data analyst training

Especialidades formativas del SEPE

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Conocimiento/capacidades cognitivas y prácticas

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Solicitar información

¡Qué bien! Necesitamos saber algunas cosas de ti :)