×Revisa nuestra última campaña de Plan de Formación aquí.

IFCD66

Data Scientist (Analista de datos masivos y científico de datos)

Extraer el conocimiento de utilidad para un propósito en concreto a partir de grandes volúmenes de datos de diferentes fuentes disponibles en formato digital

Diseñado y producido por Smartmind

Disponibles licencias SCORM

Contenidos de la especialidad formativa

IFCD66 — Data Scientist (Analista de datos masivos y científico de datos)

Módulo 1

Sistemas de apoyo a la toma de decisiones y gestión de datos

Objetivo. Desarrollar aplicaciones informáticas para realizar un tratamiento de los datos básico con el lenguaje Python, identificando los métodos para la exploración de grandes fondos de datos y los sistemas de gestión de datos relacionales y no relacionales (NoSQL).

Contenidos: 12

Conocimiento/capacidades cognitivas y prácticas

Caracterización de la aplicación del lenguaje Python

Lenguaje Python

Ejecución de programas Python

Objetos en Python

Tipos numéricos y dinámicos

Gestión de cadenas de texto: listas, diccionarios, tuplas y ficheros

Sentencias Python: asignaciones, expresiones e imprimir resultados

Tests de variables, reglas de sintaxis

Bucles for y while

Interpretación la aplicación de protocolos API

Uso de APIs remotas

Integración de las aplicaciones con APIs remotas

Ejemplos de aplicación de APIs remotas en lenguaje Python

Programación de un algoritmo modular en lenguaje Python

Programación de módulos

Fundamentos de programación de clases

Utilización de APIs e integración con aplicaciones Python

Distinción de los conceptos Cloud básicos

Principios de computación en la nube (Cloud Computing)

Ingeniería de servicios: software as a service, Platform as a service, Infrastructure as a Service

Ejemplos de aplicaciones relevantes en la industria

Uso de BBDD NoSQL y nuevos modelos de datos (estructurados y no estructurados)

Fundamentos del paradigma NoSQL

Distribución de los datos y procesamiento en paralelo

Principales modelos de datos en el mundo NoSQL: clave-valor, orientación a documentos, grafos de propiedad, grafos de conocimiento

Conocimiento del almacenamiento Big Data y las herramientas de procesamiento masivo

Aplicaciones basadas en la gestión y el análisis de grandes volúmenes de datos

Fundamentos arquitectónicos de los sistemas distribuidos

Principales arquitecturas de referencia

Nuevos modelos de datos

Sistemas de ficheros distribuidos

Document stores

Bases de datos de grafos

Evaluación de las metodologías y técnicas aplicadas en la resolución de problemas y justificación de los planteamientos, decisiones y propuestas realizadas

Sistemas de soporte a la toma de decisiones

Análisis de los datos: análisis descriptivo, predictivo y prescriptivo

Casos de uso: gestión y análisis de grandes volúmenes de datos

Identificación de los factores clave de un problema complejo en el contexto de un proyecto de analítica.

Contexto de la sociedad /economía de los datos y el paradigma de las aplicaciones orientadas a los datos

Fundamentos de bases de datos relacionales: lenguaje SQL.

Necesidad de un cambio de paradigma: NoSQL. El principio ‘one size does not fit all’.

Principales modelos de datos en el mundo NoSQL: Key-Value, Documento-oriented, Property Graphs y Knowledge Graphs

Fundamentos arquitectónicos: sistemas distribuidos, escalabilidad, paralelismo. Principales arquitecturas de referencia (shared nothing, shared disk, shared memory)

Distinción y aplicación de los nuevos modelos de datos

Sistemas de archivos distribuidos: conceptos y principios (distribución, replicación, particionamiento horizontal vs. Vertical, formatos de archivos especializados)

Conocimiento y utilización deHadoop File System (HDFS), Apache Avro, Apache Parquet, Key-value stores: Apache HBase

Document stores: conceptos y principios (mecanismos de réplica, sharding, consultas espaciales)

Inmersión a MongoDB y el Aggregation Framework

Graph databases: property y knowledge graphs. Conceptos y principios Modelización en grafo, consultas regulares. Introducción a Neo4j y Cypher

Knowledge graphs. Conceptos y principios: el paradigma open / linked data, RDF y SPARQL. Introducción a GraphDB

Identificación y análisis de problemas complejos en el área de análisis de datos y planteamiento de soluciones

Principales conceptos de los flujos de procesamiento de datos en sistemas de gran volumen

Fases principales de la gestión de grandes volúmenes de datos y retos asociados

Roles del ingeniero de datos en las fases principales de la gestión de datos

Limitaciones principales de los modelos tradicionales de gestión de los datos

Nuevos modelos de datos

Planificación y ejecución de un trabajo de análisis de datos con una propuesta metodológica

Definición de un conjunto de datos de partida y una serie de necesidades de negocio que requieran una agregación de los datos, una captura de datos externa, un proceso ETL, análisis de datos y una visualización final de los resultados obtenidos

Implementación de un sistema de archivos distribuido

Uso de Hadoop para almacenar un conjunto de datos de actividad de red social. Almacenamiento de un conjunto de datos en un entorno HDFS

Modelización de grafos: almacenar un conjunto de datos en una base de datos documental u orientada a grafos.

Elección de un repositorio adecuado para los datos del problema y definición de una estrategia de almacenamiento.

Ciclo de vida de los datos: diseño de bases de datos, gestor de los flujos de datos, arquitectura de los sistemas de extracción, carga y transformación de los datos y sistemas de almacenamiento y procesamiento distribuido

Gestión de los datos: límites del modelo relacional y distribución de los datos

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Utilización de técnicas para actualizar las metodologías didácticas.

Utilización de técnicas y recursos para el análisis de capacidades personales.

Fomento de la capacidad organizativa.

Fomento de la creatividad dirigida a la mejora de las metodologías activas de enseñanza.

Módulo 2

Gestión y procesamiento de datos

Objetivo. Identificar los principios de gestión de datos para un proyecto con múltiples fuentes de entrada y aplicar técnicas de organización de modelos de datos desde un punto de vista lógico y físico.

Contenidos: 5

Conocimiento/capacidades cognitivas y prácticas

Evaluación crítica de las metodologías y técnicas a aplicar en la resolución de problemas y justificación de los planteamientos, decisiones y propuestas realizadas

Fundamentos de gestión de los datos para un proyecto con múltiples fuentes de entrada de datos

Técnicas de organización de modelos de datos desde un punto de vista lógico y físico

Identificación de los flujos de datos y ETL (Extract Transform Load)

Fundamentos de Data Warehousing y Business Intelligence

Conceptos de OLAP y extracción de información

Proceso ETL: extracción, transformación y carga de los datos

Tipos de flujos y operaciones

Data cleaning

Data quality

Ejemplos de aplicaciones

Diseño de un proceso ETL y un modelo de análisis multidimensional.

Modelización multidimensional

DFM: Dimensional Fact Model

Esquema en estrella y derivados

Operadores OLAP

Implementación de cubos y operadores OLAP en entornos relacionales

Herramientas de modelización multidimensional

Diseño de una carga de datos a un repositorio NoSQL y análisis de los datos básico utilizando Spark

Diseño, implementación y mantenimiento de soluciones Fecha Lake. Conceptos y principios (schema-on-write vs. schema-on-read). Modelización y gobernanza de datos

Conceptos y principios de procesamiento distribuido de datos (soluciones declarativas vs. no declarativas)

Modelos de procesamiento distribuido de datos: Basados en disco y basados en memoria principal

MapReduce y a Apache Spark

Procesamiento de datos en tiempo real (streaming). Conceptos y principios (modelos, ventanas temporales, consultas temporales). Lenguajes de consultas sobre streams. Introducción a herramientas streaming: Apache Kafka, Apache Spark Streaming

Arquitecturas BigData: Lambda, Kappa y orquestadores. Herramientas de gestión de workflows: Apache Airflow

Identificación de los factores clave de un problema complejo en el contexto de un proyecto de analítica.

Proyecto de diseño e implementación ETL con herramientas NoSQL

Proceso de incorporación de datos batch con herramientas Apache.

Análisis de datos y extracción de datos para modelo de negocio a partir del conjunto de datos con Spark

Análisis de datos con Apache Spark

Lectura y exportación de datos

Revisión de la calidad de los datos

Filtros y transformaciones de los datos

Procesamiento de los datos para obtener resúmenes y agrupaciones

Combinaciones, particiones y reformulación de los datos.

Configuración, monitorización y gestión de los errores de las aplicaciones Spark

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Demostración de una actitud crítica de un pensamiento estratégico, presentando esquemas de tratamiento de los datos y permitiendo la discusión con grupos de interés internos y externos a la empresa para formular actuaciones orientadas al futuro.

Desarrollo de las actividades de diseño y análisis de datos con responsabilidad social, honestidad intelectual e integridad científica.

Concienciación de la necesidad de una actitud responsable y comprometida con los resultados y la limitación de los recursos disponibles en la toma de decisiones en entornos profesionales complejos.

Valoración de la importancia de la adaptación a las restricciones de coste, disponibilidad, tiempo de desarrollo o implantación en la revisión de un diseño inicial de gestión de datos.

Módulo 3

Aprendizaje automático y visualización

Objetivo. Aplicar los fundamentos de aprendizaje automático y de la visualización para el análisis de los resultados del procesamiento de datos.

Contenidos: 7

Conocimiento/capacidades cognitivas y prácticas

Identificación de los fundamentos de análisis de datos y aprendizaje automático (Machine Learning)

Tipología de tareas y algoritmos de aprendizaje (supervisado, no supervisado, semisupervisado)

Métodos principales de aprendizaje

Validación y evaluación de resultados

Distinción de los métodos clasificadores.

Modelos predictivos

Métodos no supervisados. Agrupamiento jerárquico. Agrupamiento particional (k-means y derivados). Reducción de la dimensionalidad (PCA y otros)

Métodos supervisados. K-NN. Árboles de decisión. SVM. Redes neuronales

Validación y evaluación de resultados

Aplicación de las técnicas de aprendizaje automático y la integración de diversas fuentes de datos

Análisis de sentimientos y polaridad sobre el conjunto de tweets recogidos.

Construcción de un análisis de perfiles mediante el uso de algoritmos de agrupamiento no supervisados (clustering).

Implementación de un análisis de polaridad (sentimiento analysis) sobre el conjunto de mensajes recogidos.

Implementación de dos enfoques alternativos para poder comparar el rendimiento obtenido: Aproximación basada en diccionarios. Aproximación en vectorización (Word2Vec) y uso de un modelo supervisado de aprendizaje automático.

Diseño, desarrollo y evaluación de los métodos de aprendizaje automático.

Procesamiento de datos

Fundamentos de aprendizaje automático

Tipología de tareas y algoritmos de aprendizaje

Validación y evaluación de resultados

Diseño y desarrollo de dashboards.

Principios de visualización de datos.

Diseño de paneles de control y dashboards para definir alarmas y transmitir resultados

Integración de la visualización con herramientas de análisis y consultas de datos

Documentación visual y escrita de los resultados de los proyectos de analítica de datos para audiencias no especializadas

Utilización de una herramienta de visualización de datos para el diseño y carga de datos a un panel de control

Herramientas de visualización de datos: Grafana, MS PowerBar, Tableau

Visualización de consultas de negocio y panel de control de resultados en herramientas de visualización de datos

Elección, aplicación y evaluación de la calidad de un algoritmo de aprendizaje automático para un problema dado a partir de un conjunto de datos.

Procesamiento de textos (NLP)

Análisis de polaridad basado en diccionarios

Análisis basado en modelos predictivos supervisados

Extracción de características (Word2Vec)

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Uso de habilidades de comunicación con los grupos de interés para mostrar los aspectos más relevantes de los resultados obtenidos en los resultados del proceso y su adaptación a las necesidades del proyecto.

Aplicación de soluciones innovadoras y adaptación a los entornos cambiantes.

Capacidad de desarrollo continuo de proyectos y comunicación de los resultados y decisiones con técnicas y herramientas de visualización

Coordinación y comunicación con especialistas, no especialistas, supervisores y clientes con el uso de las herramientas de comunicación para el diseño de información relevante sobre los aspectos claves de la aplicación.