Data Engineering on Google Cloud Platform

Este curso proporciona a los alumnos una introducción al diseño y construcción de sistemas de procesamiento de datos en Google Cloud Platform. Mediante la combinación de demos y laboratorios, los alumnos aprenderán a como diseñar sistemas de procesado de datos, construir canales end-to-end, analizar datos y realizar machine learning. Este curso cubre datos estructurados, no estructurados y transferencia continua

Objetivos

Al finalizar este curso, el alumno será capaz de:

Diseñar y construir sistemas de procesamiento de datos en Google Cloud Platform.
Procesar datos batch y transferencia continua implementando canales de autoescalado de datos en Cloud Dataflow.
Conseguir información de negoción de datasets enormes utilizando Google BigQuery.
Evaluar y predecir utilizando modelos machine learning utilizando Tensorflow y Cloud ML.
Hacer uso de datos no estructurado utilizando Spark y APIs ML en Cloud Datapro.
Habilitar información instantánea de la transferencia continua de datos.

data

Disponible en formato e-learning

Disponible en formato presencial

Disponible en formato a distancia

Subvención disponible
A través de Fundae, cumpliendo requisitos.

Duración
28 horas

  • Dificultad 50% 50%
  • Nivel alcanzado 80% 80%

Dirigido a

Conocimientos requeridos

Temario

Introducción a la ingeniería de datos

Conocer el rol de un ingeniero de datos.
Analizar los desafíos de la ingeniería de datos.
Introducción a BigQuery.
Data Lakes y Data Warehouses.
Demostración: Federated Queries con BigQuery.
Bases de datos transaccionales vs Data Warehouses.
Demostración web: Encontrar PII en su dataset con la API DLP.
Asociación efectiva con otros equipos de datos.
Gestionar el acceso a los datos y la gobernanza.
Creación de pipelines listos para producción.
Revisión del caso de estudio personalizado de GCP.
Laboratorio: análisis de datos con BigQuery.
Creación de un Data Lake

Introducción a Data Lakes.
Almacenamiento de datos y opciones ETL en GCP.
Creación de un Data Lake con almacenamiento en Cloud.
Demostración opcional: optimización de costes con las clases de Google Cloud Storage y las funciones Cloud.
Securizar el almacenamiento en Cloud.
Almacenar de manera ordenada todo tipo de datos.
Video demostración: ejecución de federated queries en ficheros ORC y Parquet en BigQuery.
Cloud SQL como un Data Lake relacional.
Laboratorio: Carga de datos procedentes de un taxi en Cloud SQL.
Creación de un Data Warehouse

El Data Warehouse moderno.
Introducción a BigQuery.
Demostración: Query TB+ de datos en segundos.
Introducción.
Carga de datos.
Video demostración: Consulta de Cloud SQL desde BigQuery.
Laboratorio: carga de datos en BigQuery.
Estudio de esquemas.
Demostración: estudio de Datasets públicos de BigQuery con SQL utilizando INFORMATION_SCHEMA.
Diseño de esquemas.
Campos anidados y repetidos.
Demostración: campos anidados y repetidos en BigQuery.
Laboratorio: trabajar con datos JSON y Array en BigQuery.
Optimización con particionamiento y clustering.
Demostración: Tablas particionadas y clusterizadas en BigQuery.
Vista previa: transformación de datos Batch y Streaming.
Introducción a la creación de Batch Data Pipelines

EL, ELT, ETL.
Consideraciones de calidad.
Realizar operaciones en BigQuery.
Demostración: ELT para mejorar la calidad de los datos en BigQuery.
Deficiencias.
ETL para resolver problemas de calidad de datos.
Ejecutar Spark en Cloud Dataproc

El ecosistema de Hadoop.
Ejecutar Hadoop en Cloud Dataproc.
GCS en lugar de HDFS.
Optimización de Dataproc.
Laboratorio: ejecución de Apache Spark jobs en Cloud Dataproc.
Procesamiento de datos Serverless con Cloud Dataflow

Cloud Dataflow.
El valor del Dataflow para los clientes.
Dataflow Pipelines.
Laboratorio: Un Dataflow Pipeline simple (Python/Java).
Laboratorio: MapReduce en Dataflow (Python/Java).
Laboratorio: Side Inputs (Python/Java).
Plantillas de Dataflow.
Dataflow SQL.
Administrar Data Pipelines con Cloud Data Fusion y Cloud Composer

Crear de manera visual Batch Data Pipelines con Cloud Data Fusion.
Componentes.
Descripción general de la UI.
Creacion de un Pipeline.
Estudio de datos con el uso de Wrangler.
Laboratorio: creación y ejecución de un gráfico pipeline en Cloud Data Fusion.
Orquestar el trabajo entre los servicios de GCP con Cloud Composer.
Apache Airflow Environment.
DAGs y Operadores.
Programación de un Workflow.
Demostración opcional: carga de datos activada por eventos con Cloud Composer, Cloud Functions, Cloud Storage y BigQuery.
Monitorización y Logging.
Laboratorio: Introducción a Cloud Composer.
Introducción al procesamiento de datos streaming

Procesamiento de datos streaming.
Mensajería Serverless con Cloud Pub/Sub

Cloud Pub/Sub.
Laboratorio: Publicar datos streaming en Pub/Sub.
Características de Cloud Dataflow Streaming

Características de BigQuery Streaming.
Laboratorio: Streaming Data Pipelines.
Características de BigQuery Streaming y Bigtable de alto rendimiento

Características streaming de BigQuery.
Laboratorio: Streaming Analytics y Dashboards.
Cloud Bigtable.
Laboratorio: Streaming Data Pipelines en Bigtable.
Funcionalidad y rendimiento avanzados de BigQuery

Funciones de ventana analíticas.
Uso de cláusulas With.
Funciones GIS.
Demostración: mapear los códigos postales de más rápido crecimiento con BigQuery GeoViz.
Consideraciones de rendimiento.
Laboratorio: Optimización de consultas BigQuery para mejorar el rendimiento.
Laboratorio opcional: creación de tablas particionadas por fecha en BigQuery.
Introducción a la analítica y la IA

¿Qué es la IA?
Del análisis de datos Ad-hoc a las decisiones basadas en datos.
Opciones para modelos ML en GCP.
APIs de modelado ML preconstruidas para datos no estructurados

La dificultad de los datos no estructurados.
APIs de ML para el enriquecimiento los datos.
Laboratorio: uso de la API de lenguaje natural para clasificar texto no estructurado.
Análisis Big Data con Cloud AI Platform Notebooks

¿Qué es un Notebook?
BigQuery Magic y Ties to Pandas.
Laboratorio: BigQuery en Jupyter Labs para la plataforma IA.
Pipelines ML en producción con Kubeflow

Métodos para aplicar ML en GCP.
Kubeflow.
AI Hub.
Laboratorio: ejecución de modelos de IA en Kubeflow.
Creación de modelos personalizados con SQL en BigQuery ML

BigQuery ML para Quick Model Building.
Demostración: enseñar a un modelo de BigQuery ML a predecir las tarifas de taxi de Nueva York.
Modelos compatibles.
Laboratorio (Opción 1): Predecir la duración de un viaje en bicicleta con un modelo de regresión en BQML.
Laboratorio (Opción 2): Recomendaciones de películas en BigQuery ML.
Creación de modelos personalizados con Cloud AutoML

¿Porqué utilizar Auto ML?
Auto ML Vision.
Auto ML NLP.
Tablas Auto ML.

Solicita información del curso