Google Cloud Data Engineering – Professional Data Engineer Certification

El presente curso está orientado para que el alumno obtenga las habilidades y conocimientos necesarios para ser un Ingeniero de Datos profesional de Google Cloud, un perfil laboral que habilita la toma de decisiones basada en datos mediante la recopilación, transformación y publicación de los mismos. También es capaz de diseñar, construir, operar, asegurar y monitorizar los sistemas de procesamiento de datos con un énfasis particular en la seguridad y el cumplimiento; la escalabilidad y la eficiencia; la fiabilidad y la fidelidad; y la flexibilidad y la portabilidad. Además, es capaz de aprovechar, desplegar e implementar continuamente modelos de machine learning preexistentes.

Objetivos

Al finalizar el curso, los alumnos serán capaces de:

Diseñar y construir sistemas de procesamiento de datos en Google Cloud Platform.
Procesar datos batch y transferencia continua implementando canales de autoescalado de datos en Cloud Dataflow.
Conseguir información de negoción de datasets enormes utilizando Google BigQuery.
Evaluar y predecir utilizando modelos machine learning utilizando Tensorflow y Cloud ML.
Hacer uso de datos no estructurado utilizando Spark y APIs ML en Cloud Dataproc.
Habilitar información instantánea de la transferencia continua de datos.
Proporcionar información, consejos y sugerencias de cara a la realización del examen de certificación asociado al presente curso.
Revisar en profundidad varios ejemplos de estudio de casos.
Revisar cada sección del examen abarcando conceptos de alto nivel para generar la suficiente seguridad y confianza para afrontar el examen de certificación.
Identificar aquellas áreas de estudio en las deban mejorar.

data

Disponible en formato e-learning

Disponible en formato presencial

Disponible en formato a distancia

Subvención disponible
A través de Fundae, cumpliendo requisitos.

Duración
34 horas

  • Dificultad 50% 50%
  • Nivel alcanzado 80% 80%

Dirigido a

Conocimientos requeridos

Temario

MÓDULO 1: DATA ENGINEERING ON GOOGLE CLOUD PLATFORM

Introducción a la ingeniería de datos

Conocer el rol de un ingeniero de datos.
Analizar los desafíos de la ingeniería de datos.
Introducción a BigQuery.
Data Lakes y Data Warehouses.
Demostración: Federated Queries con BigQuery.
Bases de datos transaccionales vs Data Warehouses.
Demostración web: Encontrar PII en su dataset con la API DLP.
Asociación efectiva con otros equipos de datos.
Gestionar el acceso a los datos y la gobernanza.
Creación de pipelines listos para producción.
Revisión del caso de estudio personalizado de GCP.
Laboratorio: análisis de datos con BigQuery.
Creación de un Data Lake

Introducción a Data Lakes.
Almacenamiento de datos y opciones ETL en GCP.
Creación de un Data Lake con almacenamiento en Cloud.
Demostración opcional: optimización de costes con las clases de Google Cloud Storage y las funciones Cloud.
Securizar el almacenamiento en Cloud.
Almacenar de manera ordenada todo tipo de datos.
Video demostración: ejecución de federated queries en ficheros ORC y Parquet en BigQuery.
Cloud SQL como un Data Lake relacional.
Laboratorio: Carga de datos procedentes de un taxi en Cloud SQL.
Creación de un Data Warehouse

El Data Warehouse moderno.
Introducción a BigQuery.
Demostración: Query TB+ de datos en segundos.
Introducción.
Carga de datos.
Video demostración: Consulta de Cloud SQL desde BigQuery.
Laboratorio: carga de datos en BigQuery.
Estudio de esquemas.
Demostración: estudio de Datasets públicos de BigQuery con SQL utilizando INFORMATION_SCHEMA.
Diseño de esquemas.
Campos anidados y repetidos.
Demostración: campos anidados y repetidos en BigQuery.
Laboratorio: trabajar con datos JSON y Array en BigQuery.
Optimización con particionamiento y clustering.
Demostración: Tablas particionadas y clusterizadas en BigQuery.
Vista previa: transformación de datos Batch y Streaming.
Introducción a la creación de Batch Data Pipelines

EL, ELT, ETL.
Consideraciones de calidad.
Realizar operaciones en BigQuery.
Demostración: ELT para mejorar la calidad de los datos en BigQuery.
Deficiencias.
ETL para resolver problemas de calidad de datos.
Ejecutar Spark en Cloud Dataproc

El ecosistema de Hadoop.
Ejecutar Hadoop en Cloud Dataproc.
GCS en lugar de HDFS.
Optimización de Dataproc.
Laboratorio: ejecución de Apache Spark jobs en Cloud Dataproc.
Procesamiento de datos Serverless con Cloud Dataflow

Cloud Dataflow.
El valor del Dataflow para los clientes.
Dataflow Pipelines.
Laboratorio: Un Dataflow Pipeline simple (Python/Java).
Laboratorio: MapReduce en Dataflow (Python/Java).
Laboratorio: Side Inputs (Python/Java).
Plantillas de Dataflow.
Dataflow SQL.
Administrar Data Pipelines con Cloud Data Fusion y Cloud Composer

Crear de manera visual Batch Data Pipelines con Cloud Data Fusion.
Componentes.
Descripción general de la UI.
Creacion de un Pipeline.
Estudio de datos con el uso de Wrangler.
Laboratorio: creación y ejecución de un gráfico pipeline en Cloud Data Fusion.
Orquestar el trabajo entre los servicios de GCP con Cloud Composer.
Apache Airflow Environment.
DAGs y Operadores.
Programación de un Workflow.
Demostración opcional: carga de datos activada por eventos con Cloud Composer, Cloud Functions, Cloud Storage y BigQuery.
Monitorización y Logging.
Laboratorio: Introducción a Cloud Composer.
Introducción al procesamiento de datos streaming

Procesamiento de datos streaming.
Mensajería Serverless con Cloud Pub/Sub

Cloud Pub/Sub.
Laboratorio: Publicar datos streaming en Pub/Sub.
Características de Cloud Dataflow Streaming

Características de BigQuery Streaming.
Laboratorio: Streaming Data Pipelines.
Características de BigQuery Streaming y Bigtable de alto rendimiento

Características streaming de BigQuery.
Laboratorio: Streaming Analytics y Dashboards.
Cloud Bigtable.
Laboratorio: Streaming Data Pipelines en Bigtable.
Funcionalidad y rendimiento avanzados de BigQuery

Funciones de ventana analíticas.
Uso de cláusulas With.
Funciones GIS.
Demostración: mapear los códigos postales de más rápido crecimiento con BigQuery GeoViz.
Consideraciones de rendimiento.
Laboratorio: Optimización de consultas BigQuery para mejorar el rendimiento.
Laboratorio opcional: creación de tablas particionadas por fecha en BigQuery.
Introducción a la analítica y la IA

¿Qué es la IA?
Del análisis de datos Ad-hoc a las decisiones basadas en datos.
Opciones para modelos ML en GCP.
APIs de modelado ML preconstruidas para datos no estructurados

La dificultad de los datos no estructurados.
APIs de ML para el enriquecimiento los datos.
Laboratorio: uso de la API de lenguaje natural para clasificar texto no estructurado.
Análisis Big Data con Cloud AI Platform Notebooks

¿Qué es un Notebook?
BigQuery Magic y Ties to Pandas.
Laboratorio: BigQuery en Jupyter Labs para la plataforma IA.
Pipelines ML en producción con Kubeflow

Métodos para aplicar ML en GCP.
Kubeflow.
AI Hub.
Laboratorio: ejecución de modelos de IA en Kubeflow.
Creación de modelos personalizados con SQL en BigQuery ML

BigQuery ML para Quick Model Building.
Demostración: enseñar a un modelo de BigQuery ML a predecir las tarifas de taxi de Nueva York.
Modelos compatibles.
Laboratorio (Opción 1): Predecir la duración de un viaje en bicicleta con un modelo de regresión en BQML.
Laboratorio (Opción 2): Recomendaciones de películas en BigQuery ML.
Creación de modelos personalizados con Cloud AutoML

¿Porqué utilizar Auto ML?
Auto ML Vision.
Auto ML NLP.
Tablas Auto ML.

MÓDULO 2: PREPARING FOR THE PROFESSIONAL DATA ENGINEER EXAMINATION

Comprensión de la certificación Professional Data Engineer

Establecer conocimientos básicos sobre el examen de certificación y eliminar cualquier confusión o malentendido sobre el proceso y la naturaleza del examen.
Ejemplo de casos de estudio para el examen Professional Data Engineer

Revisión en profundidad de los casos de estudio proporcionados para la preparación del examen.
Diseño y construcción (consejos de revisión y preparación)

Consejos y ejemplos que cubren habilidades de diseño de sistemas de procesamiento de datos, estructuras de datos y habilidades de bases de datos que podrían ser evaluados en el examen.
Análisis y modelado (consejos de revisión y preparación)

Consejos y ejemplos que cubren el análisis de datos, el análisis y la optimización de los procesos de negocio y las habilidades de machine learning que podrían ser evaluados en el examen.
Fiabilidad, políticas y seguridad (consejos de revisión y preparación)

Solicita información del curso