Google Cloud Data Engineering – Professional Data Engineer Certification
El presente curso está orientado para que el alumno obtenga las habilidades y conocimientos necesarios para ser un Ingeniero de Datos profesional de Google Cloud, un perfil laboral que habilita la toma de decisiones basada en datos mediante la recopilación, transformación y publicación de los mismos. También es capaz de diseñar, construir, operar, asegurar y monitorizar los sistemas de procesamiento de datos con un énfasis particular en la seguridad y el cumplimiento; la escalabilidad y la eficiencia; la fiabilidad y la fidelidad; y la flexibilidad y la portabilidad. Además, es capaz de aprovechar, desplegar e implementar continuamente modelos de machine learning preexistentes.
Objetivos
Diseñar y construir sistemas de procesamiento de datos en Google Cloud Platform.
Procesar datos batch y transferencia continua implementando canales de autoescalado de datos en Cloud Dataflow.
Conseguir información de negoción de datasets enormes utilizando Google BigQuery.
Evaluar y predecir utilizando modelos machine learning utilizando Tensorflow y Cloud ML.
Hacer uso de datos no estructurado utilizando Spark y APIs ML en Cloud Dataproc.
Habilitar información instantánea de la transferencia continua de datos.
Proporcionar información, consejos y sugerencias de cara a la realización del examen de certificación asociado al presente curso.
Revisar en profundidad varios ejemplos de estudio de casos.
Revisar cada sección del examen abarcando conceptos de alto nivel para generar la suficiente seguridad y confianza para afrontar el examen de certificación.
Identificar aquellas áreas de estudio en las deban mejorar.
data
Disponible en formato e-learning
Disponible en formato presencial
Disponible en formato a distancia
Subvención disponible
A través de Fundae, cumpliendo requisitos.
Duración
34 horas
- Dificultad 50%
- Nivel alcanzado 80%
Dirigido a
Conocimientos requeridos
Temario
MÓDULO 1: DATA ENGINEERING ON GOOGLE CLOUD PLATFORM
Introducción a la ingeniería de datos
Conocer el rol de un ingeniero de datos.
Analizar los desafíos de la ingeniería de datos.
Introducción a BigQuery.
Data Lakes y Data Warehouses.
Demostración: Federated Queries con BigQuery.
Bases de datos transaccionales vs Data Warehouses.
Demostración web: Encontrar PII en su dataset con la API DLP.
Asociación efectiva con otros equipos de datos.
Gestionar el acceso a los datos y la gobernanza.
Creación de pipelines listos para producción.
Revisión del caso de estudio personalizado de GCP.
Laboratorio: análisis de datos con BigQuery.
Creación de un Data Lake
Introducción a Data Lakes.
Almacenamiento de datos y opciones ETL en GCP.
Creación de un Data Lake con almacenamiento en Cloud.
Demostración opcional: optimización de costes con las clases de Google Cloud Storage y las funciones Cloud.
Securizar el almacenamiento en Cloud.
Almacenar de manera ordenada todo tipo de datos.
Video demostración: ejecución de federated queries en ficheros ORC y Parquet en BigQuery.
Cloud SQL como un Data Lake relacional.
Laboratorio: Carga de datos procedentes de un taxi en Cloud SQL.
Creación de un Data Warehouse
El Data Warehouse moderno.
Introducción a BigQuery.
Demostración: Query TB+ de datos en segundos.
Introducción.
Carga de datos.
Video demostración: Consulta de Cloud SQL desde BigQuery.
Laboratorio: carga de datos en BigQuery.
Estudio de esquemas.
Demostración: estudio de Datasets públicos de BigQuery con SQL utilizando INFORMATION_SCHEMA.
Diseño de esquemas.
Campos anidados y repetidos.
Demostración: campos anidados y repetidos en BigQuery.
Laboratorio: trabajar con datos JSON y Array en BigQuery.
Optimización con particionamiento y clustering.
Demostración: Tablas particionadas y clusterizadas en BigQuery.
Vista previa: transformación de datos Batch y Streaming.
Introducción a la creación de Batch Data Pipelines
EL, ELT, ETL.
Consideraciones de calidad.
Realizar operaciones en BigQuery.
Demostración: ELT para mejorar la calidad de los datos en BigQuery.
Deficiencias.
ETL para resolver problemas de calidad de datos.
Ejecutar Spark en Cloud Dataproc
El ecosistema de Hadoop.
Ejecutar Hadoop en Cloud Dataproc.
GCS en lugar de HDFS.
Optimización de Dataproc.
Laboratorio: ejecución de Apache Spark jobs en Cloud Dataproc.
Procesamiento de datos Serverless con Cloud Dataflow
Cloud Dataflow.
El valor del Dataflow para los clientes.
Dataflow Pipelines.
Laboratorio: Un Dataflow Pipeline simple (Python/Java).
Laboratorio: MapReduce en Dataflow (Python/Java).
Laboratorio: Side Inputs (Python/Java).
Plantillas de Dataflow.
Dataflow SQL.
Administrar Data Pipelines con Cloud Data Fusion y Cloud Composer
Crear de manera visual Batch Data Pipelines con Cloud Data Fusion.
Componentes.
Descripción general de la UI.
Creacion de un Pipeline.
Estudio de datos con el uso de Wrangler.
Laboratorio: creación y ejecución de un gráfico pipeline en Cloud Data Fusion.
Orquestar el trabajo entre los servicios de GCP con Cloud Composer.
Apache Airflow Environment.
DAGs y Operadores.
Programación de un Workflow.
Demostración opcional: carga de datos activada por eventos con Cloud Composer, Cloud Functions, Cloud Storage y BigQuery.
Monitorización y Logging.
Laboratorio: Introducción a Cloud Composer.
Introducción al procesamiento de datos streaming
Procesamiento de datos streaming.
Mensajería Serverless con Cloud Pub/Sub
Cloud Pub/Sub.
Laboratorio: Publicar datos streaming en Pub/Sub.
Características de Cloud Dataflow Streaming
Características de BigQuery Streaming.
Laboratorio: Streaming Data Pipelines.
Características de BigQuery Streaming y Bigtable de alto rendimiento
Características streaming de BigQuery.
Laboratorio: Streaming Analytics y Dashboards.
Cloud Bigtable.
Laboratorio: Streaming Data Pipelines en Bigtable.
Funcionalidad y rendimiento avanzados de BigQuery
Funciones de ventana analíticas.
Uso de cláusulas With.
Funciones GIS.
Demostración: mapear los códigos postales de más rápido crecimiento con BigQuery GeoViz.
Consideraciones de rendimiento.
Laboratorio: Optimización de consultas BigQuery para mejorar el rendimiento.
Laboratorio opcional: creación de tablas particionadas por fecha en BigQuery.
Introducción a la analítica y la IA
¿Qué es la IA?
Del análisis de datos Ad-hoc a las decisiones basadas en datos.
Opciones para modelos ML en GCP.
APIs de modelado ML preconstruidas para datos no estructurados
La dificultad de los datos no estructurados.
APIs de ML para el enriquecimiento los datos.
Laboratorio: uso de la API de lenguaje natural para clasificar texto no estructurado.
Análisis Big Data con Cloud AI Platform Notebooks
¿Qué es un Notebook?
BigQuery Magic y Ties to Pandas.
Laboratorio: BigQuery en Jupyter Labs para la plataforma IA.
Pipelines ML en producción con Kubeflow
Métodos para aplicar ML en GCP.
Kubeflow.
AI Hub.
Laboratorio: ejecución de modelos de IA en Kubeflow.
Creación de modelos personalizados con SQL en BigQuery ML
BigQuery ML para Quick Model Building.
Demostración: enseñar a un modelo de BigQuery ML a predecir las tarifas de taxi de Nueva York.
Modelos compatibles.
Laboratorio (Opción 1): Predecir la duración de un viaje en bicicleta con un modelo de regresión en BQML.
Laboratorio (Opción 2): Recomendaciones de películas en BigQuery ML.
Creación de modelos personalizados con Cloud AutoML
¿Porqué utilizar Auto ML?
Auto ML Vision.
Auto ML NLP.
Tablas Auto ML.
MÓDULO 2: PREPARING FOR THE PROFESSIONAL DATA ENGINEER EXAMINATION
Comprensión de la certificación Professional Data Engineer
Establecer conocimientos básicos sobre el examen de certificación y eliminar cualquier confusión o malentendido sobre el proceso y la naturaleza del examen.
Ejemplo de casos de estudio para el examen Professional Data Engineer
Revisión en profundidad de los casos de estudio proporcionados para la preparación del examen.
Diseño y construcción (consejos de revisión y preparación)
Consejos y ejemplos que cubren habilidades de diseño de sistemas de procesamiento de datos, estructuras de datos y habilidades de bases de datos que podrían ser evaluados en el examen.
Análisis y modelado (consejos de revisión y preparación)
Consejos y ejemplos que cubren el análisis de datos, el análisis y la optimización de los procesos de negocio y las habilidades de machine learning que podrían ser evaluados en el examen.
Fiabilidad, políticas y seguridad (consejos de revisión y preparación)
Comentarios recientes