Cloudera Data Science at Scale using Spark and Hadoop

Los data scientists son los encargados de construir plataformas de información para proporcionar una visión profunda y responder a preguntas previamente inimaginables. Spark y Hadoop están transformando la forma de trabajar de los data scientists al permitir el análisis de datos interactivos e iterativos a escala.

Aprenda cómo Spark y Hadoop permiten a los data scientists ayudar a las empresas a reducir costos, aumentar los beneficios, mejorar los productos, retener clientes e identificar nuevas oportunidades.

Este curso ayuda a los participantes a comprender lo que hacen los data scientists, los problemas que resuelven y las herramientas y técnicas que utilizan. A través de simulaciones en clase, los participantes aplican los métodos de data science a los retos del mundo real en diferentes industrias y, en última instancia, se preparan para las funciones de data scientist en el campo.

Objetivos

Al finalizar la formación, el participante conocerá:

Cómo identificar casos potenciales de uso comercial donde la ciencia de los datos puede proporcionar resultados impactantes
Cómo obtener, limpiar y combinar fuentes de datos dispares para crear una imagen coherente para el análisis
Qué métodos estadísticos aprovechar para la exploración de datos que proporcionarán información crítica sobre sus datos
Dónde y cuándo aprovechar Hadoop streaming y Apache Spark para data science pipelines
Qué técnica de aprendizaje de máquina utilizar para un proyecto particular de ciencia de datos
Cómo implementar y administrar los recomendadores con MLlib de Spark y cómo configurar y evaluar los experimentos de datos
Cuáles son las dificultades para desplegar nuevos proyectos analíticos en la producción, a escala

data

Disponible en formato e-learning

Disponible en formato presencial

Disponible en formato a distancia

Subvención disponible
A través de Fundae, cumpliendo requisitos.

Duración
21 horas

  • Dificultad 50% 50%
  • Nivel alcanzado 80% 80%

Dirigido a

Conocimientos requeridos

Temario

ntroduction

About This Course
About Cloudera
Course Logistics
Introductions
Data Science Overview

What Is Data Science?
The Growing Need for Data Science
The Role of a Data Scientist
Use Cases

Finance
Retail
Advertising
Defense and Intelligence
Telecommunications and Utilities
Healthcare and Pharmaceuticals
Project Lifecycle

Steps in the Project Lifecycle
Lab Scenario Explanation
Data Acquisition

Where to Source Data
Acquisition Techniques
Evaluating Input Data

Data Formats
Data Quantity
Data Quality
Data Transformation

File Format Conversion
Joining Data Sets
Anonymization
Data Analysis and Statistical Method

Relationship Between Statistics and Probability
Descriptive Statistics
Inferential Statistics
Vectors and Matrices
Fundamentals of Machine Learning

Overview
The Three C’s of Machine Learning
Importance of Data and Algorithms
Spotlight: Naive Bayes Classifiers
Recommender Overview

What is a Recommender System?
Types of Collaborative Filtering
Limitations of Recommender Systems
Fundamental Concepts
Introduction to Apache Spark and MLlib

What is Apache Spark?
Comparison to MapReduce
Fundamentals of Apache Spark
Spark’s MLlib Package
Implementing Recommenders with MLlib

Overview of ALS Method for
Latent Factor Recommenders
Hyperparameters for ALS Recommenders
Building a Recommender in MLlib
Tuning Hyperparameters
Weighting
Experimentation and Evaluation

Designing Effective Experiments
Conducting an Effective Experiment
User Interfaces for Recommenders
Production Deployment and Beyond

Deploying to Production
Tips and Techniques for Working at Scale
Summarizing and Visualizing Results
Considerations for Improvement
Next Steps for Recommenders

Solicita información del curso