Curso de Big Data con Spark y Python
Aprende a utilizar Apache Spark, el framework de computación en clúster de código abierto, orientado al procesamiento de datos en tiempo real, que provee de una interfaz para programar clusters con paralelismo de datos implícito y tolerancia a fallos
¿Qué voy a aprender con este curso de Big Data con Spark y Python?
Aprenderás a utilizar Spark desde lo más básico utilizando Python para operar sobre datos, conocerás qué son los clusters y cómo trabajar con ellos, qué es el machine learning y a desplegar aplicaciones.
¿A quién va dirigido?
A todos aquellos desarrolladores que quieran aprender la tecnología de procesamiento de datos en memoria más puntera del mercado.
Objetivos
El objetivo del curso es conseguir que nuestros alumnos conozcan desde 0 el framework Spark y aprendan a utilizarlo de forma eficiente, utilizando Python como lenguaje de programación.
Introducción
- ¿Qué es Spark?
- ¿Qué es Hadoop?
- ¿Qué es HBase?
- HDFS
- Principales comandos de HDFS
- Instalación de Spark
- Python
- PySpark
- Funciones esenciales de Python
- Consola de Spark
- PyCharm
- Arquitectura
- Componentes
RDD
- Introducción a los RDD en Spark
- Creación de un RDD
- Map
- Filter
- Flatmap
- Cache
- Persistencia
- RDDs numérico
RDD Clave-Valor
- Introducción a los RDD Clave-Valor en Spark
- Creación de RDD Clave-Valor
- Filter
- MapValue
- Reduce By Key
- Group By Key
- Sort By Key
- Particionamiento de datos
- Operaciones Join
Apache Spark SQL
- Introducción a Spark SQL
- Esquemas
- Operaciones SQL
- Opciones de Entrada/Salida
- DataFrames
- DataSets
- Uniones
- Conjuntos de datos fuertemente tipados
- Uso de conjunto de datos
- Conversiones
- Optimizaciones de rendimiento
Machine Learning con Spark
- Introducción a MLLib
- Creación de un sistema de ML
- Regresión Lineal con MLLib
- Dataframes con MLLib
Clusters
- Estrategias de replicación
- Creación de un cluster
- Lanzamiento de trabajos
- Monitorización de clusters
- Particionamiento
Despliegue
- Estructura de los proyectos
- SBT
- Despliegue de aplicaciones
- Empaquetado de aplicaciones
- Spark-Submit
Buenas prácticas
- Recomendaciones de programación paralela
- Inmutabilidad
- Uso de lambdas
- Bucles
- Uso de funciones dentro de Dataframes
Detección de problemas
- Planes de ejecución
- Detectando un Shuffle en un procesamiento
- Probando operaciones que puedan causar un Shuffle
- Cambiando el diseño de trabajos con dependencias amplias
- Usando operaciones keyBy para reducir los Shuffle
- Usando particionadores personalizado
¿No es lo que estabas buscando? También hacemos temarios a medida para empresas, consultanos.
Dispondrás de un profesor experimentado en programación y desarrollo, que te ayudará
y responderá a todas tus dudas.

Tutor personal

Proyecto final

Diploma de certificación

Plataforma online

Disponibilidad horaria
