Envíanos tu consulta
Términos y condiciones *
*Si no puedes asistir en directo de facilitaremos un enlace para verlo en diferido
logoImagina
iconoCurso

Curso completo de Big Data con Apache Kudu

DISPONIBLE EN MODALIDAD:
Este curso trata sobre cómo utilizar big data para almacenar, procesar y analizar datos estructurados, centrándose en las tres soluciones Apache más populares, dentro del ecosistema Hadoop: Apache Kudu, Apache Spark, Apache Impala. Estos tres productos integrados podrán aportar grandes soluciones en términos de rendimiento y escalabilidad para toda empresa intersada en sacar rendimiento a sus datos.
iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient
Formación en Big Data con Apache Kudu bonificable para empresas

¿A quién va dirigido?

Analistas de datos y desarrolladores que quieran utilizar Apache Kudu para trabajar el Data Warehousing de su empresas integrándolo con Apache Spark, Apache Impala, AWS y otras soluciones profesionales.

Objetivos

  • Obtener unas bases solidas sobre el uso del almacén de datos que es Apache Kudu, orientado en permitir un rápido análisis de los datos
  • Aprender a integrar Apache Impala, Apache Spark y Apache Kafka para garantizar datos en tiempo real y alta disponibilidad
  • Aprender a generar visualizaciones de datos y a administrarlos bajo los fundamentos de la gobernanza de datos y data wharehouse
  • Aprender a securizar soluciones Kudu
  • Trabajar Apache Kudu en la nube con AWS

¿Qué vas a aprender?

Este curso trata sobre cómo utilizar big data para almacenar, procesar y analizar datos estructurados, centrándose en las tres soluciones Apache más populares, dentro del ecosistema Hadoop: Apache Kudu, Apache Spark, Apache Impala. Estos tres productos integrados podrán aportar grandes soluciones en términos de rendimiento y escalabilidad para toda empresa intersada en sacar rendimiento a sus datos.

Requisitos

  • Tener experiencia desarrollando con Python y realizando consultas SQL
  • Tener experiencia trabajando con Bases de datos relacionales, Apache Spark + Python (Pyspark), Apache Impala y Apache Kafka
  • Se recomienda tener experiencia con los conceptos de Big Data
  • Tener acceso (revisar configuraciones proxy en caso de tenerlas) a una cuenta Community de Azure Databricks para realizar los laboraorios de Spark
  • Son necesarios permisos de instalación en el equipo en el que se realice la formación

Temario del curso

tema 1

Introducción a los fundamentos de Big data

  • Introducción a los conceptos de Big Data
  • Utilidades y ventajas reales del Big data
  • ¿Qué es el ecosistema de Apacha Hadoop y qué aplicaciones lo componen?
  • ¿Para qué empleamos Apache Spark?
  • ¿Para qué empleamos Apache Impala?
  • ¿Para qué empleamos Apache Kudu?
tema 2

Big Data Warehousing

  • Introducción a Data Warehousing para empresas (EDW)
  • ¿Qué son los datos estructurados?
  • La importancia de los datos estructurados
  • EDW en la actualidad
  • Modeado dimansional
  • Big Data Warehousing con Impala y Kudu
tema 3

Introducción a Apache Kudu

  • El uso de Apache Kudu con datos estructurados
  • Casos de uso de Apache Kudu: Mantenimiento y análisis de datos relacionales
  • Casos de uso de Apache Kudu: Series temporales y datos de IoT
  • Casos de uso de Apache Kudu: Almacén de plataformas de Machine Learning
  • Fundamentos esenciales de Apache Kudu
  • Analizando la arquitectura de Apache Kudu
  • Introducción al concepto de MVCC (Multi Version Concurrency Control)
  • ¿Cómo las bases de datos con MVCC garantizan la consistencia de lectura?
  • Instalaciones y y puesta en marcha
tema 4

Clientes API de Kudu

  • Cliente API para Java
  • Cliente API para Python
  • Cliente API para C++
tema 5

Copias de seguridad y recuperación de desastres

  • Copias de seguridad a través de CTAS
tema 6

Copiando archivos de Apache Parquet a otros clusters

  • Exportación de resultados desde Impala Shell a directorio local
  • Exportación de resultados desde Impala Shell a NFS
  • Exportación de resultados desde Impala Shell a volúmenes SAN
  • Exportación de resultados desde un Cliente API
  • Exportación de resultados desde Apache Spark
  • Replicación con Spark y la API de Kudu Data Source
  • Introducción a la replicación en tiempo real con StreamSets
  • Replicación de datos usando soluciones ETL (Talend, Pentaho, etc.)
tema 7

Python e Impala

  • Introducción a librería Impyla
  • Pyodbc
  • SQLAlchemy
tema 8

Opciones de alta disponibilidad

  • Ingesta de datos dual con Kafka y Spark Streaming
  • Replicación datos Kafka con MirrorMaker
  • Ingesta de datos dual con Kafka y StreamSets
  • Ingesta de datos dual con StreamSets
tema 9

Monitorización y administración

  • Introducción a Cloudera Manager Kudu Service
  • Introducción a Kudu Master Web UI
  • Introducción a Kudu Tablet Server Web UI
  • Introducción a Kudu Metrics
  • Introducción a Kudu CLI
tema 10

Problemas conocidos y limitaciones de Apache Kudu

  • Problemas más conocidos y soluciones actuales
  • Principales limitaciones de Apache Kudu a tener en cuenta
  • Buenas prácticas y recomendaciones
tema 11

Aplicando Seguridad a Apache Kudu

  • Mecanismos de seguridad aplicables a Apache Kudu
  • Buenas práctiacas a la hora de aplicar seguridad
tema 12

Análisis de datos de alto rendimiento con Impala y Kudu

  • Introducción a la integración de Impala y Kudu
  • Claves primarias
  • Tipos de datos
  • Tablas internas de Impala
  • Tablas externas de Impala
  • Inserción de filas
  • Actualización de filas
  • Alteración de filas
  • Borrado de filas
  • Esquemas y cómo modificarlos
  • Introducción al particicionamiento en Impala y Kudu
  • Particionamiento por hash
  • Particionamiento por rango
  • Particionamiento por hash-rango
  • Particionamiento por hash-hash
  • Listado de particiones
  • Usando JDBC con Impala y Kudu
tema 13

Procesado de alto rendimiento con Spark y Kudu

  • Introducción a la integración de Spark y Kudu
  • Diferencias entre versiones Spark
  • Introducción al contexto de Kudu
  • Insertando datos
  • Creación de una Tabla Kudu
  • Actualizando una tabla de Kudu
  • Alteración de datos
  • Borrado de datos
  • Escogiendo datos
  • Insertando archivos CSV en Kudu
  • Insertando archivos CSV en Kudu con Spark-CSV
  • Insertando archivos CSV en Kudu de manera programática especificando un esquema
  • Insertando archivos XML en Kudu con Spark-XML
  • Insertando archivos JSON en Kudu
  • Insertando datos desde MySQL
  • Insertando datos SQL Server en Kudu
  • Insertando datos desde HBase en Kudu
  • Insertando datos desde SOLR en Kudu
  • Insertando datos desde AWS S3 en Kudu
  • Insertando filas de datos de Kudu a Apache Parquet
  • Insertando Dataframes de Oracle y SQL Server en Kudu
  • Integrando Spark Streaming y Kudu
tema 14

Procesado e Ingesta de datos batch y en tiempo real

  • Introducción a Streamsets Data Collector
  • Pipelines
  • Orígenes de datos
  • Procesadores de datos
  • Ejecutores
  • Consola de recolección de datos
  • Opciones de despliegue
  • Usando StreamSets Data Collectos
  • Ingesta de archivos XML en Kudu
  • Configurando pipelines
  • Configurando el directorio de origen
  • Configurando el procesador de tratamiento XML
  • ¿Cómo validar un pipeline?
  • ¿Cómo previsualizar un pipeline?
  • Iniciando un pipeline
  • Stream Selector
  • Evaluación de expresiones
  • Usando el evaluador de Javascript
  • Ingesta de datos en múltiples clusters de Kudu
  • Rest API
  • Event Framework
  • Dataflow Performance Manage
tema 15

Otras integraciones de Big Data destacables (HDFS, Pentaho, Talend, SSIS, Apache NIFI ...)

  • Ingesta de datos con Kudu
  • Integración con Pentaho
  • Ingesta de archivos CSV en HDFS y Kudu
  • Ingesta de datos en Kudu con transformación
  • Integración con Talend Open Studio
  • Integración con SQL Server
  • Transformación de datos
  • Integración con SSIS
  • Integración con Apache NIFI
  • Integración de Oracle Data Integrator para Big Data
  • Integración con IBM InfoShere DataStage
  • Integración con SyncSort
  • Ingesta de datos con Spark y Kudu Client API
  • MapReduce y Kudu
tema 16

Visualizaciones de Big Data y análisis de datos

  • Introducción a las visualizaciones de Big Data
  • SAS Visual Analytics
  • Zoomdata
  • Self-Service Business Intelligence y analítica para Big Data
  • Visualización de datos en tiempo real
  • Arquitectura
  • Integración con Apache Spark
  • Zoomdata Fuson
  • Trabajando con mútiples orígenes de datos
  • Trabajando con datos en tiempo real de IoT con StreamSets, Kudu y Zoomdata
  • Analizando datos con Trifacta
  • Analizando datos con Alteryx
  • Analizando datos con Datameer
tema 17

Computación distribuida: Mejora de la eficiencia, escalabilidad optimización de uso de memoria

  • Introducción a los conceptos de la computación distribuida
  • Arquitectura
  • ¿Qué es Alluxio y por qué usarlo?
  • ¿Cómo mejorar la eficiencia del procesado de datos y su escalabilidad?
  • Compartiendo datos a velocidad de memoria entre varias aplicaciones
  • Proporcionando alta disponibilidad y persistencia ante errores o caidas de una aplicación
  • Optimizando el uso de memoria
  • Minimizando la gestión de recolección de basura
  • Reduciento requisitos de HW
  • Componentes de Alluxio
  • Instalación y puesta en marcha de Alluxio
  • Integración de Apache Spark y Alluxio
  • Administración y configuraciones recomendadas de Alluxio (master & worker)
  • Trabajando con Apache Ignite
  • Trabajando con Apache Geode
tema 18

Gobernanza de Big Data y mantenimiento

  • Introducción a los fundamentos de la Gobernanza de datos
  • Introducción a Cloudera Navigator
  • Mantenimiento de metadatos
  • Clasificación de datos
  • Almacenamiento y análisis de impacto de datos
  • La importancia del cifrado de datos
  • Introducción a Clouder Navigator Encrypt
  • Introducción a Apache Atlas
  • Introducción a la administración de metadatos de Informatica y Enterprise Data Catalog
  • Introducción a Collibra
  • Introducción a Waterline Data
  • Introducción a Smartlogic
tema 19

Big Data en el mundo Cloud

  • AWS
  • Azure
  • GCP
  • Cloudera Enterprise en soluciones en la nube
  • Soluciones híbridas
  • Soluciones multi cloud
  • Transient Clusters
  • Persistent Clusters con Cloudera Director

Curso de Big Data con Apache Kudu bonificado para Empresas a través de FUNDAE

Somos entidad organizadora de FUNDAE, todas nuestras formaciones se pueden bonificar hasta el 100%, sujeto a vuestro crédito disponible y a cumplir con todos los requisitos de realización establecidos por la Fundación Estatal para el Empleo.

 

Si desconoces el funcionamiento de las bonificaciones, ofrecemos el servicio de gestión en FUNDAE, consúltanos cualquier duda que te surja.

Descargar Guía FUNDAE
imagenFundae
iconClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClienticonClient