Envíanos tu consulta

Buscar cursos

Catálogo 2024

¡Últimas plazas!Cursos Servicios FUNDAE Plataforma LMS

Solicitar información

Buscar cursos

Solicitar información

Cursos/Cursos de Big Data/Curso Big Data con Apache Kudu

Curso completo de Big Data con Apache Kudu

DISPONIBLE EN MODALIDAD:

Aula Virtual Personalizada

Este curso trata sobre cómo utilizar big data centrándose en las tres soluciones Apache más populares, dentro del ecosistema Hadoop: Apache Kudu, Apache Spark, Apache Impala para garantizar soluciones Big Data escalables y rendimiento.

Este curso trata sobre cómo utilizar big data para almacenar, procesar y analizar datos estructurados, centrándose en las tres soluciones Apache más populares, dentro del ecosistema Hadoop: Apache Kudu, Apache Spark, Apache Impala. Estos tres productos integrados podrán aportar grandes soluciones en términos de rendimiento y escalabilidad para toda empresa intersada en sacar rendimiento a sus datos.

Formación en Big Data con Apache Kudu bonificable para empresas

¿A quién va dirigido?

Analistas de datos y desarrolladores que quieran utilizar Apache Kudu para trabajar el Data Warehousing de su empresas integrándolo con Apache Spark, Apache Impala, AWS y otras soluciones profesionales.

Objetivos

Obtener unas bases solidas sobre el uso del almacén de datos que es Apache Kudu, orientado en permitir un rápido análisis de los datos
Aprender a integrar Apache Impala, Apache Spark y Apache Kafka para garantizar datos en tiempo real y alta disponibilidad
Aprender a generar visualizaciones de datos y a administrarlos bajo los fundamentos de la gobernanza de datos y data wharehouse
Aprender a securizar soluciones Kudu
Trabajar Apache Kudu en la nube con AWS

¿Qué vas a aprender?

Requisitos

Tener experiencia desarrollando con Python y realizando consultas SQL
Tener experiencia trabajando con Bases de datos relacionales, Apache Spark + Python (Pyspark), Apache Impala y Apache Kafka
Se recomienda tener experiencia con los conceptos de Big Data
Tener acceso (revisar configuraciones proxy en caso de tenerlas) a una cuenta Community de Azure Databricks para realizar los laboraorios de Spark
Son necesarios permisos de instalación en el equipo en el que se realice la formación

Temario del curso

tema 1

Introducción a los fundamentos de Big data

Introducción a los conceptos de Big Data
Utilidades y ventajas reales del Big data
¿Qué es el ecosistema de Apacha Hadoop y qué aplicaciones lo componen?
¿Para qué empleamos Apache Spark?
¿Para qué empleamos Apache Impala?
¿Para qué empleamos Apache Kudu?

tema 2

Big Data Warehousing

Introducción a Data Warehousing para empresas (EDW)
¿Qué son los datos estructurados?
La importancia de los datos estructurados
EDW en la actualidad
Modeado dimansional
Big Data Warehousing con Impala y Kudu

tema 3

Introducción a Apache Kudu

El uso de Apache Kudu con datos estructurados
Casos de uso de Apache Kudu: Mantenimiento y análisis de datos relacionales
Casos de uso de Apache Kudu: Series temporales y datos de IoT
Casos de uso de Apache Kudu: Almacén de plataformas de Machine Learning
Fundamentos esenciales de Apache Kudu
Analizando la arquitectura de Apache Kudu
Introducción al concepto de MVCC (Multi Version Concurrency Control)
¿Cómo las bases de datos con MVCC garantizan la consistencia de lectura?
Instalaciones y y puesta en marcha

tema 4

Clientes API de Kudu

Cliente API para Java
Cliente API para Python
Cliente API para C++

tema 5

Copias de seguridad y recuperación de desastres

Copias de seguridad a través de CTAS

tema 6

Copiando archivos de Apache Parquet a otros clusters

Exportación de resultados desde Impala Shell a directorio local
Exportación de resultados desde Impala Shell a NFS
Exportación de resultados desde Impala Shell a volúmenes SAN
Exportación de resultados desde un Cliente API
Exportación de resultados desde Apache Spark
Replicación con Spark y la API de Kudu Data Source
Introducción a la replicación en tiempo real con StreamSets
Replicación de datos usando soluciones ETL (Talend, Pentaho, etc.)

tema 7

Python e Impala

Introducción a librería Impyla
Pyodbc
SQLAlchemy

tema 8

Opciones de alta disponibilidad

Ingesta de datos dual con Kafka y Spark Streaming
Replicación datos Kafka con MirrorMaker
Ingesta de datos dual con Kafka y StreamSets
Ingesta de datos dual con StreamSets

tema 9

Monitorización y administración

Introducción a Cloudera Manager Kudu Service
Introducción a Kudu Master Web UI
Introducción a Kudu Tablet Server Web UI
Introducción a Kudu Metrics
Introducción a Kudu CLI

tema 10

Problemas conocidos y limitaciones de Apache Kudu

Problemas más conocidos y soluciones actuales
Principales limitaciones de Apache Kudu a tener en cuenta
Buenas prácticas y recomendaciones

tema 11

Aplicando Seguridad a Apache Kudu

Mecanismos de seguridad aplicables a Apache Kudu
Buenas práctiacas a la hora de aplicar seguridad

tema 12

Análisis de datos de alto rendimiento con Impala y Kudu

Introducción a la integración de Impala y Kudu
Claves primarias
Tipos de datos
Tablas internas de Impala
Tablas externas de Impala
Inserción de filas
Actualización de filas
Alteración de filas
Borrado de filas
Esquemas y cómo modificarlos
Introducción al particicionamiento en Impala y Kudu
Particionamiento por hash
Particionamiento por rango
Particionamiento por hash-rango
Particionamiento por hash-hash
Listado de particiones
Usando JDBC con Impala y Kudu

tema 13

Procesado de alto rendimiento con Spark y Kudu

Introducción a la integración de Spark y Kudu
Diferencias entre versiones Spark
Introducción al contexto de Kudu
Insertando datos
Creación de una Tabla Kudu
Actualizando una tabla de Kudu
Alteración de datos
Borrado de datos
Escogiendo datos
Insertando archivos CSV en Kudu
Insertando archivos CSV en Kudu con Spark-CSV
Insertando archivos CSV en Kudu de manera programática especificando un esquema
Insertando archivos XML en Kudu con Spark-XML
Insertando archivos JSON en Kudu
Insertando datos desde MySQL
Insertando datos SQL Server en Kudu
Insertando datos desde HBase en Kudu
Insertando datos desde SOLR en Kudu
Insertando datos desde AWS S3 en Kudu
Insertando filas de datos de Kudu a Apache Parquet
Insertando Dataframes de Oracle y SQL Server en Kudu
Integrando Spark Streaming y Kudu

tema 14

Procesado e Ingesta de datos batch y en tiempo real

Introducción a Streamsets Data Collector
Pipelines
Orígenes de datos
Procesadores de datos
Ejecutores
Consola de recolección de datos
Opciones de despliegue
Usando StreamSets Data Collectos
Ingesta de archivos XML en Kudu
Configurando pipelines
Configurando el directorio de origen
Configurando el procesador de tratamiento XML
¿Cómo validar un pipeline?
¿Cómo previsualizar un pipeline?
Iniciando un pipeline
Stream Selector
Evaluación de expresiones
Usando el evaluador de Javascript
Ingesta de datos en múltiples clusters de Kudu
Rest API
Event Framework
Dataflow Performance Manage

tema 15

Otras integraciones de Big Data destacables (HDFS, Pentaho, Talend, SSIS, Apache NIFI ...)

Ingesta de datos con Kudu
Integración con Pentaho
Ingesta de archivos CSV en HDFS y Kudu
Ingesta de datos en Kudu con transformación
Integración con Talend Open Studio
Integración con SQL Server
Transformación de datos
Integración con SSIS
Integración con Apache NIFI
Integración de Oracle Data Integrator para Big Data
Integración con IBM InfoShere DataStage
Integración con SyncSort
Ingesta de datos con Spark y Kudu Client API
MapReduce y Kudu

tema 16

Visualizaciones de Big Data y análisis de datos

Introducción a las visualizaciones de Big Data
SAS Visual Analytics
Zoomdata
Self-Service Business Intelligence y analítica para Big Data
Visualización de datos en tiempo real
Arquitectura
Integración con Apache Spark
Zoomdata Fuson
Trabajando con mútiples orígenes de datos
Trabajando con datos en tiempo real de IoT con StreamSets, Kudu y Zoomdata
Analizando datos con Trifacta
Analizando datos con Alteryx
Analizando datos con Datameer

tema 17

Computación distribuida: Mejora de la eficiencia, escalabilidad optimización de uso de memoria

Introducción a los conceptos de la computación distribuida
Arquitectura
¿Qué es Alluxio y por qué usarlo?
¿Cómo mejorar la eficiencia del procesado de datos y su escalabilidad?
Compartiendo datos a velocidad de memoria entre varias aplicaciones
Proporcionando alta disponibilidad y persistencia ante errores o caidas de una aplicación
Optimizando el uso de memoria
Minimizando la gestión de recolección de basura
Reduciento requisitos de HW
Componentes de Alluxio
Instalación y puesta en marcha de Alluxio
Integración de Apache Spark y Alluxio
Administración y configuraciones recomendadas de Alluxio (master & worker)
Trabajando con Apache Ignite
Trabajando con Apache Geode

tema 18

Gobernanza de Big Data y mantenimiento

Introducción a los fundamentos de la Gobernanza de datos
Introducción a Cloudera Navigator
Mantenimiento de metadatos
Clasificación de datos
Almacenamiento y análisis de impacto de datos
La importancia del cifrado de datos
Introducción a Clouder Navigator Encrypt
Introducción a Apache Atlas
Introducción a la administración de metadatos de Informatica y Enterprise Data Catalog
Introducción a Collibra
Introducción a Waterline Data
Introducción a Smartlogic

tema 19

Big Data en el mundo Cloud

AWS
Azure
GCP
Cloudera Enterprise en soluciones en la nube
Soluciones híbridas
Soluciones multi cloud
Transient Clusters
Persistent Clusters con Cloudera Director

Testimonios de nuestros clientes

“Empecé a formarme recientemente con ellos y estoy muy sorprendido de la metodología y la calidad de los contenidos. He hecho varios cursos online con otros proveedores pero con ninguno he terminado tan satisfecho como con Imagina.”

“Mi empresa contrató un Aula Virtual Personalizada con Imagina, después de tener malas experiencias con otras academias y nos sorprendió la profesionalidad con la que trabajan. Hicimos 3 reuniones técnicas con Martín antes de empezar la formación y quedamos encantados con el resultado, sin duda repetiremos.”

Curso de Big Data con Apache Kudu bonificado para Empresas a través de FUNDAE

Somos entidad organizadora de FUNDAE, todas nuestras formaciones se pueden bonificar hasta el 100%, sujeto a vuestro crédito disponible y a cumplir con todos los requisitos de realización establecidos por la Fundación Estatal para el Empleo.

Si desconoces el funcionamiento de las bonificaciones, ofrecemos el servicio de gestión en FUNDAE, consúltanos cualquier duda que te surja.

Descargar Guía FUNDAE

Contáctanos

¿Qué formación necesitas?

En Imagina llevamos más de 14 años ofreciendo formación para empresas, estamos especializados en el área técnica y de ofimática, adaptando nuestras formaciones a vuestras necesidades. Déjanos tus datos, y nos pondremos en contacto contigo para informarte sobre el curso que mejor se ajuste a lo que buscas. Cuéntanos tus necesidades y podremos asesorarte sobre la modalidad que mejor se adapte: Curso Online o Aula Virtual Personalizada