- Presentación
- Temario
- Metodología
- Titulación
Descripción
¿A quién va dirigido?
Objetivos
Salidas Profesionales
Temario
UNIDAD DIDÁCTICA 1. LA REVOLUCIÓN DE LOS DATOS MASIVOS: BIG DATA Y THICK DATA
- ¿Qué es Big Data?
- ¿Y Thick Data? ¿Cuál es el matiz para diferenciar ambos términos?
- El gran auge del big data
- La importancia de almacenar y extraer información
- ¿Cuál es el papel de las fuentes de datos?
- Soluciones novedosas gracias a la selección de datos
- Naturaleza de las fuentes de datos Big Data
UNIDAD DIDÁCTICA 2. MINERÍA DE DATOS O DATA MINING Y EL APRENDIZAJE AUTOMÁTICO
- Introducción a la minería de datos y el aprendizaje automático
- Proceso KDD
- Modelos y Técnicas de Data Mining
- Áreas de aplicación
- Minería de Textos y Web Mining
- Data mining y marketing
UNIDAD DIDÁCTICA 3. ECOSISTEMA HADOOP
- ¿Qué es Hadoop? Relación con Big Data
- Instalación y configuración de infraestructura y ecosistema Hadoop
- Sistema de archivos HDFS
- MapReduce con Hadoop
- Apache Hive
- Apache Hue
- Apache Spark
UNIDAD DIDÁCTICA 4. FUNDAMENTOS DE APACHE SPARK
- Introducción a Apache Spark: arquitectura y componentes
- RDDs (Resilient Distributed Datasets): API básico, operaciones y persistencia
- Transformaciones y acciones en RDDs
- Programación funcional en Spark: Scala y Python
- Entornos de desarrollo para Spark: Spark Standalone, YARN, Kubernetes
UNIDAD DIDÁCTICA 5. API DE DATASETS EN SPARK
- DataFrames y Datasets: API estructurada para datos
- Lectura y escritura de DataFrames desde diferentes fuentes
- Transformaciones en DataFrames: filtros, joins, agregaciones, etc
- Funciones SQL en Spark: Spark SQL
- Optimización de queries en Spark
UNIDAD DIDÁCTICA 6. STREAMING DE DATOS CON SPARK
- Introducción al streaming de datos: conceptos clave
- Spark Streaming: API DStream y receptores
- Micro-batches y ventanas en streaming
- Integración de Spark Streaming con Kafka
- Aplicaciones de streaming: análisis de tweets, detección de fraudes, etc
UNIDAD DIDÁCTICA 7. MACHINE LEARNING CON SPARK
- Introducción al Machine Learning: tipos de aprendizaje
- MLlib: biblioteca de Machine Learning en Spark
- Regresión lineal y logística con Spark
- Clasificación de texto con Spark
- Clustering con Spark: K-Means, K-NN
- Algoritmos avanzados: Random Forest, Gradient Boosting
UNIDAD DIDÁCTICA 8. GRAPHS Y ALGORITMOS DE REDES
- Introducción a GraphX: API para grafos en Spark
- Representación de grafos en GraphX
- Algoritmos básicos de grafos: PageRank, Shortest Path
- Análisis de comunidades en grafos
- Aplicaciones de GraphX: recomendación de productos, análisis de redes sociales
UNIDAD DIDÁCTICA 9. BIG DATA EN LA NUBE
- Introducción a la computación en la nube: AWS, Azure, GCP
- Servicios de Big Data en la nube: EMR, Dataproc, BigQuery
- Implementación de Spark en la nube
- Seguridad y escalabilidad en la nube
Metodología
EDUCA LXP se basa en 6 pilares
Titulación

INESEM Business School se ocupa también de la gestión de la Apostilla de la Haya, previa demanda del estudiante. Este sello garantiza la autenticidad de la firma del título en los 113 países suscritos al Convenio de la Haya sin necesidad de otra autenticación. El coste de esta gestión es de 65 euros. Si deseas más información contacta con nosotros en el 958 050 205 y resolveremos todas tus dudas.
Explora nuestras Áreas Formativas
Construye tu carrera profesional
Descubre nuestro amplio Catálogo Formativo, incluye programas de Cursos Superior, Expertos, Master Profesionales y Master Universitarios en las diferentes Áreas Formativas para impulsar tu carrera profesional.
Curso de Big Data con Apache Spark