Horari: dimarts, 3 hores seguides. Inici: 15 setembre 2026.
Vacances: Nadal (22 des.–7 gen.) · Carnestoltes (25 feb.–3 mar.) · Setmana Santa (9 abr.–21 abr.)
Proves escrites: una prova al final de cada bloc quan escau; s'indiquen a la taula.
Bloc 1 — Introducció al Big Data (RA1)
Sessió
Data
Hores
Continguts
Activitats
RA Treballat
S01
15 set.
3h
Presentació del mòdul. Què és el Big Data. Les 5V: volum, velocitat, varietat, veracitat, valor. Casos reals: Visa, Netflix, IoT industrial.
Qüestionari inicial. AC5074/01/01 — Cerca de tres casos reals de Big Data i presentació a l'aula.
RA1
S02
22 set.
3h
Panorama tecnològic 2026: ecosistema Hadoop, Spark, Kafka, Flink, Airflow, dbt. Perfils professionals: Data Engineer, Data Scientist, Analytics Engineer, BI Developer. Sortides laborals i salaris.
AC5074/01/02 — Anàlisi de tres ofertes de feina de Big Data a LinkedIn i identificació de les eines més demandades.
RA1
S03
29 set.
3h
Arquitectures de dades: Data Warehouse clàssic (Kimball vs Inmon), Data Lake, Data Lakehouse (Delta Lake, Iceberg), Data Mesh. Quan usar cadascuna. Prova escrita Bloc 1.
AC5074/01/03 — Diagrama comparatiu d'arquitectures. PR507401 — Anàlisi del panorama Big Data.
RA1
Total Bloc 1
9h
Bloc 2 — Dades relacionals a gran escala (RA1, RA3)
Sessió
Data
Hores
Continguts
Activitats
RA Treballat
S04
06 oct.
3h
Per què les BD relacionals segueixen essent rellevants en Big Data. Revisió de conceptes: índexs B-Tree, Hash, GIN. Índexs parcials i funcionals en PostgreSQL. Cost real dels índexs en operacions DML.
AC5074/02/01 — Creació i comparativa d'índexs sobre una taula de 5 milions de registres en Docker.
RA1, RA3
S05
13 oct.
3h
Índexs clusteritzats. EXPLAIN ANALYZE: lectura del pla d'execució, Seq Scan vs Index Scan vs Bitmap Scan. Cost en nodes. Estadístiques de la taula: ANALYZE, pg_stats.
AC5074/02/02 — Lectura i interpretació de plans EXPLAIN ANALYZE sobre consultes reals.
RA1, RA3
S06
20 oct.
3h
Particionament de taules: concepte i motivació. Particionament per rang, per llista, per hash. Partition pruning automàtic. Índexs sobre taules particionades.
AC5074/02/03 — Creació d'una taula de transaccions particionada per rang de data. Comparativa de rendiment amb i sense particions.
RA3
S07
27 oct.
3h
Reescriptura de queries per al rendiment: CTE materialitzades vs CTE inline, subconsultes laterals, window functions eficients. Estadística avançada: pg_stat_statements.
AC5074/02/04 — Reescriptura de cinc queries lentes identificades amb pg_stat_statements.
RA3
S08
03 nov.
3h
Replicació bàsica: concepte de replicació streaming en PostgreSQL. Primary i répliques en lectura. Casos d'ús: read scaling, high availability. Connection pooling: PgBouncer.
AC5074/02/05 — Muntatge d'un clúster primary-réplica amb Docker Compose.
RA3
S09
10 nov.
3h
Repàs i pràctica integradora del Bloc 2. Resolució de dubtes. Prova escrita Bloc 2.
Pràctica avaluable PR507402 — Optimització de BD relacional amb Docker. Rúbrica Bloc 2.
RA1, RA3
Total Bloc 2
18h
Bloc 3 — Dades no relacionals — MongoDB (RA3)
Sessió
Data
Hores
Continguts
Activitats
RA Treballat
S10
17 nov.
3h
Introducció a MongoDB: model de documents, col·leccions, BSON. Comparativa amb el model relacional. Casos d'ús on MongoDB guanya. Instal·lació amb Docker i MongoDB Compass.
AC5074/03/01 — Instal·lació i exploració de MongoDB en Docker. Inserció del primer document i comparació amb SQL.
RA3
S11
24 nov.
3h
CRUD en MongoDB: insertOne, insertMany, find, findOne. Operadors de filtre: $eq, $gt, $lt, $in, $regex. Projecció. sort i limit.
AC5074/03/02 — Consultes CRUD sobre una col·lecció de productes d'e-commerce amb 100.000 documents.
RA3
S12
01 des.
3h
Aggregation Pipeline: $match, $group, $project, $sort, $limit, $lookup, $unwind. Diferència entre find i aggregate. Casos pràctics reals.
AC5074/03/03 — Aggregation pipeline per calcular les vendes per categoria i les 10 ciutats amb més comandes.
RA3
S13
08 des.
3h
Schema design en MongoDB: embedded documents vs references. Patrons de disseny: One-to-Many, Many-to-Many, Polymorphic. Quan desnormalitzar.
AC5074/03/04 — Disseny de l'esquema per a una aplicació de gestió d'esdeveniments (event management) amb MongoDB.
RA3
S14
15 des.
3h
Índexs en MongoDB: índexs simples, compostos, de text, geoespacials. Explain en MongoDB. Repàs i pràctica integradora del Bloc 3. Prova escrita Bloc 3.
AC5074/03/05 — Creació d'índexs i mesura del seu impacte amb explain. Pràctica avaluable PR507403 — MongoDB amb Docker.
RA3
Total Bloc 3
15h
Vacances de Nadal: 22 desembre 2026 – 7 gener 2027
Bloc 4 — Arquitectura de dades — Cloud AWS i Azure (RA3)
Sessió
Data
Hores
Continguts
Activitats
RA Treballat
S15
12 gen.
3h
Introducció al núvol per a Big Data. AWS vs Azure vs GCP: posicionament. Serveis gestionats vs infraestructura pròpia. Model de costos pay-as-you-go. AWS: S3 (objectes, buckets, policies, lifecycle rules).
AC5074/04/01 — Exploració de la consola AWS: creació d'un bucket S3 i càrrega de fitxers. Estimació de costos mensuals.
RA3
S16
19 gen.
3h
AWS RDS: bases de dades gestionades (PostgreSQL, MySQL). Opcions de desplegament: Single-AZ vs Multi-AZ. Read replicas. AWS Redshift: arquitectura MPP, columnar storage, distribució de dades.
AC5074/04/02 — Configuració d'una instància RDS PostgreSQL i connexió des de DBeaver. Comparativa de costos RDS vs EC2.
RA3
S17
26 gen.
3h
AWS Glue: servei ETL gestionat, Data Catalog, crawlers. AWS Athena: queries SQL sobre S3 amb Presto. Arquitectura lakehouse a AWS: S3 + Glue + Athena + Redshift.
AC5074/04/03 — Disseny d'una arquitectura lakehouse per a una empresa de logística sobre AWS.
RA3
S18
02 feb.
3h
Azure per a Big Data: Azure Blob Storage i ADLS Gen2. Azure SQL Database vs SQL Managed Instance. Comparativa amb AWS S3 i RDS.
AC5074/04/04 — Exploració del portal Azure: creació d'un Storage Account i upload de dades.
AC5074/04/05 — Disseny d'una arquitectura de dades sobre Azure per a un cas d'ús retail.
RA3
S20
16 feb.
3h
Data Warehouse: concepte, esquema estrella (fact tables, dimension tables), esquema floc de neu. Kimball vs Inmon. Bones pràctiques de modelatge dimensional.
AC5074/04/06 — Modelatge dimensional d'un DW de vendes: identificació de fets, dimensions i granularitat.
RA3
S21
23 feb.
3h
Data Lake: arquitectura per zones (raw, curated, serving). Data Lakehouse: Delta Lake, Apache Iceberg. Repàs i pràctica integradora del Bloc 4. Prova escrita Bloc 4.
AC5074/04/07 — Comparativa de costos i capacitats AWS vs Azure per a un cas real. Pràctica avaluable PR507404 — Arquitectura de dades al núvol.
RA3
Total Bloc 4
21h
Carnestoltes: 25 febrer – 3 març 2027
Bloc 5 — ETL i pipelines de dades (RA3)
Sessió
Data
Hores
Continguts
Activitats
RA Treballat
S22
04 mar.
3h
ETL vs ELT: diferències, quan usar cadascun. Concepte de pipeline de dades. Eines del mercat: Apache Airflow, dbt, Azure Data Factory, AWS Glue, Airbyte, Fivetran. Visió general i posicionament.
AC5074/05/01 — Comparativa d'eines ETL/ELT: quadre de característiques, llicències i casos d'ús.
RA3
S23
11 mar.
3h
Apache Airflow: arquitectura (Scheduler, Executor, Worker, Webserver, MetaDB). Concepte de DAG. Operadors bàsics: PythonOperator, BashOperator. Dependències entre tasques. Instal·lació amb Docker.
AC5074/05/02 — Creació del primer DAG en Airflow: pipeline d'extracció i càrrega de dades meteorològiques des d'una API pública.
RA3
S24
18 mar.
3h
Airflow avançat: XComs, Variables, Connections, hooks. Scheduling: cron expressions, catchup. Sensors. Branching. Bones pràctiques en el disseny de DAGs.
AC5074/05/03 — DAG complex amb branching condicionat i gestió d'errors: pipeline de validació i càrrega incremental.
RA3
S25
25 mar.
3h
Qualitat de dades: dimensions (completitud, consistència, exactitud, actualitat, unicitat). Eines de data quality: Great Expectations, dbt tests. Repàs i pràctica integradora del Bloc 5. Prova escrita Bloc 5.
AC5074/05/04 — Implementació de checks de qualitat de dades sobre un dataset real. Pràctica avaluable PR507405 — Pipeline ETL amb Airflow i Docker.
RA3
Total Bloc 5
12h
Bloc 6 — Formats de dades (RA1, RA3)
Sessió
Data
Hores
Continguts
Activitats
RA Treballat
S26
01 abr.
3h
Formats tabulars: CSV i TSV — simplicitat, limitacions, encoding. Formats semiestructurats: JSON (anidament, arrays), XML (verbose, XPath). Quan usar cada format. Lectura amb Python: csv, json, lxml.
AC5074/06/01 — Lectura i comparativa de rendiment entre CSV i JSON sobre el mateix dataset de 1 milió de files.
RA1, RA3
S27
08 abr.
3h
Formats columnar: Parquet (estructura de fitxer, row groups, compressió Snappy/Zstd), ORC (hive origins, índexs interns). Avantatges per a analítica: predicate pushdown, column pruning. Lectura amb pyarrow i pandas.
AC5074/06/02 — Benchmark de lectura/escriptura CSV vs Parquet: temps i mida de fitxer.
RA1, RA3
Setmana Santa: 9 abril – 21 abril 2027
Sessió
Data
Hores
Continguts
Activitats
RA Treballat
S28
22 abr.
3h
Formats d'evolució de schema: Avro (serialització binària, schema registry), Delta Lake (ACID sobre Parquet, time travel, vacuum). Repàs i pràctica integradora del Bloc 6. Prova escrita Bloc 6.
AC5074/06/03 — Benchmark complet de formats: CSV, JSON, Parquet, Avro. Comparativa de mida, velocitat de lectura i capacitat de compressió. Pràctica avaluable PR507406 — Benchmark de formats de dades.
RA1, RA3
Total Bloc 6
9h
Bloc 7 — Visualització de dades (RA2, RA4)
Sessió
Data
Hores
Continguts
Activitats
RA Treballat
S29
29 abr.
3h
Principis de visualització: Edward Tufte i el data-ink ratio. Mentides estadístiques i com evitar-les. Selecció del tipus de gràfic adequat: comparació, distribució, composició, relació. Colors i accessibilitat.
AC5074/07/01 — Anàlisi de cinc visualitzacions deficients i proposta de redisseny justificada.
AC5074/07/02 — Galeria de visualitzacions: creació de 8 gràfics diferents sobre un dataset de mobilitat urbana.
RA2, RA4
S31
13 mai.
3h
Power BI Desktop: interfície, obtenció de dades, model de dades i relacions. DAX bàsic: mesures calculades, columnes calculades. Gràfics, mapes, targetes i filtres.
AC5074/07/03 — Connexió de Power BI a un fitxer CSV i creació d'un informe bàsic amb 4 visualitzacions.
RA2, RA4
S32
20 mai.
3h
Power BI avançat: mesures DAX avançades (CALCULATE, FILTER, ALL, RELATED). Bookmarks, drill-through, tooltip pages. Disseny de dashboards professionals.
AC5074/07/04 — Dashboard complet en Power BI: model de dades amb 3 taules relacionades, KPIs i gràfics interactius. Pràctica avaluable PR507407 — Dashboard Power BI.
RA2, RA4
S33
27 mai.
3h
Storytelling amb dades: narrativa, audiència, missatge. Estructura d'una presentació de dades efectiva. Repàs final del mòdul. Tancament i feedback.
Presentació del dashboard de la pràctica PR507407 a l'aula. Autoavaluació i reflexió final.