Salta el contingut

Programació d'aula

Calendari de sessions

Horari: dimarts, 3 hores seguides. Inici: 15 setembre 2026. Vacances: Nadal (22 des.–7 gen.) · Carnestoltes (25 feb.–3 mar.) · Setmana Santa (9 abr.–21 abr.) Proves escrites: una prova al final de cada bloc quan escau; s'indiquen a la taula.

Bloc 1 — Introducció al Big Data (RA1)

Sessió Data Hores Continguts Activitats RA Treballat
S01 15 set. 3h Presentació del mòdul. Què és el Big Data. Les 5V: volum, velocitat, varietat, veracitat, valor. Casos reals: Visa, Netflix, IoT industrial. Qüestionari inicial. AC5074/01/01 — Cerca de tres casos reals de Big Data i presentació a l'aula. RA1
S02 22 set. 3h Panorama tecnològic 2026: ecosistema Hadoop, Spark, Kafka, Flink, Airflow, dbt. Perfils professionals: Data Engineer, Data Scientist, Analytics Engineer, BI Developer. Sortides laborals i salaris. AC5074/01/02 — Anàlisi de tres ofertes de feina de Big Data a LinkedIn i identificació de les eines més demandades. RA1
S03 29 set. 3h Arquitectures de dades: Data Warehouse clàssic (Kimball vs Inmon), Data Lake, Data Lakehouse (Delta Lake, Iceberg), Data Mesh. Quan usar cadascuna. Prova escrita Bloc 1. AC5074/01/03 — Diagrama comparatiu d'arquitectures. PR507401 — Anàlisi del panorama Big Data. RA1
Total Bloc 1 9h

Bloc 2 — Dades relacionals a gran escala (RA1, RA3)

Sessió Data Hores Continguts Activitats RA Treballat
S04 06 oct. 3h Per què les BD relacionals segueixen essent rellevants en Big Data. Revisió de conceptes: índexs B-Tree, Hash, GIN. Índexs parcials i funcionals en PostgreSQL. Cost real dels índexs en operacions DML. AC5074/02/01 — Creació i comparativa d'índexs sobre una taula de 5 milions de registres en Docker. RA1, RA3
S05 13 oct. 3h Índexs clusteritzats. EXPLAIN ANALYZE: lectura del pla d'execució, Seq Scan vs Index Scan vs Bitmap Scan. Cost en nodes. Estadístiques de la taula: ANALYZE, pg_stats. AC5074/02/02 — Lectura i interpretació de plans EXPLAIN ANALYZE sobre consultes reals. RA1, RA3
S06 20 oct. 3h Particionament de taules: concepte i motivació. Particionament per rang, per llista, per hash. Partition pruning automàtic. Índexs sobre taules particionades. AC5074/02/03 — Creació d'una taula de transaccions particionada per rang de data. Comparativa de rendiment amb i sense particions. RA3
S07 27 oct. 3h Reescriptura de queries per al rendiment: CTE materialitzades vs CTE inline, subconsultes laterals, window functions eficients. Estadística avançada: pg_stat_statements. AC5074/02/04 — Reescriptura de cinc queries lentes identificades amb pg_stat_statements. RA3
S08 03 nov. 3h Replicació bàsica: concepte de replicació streaming en PostgreSQL. Primary i répliques en lectura. Casos d'ús: read scaling, high availability. Connection pooling: PgBouncer. AC5074/02/05 — Muntatge d'un clúster primary-réplica amb Docker Compose. RA3
S09 10 nov. 3h Repàs i pràctica integradora del Bloc 2. Resolució de dubtes. Prova escrita Bloc 2. Pràctica avaluable PR507402 — Optimització de BD relacional amb Docker. Rúbrica Bloc 2. RA1, RA3
Total Bloc 2 18h

Bloc 3 — Dades no relacionals — MongoDB (RA3)

Sessió Data Hores Continguts Activitats RA Treballat
S10 17 nov. 3h Introducció a MongoDB: model de documents, col·leccions, BSON. Comparativa amb el model relacional. Casos d'ús on MongoDB guanya. Instal·lació amb Docker i MongoDB Compass. AC5074/03/01 — Instal·lació i exploració de MongoDB en Docker. Inserció del primer document i comparació amb SQL. RA3
S11 24 nov. 3h CRUD en MongoDB: insertOne, insertMany, find, findOne. Operadors de filtre: $eq, $gt, $lt, $in, $regex. Projecció. sort i limit. AC5074/03/02 — Consultes CRUD sobre una col·lecció de productes d'e-commerce amb 100.000 documents. RA3
S12 01 des. 3h Aggregation Pipeline: $match, $group, $project, $sort, $limit, $lookup, $unwind. Diferència entre find i aggregate. Casos pràctics reals. AC5074/03/03 — Aggregation pipeline per calcular les vendes per categoria i les 10 ciutats amb més comandes. RA3
S13 08 des. 3h Schema design en MongoDB: embedded documents vs references. Patrons de disseny: One-to-Many, Many-to-Many, Polymorphic. Quan desnormalitzar. AC5074/03/04 — Disseny de l'esquema per a una aplicació de gestió d'esdeveniments (event management) amb MongoDB. RA3
S14 15 des. 3h Índexs en MongoDB: índexs simples, compostos, de text, geoespacials. Explain en MongoDB. Repàs i pràctica integradora del Bloc 3. Prova escrita Bloc 3. AC5074/03/05 — Creació d'índexs i mesura del seu impacte amb explain. Pràctica avaluable PR507403 — MongoDB amb Docker. RA3
Total Bloc 3 15h

Vacances de Nadal: 22 desembre 2026 – 7 gener 2027


Bloc 4 — Arquitectura de dades — Cloud AWS i Azure (RA3)

Sessió Data Hores Continguts Activitats RA Treballat
S15 12 gen. 3h Introducció al núvol per a Big Data. AWS vs Azure vs GCP: posicionament. Serveis gestionats vs infraestructura pròpia. Model de costos pay-as-you-go. AWS: S3 (objectes, buckets, policies, lifecycle rules). AC5074/04/01 — Exploració de la consola AWS: creació d'un bucket S3 i càrrega de fitxers. Estimació de costos mensuals. RA3
S16 19 gen. 3h AWS RDS: bases de dades gestionades (PostgreSQL, MySQL). Opcions de desplegament: Single-AZ vs Multi-AZ. Read replicas. AWS Redshift: arquitectura MPP, columnar storage, distribució de dades. AC5074/04/02 — Configuració d'una instància RDS PostgreSQL i connexió des de DBeaver. Comparativa de costos RDS vs EC2. RA3
S17 26 gen. 3h AWS Glue: servei ETL gestionat, Data Catalog, crawlers. AWS Athena: queries SQL sobre S3 amb Presto. Arquitectura lakehouse a AWS: S3 + Glue + Athena + Redshift. AC5074/04/03 — Disseny d'una arquitectura lakehouse per a una empresa de logística sobre AWS. RA3
S18 02 feb. 3h Azure per a Big Data: Azure Blob Storage i ADLS Gen2. Azure SQL Database vs SQL Managed Instance. Comparativa amb AWS S3 i RDS. AC5074/04/04 — Exploració del portal Azure: creació d'un Storage Account i upload de dades. RA3
S19 09 feb. 3h Azure Synapse Analytics: arquitectura, SQL pools, Spark pools, pipelines integrades. Comparativa amb AWS Redshift. Azure Data Factory: orquestació ETL, connectors, triggers. AC5074/04/05 — Disseny d'una arquitectura de dades sobre Azure per a un cas d'ús retail. RA3
S20 16 feb. 3h Data Warehouse: concepte, esquema estrella (fact tables, dimension tables), esquema floc de neu. Kimball vs Inmon. Bones pràctiques de modelatge dimensional. AC5074/04/06 — Modelatge dimensional d'un DW de vendes: identificació de fets, dimensions i granularitat. RA3
S21 23 feb. 3h Data Lake: arquitectura per zones (raw, curated, serving). Data Lakehouse: Delta Lake, Apache Iceberg. Repàs i pràctica integradora del Bloc 4. Prova escrita Bloc 4. AC5074/04/07 — Comparativa de costos i capacitats AWS vs Azure per a un cas real. Pràctica avaluable PR507404 — Arquitectura de dades al núvol. RA3
Total Bloc 4 21h

Carnestoltes: 25 febrer – 3 març 2027


Bloc 5 — ETL i pipelines de dades (RA3)

Sessió Data Hores Continguts Activitats RA Treballat
S22 04 mar. 3h ETL vs ELT: diferències, quan usar cadascun. Concepte de pipeline de dades. Eines del mercat: Apache Airflow, dbt, Azure Data Factory, AWS Glue, Airbyte, Fivetran. Visió general i posicionament. AC5074/05/01 — Comparativa d'eines ETL/ELT: quadre de característiques, llicències i casos d'ús. RA3
S23 11 mar. 3h Apache Airflow: arquitectura (Scheduler, Executor, Worker, Webserver, MetaDB). Concepte de DAG. Operadors bàsics: PythonOperator, BashOperator. Dependències entre tasques. Instal·lació amb Docker. AC5074/05/02 — Creació del primer DAG en Airflow: pipeline d'extracció i càrrega de dades meteorològiques des d'una API pública. RA3
S24 18 mar. 3h Airflow avançat: XComs, Variables, Connections, hooks. Scheduling: cron expressions, catchup. Sensors. Branching. Bones pràctiques en el disseny de DAGs. AC5074/05/03 — DAG complex amb branching condicionat i gestió d'errors: pipeline de validació i càrrega incremental. RA3
S25 25 mar. 3h Qualitat de dades: dimensions (completitud, consistència, exactitud, actualitat, unicitat). Eines de data quality: Great Expectations, dbt tests. Repàs i pràctica integradora del Bloc 5. Prova escrita Bloc 5. AC5074/05/04 — Implementació de checks de qualitat de dades sobre un dataset real. Pràctica avaluable PR507405 — Pipeline ETL amb Airflow i Docker. RA3
Total Bloc 5 12h

Bloc 6 — Formats de dades (RA1, RA3)

Sessió Data Hores Continguts Activitats RA Treballat
S26 01 abr. 3h Formats tabulars: CSV i TSV — simplicitat, limitacions, encoding. Formats semiestructurats: JSON (anidament, arrays), XML (verbose, XPath). Quan usar cada format. Lectura amb Python: csv, json, lxml. AC5074/06/01 — Lectura i comparativa de rendiment entre CSV i JSON sobre el mateix dataset de 1 milió de files. RA1, RA3
S27 08 abr. 3h Formats columnar: Parquet (estructura de fitxer, row groups, compressió Snappy/Zstd), ORC (hive origins, índexs interns). Avantatges per a analítica: predicate pushdown, column pruning. Lectura amb pyarrow i pandas. AC5074/06/02 — Benchmark de lectura/escriptura CSV vs Parquet: temps i mida de fitxer. RA1, RA3

Setmana Santa: 9 abril – 21 abril 2027

Sessió Data Hores Continguts Activitats RA Treballat
S28 22 abr. 3h Formats d'evolució de schema: Avro (serialització binària, schema registry), Delta Lake (ACID sobre Parquet, time travel, vacuum). Repàs i pràctica integradora del Bloc 6. Prova escrita Bloc 6. AC5074/06/03 — Benchmark complet de formats: CSV, JSON, Parquet, Avro. Comparativa de mida, velocitat de lectura i capacitat de compressió. Pràctica avaluable PR507406 — Benchmark de formats de dades. RA1, RA3
Total Bloc 6 9h

Bloc 7 — Visualització de dades (RA2, RA4)

Sessió Data Hores Continguts Activitats RA Treballat
S29 29 abr. 3h Principis de visualització: Edward Tufte i el data-ink ratio. Mentides estadístiques i com evitar-les. Selecció del tipus de gràfic adequat: comparació, distribució, composició, relació. Colors i accessibilitat. AC5074/07/01 — Anàlisi de cinc visualitzacions deficients i proposta de redisseny justificada. RA2, RA4
S30 06 mai. 3h Biblioteques Python: Matplotlib (anatomia d'una figura, subplots, estils), Seaborn (gràfics estadístics, heatmaps, pair plots), Plotly (gràfics interactius, dashboards Dash). AC5074/07/02 — Galeria de visualitzacions: creació de 8 gràfics diferents sobre un dataset de mobilitat urbana. RA2, RA4
S31 13 mai. 3h Power BI Desktop: interfície, obtenció de dades, model de dades i relacions. DAX bàsic: mesures calculades, columnes calculades. Gràfics, mapes, targetes i filtres. AC5074/07/03 — Connexió de Power BI a un fitxer CSV i creació d'un informe bàsic amb 4 visualitzacions. RA2, RA4
S32 20 mai. 3h Power BI avançat: mesures DAX avançades (CALCULATE, FILTER, ALL, RELATED). Bookmarks, drill-through, tooltip pages. Disseny de dashboards professionals. AC5074/07/04 — Dashboard complet en Power BI: model de dades amb 3 taules relacionades, KPIs i gràfics interactius. Pràctica avaluable PR507407 — Dashboard Power BI. RA2, RA4
S33 27 mai. 3h Storytelling amb dades: narrativa, audiència, missatge. Estructura d'una presentació de dades efectiva. Repàs final del mòdul. Tancament i feedback. Presentació del dashboard de la pràctica PR507407 a l'aula. Autoavaluació i reflexió final. RA2, RA4
Total Bloc 7 15h

Resum de sessions i hores

Bloc Sessions Hores Dates
Bloc 1 — Introducció al Big Data S01–S03 9h set. 15 – set. 29
Bloc 2 — Dades relacionals a gran escala S04–S09 18h oct. 6 – nov. 10
Bloc 3 — MongoDB S10–S14 15h nov. 17 – des. 15
Vacances de Nadal 22 des. – 7 gen.
Bloc 4 — Arquitectura de dades S15–S21 21h gen. 12 – feb. 23
Carnestoltes 25 feb. – 3 mar.
Bloc 5 — ETL i pipelines S22–S25 12h mar. 4 – mar. 25
Bloc 6 — Formats de dades S26–S28 9h abr. 1 – abr. 22
Setmana Santa 9 abr. – 21 abr.
Bloc 7 — Visualització de dades S29–S33 15h abr. 29 – mai. 27
TOTAL 33 sessions 99h