Sistemes de Big Data

Benvingut/da al website del mòdul 5074 — Sistemes de Big Data, corresponent al CFGS Intel·ligència Artificial i Big Data (CEIABD) de l'Institut Sa Palomera (Blanes).

Descripció del mòdul

El mòdul Sistemes de Big Data (99 hores) introdueix l'alumnat en el món del processament massiu de dades, una de les competències més demandades al mercat tecnològic actual. En un context on es generen més de 120 zettabytes de dades anuals, les empreses necessiten professionals capaços de dissenyar, implementar i operar plataformes que processin dades a escala planetària.

Al llarg d'aquest mòdul treballarem des dels fonaments filosòfics del Big Data — les cinc V — fins a la implementació pràctica amb Apache Spark, l'ecosistema Hadoop, les bases de dades no relacionals amb MongoDB, les arquitectures de dades al núvol (AWS, Azure) i les eines de visualització professionals (Power BI, Apache Superset, Grafana). Totes les pràctiques s'executen amb Docker, la qual cosa permet disposar de múltiples entorns sense necessitat d'infraestructura dedicada.

Objectius generals del mòdul

En finalitzar el mòdul l'alumnat ha de ser capaç de:

Identificar els conceptes fonamentals del Big Data (les 5V) i les arquitectures de dades (data warehouse, data lake, lakehouse) que permeten gestionar grans volums d'informació.
Aplicar tècniques avançades sobre bases de dades relacionals a gran escala: índexs, particionament, replicació i optimització de consultes.
Dissenyar i gestionar bases de dades no relacionals amb MongoDB, aplicant consultes, agregacions i índexs sobre dades semiestructurades.
Configurar arquitectures de dades en entorns cloud (AWS, Azure) i descriure els components d'un data warehouse i d'un data lake/lakehouse.
Construir pipelines ETL/ELT automatitzats amb Apache Airflow, garantint la qualitat de les dades.
Seleccionar i aplicar el format de dades més adequat (CSV, JSON, Parquet, ORC, Avro, Delta Lake) segons el cas d'ús.
Crear visualitzacions i quadres de comandament (Power BI, biblioteques Python) per comunicar resultats i donar suport a la presa de decisions.

Organització del mòdul

El mòdul s'organitza en set resultats d'aprenentatge (RA), que és treballen de forma seqüencial i progressiva:

flowchart LR
    A["RA1\nIntroducció\nal Big Data"] --> B["RA2\nBD relacionals\na gran escala"]
    B --> C["RA3\nMongoDB"]
    C --> D["RA4\nArquitectura\nde dades"]
    D --> E["RA5\nETL i\npipelines"]
    E --> F["RA6\nFormats\nde dades"]
    F --> G["RA7\nVisualització\nde dades"]

    style A fill:#3949ab,color:#fff,stroke:#283593
    style B fill:#3949ab,color:#fff,stroke:#283593
    style C fill:#3949ab,color:#fff,stroke:#283593
    style D fill:#3949ab,color:#fff,stroke:#283593
    style E fill:#3949ab,color:#fff,stroke:#283593
    style F fill:#3949ab,color:#fff,stroke:#283593
    style G fill:#3949ab,color:#fff,stroke:#283593

Aquesta progressió és deliberada: primer cal entendre què és el Big Data i quines arquitectures el sustenten (RA1), després aprofundir en l'escalat de bases de dades relacionals (RA2) i no relacionals (RA3), conèixer les arquitectures al núvol (RA4), automatitzar la ingestió i transformació de dades (RA5), triar el format de dades adequat (RA6) i finalment comunicar els resultats mitjançant visualització (RA7).

Bloc 1 — Introducció al Big Data (RA1)

Conceptes fonamentals del Big Data: les 5V, el panorama tecnològic 2025, les arquitectures de dades (data warehouse, data lake, lakehouse, data mesh) i els perfils professionals del sector.

Bloc 2 — Dades relacionals a gran escala (RA2)

Gestió de bases de dades relacionals a gran escala: índexs avançats, particionament, replicació i optimització de consultes per a volums massius de dades.

Bloc 3 — Dades no relacionals — MongoDB (RA3)

Bases de dades NoSQL documentals amb MongoDB: fonaments, consultes i operacions CRUD, Aggregation Pipeline i índexs per a dades semiestructurades.

Bloc 4 — Arquitectura de dades (RA4)

Arquitectures de dades al núvol amb AWS i Azure, i els models de Data Warehouse i Data Lake/Lakehouse per a l'emmagatzematge analític.

Bloc 5 — ETL i pipelines (RA5)

Disseny de pipelines ETL/ELT, automatització amb Apache Airflow i tècniques de control de qualitat de dades.

Bloc 6 — Formats de dades (RA6)

Formats de dades per a Big Data: formats tabulars i columnars (CSV, JSON, Parquet, ORC, Avro) i formats d'evolució transaccional com Delta Lake.

Bloc 7 — Visualització de dades (RA7)

Visualització de dades i Business Intelligence: principis de visualització, biblioteques Python, Power BI i storytelling amb dades.

Bloc 8 — Qualitat i biaix de les dades (complementari)

Integritat de les dades, mètriques de biaix previ a l'entrenament i tècniques per corregir el desequilibri de classes. Bloc d'ampliació del RA1, no comptat a les 99h oficials del currículum.

Tecnologies i eines treballades

Tecnologia	Categoria	Casos d'ús principals
Apache Spark	Processament distribuït	Batch, streaming, MLlib i Spark SQL sobre grans volums
Hadoop / HDFS	Emmagatzematge distribuït	Emmagatzematge massiu tolerant a fallades
Apache Kafka	Streaming	Ingestió i processament de dades en temps real
MongoDB	NoSQL documental	Dades semiestructurades, alta escriptura
AWS / Azure	Cloud	Data lakes, data warehouses i clústers gestionats
Apache Airflow	Orquestració	Pipelines ETL/ELT programats
Power BI / Superset / Grafana	Visualització i BI	Dashboards i quadres de comandament

Enfocament pràctic

Totes les pràctiques del mòdul estan dissenyades per executar-se amb Docker, la qual cosa permet treballar amb les diferents tecnologies de forma simultània sense necessitat d'infraestructura de servidor dedicada. Això reprodueix fidelment l'entorn de treball professional actual.

Navegació ràpida

Presentació del mòdul

Objectius, competències i organització general del mòdul 5074.

Presentació
Introducció al Big Data

Les 5V, panorama tecnològic 2025 i arquitectures de dades.

Introducció
RA1 · Introducció al Big Data

Les 5V, arquitectures de dades i perfils professionals.

RA1
RA2 · Dades relacionals a gran escala

Índexs avançats, particionament, replicació i optimització.

RA2
RA3 · Dades no relacionals — MongoDB

Documents, CRUD, Aggregation Pipeline i índexs.

RA3
RA4 · Arquitectura de dades

AWS, Azure, Data Warehouse i Data Lake/Lakehouse.

RA4
RA5 · ETL i pipelines

ETL vs ELT, Apache Airflow i qualitat de dades.

RA5
RA6 · Formats de dades

Formats tabulars, columnars i d'evolució transaccional.

RA6
RA7 · Visualització de dades

Principis de visualització, Python, Power BI i storytelling.

RA7
Bloc 8 · Qualitat i biaix de les dades

Integritat de les dades, mètriques de biaix i desequilibri de classes (complementari).

Bloc 8
Programació d'aula

Calendari de sessions, activitats i CAs treballats al llarg del curs.

Programació d'aula
Recursos

Documentació oficial, eines gràfiques, imatges Docker, entorns en línia i bibliografia recomanada.

Recursos
Validació Criteris d'Avaluació

Mapa de cobertura RA-CA-Instruments i taula completa d'activitats del mòdul.

Validació