Salta el contingut

Sistemes de Big Data

Benvingut/da al website del mòdul 5074 — Sistemes de Big Data, corresponent al CFGS Intel·ligència Artificial i Big Data (CEIABD) de l'Institut Sa Palomera (Blanes).


Descripció del mòdul

El mòdul Sistemes de Big Data (99 hores) introdueix l'alumnat en el món del processament massiu de dades, una de les competències més demandades al mercat tecnològic actual. En un context on es generen més de 120 zettabytes de dades anuals, les empreses necessiten professionals capaços de dissenyar, implementar i operar plataformes que processin dades a escala planetària.

Al llarg d'aquest mòdul treballarem des dels fonaments filosòfics del Big Data — les cinc V — fins a la implementació pràctica amb Apache Spark, l'ecosistema Hadoop, les bases de dades no relacionals amb MongoDB, les arquitectures de dades al núvol (AWS, Azure) i les eines de visualització professionals (Power BI, Apache Superset, Grafana). Totes les pràctiques s'executen amb Docker, la qual cosa permet disposar de múltiples entorns sense necessitat d'infraestructura dedicada.


Objectius generals del mòdul

En finalitzar el mòdul l'alumnat ha de ser capaç de:

  1. Identificar els conceptes fonamentals del Big Data (les 5V) i les arquitectures de dades (data warehouse, data lake, lakehouse) que permeten gestionar grans volums d'informació.
  2. Aplicar tècniques avançades sobre bases de dades relacionals a gran escala: índexs, particionament, replicació i optimització de consultes.
  3. Dissenyar i gestionar bases de dades no relacionals amb MongoDB, aplicant consultes, agregacions i índexs sobre dades semiestructurades.
  4. Configurar arquitectures de dades en entorns cloud (AWS, Azure) i descriure els components d'un data warehouse i d'un data lake/lakehouse.
  5. Construir pipelines ETL/ELT automatitzats amb Apache Airflow, garantint la qualitat de les dades.
  6. Seleccionar i aplicar el format de dades més adequat (CSV, JSON, Parquet, ORC, Avro, Delta Lake) segons el cas d'ús.
  7. Crear visualitzacions i quadres de comandament (Power BI, biblioteques Python) per comunicar resultats i donar suport a la presa de decisions.

Organització del mòdul

El mòdul s'organitza en set resultats d'aprenentatge (RA), que és treballen de forma seqüencial i progressiva:

flowchart LR
    A["RA1\nIntroducció\nal Big Data"] --> B["RA2\nBD relacionals\na gran escala"]
    B --> C["RA3\nMongoDB"]
    C --> D["RA4\nArquitectura\nde dades"]
    D --> E["RA5\nETL i\npipelines"]
    E --> F["RA6\nFormats\nde dades"]
    F --> G["RA7\nVisualització\nde dades"]

    style A fill:#3949ab,color:#fff,stroke:#283593
    style B fill:#3949ab,color:#fff,stroke:#283593
    style C fill:#3949ab,color:#fff,stroke:#283593
    style D fill:#3949ab,color:#fff,stroke:#283593
    style E fill:#3949ab,color:#fff,stroke:#283593
    style F fill:#3949ab,color:#fff,stroke:#283593
    style G fill:#3949ab,color:#fff,stroke:#283593

Aquesta progressió és deliberada: primer cal entendre què és el Big Data i quines arquitectures el sustenten (RA1), després aprofundir en l'escalat de bases de dades relacionals (RA2) i no relacionals (RA3), conèixer les arquitectures al núvol (RA4), automatitzar la ingestió i transformació de dades (RA5), triar el format de dades adequat (RA6) i finalment comunicar els resultats mitjançant visualització (RA7).

Bloc 1 — Introducció al Big Data (RA1)

Conceptes fonamentals del Big Data: les 5V, el panorama tecnològic 2025, les arquitectures de dades (data warehouse, data lake, lakehouse, data mesh) i els perfils professionals del sector.

Bloc 2 — Dades relacionals a gran escala (RA2)

Gestió de bases de dades relacionals a gran escala: índexs avançats, particionament, replicació i optimització de consultes per a volums massius de dades.

Bloc 3 — Dades no relacionals — MongoDB (RA3)

Bases de dades NoSQL documentals amb MongoDB: fonaments, consultes i operacions CRUD, Aggregation Pipeline i índexs per a dades semiestructurades.

Bloc 4 — Arquitectura de dades (RA4)

Arquitectures de dades al núvol amb AWS i Azure, i els models de Data Warehouse i Data Lake/Lakehouse per a l'emmagatzematge analític.

Bloc 5 — ETL i pipelines (RA5)

Disseny de pipelines ETL/ELT, automatització amb Apache Airflow i tècniques de control de qualitat de dades.

Bloc 6 — Formats de dades (RA6)

Formats de dades per a Big Data: formats tabulars i columnars (CSV, JSON, Parquet, ORC, Avro) i formats d'evolució transaccional com Delta Lake.

Bloc 7 — Visualització de dades (RA7)

Visualització de dades i Business Intelligence: principis de visualització, biblioteques Python, Power BI i storytelling amb dades.

Bloc 8 — Qualitat i biaix de les dades (complementari)

Integritat de les dades, mètriques de biaix previ a l'entrenament i tècniques per corregir el desequilibri de classes. Bloc d'ampliació del RA1, no comptat a les 99h oficials del currículum.


Tecnologies i eines treballades

Tecnologia Categoria Casos d'ús principals
Apache Spark Processament distribuït Batch, streaming, MLlib i Spark SQL sobre grans volums
Hadoop / HDFS Emmagatzematge distribuït Emmagatzematge massiu tolerant a fallades
Apache Kafka Streaming Ingestió i processament de dades en temps real
MongoDB NoSQL documental Dades semiestructurades, alta escriptura
AWS / Azure Cloud Data lakes, data warehouses i clústers gestionats
Apache Airflow Orquestració Pipelines ETL/ELT programats
Power BI / Superset / Grafana Visualització i BI Dashboards i quadres de comandament

Enfocament pràctic

Totes les pràctiques del mòdul estan dissenyades per executar-se amb Docker, la qual cosa permet treballar amb les diferents tecnologies de forma simultània sense necessitat d'infraestructura de servidor dedicada. Això reprodueix fidelment l'entorn de treball professional actual.


  • Presentació del mòdul


    Objectius, competències i organització general del mòdul 5074.

    Presentació

  • Introducció al Big Data


    Les 5V, panorama tecnològic 2025 i arquitectures de dades.

    Introducció

  • RA1 · Introducció al Big Data


    Les 5V, arquitectures de dades i perfils professionals.

    RA1

  • RA2 · Dades relacionals a gran escala


    Índexs avançats, particionament, replicació i optimització.

    RA2

  • RA3 · Dades no relacionals — MongoDB


    Documents, CRUD, Aggregation Pipeline i índexs.

    RA3

  • RA4 · Arquitectura de dades


    AWS, Azure, Data Warehouse i Data Lake/Lakehouse.

    RA4

  • RA5 · ETL i pipelines


    ETL vs ELT, Apache Airflow i qualitat de dades.

    RA5

  • RA6 · Formats de dades


    Formats tabulars, columnars i d'evolució transaccional.

    RA6

  • RA7 · Visualització de dades


    Principis de visualització, Python, Power BI i storytelling.

    RA7

  • Bloc 8 · Qualitat i biaix de les dades


    Integritat de les dades, mètriques de biaix i desequilibri de classes (complementari).

    Bloc 8

  • Programació d'aula


    Calendari de sessions, activitats i CAs treballats al llarg del curs.

    Programació d'aula

  • Recursos


    Documentació oficial, eines gràfiques, imatges Docker, entorns en línia i bibliografia recomanada.

    Recursos

  • Validació Criteris d'Avaluació


    Mapa de cobertura RA-CA-Instruments i taula completa d'activitats del mòdul.

    Validació