Salta el contingut

Arquitectura de dades — Cloud AWS i Azure

Resultat d'Aprenentatge

RA3: Gestiona i emmagatzema dades en grans conjunts extraient valor de diverses fonts.

Criteris d'Avaluació (CA)

CA Descripció
CA3.1 Extreu i emmagatzema dades de diverses fonts utilitzant serveis cloud.
CA3.2 Fixa l'objectiu d'extreure valor de les dades orientant l'arquitectura al núvol.
CA3.3 Comprova requisits d'emmagatzematge massiu i dissenya arquitectures cloud escalables.
CA3.4 Desenvolupa sistemes de gestió i processament de grans volums en entorns cloud.
CA4.3 Reconeix la importància d'emmagatzemar de forma distribuïda i els beneficis dels serveis gestionats.
CA4.4 Determina diferències entre aplicacions de processament de dades cloud.

Continguts del Bloc 4

El núvol ha transformat radicalment la manera com es dissenyen i despleguen els sistemes de Big Data. On fa deu anys calia una inversió inicial de centenars de milers d'euros en hardware per muntar un clúster Hadoop, avui és possible tenir un entorn equivalent per uns euros l'hora i escalat automàticament. Aquesta democratització tecnològica és el context en el qual treballen els professionals de dades el 2026.

En aquest bloc s'estudien en profunditat els dos principals proveïdors de núvol per a Big Data (AWS i Azure) i les arquitectures de dades fonamentals (Data Warehouse, Data Lake, Lakehouse):

  • AWS: S3 com a magatzem d'objectes universal, RDS com a base de dades relacional gestionada, Redshift com a data warehouse MPP, Glue com a servei ETL i Athena per a consultes SQL sobre S3
  • Azure: Blob Storage i ADLS Gen2, Azure SQL Database, Synapse Analytics com a plataforma analítica integrada, i Azure Data Factory per a l'orquestació ETL
  • Data Warehouse: arquitectura conceptual, esquema estrella (taules de fets i dimensions), granularitat, modelatge dimensional de Kimball
  • Data Lake: arquitectura per zones (raw, curated, serving), governança de dades, el problema dels "data swamps"
  • Data Lakehouse: combinació del millor dels dos mons, Delta Lake i Apache Iceberg com a implementacions pràctiques

Qüestionari inicial

  1. Qué és AWS i quins serveis principals ofereix per a Big Data?
  2. Qué és Azure i en qué es diferencia d'AWS des del punt de vista de l'arquitectura de dades?
  3. Qué és Amazon S3? Per a qué s'usa en arquitectures de dades?
  4. Qué és Amazon Redshift i qué el diferencia d'una BD relacional convencional?
  5. Qué és Azure Synapse Analytics? Quins components inclou?
  6. Qué és un Data Warehouse i quin problema resol?
  7. Qué és una taula de fets i qué és una taula de dimensions en un DW?
  8. Qué és l'esquema estrella i en qué es diferencia de l'esquema floc de neu?
  9. Qué és un Data Lake i per qué va aparèixer com a alternativa al DW?
  10. Qué és un "data swamp" i com s'evita?
  11. Qué és el Data Lakehouse i quines tecnologies l'implementen?
  12. Qué és la granularitat en un Data Warehouse i com es tria?
  13. Quina diferència hi ha entre OLTP i OLAP? Per qué els DW usen processament columnar?
  14. Com funciona el model de costos pay-as-you-go del núvol? Quin avantatge té?

Organització dels continguts

  • AWS per a Big Data


    S3, RDS, Redshift, Glue, Athena: serveis principals, arquitectura i casos d'ús. Arquitectura lakehouse sobre AWS.

    AWS per a Big Data

  • Azure per a Big Data


    Blob Storage, ADLS Gen2, Azure SQL, Synapse Analytics, Azure Data Factory. Comparativa amb l'ecosistema AWS.

    Azure per a Big Data

  • Data Warehouse


    Arquitectura conceptual, modelatge dimensional de Kimball, esquema estrella, taules de fets i dimensions, granularitat.

    Data Warehouse

  • Data Lake i Lakehouse


    Arquitectura per zones del Data Lake, governança, Delta Lake i Iceberg com a implementacions del Lakehouse.

    Data Lake i Lakehouse

Durada i avaluació

Element Valor
Hores 21 hores (7 sessions de 3h)
Pes en la qualificació final 21% del mòdul
Pràctica avaluable PR507404 — Arquitectura de dades al núvol
Activitats AC5074/04/01 fins a AC5074/04/07

Enfocament d'aquest bloc

En lloc de memoritzar llistes de serveis cloud, l'objectiu és entendre la lògica de cada servei: quin problema resol, quan és la millor opció i quan no ho és. Aquesta competència és més valuosa que conèixer de memòria la interfície d'AWS o Azure, que canvia constantment.