Salta el contingut

PR507404 — Arquitectura de dades al núvol

Tipus: Disseny i exploració guiada de consoles cloud (sense desplegament real ni càrrecs de pagament — només free tier i calculadores de preus oficials) Durada estimada: 8 hores (3 sessions de 3 hores, més treball autònom) Lliurament: Campus Virtual — Informe PDF + diagrama d'arquitectura + captures de pantalla


Objectius

Al finalitzar aquesta pràctica, l'alumne serà capaç de:

  1. Explorar els serveis de dades d'AWS (S3, RDS, Redshift, Glue) i Azure (Blob Storage, Azure SQL Database, Synapse, ADF) a les consoles web, identificant la funció de cadascun i com es configuren els paràmetres bàsics.
  2. Dissenyar una arquitectura de dades completa per a un cas d'ús empresarial real, especificant les capes d'ingestió, emmagatzematge, processament i servei.
  3. Modelar un Data Warehouse amb esquema estrella: identificar i dissenyar taules de fets i dimensions amb la granularitat adequada al cas d'ús.
  4. Comparar costos estimats entre AWS i Azure per al mateix cas d'ús, usant les calculadores de preus oficials de cada proveïdor.
  5. Documentar i justificar les decisions d'arquitectura i de plataforma cloud amb arguments tècnics i econòmics.

Materials necessaris

Aquesta pràctica no requereix desplegar infraestructura de pagament

Tota l'exploració de consoles es fa amb els nivells gratuïts (free tier) d'AWS i Azure: crear un bucket S3 buit, obrir la consola de Redshift sense aprovisionar un clúster, configurar (sense desplegar) un pipeline d'ADF, etc. Els costos que es demanen a la pràctica són estimacions obtingudes amb les calculadores oficials, no despeses reals. Si en algun moment una consola demana confirmar un desplegament amb cost, atura't i no confirmis — documenta la pantalla de configuració igualment.


Descripció de la pràctica

Part 1 — Exploració guiada de les consoles cloud (2,5 hores)

Accedeix a les consoles web d'AWS i Azure amb el teu compte free tier i explora els serveis estudiats al bloc, documentant-los amb captures de pantalla.

1.1 Exploració d'AWS

  • Amazon S3: crea un bucket (amb un nom únic, per exemple sapashop-<el-teu-nom>-2026), crea dins seu una estructura de carpetes que simuli les zones bronze/, silver/ i gold/, i puja un fitxer petit de prova. Captura la consola mostrant l'estructura.
  • Amazon RDS: obre l'assistent de creació d'una base de dades (sense completar-lo si demana cost) i documenta quins motors es poden triar i quines opcions de Multi-AZ i Read Replicas apareixen.
  • Amazon Redshift: obre la consola de Redshift Serverless o la pantalla de creació d'un clúster provisionat, i documenta els tipus de nodes RA3 disponibles i les seves característiques.
  • AWS Glue: explora la pantalla del Data Catalog i la de creació de Crawlers i Jobs. Documenta quins orígens de dades pot llegir un Crawler.

1.2 Exploració d'Azure

  • Azure Blob Storage / ADLS Gen2: crea un compte d'emmagatzematge (Storage Account) amb el namespace jeràrquic (HNS) activat, i crea contenidors bronze, silver i gold. Captura la consola mostrant la configuració.
  • Azure SQL Database: obre l'assistent de creació d'una base de dades SQL i documenta la diferència entre el model DTU i el model vCore tal com apareix a la interfície.
  • Azure Synapse Analytics: explora la pantalla de creació d'un workspace Synapse i documenta quins components (SQL Pool, Spark Pool, Pipelines) s'hi poden afegir.
  • Azure Data Factory: obre l'editor visual de pipelines (Author) i documenta quines activitats (Copy Activity, Data Flow, etc.) hi ha disponibles al canvas.

Per a cada servei explorat, inclou a l'informe: el nom del servei, una captura de pantalla rellevant, i 2-3 frases explicant quina funció té dins d'una arquitectura de Big Data.


Part 2 — Disseny d'un Data Warehouse amb esquema estrella (2 hores)

Cas d'ús: Sapa-Shop, cadena de botigues catalana

Sapa-Shop és una cadena de botigues d'electrodomèstics amb presència a tot Catalunya, fundada el 2015. Té 35 botigues físiques i una botiga en línia. Les seves dades clau del 2026:

  • 8 milions de tiquets de venda anuals entre botiga física i en línia.
  • 450.000 clients registrats al programa de fidelització.
  • Catàleg de 12.000 productes organitzats en 8 categories i 40 subcategories.
  • 35 botigues físiques distribuïdes per les 4 províncies catalanes, més el canal en línia.
  • Promocions i descomptes aplicats de forma puntual i estacional (Black Friday, rebaixes, campanyes de Nadal).
  • Objectiu de negoci: disposar d'un informe diari de vendes per botiga, categoria i període, i poder analitzar l'efecte de les promocions sobre el marge.

El teu disseny ha d'incloure:

2.1 Identificació de la taula de fets

  • Defineix la taula de fets principal (fact_vendes) i justifica la granularitat triada (per línia de tiquet, per tiquet complet, per dia i botiga, etc.).
  • Llista les mètriques numèriques que ha de contenir (quantitat, preu unitari, import net, cost, marge).

2.2 Identificació de les taules de dimensions

Identifica almenys cinc taules de dimensions rellevants per al cas (per exemple: dim_temps, dim_producte, dim_client, dim_botiga, dim_promocio). Per a cada dimensió, especifica:

  • Els atributs principals (almenys 5 per dimensió).
  • Si necessita gestionar canvis històrics (Slowly Changing Dimension) i de quin tipus (SCD1, SCD2 o SCD3), justificant la tria.

2.3 Diagrama de l'esquema estrella

Dibuixa l'esquema estrella complet en format Mermaid (erDiagram) o amb draw.io, mostrant la taula de fets al centre i totes les dimensions connectades amb les seves claus foranes.

2.4 Consulta SQL d'exemple

Escriu una consulta SQL que respongui: "Quin és l'import total de vendes i el marge mitjà per botiga i categoria de producte durant el quart trimestre de 2025?"


Part 3 — Disseny de l'arquitectura completa al núvol (2 hores)

Tria AWS o Azure (no cal dissenyar les dues) com a plataforma per a l'arquitectura de dades completa de Sapa-Shop, i justifica la tria.

El teu disseny ha d'incloure:

  • Capa d'ingestió: com arriben les dades de cada font (TPV de les botigues, web, programa de fidelització) — batch, streaming o API?
  • Capa d'emmagatzematge: disseny del Data Lake per zones (raw/bronze, curated/silver, serving/gold), especificant el servei (S3 o ADLS Gen2) i el format de taula obert triat (Delta Lake, Iceberg o Parquet simple).
  • Capa de processament: quines eines transformaran les dades entre zones (Glue / Databricks / Synapse Spark / ADF Data Flows)?
  • Capa de servei: com es carrega el Data Warehouse (Redshift o Synapse SQL Pool) i com hi accedeixen els informes diaris (eina de BI).

Dibuixa un diagrama de l'arquitectura completa (draw.io o Mermaid) amb totes les capes i el flux de dades d'extrem a extrem.


Part 4 — Comparativa de costos AWS vs Azure (1,5 hores)

Usa l'AWS Pricing Calculator i l'Azure Pricing Calculator per estimar el cost mensual aproximat de l'arquitectura dissenyada a la Part 3, assumint:

  • 50 GB de dades noves al mes a la zona raw/bronze.
  • Un clúster de Data Warehouse petit en funcionament 8 hores/dia, 22 dies/mes (o l'equivalent serverless).
  • Una execució diària del procés ETL/ELT de transformació (30 minuts de còmput).

Documenta el desglossament per servei en una taula i el total mensual estimat per a cada núvol:

Servei / Component Opció AWS Cost mensual AWS Opció Azure Cost mensual Azure
Emmagatzematge (Data Lake) S3 Standard ? ADLS Gen2 Hot ?
Data Warehouse Redshift Serverless ? Synapse SQL Pool Serverless ?
ETL / processament Glue ? Azure Data Factory ?
Total mensual estimat ? ?

Inclou una captura de pantalla del resultat de cada calculadora.

Sobre el nivell de detall esperat

No cal triar la configuració òptima a la primera. El que es valora és saber navegar la calculadora, entendre quines variables afecten el cost (mida, hores d'ús, regió) i extreure'n una estimació raonable i comparable entre els dos núvols.


Lliurament

Puja al Campus Virtual tres fitxers:

Fitxer Contingut Format
PR507404_cognom_nom.pdf Informe complet amb les 4 parts, captures de pantalla incloses PDF (màx. 20 pàgines)
esquema_estrella_cognom_nom.png o .pdf Diagrama de l'esquema estrella (Part 2.3) PNG, PDF o draw.io exportat
arquitectura_cognom_nom.png o .pdf Diagrama de l'arquitectura completa (Part 3) PNG, PDF o draw.io exportat

Estructura recomanada de l'informe:

  1. Portada (nom, grup, data).
  2. Part 1 — Exploració de consoles (una secció per servei, amb captura i explicació).
  3. Part 2 — Esquema estrella (fets, dimensions, SCD, diagrama, consulta SQL).
  4. Part 3 — Arquitectura completa (capes, justificació de la plataforma, diagrama).
  5. Part 4 — Comparativa de costos (taula de costos i captures de les calculadores).
  6. Conclusions personals (3-5 línies).

Sobre les fonts i el plagi

El contingut de l'informe ha de ser elaboració pròpia a partir de l'exploració real de les consoles. No es pot copiar directament documentació oficial ni usar IA generativa per redactar les seccions. La IA es pot usar com a eina de recerca (aclarir conceptes, suggerir fonts) però no per generar el text final.

Data límit de lliurament: consulta el calendari del Campus Virtual.

Consulta la Rúbrica PR507404 per als criteris detallats d'avaluació.


Preguntes de reflexió final

Un cop completada la pràctica, reflexiona breument sobre:

  1. Quin dels dos núvols (AWS o Azure) t'ha semblat més fàcil de navegar per a algú que comença? Per qué?
  2. Quina decisió de l'esquema estrella t'ha costat més de prendre (granularitat, dimensions, SCD)? Com l'has resolt?
  3. Si Sapa-Shop dupliqués el seu volum de vendes l'any vinent, quin component de l'arquitectura dissenyada creus que necessitaria canviar primer?

Inclou les respostes a les conclusions de l'informe (no cal que siguin extenses: 3-5 línies per pregunta).


Pràctica PR507404 | Mòdul M5074 Sistemes de Big Data | Institut Sa Palomera (Blanes) | Curs CEIABD 2026-2027