Salta el contingut

PR507401 — Anàlisi del panorama Big Data

Tipus: Investigació i anàlisi (sense programació) Durada estimada: 6 hores (2 sessions de 3 hores) Lliurament: Campus Virtual — Informe PDF + diagrama d'arquitectura


Objectius

Al finalitzar aquesta pràctica, l'alumne serà capaç de:

  1. Identificar i descriure casos reals d'implementació de Big Data en empreses conegudes, analitzant-ne l'arquitectura, els reptes i els resultats obtinguts.
  2. Analitzar ofertes de feina reals del sector de dades a Espanya i Catalunya, extraient patrons sobre les competències i eines més demandades.
  3. Relacionar les 5V del Big Data amb casos d'ús concrets, justificant quines V són crítiques per a cada escenari.
  4. Dissenyar una arquitectura de dades de nivell conceptual per a un cas d'ús empresarial donat, justificant les decisions tecnològiques.
  5. Comunicar de forma clara i estructurada anàlisis tècniques a una audiència mixta (tècnica i de negoci).

Materials necessaris

  • Accés a internet per a investigació
  • Compte a LinkedIn (per a l'anàlisi d'ofertes laborals)
  • Eina de diagrames: draw.io (gratuït, web, sense instal·lació) o paper i escàner
  • Processador de textos per a l'informe (Word, LibreOffice, Google Docs)
  • Els materials del Bloc 1: Les 5V, Arquitectures generals, Perfils professionals

Aquesta és una pràctica d'investigació, no de programació

No cal instal·lar cap programari ni escriure cap línia de codi. L'objectiu és treballar la recerca, el pensament crític i la comunicació tècnica — competències fonamentals per a qualsevol professional de dades.


Descripció de la pràctica

Part 1 — Casos reals d'implementació de Big Data (2,5 hores)

Investiga i analitza tres empreses que hagin implementat solucions de Big Data de forma significativa. Has de triar empreses de sectors diferents (per exemple: una del sector financer, una del sector retail o logística, i una del sector salut o telecomunicacions). Pots escollir entre empreses globals conegudes o empreses espanyoles o catalanes.

Exemples possibles (no limitadors):

  • Sector financer: BBVA, CaixaBank, Santander, ING, Revolut, Stripe
  • Sector retail / logística: Mercadona, Inditex (Zara), Amazon, Walmart, DHL, Correos
  • Sector salut: Hospital Clínic de Barcelona, Novartis, Roche, NHS (UK)
  • Sector telecomunicacions: Telefónica, Vodafone, Orange, Cellnex
  • Sector tech: Spotify, Netflix, Booking.com, Airbnb, Glovo, Cabify

Per a cada empresa analitza i documenta:

1.1 Presentació de l'empresa

  • Nom, sector i activitat principal.
  • Mida aproximada (facturació, empleats, presència geogràfica).
  • Per qué és un cas rellevant per al Big Data?

1.2 El repte de dades

  • Quines 5V del Big Data presenta el seu cas d'ús?
  • Volum: quanta informació gestionen aproximadament?
  • Velocitat: amb quina latència cal processar les dades?
  • Varietat: quins tipus i formats de dades utilitzen?
  • Veracitat: quins problemes de qualitat de dades han hagut d'afrontar?
  • Valor: quin valor de negoci extreuen de les dades?
  • Quin era el sistema de dades anterior al Big Data (si es coneix)? Per qué no era suficient?

1.3 L'arquitectura implementada

  • Quines tecnologies principals fan servir? (Kafka, Spark, Snowflake, AWS, Azure...)
  • Quin tipus d'arquitectura és (Data Warehouse, Data Lake, Lakehouse, Data Mesh)?
  • On s'allotja la infraestructura (núvol propi, AWS, Azure, GCP, híbrid)?
  • Quants TB o PB de dades gestionen aproximadament (si es coneix)?

1.4 Resultats i impacte

  • Quins resultats mesurables ha obtingut l'empresa gràcies al Big Data?
  • Quines decisions de negoci ha permès prendre?
  • Hi ha hagut algun fracàs o repte no previst? (La recerca honesta és més valuosa que la publicitat corporativa)

Fonts recomanades per a la recerca:

  • Blogs tècnics oficials de les empreses (Netflix Tech Blog, BBVA Open Tech, Spotify Engineering, Inditex Tech)
  • Arxius acadèmics: papers de les conferències VLDB, SIGMOD, Strata Data
  • Publicacions de negoci: Harvard Business Review, MIT Sloan Management Review
  • Webs de proveïdors cloud: AWS Case Studies, Azure Customer Stories, Google Cloud Case Studies
  • Publicacions periodística de qualitat: El País Tecnología, El Confidencial, Xataka, TechCrunch

Sobre la profunditat de la recerca

No es tracta de fer un resum de la pàgina web de màrqueting de l'empresa. Es valora la capacitat de trobar informació tècnica de qualitat (blogs d'enginyeria, papers, entrevistes amb tècnics) i de sintetitzar-la amb judici crític. Una empresa ben analitzada és millor que tres analitzades superficialment.


Part 2 — Anàlisi del mercat laboral (1,5 hores)

Accedeix a LinkedIn Jobs, InfoJobs o Indeed i cerca ofertes de feina actuals del sector Big Data a Espanya o Catalunya.

Selecciona 5 ofertes reals de perfils variats (intenta cobrir almenys 3 perfils professionals diferents dels estudiats al Bloc 1: Data Engineer, Data Scientist, Analytics Engineer, BI Developer, ML Engineer).

Per a cada oferta documenta:

  • URL de l'oferta (imprescindible per a la verificació)
  • Empresa, seu i sector
  • Perfil demanat i títol exacte del lloc de feina
  • Tecnologies i eines demandades (llista completa)
  • Formació requerida (si s'especifica)
  • Experiència requerida en anys
  • Rang salarial (si és visible)
  • 3 responsabilitats principals del lloc

Anàlisi de patrons (el més important de la Part 2):

Un cop analitzades les 5 ofertes, respon de forma argumentada:

  1. Quines tecnologies i eines es repeteixen en 3 o més ofertes? Quines semblen ser les imprescindibles del sector?
  2. Quin és el nivell de formació més habitual? Hi ha empreses que no en demanen de formal?
  3. Quines diferències observes entre els perfils demanats a Barcelona vs a la resta d'Espanya (si n'hi ha)?
  4. Quin rang salarial és el més freqüent per a perfils junior? Coincideix amb les dades del temari?
  5. Quines competències del cicle CEIABD apareixen directament a les ofertes? Quines no hi apareixen i hauries d'adquirir per compte propi?

Part 3 — Disseny d'una arquitectura de dades (2 hores)

Cas d'ús: e-commerce Sapa-Shop

Sapa-Shop és una empresa catalana d'e-commerce fundada el 2018 que ven productes d'electrònica de consum. Les seves dades clau del 2026:

  • 50 milions de transaccions de compra per any (pics de fins a 50.000 comandes/hora durant el Black Friday)
  • 12 milions de clients registrats a tota Espanya
  • Catàleg de 200.000 productes actualitzat diàriament per 500 proveïdors via API i fitxers CSV
  • Logs web i d'aplicació mòbil: 2 TB de logs diaris (clickstream, sessions, cerques)
  • Dades de xarxes socials: opinions i mencions a Instagram, X i Google Reviews (text no estructurat)
  • Dades de logística: posició GPS en temps real de 300 vehicles de lliurament propis
  • Objectiu de negoci 1: recomanar productes personalitzats a cada client en menys de 200 ms.
  • Objectiu de negoci 2: detectar frau en el pagament en menys de 100 ms.
  • Objectiu de negoci 3: informe de vendes diari per als directius (disponible a les 08:00 cada dia).
  • Objectiu de negoci 4: analitzar el sentiment de les opinions dels clients setmanalment.
  • Requisit legal: compliment GDPR — cal poder esborrar totes les dades d'un client en 72 hores.

El teu disseny ha d'incloure:

3.1 Anàlisi de les 5V del cas

Analitza breument com es manifesta cadascuna de les 5V en el cas de Sapa-Shop. Quines V consideres les més crítiques i per qué?

3.2 Selecció i justificació de l'arquitectura

  • Quin tipus d'arquitectura proposes (Data Warehouse, Data Lake, Lakehouse, combinació)?
  • Quin format de taula open escolls (Delta Lake, Iceberg, Hudi) i per qué?
  • On allotges la infraestructura (AWS, Azure, GCP, on-premise)? Justifica-ho.

3.3 Disseny de les capes de l'arquitectura

Descriu i diagrama (draw.io o paper escanejat) les capes principals:

  • Capa d'ingestió: com arribaràn les dades de cada font (batch, streaming, API)?
  • Capa d'emmagatzematge: com organitzaràs les dades (zones raw, staging, curated)?
  • Capa de processament: quines eines usaràs per transformar les dades?
  • Capa de servei: com accediran als dades els diferents perfils (BI, Data Scientists, APIs de recomanació)?

3.4 Decisions tècniques específiques

Respon explícitament com satisfàs cadascun dels objectius de negoci:

Objectiu Tecnologia proposada Justificació
Recomanacions < 200 ms ? ?
Detecció de frau < 100 ms ? ?
Informe diari a les 08:00 ? ?
Anàlisi de sentiment setmanal ? ?
Compliment GDPR (dret a l'oblit) ? ?

Sobre el nivell de detall esperat

No cal que siguis expert en totes les tecnologies que menciones. El que es valora és la coherència del raonament: saber per qué tries cada tecnologia i quin problema concret resol. És perfectament vàlid dir "Triaríem Kafka per a la ingestió en streaming perquè... però no dominem els detalls d'implementació".


Lliurament

Puja al Campus Virtual dos fitxers:

Fitxer Contingut Format
PR507401_cognom_nom.pdf Informe complet amb les 3 parts PDF (màx. 15 pàgines sense contar el diagrama)
arquitectura_cognom_nom.png o .pdf Diagrama de l'arquitectura (Part 3.3) PNG, PDF o draw.io exportat

Estructura recomanada de l'informe:

  1. Portada (nom, grup, data)
  2. Part 1 — Casos reals (una secció per empresa)
  3. Part 2 — Mercat laboral (taula d'ofertes + anàlisi de patrons)
  4. Part 3 — Arquitectura Sapa-Shop (anàlisi 5V + selecció + capes + decisions específiques)
  5. Conclusions personals (3-5 línies: que t'ha semblat més sorprenent, qué has après)
  6. Bibliografia (URLs de les fonts consultades)

Sobre les fonts i el plagi

Totes les fonts consultades han de citar-se explícitament a la bibliografia. El contingut de l'informe ha de ser elaboració pròpia: no es pot copiar directament text de webs ni usar IA generativa per escriure les seccions. Les IA es poden usar com a eina de recerca (per a suggerir fonts o aclarir conceptes) però no per generar el text final.

Data límit de lliurament: consulta el calendari del Campus Virtual.

Consulta la Rúbrica PR507401 per als criteris detallats d'avaluació.


Preguntes de reflexió final

Un cop completada la pràctica, reflexiona breument sobre:

  1. Quin dels tres casos reals investigats t'ha semblat més rellevant o sorprenent, i per qué?
  2. Quin perfil professional dels analitzats a les ofertes de feina t'atrau més? Per qué?
  3. Si poguessis reformular alguna decisió de l'arquitectura de Sapa-Shop amb el que saps ara, quina canviaries i per qué?

Inclou les respostes a les conclusions de l'informe (no cal que siguin extenses: 3-5 línies per pregunta).


Pràctica PR507401 | Mòdul M5074 Sistemes de Big Data | Institut Sa Palomera (Blanes) | Curs CEIABD 2026-2027