Introducció al Big Data
Resultat d'Aprenentatge
RA1: Aplica tècniques d'anàlisi de dades que integren, processen i analitzen la informació, adaptant-los i implementant aplicacions i sistemes que les utilitzin.
Criteris d'Avaluació (CA)
| CA | Descripció |
|---|---|
| CA1.1 | Identifica conceptes bàsics de matemàtica discreta, lògica algorísmica i complexitat computacional, i la seva aplicació per al tractament automàtic de la informació per mitjà de sistemes computacionals |
| CA1.2 | Extreu de forma automàtica informació, coneixement a partir de grans volums de dades. |
| CA1.3 | Combina diferents fonts i tipus de dades. |
| CA1.4 | Construeix un conjunt de dades complexes i s'hi han relacionat entre si. |
| CA1.5 | Estableix objectius i prioritats, seqüenciació i organització del temps de realització. |
| CA1.6 | Selecciona i integra sistemes d'informació que satisfan necessitats del problema. |
| CA1.7 | Determina criteris de cost i qualitat necessaris per a l'eficàcia i eficiència d'implementació d'un sistema BigData. |
Continguts del Bloc 1
Abans d'entrar en les tecnologies concretes, cal construir un marc conceptual sòlid. Sense entendre per què existeix el Big Data, és molt difícil prendre decisions tècniques encertades. Aquest bloc respon a les preguntes fonamentals:
- Que és el Big Data i en qué es diferencia del processament convencional de dades
- Quines són les 5V i per qué cadascuna planteja reptes tècnics específics
- Quines arquitectures han emergit per respondre a aquests reptes i quan usar cadascuna
- Com ha evolucionat el sector des del Data Warehouse de Kimball fins al Data Lakehouse modern
- Quins perfils professionals treballen en l'ecosistema de dades i quines competències requereixen
El 2026, el panorama del Big Data és madur però en constant evolució. Eines que eren estàndard fa cinc anys (Hadoop MapReduce, Hive) han estat en bona part substituïdes per alternatives més modernes i eficients (Spark, Trino, dbt). El núvol ha democratitzat l'accés a infraestructures que abans requerien inversions milionàries. Comprendre aquesta evolució ajuda a distingir el que és fonamental del que és transitòriament popular.
Qüestionari inicial
- Quina diferència hi ha entre una base de dades convencional i un sistema de Big Data? On situaries el límit?
- Quines de les 5V del Big Data creus que és la més difícil de gestionar i per qué?
- Has sentit parlar de Data Warehouse? Qué creus que és i per a qué serveix?
- Quina diferència hi ha entre un Data Lake i un Data Warehouse? Quins avantatges té cadascun?
- Qué és el cloud computing i com canvia la forma de desplegar sistemes de Big Data?
- Has usat mai Apache Spark o Hadoop? Descriu breument el que saps de cadascun.
- Qué entens per processament distribuït? Per qué és necessari per al Big Data?
- Quina diferència hi ha entre processar dades en lot (batch) i en temps real (streaming)?
- Qué és un Data Engineer? Quines tasques fa el dia a dia?
- Qué és dbt i per a qué serveix en un pipeline de dades modern?
- Quins proveïdors de núvol coneixes? Quins serveis de Big Data ofereix cadascun?
- Qué és Delta Lake i en qué millora el Data Lake tradicional?
- Quina relació hi ha entre el Big Data i la Intel·ligència Artificial?
- Si haguessis d'emmagatzemar 100 TB de dades de sensors industrials, com ho faries?
- Qué creus que és més important en un projecte de dades: la tecnologia o la qualitat de les dades?
Organització dels continguts
-
Les 5V del Big Data
Volum, velocitat, varietat, veracitat i valor: els cinc reptes fonamentals que defineixen el Big Data i els casos reals que els il·lustren.
-
Arquitectures generals
Data Warehouse, Data Lake i Data Lakehouse: evolució, avantatges, limitacions i criteris de selecció per a cada arquitectura.
-
Perfils professionals
Data Engineer, Data Scientist, Analytics Engineer, BI Developer, Data Architect: rols, competències i sortides laborals al sector Big Data.
Durada i avaluació
| Element | Valor |
|---|---|
| Hores | 9 hores (3 sessions de 3h) |
| Pes en la qualificació final | 9% del mòdul |
| Pràctica avaluable | PR507401 — Anàlisi del panorama Big Data |
| Activitats | AC5074/01/01 fins a AC5074/01/03 |
Enfocament d'aquest bloc
El Bloc 1 és fonamentalment conceptual i orientador. L'objectiu no és memoritzar definicions sinó construir un marc mental que permeti, al llarg del curs, entendre per qué s'utilitza cada tecnologia i quin problema concret resol. Les activitats d'aquest bloc treballen deliberadament la recerca i el pensament crític sobre casos reals.