Qualitat i biaix de les dades
Resultat d'Aprenentatge
RA1: Aplica tècniques d'anàlisi de dades que integren, processen i analitzen la informació, adaptant-los i implementant aplicacions i sistemes que les utilitzin.
Criteris d'Avaluació (CA)
| CA | Descripció |
|---|---|
| CA1.2 | Extreu de forma automàtica informació i coneixement a partir de grans volums de dades. |
| CA1.4 | Construeix un conjunt de dades complexes i s'hi han relacionat entre si. |
| CA1.7 | Determina criteris de cost i qualitat necessaris per a l'eficàcia i eficiència d'implementació d'un sistema Big Data. |
Bloc complementari
Aquest bloc amplia i reforça el RA1 amb continguts d'ètica i qualitat de dades que no formen part del repartiment oficial de les 99 hores del currículum (vegeu Programació). El professorat el pot tractar com a activitat de reforç (AR) o ampliació segons la disponibilitat horària del grup.
Per què aquest bloc
Fins ara el mòdul s'ha centrat en com emmagatzemar, gestionar i processar grans volums de dades. Aquest bloc planteja una pregunta anterior, i igual d'important: les dades que estem agafant són les dades correctes?
Un sistema Big Data tècnicament perfecte —ben particionat, ben indexat, ben replicat— pot produir conclusions falses o discriminatòries si les dades d'entrada no són íntegres o si reflecteixen biaixos socials preexistents. Un model de concessió de préstecs entrenat amb dades històriques esbiaixades aprendrà —i amplificarà— aquell biaix. Un dataset amb una classe sobrerepresentada produirà un model que sembla precís en general però que falla sistemàticament amb els grups minoritaris.
Aquest bloc tracta tres preguntes pràctiques:
- Com es defineix i es mesura la integritat d'un conjunt de dades?
- Com es detecta i es mesura el biaix en les dades, abans d'entrenar cap model?
- Quines tècniques pràctiques existeixen per corregir el desequilibri de classes en dades numèriques, textuals i d'imatge?
Qüestionari inicial
- Qué entens per "integritat de les dades"? Posa un exemple d'una dada que sigui tècnicament vàlida però poc fiable.
- Has sentit a parlar d'algun cas real on un model d'IA hagi pres decisions esbiaixades? Descriu'l breument.
- Qué creus que vol dir "desequilibri de classes" en un dataset?
- Si una empresa té un dataset de candidats a una feina amb un 90% d'homes i un 10% de dones, quin problema preveus si s'entrena un model de selecció amb aquestes dades?
- Coneixes alguna tècnica per "equilibrar" un dataset abans d'entrenar un model?
- Qué és el SMOTE? Si no ho saps, intueix què podria voler dir l'acrònim.
- Per qué creus que detectar un error de qualitat de dades és més barat com més aviat es detecta?
Organització dels continguts
-
Integritat de les dades
Les cinc dimensions de la integritat (exactitud, completesa, consistència, fiabilitat, seguretat) aplicades a conjunts de dades per a Big Data i Intel·ligència Artificial.
-
Biaix en les dades
Què és el biaix previ a l'entrenament, com es defineix matemàticament i quines mètriques (CI, DPL, KL, JS, Lp-norm, TVD, KS, CDD) permeten detectar-lo abans d'entrenar cap model.
-
Desequilibri de classes
Tècniques per corregir el desequilibri de classes: remostreig, generació de dades sintètiques (SMOTE), augmentació de dades (GANs) i estratègies específiques per a dades numèriques, textuals i d'imatge.
Durada i avaluació
| Element | Valor |
|---|---|
| Hores | Bloc complementari — no comptat a les 99h oficials del currículum |
| Pes en la qualificació final | A criteri del professorat (activitat de reforç/ampliació) |
| Pràctica avaluable | PR507408 — Auditoria de biaix i correcció de desequilibri |
| Activitats | AC5074/08/01 i AC5074/08/02 |
Enfocament d'aquest bloc
Aquest bloc combina conceptes matemàtics (mètriques de biaix) amb tècniques pràctiques (Python, pandas, imbalanced-learn). No cal dominar la formulació matemàtica exacta de cada mètrica: l'objectiu és entendre quina pregunta respon cada mètrica i saber triar-la correctament davant d'un cas real, igual que es fa amb la tria d'un índex o d'un tipus de particionament a la resta del mòdul.
Bloc 8 | Mòdul M5074 Sistemes de Big Data | Institut Sa Palomera (Blanes) | Curs CEIABD 2026-2027