Salta el contingut

Qualitat i biaix de les dades

Resultat d'Aprenentatge

RA1: Aplica tècniques d'anàlisi de dades que integren, processen i analitzen la informació, adaptant-los i implementant aplicacions i sistemes que les utilitzin.

Criteris d'Avaluació (CA)

CA Descripció
CA1.2 Extreu de forma automàtica informació i coneixement a partir de grans volums de dades.
CA1.4 Construeix un conjunt de dades complexes i s'hi han relacionat entre si.
CA1.7 Determina criteris de cost i qualitat necessaris per a l'eficàcia i eficiència d'implementació d'un sistema Big Data.

Bloc complementari

Aquest bloc amplia i reforça el RA1 amb continguts d'ètica i qualitat de dades que no formen part del repartiment oficial de les 99 hores del currículum (vegeu Programació). El professorat el pot tractar com a activitat de reforç (AR) o ampliació segons la disponibilitat horària del grup.

Per què aquest bloc

Fins ara el mòdul s'ha centrat en com emmagatzemar, gestionar i processar grans volums de dades. Aquest bloc planteja una pregunta anterior, i igual d'important: les dades que estem agafant són les dades correctes?

Un sistema Big Data tècnicament perfecte —ben particionat, ben indexat, ben replicat— pot produir conclusions falses o discriminatòries si les dades d'entrada no són íntegres o si reflecteixen biaixos socials preexistents. Un model de concessió de préstecs entrenat amb dades històriques esbiaixades aprendrà —i amplificarà— aquell biaix. Un dataset amb una classe sobrerepresentada produirà un model que sembla precís en general però que falla sistemàticament amb els grups minoritaris.

Aquest bloc tracta tres preguntes pràctiques:

  • Com es defineix i es mesura la integritat d'un conjunt de dades?
  • Com es detecta i es mesura el biaix en les dades, abans d'entrenar cap model?
  • Quines tècniques pràctiques existeixen per corregir el desequilibri de classes en dades numèriques, textuals i d'imatge?

Qüestionari inicial

  1. Qué entens per "integritat de les dades"? Posa un exemple d'una dada que sigui tècnicament vàlida però poc fiable.
  2. Has sentit a parlar d'algun cas real on un model d'IA hagi pres decisions esbiaixades? Descriu'l breument.
  3. Qué creus que vol dir "desequilibri de classes" en un dataset?
  4. Si una empresa té un dataset de candidats a una feina amb un 90% d'homes i un 10% de dones, quin problema preveus si s'entrena un model de selecció amb aquestes dades?
  5. Coneixes alguna tècnica per "equilibrar" un dataset abans d'entrenar un model?
  6. Qué és el SMOTE? Si no ho saps, intueix què podria voler dir l'acrònim.
  7. Per qué creus que detectar un error de qualitat de dades és més barat com més aviat es detecta?

Organització dels continguts

  • Integritat de les dades


    Les cinc dimensions de la integritat (exactitud, completesa, consistència, fiabilitat, seguretat) aplicades a conjunts de dades per a Big Data i Intel·ligència Artificial.

    Integritat de les dades

  • Biaix en les dades


    Què és el biaix previ a l'entrenament, com es defineix matemàticament i quines mètriques (CI, DPL, KL, JS, Lp-norm, TVD, KS, CDD) permeten detectar-lo abans d'entrenar cap model.

    Biaix en les dades

  • Desequilibri de classes


    Tècniques per corregir el desequilibri de classes: remostreig, generació de dades sintètiques (SMOTE), augmentació de dades (GANs) i estratègies específiques per a dades numèriques, textuals i d'imatge.

    Desequilibri de classes

Durada i avaluació

Element Valor
Hores Bloc complementari — no comptat a les 99h oficials del currículum
Pes en la qualificació final A criteri del professorat (activitat de reforç/ampliació)
Pràctica avaluable PR507408 — Auditoria de biaix i correcció de desequilibri
Activitats AC5074/08/01 i AC5074/08/02

Enfocament d'aquest bloc

Aquest bloc combina conceptes matemàtics (mètriques de biaix) amb tècniques pràctiques (Python, pandas, imbalanced-learn). No cal dominar la formulació matemàtica exacta de cada mètrica: l'objectiu és entendre quina pregunta respon cada mètrica i saber triar-la correctament davant d'un cas real, igual que es fa amb la tria d'un índex o d'un tipus de particionament a la resta del mòdul.


Bloc 8 | Mòdul M5074 Sistemes de Big Data | Institut Sa Palomera (Blanes) | Curs CEIABD 2026-2027