Integritat de les dades

Què és la integritat de les dades

La integritat de les dades és el grau de confiança que es pot dipositar en un conjunt de dades. Els algorismes d'aprenentatge automàtic depenen de dades d'entrenament d'alta qualitat per fer prediccions i prendre decisions correctes: si les dades no són íntegres, el model resultant no ho serà tampoc, per molt sofisticat que sigui l'algorisme.

Mantenir la integritat de les dades mitjançant la neteja, la validació i el monitoratge continu és imprescindible per desenvolupar sistemes de Big Data i d'IA que generin resultats vàlids i útils. Aquest concepte ja s'ha treballat parcialment al Bloc 5 (Qualitat de dades) des de la perspectiva d'un pipeline ETL; aquí es revisa des de la perspectiva més àmplia de la preparació de dades per a models de Machine Learning.

Relació amb el Bloc 5

Les tècniques de validació (Pandera, Great Expectations) i les dimensions de qualitat (completesa, exactitud, consistència) ja explicades al Bloc 5 són directament aplicables aquí. Aquest bloc se centra en una dimensió addicional, específica de l'aprenentatge automàtic: el biaix de les dades, que es tracta a la pàgina següent.

Les cinc dimensions de la integritat

Exactitud (Accuracy)

Les dades representen amb precisió els processos reals que el model està intentant aprendre i predir. Unes dades inexactes condueixen sistemàticament a prediccions esbiaixades i incorrectes.

Exemple: un sensor IoT mal calibrat que registra temperatures sistemàticament 3 graus per sobre del valor real introdueix una inexactitud constant que cap tècnica de neteja posterior pot corregir sense conèixer l'origen de l'error.

Completesa (Completeness)

Tota la informació rellevant necessària per a la tasca d'aprenentatge automàtic és present al dataset. Les dades absents o incompletes poden esbiaixar l'entrenament del model i provocar un rendiment subòptim.

Exemple: un model de predicció de l'abandonament de clients (churn) entrenat amb un dataset on falta sistemàticament l'historial de facturació dels clients donats de baixa fa anys aprendrà patrons incomplets i poc representatius.

Consistència (Consistency)

Les dades són coherents entre diferents fonts, períodes de temps i variables. Les dades inconsistents introdueixen soroll al model, dificultant que aprengui patrons significatius.

Exemple: si el camp pais conté "ES" al CRM però "España" al sistema de facturació per al mateix client, un model que agrupi per país tractarà aquests dos registres com a entitats diferents.

Fiabilitat (Reliability)

Es pot confiar que les dades produiran resultats consistents i reproduïbles. Si les dades són fiables, el rendiment del model es manté estable entre execucions diferents i entorns diferents.

Exemple: un pipeline d'extracció que truncava aleatòriament alguns camps de text llargs en funció de la càrrega del servidor produeix un dataset no reproduïble: el mateix procés, executat dos cops, genera resultats lleugerament diferents.

Seguretat (Security)

Les dades estan protegides davant l'accés no autoritzat, la modificació o la corrupció. Mesures de seguretat com el xifratge, el control d'accés i l'emmascarament de dades (data masking) són imprescindibles per mantenir la integritat de les dades.

Exemple: un dataset d'entrenament amb dades personals (DNI, número de targeta) sense xifrar ni emmascarar no només incompleix el RGPD, sinó que qualsevol modificació accidental o malintencionada hi passa desapercebuda.

Les cinc dimensions són complementàries, no excloents

Un dataset pot ser perfectament exacte i complet, però gens segur (per exemple, si és accessible per qualsevol persona de l'organització sense control). Cal avaluar les cinc dimensions de forma independent: cap d'elles compensa la mancança d'una altra.

Per què la integritat de les dades importa especialment en Machine Learning

A diferència d'un informe de BI puntual, un model de Machine Learning codifica els patrons de les dades d'entrenament de forma persistent. Un error de qualitat en un informe es corregeix refent l'informe; un error de qualitat en un dataset d'entrenament queda "congelat" dins els paràmetres del model fins que es torna a entrenar.

flowchart LR
    A[Dades amb<br/>problemes d'integritat] --> B[Entrenament<br/>del model]
    B --> C[Model que aprèn<br/>i amplifica el problema]
    C --> D[Prediccions<br/>esbiaixades o incorrectes]
    D --> E[Decisions de negoci<br/>basades en el model]
    E -->|Cost creixent| F[Conseqüències:<br/>pèrdues, discriminació,<br/>pèrdua de confiança]

Per això la validació de la integritat de les dades s'ha de fer abans de l'entrenament (pre-training), no només sobre les prediccions del model un cop ja és en producció.

AC5074/08/01 — Miniactivitat

Per a cadascuna de les cinc dimensions d'integritat, descriu un exemple concret (real o inventat, però versemblant) d'un problema d'integritat en un dataset relacionat amb el sector de l'e-commerce (productes, comandes, clients). Per a cada exemple, indica quina conseqüència tindria si no es detectés abans d'entrenar un model de recomanació de productes.

Bloc 8 | Mòdul M5074 Sistemes de Big Data | Institut Sa Palomera (Blanes) | Curs CEIABD 2026-2027