Seguretat i compliment de dades

Per què protegir les dades importa tant com validar-les

A mesura que les empreses utilitzen cada cop més l'aprenentatge automàtic per impulsar la presa de decisions, és imprescindible prioritzar la seguretat i el compliment normatiu de les dades emprades per entrenar aquests models, amb el mateix rigor amb què es prioritza la seva qualitat o l'absència de biaix.

La informació sensible dels clients, les dades de negoci propietàries i altres actius crítics s'han de protegir adequadament al llarg de tot el cicle de vida del Machine Learning: des de la ingestió de dades fins al desplegament del model. Fer servir AWS i les bones pràctiques generals de seguretat per protegir i xifrar les dades ajuda a prevenir fuites de dades costoses, sancions regulatòries i danys reputacionals difícils de reparar.

flowchart LR
    A[Ingestió<br/>de dades] --> B[Emmagatzematge<br/>i preparació]
    B --> C[Entrenament<br/>del model]
    C --> D[Desplegament<br/>en producció]
    A -.->|Seguretat i compliment aplicats a cada fase| D

Implicacions dels requisits de compliment de dades

Dades com la informació personal identificable (PII), la informació sanitària protegida (PHI) i les dades amb requisits de residència sovint han de complir requisits regulatoris específics. Gestionar dades amb requisits de compliment és un repte habitual per a les empreses. Com que els models de Machine Learning s'entrenen amb conjunts de dades molt grans, és essencial entendre les implicacions d'aquests requisits i conèixer les eines disponibles per gestionar-los.

PII — Informació personal identificable

La informació personal identificable (Personally Identifiable Information, PII) és qualsevol dada que es pugui fer servir per identificar una persona concreta. La PII pot incloure el nom, l'adreça, el correu electrònic, el telèfon, el número de la seguretat social d'una persona, o qualsevol altra informació que permeti identificar-la. També pot incloure registres com extractes financers, historials mèdics o documents laborals.

Implicacions

Gestionar i protegir la PII amb cura és crucial per mantenir la privacitat individual i complir la normativa de protecció de dades, com el Reglament General de Protecció de Dades (RGPD/GDPR) a la Unió Europea o la California Consumer Privacy Act (CCPA) als EUA.
L'ús o la divulgació inadequada de PII pot comportar sancions legals i econòmiques, a més de danys reputacionals.

Requisits de compliment

Obtenir el consentiment explícit de les persones abans de recollir, usar o compartir la seva PII. El consentiment per si sol no satisfà els requisits de compliment: cal aplicar mesures de seguretat addicionals.
Implementar mesures de seguretat de dades robustes: xifratge, redacció, emmascarament (data masking), control d'accés i còpies de seguretat regulars.
Proporcionar polítiques de privacitat clares i completes que expliquin com es tractarà i protegirà la PII.
Complir els drets de les persones: dret d'accés, rectificació i supressió (dret a l'oblit) de les seves dades personals.

PHI — Informació sanitària protegida

La informació sanitària protegida (Protected Health Information, PHI) és un subconjunt específic de la PII relacionat amb la salut física o mental d'una persona, la seva atenció sanitària o el pagament d'aquesta atenció. La PHI pot incloure historials mèdics, resultats de proves, diagnòstics i informació de facturació sanitària.

Implicacions

L'ús de PHI en Machine Learning està fortament regulat per lleis com la Health Insurance Portability and Accountability Act (HIPAA) als EUA, i normativa equivalent en altres països (a la UE, el RGPD ja tracta les dades de salut com una categoria especial de dades).
L'accés, ús o divulgació no autoritzats de PHI pot comportar sancions importants i conseqüències legals greus.
Gestionar la PHI adequadament és essencial per mantenir la confiança i la privacitat de les persones que reben atenció sanitària.

Requisits de compliment

Obtenir el consentiment explícit de les persones abans de recollir, usar o compartir la seva PHI. Igual que amb la PII, el consentiment per si sol no és suficient.
Implementar mesures de seguretat robustes: control d'accés, redacció, emmascarament, registres d'auditoria (audit trails) i emmagatzematge i transmissió segurs.
Designar una persona responsable de privacitat (privacy officer) que supervisi la gestió de la PHI i en garanteixi el compliment normatiu.
Proporcionar formació completa al personal sobre el tractament adequat de la PHI.

Residència de dades (Data Residency)

Els requisits de residència de dades fan referència a la ubicació geogràfica on les dades s'han d'emmagatzemar i processar. Aquestes regulacions solen estar motivades per qüestions de sobirania nacional, privacitat de dades i seguretat nacional.

Implicacions

Determinades ubicacions geogràfiques poden exigir que les dades resideixin en llocs concrets. Per exemple, el RGPD de la Unió Europea imposa requisits estrictes de residència de dades que estipulen que les dades personals de ciutadans de la UE s'han d'emmagatzemar i processar dins la UE, llevat que es compleixin condicions específiques.
Determinades jurisdiccions tenen lleis i regulacions específiques sobre l'emmagatzematge i el processament de certs tipus de dades, com la PII i la PHI.
L'incompliment dels requisits de residència de dades pot comportar problemes legals, com requisits de localització de dades o restriccions a la transferència de dades entre fronteres.

Requisits de compliment

Entendre els requisits de residència de dades de les jurisdiccions on opera l'organització o on es preveu utilitzar el model d'ML.
Garantir que l'emmagatzematge i el processament de les dades, incloent-hi qualsevol PII o PHI, compleix la normativa de residència de dades aplicable.
Implementar les mesures adequades per abordar els requisits de residència, com l'ús de serveis cloud o centres de dades ubicats en regions o països concrets.
Mantenir-se informat sobre els canvis en la normativa de residència de dades i adaptar-hi les polítiques i procediments de l'organització.

Tres conceptes diferents, sovint solapats

Una mateixa dada pot ser alhora PII i PHI (per exemple, el nom i l'historial mèdic d'un pacient), i estar a més subjecta a requisits de residència (per exemple, si el pacient és ciutadà de la UE). Les mesures de protecció no són excloents: cal aplicar-les totes simultàniament quan correspongui, no triar-ne només una.

Eines d'AWS per a seguretat i compliment

Aquests requisits no s'han de gestionar manualment a cada pipeline: AWS ofereix serveis específics que ajuden a aplicar-los de forma sistemàtica als sistemes de Big Data treballats en aquest mòdul:

Necessitat	Servei AWS	Relació amb aquest mòdul
Detectar automàticament PII/PHI en datasets emmagatzemats a S3	Amazon Macie	Escaneja els buckets S3 (vegeu Bloc 4) i alerta si troba dades sensibles sense protegir
Xifrar dades en repòs i en trànsit	AWS KMS (Key Management Service)	Xifratge integrat a S3, RDS, Redshift i la resta de serveis de dades del Bloc 4
Controlar qui pot accedir a quines dades	AWS IAM i polítiques de bucket S3	Control d'accés granular a nivell de Data Lake
Garantir la residència de dades dins d'una regió concreta	Selecció de regió AWS i S3 Object Lock	Triar la regió `eu-west-1` (Irlanda) o `eu-south-2` (Espanya) per a dades de ciutadans de la UE
Registrar qui ha accedit a quines dades i quan	AWS CloudTrail	Registre d'auditoria imprescindible per a PHI i per acreditar compliment del RGPD

Aplicació pràctica al Data Lake

Recorda l'arquitectura de Data Lake per zones del Bloc 4 (raw, curated, serving). Una bona pràctica habitual és aplicar Amazon Macie sobre la zona raw abans que les dades passin a curated, de manera que qualsevol PII o PHI es detecti i s'emmascari o xifri abans que arribi a les capes on hi accedeixen més usuaris i processos.

Posa't a prova

Cas: una empresa de recerca mèdica vol desenvolupar un model d'aprenentatge automàtic capaç de predir diagnòstics mèdics. Els seus datasets inclouen dades de pacients com factures mèdiques, resultats de laboratori i historial mèdic.

Abans de desplegar aquest model, com hauria de procedir l'empresa amb el seu dataset?

A. L'empresa pot utilitzar lliurement qualsevol dada de pacients que necessiti, sempre que sigui amb finalitats de recerca. B. L'empresa ha d'obtenir el consentiment signat del pacient abans d'utilitzar qualsevol dada mèdica, inclosa la PHI com ara diagnòstics, medicaments i procediments. C. L'empresa ha de seguir les directrius de HIPAA per recollir, emmagatzemar i utilitzar de forma segura les dades PHI. La PII i la PHI s'han de protegir amb mesures de seguretat com el xifratge i el control d'accés per minimitzar els riscos de privacitat. D. L'empresa ha d'eliminar tota la PII (noms, adreces, números de la seguretat social) abans d'utilitzar les dades per evitar vulneracions de privacitat. Tanmateix, pot conservar els detalls de la condició mèdica (PHI) per entrenar el model de forma efectiva.

Mostra la resposta raonada

La resposta correcta és C. És la més completa: reconeix que cal seguir un marc normatiu sencer (HIPAA, o el RGPD en el context europeu) que regula tot el cicle de vida de la dada —recollida, emmagatzematge i ús—, i exigeix mesures de seguretat tècniques concretes (xifratge, control d'accés) tant per a la PII com per a la PHI, no només per a una de les dues.

L'opció A és incorrecta: la finalitat de recerca no eximeix del compliment normatiu; com s'ha vist en aquesta pàgina, el consentiment i les mesures de seguretat són obligatoris amb independència de la finalitat.
L'opció B és incompleta: el consentiment és necessari però no suficient (tal com s'explica als requisits de compliment de PII i PHI d'aquesta pàgina); cal combinar-lo sempre amb mesures de seguretat tècniques.
L'opció D és incorrecta i conceptualment perillosa: eliminar la PII però conservar la PHI sense protecció no resol el problema, perquè la PHI per si sola —diagnòstics, medicaments, procediments— ja és informació extremadament sensible que requereix les mateixes proteccions (xifratge, control d'accés, auditoria) independentment que hi hagi o no PII associada.

AC5074/08/05 — Miniactivitat

Una empresa catalana d'assegurances de salut vol entrenar un model de Machine Learning per predir el risc de determinades malalties cròniques a partir de l'historial mèdic dels seus assegurats. Totes les dades pertanyen a ciutadans residents a Catalunya.

Respon:

Quins tipus de dades d'aquest cas són PII? Quins són PHI? Posa almenys dos exemples de cada tipus.
Quins requisits de residència de dades aplicarien en aquest cas?
Proposa, com a mínim, tres mesures concretes (tècniques o organitzatives) que l'empresa hauria d'aplicar abans d'entrenar el model, justificant cadascuna amb el requisit de compliment que cobreix.
Si l'empresa volgués fer servir aquestes dades per a una pràctica de classe (com les d'aquest mòdul), quina mesura caldria aplicar abans, com a mínim, per poder-ho fer de forma ètica i legal?

Bloc 8 | Mòdul M5074 Sistemes de Big Data | Institut Sa Palomera (Blanes) | Curs CEIABD 2026-2027