Principis de visualització de dades
La visualització de dades és molt més que representar xifres en un gràfic. És una disciplina que combina percepció visual, estadística i comunicació per transformar dades brutes en coneixement accionable. Aprendre a visualitzar bé significa, primerament, entendre com el cervell humà processa la informació visual i, segonament, aplicar principis de disseny que maximitzin la comprensió i minimitzin el risc d'engany.
Per qué la visualització importa
El cervell humà processa imatges aproximadament 60.000 vegades més ràpid que el text. Quan llegim una taula de 500 files de dades numèriques, necessitem temps i esforç conscient per identificar tendències i anomalies. Quan veiem el mateix conjunt de dades representat en un gràfic ben dissenyat, els patrons es fan visibles de manera immediata i gairebé automàtica. Això no és una metàfora: és el resultat de l'arquitectura del sistema visual humà, que té vies neuronals especialitzades per detectar contrastos, moviments i formes a una velocitat que el raonament simbòlic no pot igualar.
Casos que van canviar la història
John Snow i el mapa del còlera (Londres, 1854)
El 1854, Londres patia un brot de còlera devastador. La teoria dominant de l'època atribuïa la malaltia als "miasmes" (l'aire contaminat), però el metge John Snow va tenir una intuïció diferent: la malaltia es transmetia per l'aigua. Per demostrar-ho, va crear un mapa del barri de Soho on marcava amb un punt cada mort per còlera. El resultat va ser inqüestionable: tots els punts s'agrupaven al voltant d'una sola bomba d'aigua al carrer Broad Street. Snow va convèncer les autoritats que bloquessin la maneta de la bomba i el brot es va aturar. No va ser la prova estadística la que va convèncer les autoritats: va ser la visualització. Sense el mapa, la teoria dels miasmes hauria continuat dominant durant dècades.
Florence Nightingale i el diagrama de rosa (Guerra de Crimea, 1858)
Florence Nightingale és coneguda com la pionera de la infermeria moderna, però també era una estadística brillant. Durant la Guerra de Crimea, va recollir dades sobre les causes de mort dels soldats britànics i va descobrir que la immensa majoria morien per malalties infeccioses evitables (tifus, còlera, disenteria), no per ferides de combat. Per comunicar aquesta troballa a un públic no tècnic, va inventar el diagrama de rosa (o polar area chart): un gràfic circular on la mida de cada secció representava el nombre de morts per cada causa cada mes. La visualització va ser tan impactant que va aconseguir reformes sanitàries en els hospitals militars, salvant milers de vides. Nightingale va entendre que tenir les dades no era suficient: calia comunicar-les de manera que generessin acció.
Visualitzacions enganyoses: quan el gràfic manipula
La mateixa potència que fa les visualitzacions tan eficaces per comunicar veritats les fa igualment eficaces per distorsionar la realitat, intencionadament o per desconeixement.
L'eix Y truncat
Quan un eix Y no comença a zero, les diferències entre valors s'amplifiquen visualment de manera desproporcionada. Imagina dues empreses: A factura 98 M€ i B factura 100 M€. La diferència real és del 2%. Si l'eix Y va de 97 a 101, la barra de B semblarà el doble de gran que la de A, creant la impressió d'una diferència enorme. Aquesta tècnica s'usa habitualment en informes financers per fer que petites variacions semblin dramàtiques.
El cherry-picking
Consisteix a mostrar només el període de temps o el subconjunt de dades que recolza la tesi que es vol defensar, ignorant el context global. Per exemple, mostrar el creixement d'una acció durant els últims 3 mesos ocultant que en el darrer any ha baixat un 40%.
Els gràfics 3D
L'efecte de perspectiva dels gràfics 3D distorsiona sistemàticament les proporcions. Les seccions d'un pastís 3D que estan al davant (a prop de l'espectador) semblen proporcionalment més grans que les del fons, independentment dels seus valors reals. No hi ha cap raó tècnica per usar un gràfic 3D en dades 2D: l'única funció és l'estètica, a costa de la precisió.
Edward Tufte i els principis de disseny
Edward Tufte, professor de Yale i autor de "The Visual Display of Quantitative Information" (1983), va establir els principis fonamentals de la visualització honesta i eficaç. El seu treball continua sent la referència principal del camp quatre dècades després.
Data-ink ratio
El data-ink ratio és la proporció de "tinta" (o píxels, en digital) que s'usa directament per representar dades sobre el total de tinta usada en el gràfic.
L'objectiu, segons Tufte, és maximitzar aquest ràtio. Cada element visual que no contribueix directament a transmetre informació sobre les dades és soroll que cal eliminar. En la pràctica, això significa:
- Eliminar les línies de graella que no ajuden a llegir els valors
- Treure els marcs dels gràfics quan no aporten res
- Suprimir les ombres, gradients i efectes decoratius
- Eliminar llegendes quan les etiquetes directes (data labels) són més llegibles
- Reduir el nombre de marques als eixos al mínim necessari
Un gràfic de barres senzill amb les barres etiquetades directament pot tenir un data-ink ratio molt superior a un gràfic "professional" carregat de gradients, ombres i un fons gris.
Chartjunk
El chartjunk és el terme que Tufte usa per descriure tots els elements visuals que no aporten informació sobre les dades i que, sovint, la distorsionen o l'oculten. Exemples habituals:
- Backgrounds decoratius: imatges de fons, textures, colors de fons elaborats
- Efectes visuals: ombres, biselats, gradients en barres o sectors
- Moiré patterns: tramats i patrons en seccions de gràfics que creen vibració visual molesta
- Iconografia innecessària: persones, monedes o altres icones que "representen" les dades però no les quantifiquen de manera precisa
- Línies de graella excessives: una graella densa que competeix visualment amb les dades
El chartjunk no és simplement un problema estètic: diversos estudis de psicologia cognitiva han demostrat que el chartjunk augmenta el temps necessari per comprendre un gràfic i incrementa la taxa d'errors en la lectura dels valors.
Sparklines
Les sparklines son visualitzacions molt denses, del tamany d'una paraula, que es poden inserir directament en el text o en una taula. Van ser inventades per Tufte per permetre mostrar tendències temporals sense requerir un gràfic complet. L'objectiu és proporcionar context ràpid: "aquesta xifra va a l'alça o a la baixa?", sense haver de llegir un gràfic separat.
Small multiples
Els small multiples (o trellis charts) consisteixen a repetir el mateix tipus de visualització per a subgrups del conjunt de dades, posant-los en una graella. El lector pot comparar patrons entre subgrups de manera immediata perquè l'escala i el format son idèntics. Per exemple: el mateix gràfic de vendes mensuals, repetit per a cada comunitat autònoma, en una graella de 5 files per 4 columnes. Les diferències entre regions es fan visibles d'un sol cop d'ull.
Selecció del tipus de visualització
La primera pregunta davant de qualsevol conjunt de dades és: qué vull comunicar? La resposta determina el tipus de gràfic. No hi ha un gràfic "millor" en abstracte: cada tipus és superior per a un propòsit específic.
Taula de decisió: quin gràfic per a quin propòsit
| Propòsit | Gràfics recomanats | Notes |
|---|---|---|
| Comparació entre categories | Bar chart, Grouped bar, Dot plot, Lollipop chart | El bar chart horitzontal és millor per a noms de categoria llargs |
| Evolució temporal | Line chart, Area chart, Candlestick (finances) | Per a moltes sèries temporals, el line chart és superior al bar |
| Distribució d'una variable | Histogram, Box plot, Violin plot, KDE plot | L'histograma és per a valors continus; el box plot per a comparar grups |
| Composició (parts d'un tot) | Pie chart (amb precaució), Stacked bar, Treemap, Waffle chart | El pie chart és difícil de llegir amb més de 4 categories |
| Relació / correlació | Scatter plot, Bubble chart, Heatmap, Correlogram | El scatter plot és la primera eina per detectar correlacions |
| Geogràfica | Choropleth map, Bubble map, Cartogram | El choropleth distorsiona si les regions grans dominen visualment |
El cas del pie chart
El pie chart (gràfic de pastís) és un dels gràfics més populars i, alhora, un dels més criticats pels especialistes en visualització. Els problemes principals son:
- El cervell humà és molt menys precís comparant àrees i angles que comparant longituds. Distingir si una secció és el 28% o el 32% és molt difícil en un pastís, però trivial en un bar chart.
- Amb més de 4-5 categories, les seccions petites son pràcticament impossibles de comparar entre si.
- La suma ha de ser necessàriament el 100%, cosa que no sempre és el cas amb les dades reals.
Quan usar el pie chart: quan hi ha 2-3 categories i la pregunta és "quina proporció aproximada representa cada part?", i el públic és no tècnic i n'és familiar. En qualsevol altre cas, un bar chart horitzontal transmet la mateixa informació amb més precisió.
Regles d'ús del color
El color és una de les eines més potents de la visualització, però també de les més mal usades. Principis clau:
Principis clau que cal aplicar sempre:
- No usar massa colors: l'ull humà pot distingir de manera fiable fins a uns 7-8 colors en un gràfic. Amb més colors, el lector ha de consultar la llegenda constantment, trencant el flux de lectura.
- Escala seqüencial (un extrem = baix, l'altre = alt): per a variables contínues amb un ordre natural (ex: temperatura, densitat de població). Ex: de blanc a blau fosc.
- Escala divergent (dos extrems + centre neutre): per a variables amb un punt de referència significatiu (ex: variació respecte a l'any anterior, positiu/negatiu). Ex: de vermell a blanc a blau.
- Escala qualitativa (colors sense ordre): per a categories sense ordenació natural (ex: tipus de producte, país). Ex: paleta de colors distints sense gradació.
Al voltant del 8% dels homes i el 0,5% de les dones presenten algun tipus de daltonisme, principalment deuteranopia (dificultat per distingir vermell i verd). Usar paletes de color dissenyades per a persones daltòniques (com les de ColorBrewer o la paleta viridis) no és una opció: és un requisit d'accessibilitat.
Ràtio senyal/soroll
Anàlogament al data-ink ratio, el ràtio senyal/soroll mesura la proporció d'elements visuals que comuniquen informació útil sobre el total d'elements visuals. Un gràfic amb molt soroll visual (graelles denses, etiquetes solapades, colors que no signifiquen res, títols redundants) requereix més esforç cognitiu del lector i redueix la probabilitat que el missatge principal sigui captat.
Mentides estadístiques habituals
Més enllà del disseny visual, les visualitzacions poden enganyar a través de la manipulació estadística de les dades representades.
L'eix Y truncat: quan usar zero i quan no
Ja esmentat, però val la pena detallar-ne la mecànica. En un bar chart, l'eix Y hauria de començar a zero perquè els bars representen magnituds absolutes i la longitud de la barra té significat. En un line chart, en canvi, és acceptable no começar a zero si l'objectiu és mostrar la variació relativa (les fluctuacions d'una mètrica dins d'un rang estret). La clau és ser explícit sobre el que es representa.
L'escala logarítmica sense avisar
L'escala logarítmica és legítima i útil quan els valors cobreixen diversos ordres de magnitud (per exemple, la propagació d'un virus en fase exponencial). Però si no s'etiqueta clarament com a "escala logarítmica", un lector no expert pot interpretar una tendència que sembla lineal com si fos un creixement aritmètic, quan en realitat és exponencial.
Mostrar percentatges sense denominador
"El 80% dels nostres clients estan satisfets" pot significar 80 de 100 clients, o 80 de 1.000. El percentatge per si sol no permet avaluar la fiabilitat estadística de la mesura ni la seva rellevància pràctica.
La correlació presentada com a causalitat
Mostrar un scatter plot amb correlació alta entre dues variables insinua, visualment, una relació causal. El lector tendeix a interpretar "A augmenta quan B augmenta" com "A causa B". La visualització ha d'acompanyar-se sempre d'una nota sobre el fet que la correlació no implica causalitat.
AC5074/07/01 — Miniactivitat
El professor proporcionarà un conjunt de cinc visualitzacions extretes de mitjans de comunicació, informes corporatius o xarxes socials. Per a cadascuna, realitza les tasques següents:
- Identifica quins principis de Tufte (data-ink ratio, chartjunk, etc.) es compleixen o es vulneren.
- Detecta si hi ha alguna tècnica de manipulació estadística (eix Y truncat, escala no estàndard, cherry-picking, correlació presentada com a causalitat).
- Proposa una versió millorada del gràfic: descriu (o dibuja) com redissenyaries la visualització per comunicar el mateix missatge de manera més honesta i eficaç.
Format de lliurament: Document al Campus Virtual, màxim 3 pàgines. Una pàgina per a les tres visualitzacions més problemàtiques i un resum final de les dues més correctes.
Mòdul M5074 Sistemes de Big Data | Institut Sa Palomera (Blanes) | Curs CEIABD 2026-2027