Perfils professionals del sector Big Data
L'ecosistema de dades ha donat lloc a una família de perfils especialitzats que, a diferència d'altres branques de la informàtica, tenen una demanda que supera àmpliament l'oferta de professionals qualificats. Comprendre les diferències reals entre aquests perfils és fonamental per orientar el vostre itinerari professional i per treballar eficaçment en equips de dades multidisciplinaris.
Una confusió habitual és creure que "Data Scientist" és el perfil de referència i tots els altres en deriven. La realitat actual del mercat és molt diferent: el Data Engineer és el perfil amb més demanda i el que fa possible que la resta puguin fer la seva feina. Sense pipelines de dades funcionant, no hi ha res per analitzar.
flowchart TD
FONT["Fonts de dades\n(APIs, BBDD, IoT, logs)"]
DE["Data Engineer\nConstrueix i manté\nels pipelines"]
DW["Data Warehouse\n/ Lakehouse"]
AE["Analytics Engineer\ndbt models, transformacions\nSQL semàntic"]
DS["Data Scientist\nModels ML/IA\nAnàlisi exploratòria"]
MLE["ML Engineer\nDesplegament de models\nMLOps, APIs"]
BI["BI Developer\nDashboards i informes\nPower BI, Tableau"]
DA["Data Architect\nDisseny de l'arquitectura\nGovernança, estàndards"]
USUARI["Usuari final\n(negoci, directius)"]
FONT --> DE --> DW
DW --> AE --> BI --> USUARI
DW --> DS --> MLE --> USUARI
DA -.->|dissenya| DE
DA -.->|defineix estàndards| AE
Data Engineer
El Data Engineer és l'enginyer que construeix i manté la infraestructura de dades: els pipelines que mouen les dades des de les fonts fins als destins, els sistemes d'emmagatzematge, i les transformacions necessàries per a que les dades siguin útils i confiables.
Responsabilitats del dia a dia
- Dissenyar i implementar pipelines d'ingestió de dades (batch i streaming) des de múltiples fonts (bases de dades, APIs, IoT, fitxers).
- Mantenir i monitoritzar l'orquestrador de workflows (Apache Airflow, Prefect, Dagster).
- Gestionar el Data Warehouse o Data Lakehouse: esquemes, particionament, optimització de costos.
- Assegurar la qualitat i fiabilitat de les dades: tests automatitzats, alertes, data lineage.
- Col·laborar amb els Data Scientists i Analytics Engineers per entendre els seus requisits de dades.
- Gestionar el versionat i el desplegament de transformacions (dbt, Spark jobs).
Eines principals
| Categoria | Eines |
|---|---|
| Processament | Apache Spark, Apache Flink, dbt |
| Missatgeria / Streaming | Apache Kafka, AWS Kinesis, Azure Event Hubs |
| Orquestració | Apache Airflow, Prefect, Dagster |
| Emmagatzematge | S3, ADLS, GCS, Delta Lake, Apache Iceberg |
| Data Warehouse | Snowflake, BigQuery, Redshift, Databricks |
| Ingestió | Airbyte, Fivetran, AWS Glue |
| Infraestructura | Docker, Kubernetes, Terraform |
| Llenguatge principal | Python, SQL |
Perfil de competències
- Molt alt: SQL avançat, Python, sistemes distribuïts.
- Alt: modelatge de dades, cloud (AWS/Azure/GCP), sistemes Unix/Linux.
- Mig: estadística bàsica, comprensió de models de ML (per saber quines dades necessiten).
- Baix requerit: comunicació a audiències no tècniques (és un perfil majoritàriament tècnic).
Salari a Espanya i Catalunya (2026)
| Nivell | Espanya (brut anual) | Catalunya / Barcelona |
|---|---|---|
| Junior (0-2 anys) | 28.000 - 38.000 € | 32.000 - 42.000 € |
| Mid (2-5 anys) | 38.000 - 55.000 € | 42.000 - 60.000 € |
| Senior (5+ anys) | 55.000 - 75.000 € | 60.000 - 85.000 € |
| Lead / Staff | 70.000 - 95.000 € | 80.000 - 110.000 € |
Fonts: InfoJobs Informe Salarial 2025, LinkedIn Salary Insights, Glassdoor ES.
Data Engineer és el perfil amb més oferta el 2026
Segons el LinkedIn Jobs Report 2025, "Data Engineer" és el tercer rol tecnològic amb més ofertes obertes a Espanya, per darrere de "Software Engineer" i "DevOps / SRE". La majoria d'ofertes indiquen Python i SQL com a requisits indispensables, Spark com a molt valorat, i cloud (qualsevol dels tres grans) com a necessari.
Data Scientist
El Data Scientist aplica mètodes estadístics i models d'aprenentatge automàtic per extreure coneixement de les dades i respondre preguntes de negoci que no poden respondre's amb SQL convencional.
Responsabilitats principals
- Anàlisi exploratòria de dades (EDA): entendre la distribució, detectar anomalies, identificar correlacions.
- Formular hipòtesis de negoci i dissenyar experiments per validar-les (tests A/B).
- Construir, entrenar i avaluar models de ML: classificació, regressió, clustering, sèries temporals.
- Comunicar resultats a audiències no tècniques: presentar insights i recomanacions als directius.
- Definir mètriques i KPIs de negoci rellevants.
Diferència real amb el Data Engineer
La confusió entre els dos perfils és freqüent. La distinció més clara és:
| Dimensió | Data Engineer | Data Scientist |
|---|---|---|
| Pregunta que resol | Com es mouen i emmagatzemen les dades? | Què diuen les dades? Què passarà? |
| Output principal | Pipelines, taules, infraestructura | Models, insights, recomanacions |
| Orientació | Enginyeria de software | Estadística i matemàtiques |
| Habilitats dominants | Python / SQL / sistemes distribuïts | Estadística / ML / comunicació |
| Codi que escriu | Robust, testejat, en producció | Exploratori, en notebooks |
Eines principals
Python (pandas, NumPy, scikit-learn, PyTorch/TensorFlow), SQL, Jupyter Notebooks, MLflow, Hugging Face, R (en entorns acadèmics), Tableau / Power BI per a comunicació de resultats.
Salari a Espanya i Catalunya (2026)
| Nivell | Espanya (brut anual) | Catalunya / Barcelona |
|---|---|---|
| Junior | 28.000 - 38.000 € | 32.000 - 44.000 € |
| Mid | 38.000 - 58.000 € | 44.000 - 65.000 € |
| Senior | 55.000 - 80.000 € | 62.000 - 90.000 € |
Analytics Engineer
L'Analytics Engineer és el perfil més nou de l'ecosistema de dades, sorgit cap al 2019 com a conseqüència de l'adopció massiva de dbt (data build tool) i la popularització del paradigma ELT al núvol.
Origen i context
Abans de dbt, les transformacions de dades es feien en Python o PySpark dins dels pipelines ETL, a càrrec dels Data Engineers. Amb dbt, les transformacions es poden fer directament en SQL modular i versionat, accessible per a perfils amb bons coneixements SQL però sense necessitat de ser programadors Python avançats. L'Analytics Engineer cobreix exactament aquest espai.
Responsabilitats principals
- Dissenyar i mantenir els models de dades al Data Warehouse o Lakehouse usant dbt.
- Crear la capa semàntica: definir mètriques de negoci d'una forma consistent i documentada que tota l'organització pugui usar.
- Assegurar la qualitat de les dades transformades: tests dbt (not null, unique, accepted values).
- Col·laborar amb el negoci per entendre els requisits analítics i traduir-los en models dbt.
- Mantenir el catàleg de dades intern i documentar els models.
Eines principals
dbt (Cloud o Core), SQL avançat, Snowflake / BigQuery / Redshift, Looker o Metabase per a definició de mètriques, Git, YAML.
Salari a Espanya i Catalunya (2026)
| Nivell | Espanya (brut anual) | Catalunya / Barcelona |
|---|---|---|
| Junior | 28.000 - 36.000 € | 30.000 - 40.000 € |
| Mid | 36.000 - 52.000 € | 40.000 - 58.000 € |
| Senior | 50.000 - 70.000 € | 55.000 - 78.000 € |
BI Developer
El BI Developer (Business Intelligence Developer) és el perfil orientat a la creació d'informes, dashboards i visualitzacions que permeten als usuaris de negoci accedir i entendre les dades sense necessitat de coneixements tècnics avançats.
Responsabilitats principals
- Dissenyar i construir dashboards interactius a Power BI, Tableau, Looker, Apache Superset o Metabase.
- Definir i implementar mètriques i KPIs en coordinació amb els responsables de negoci.
- Construir i mantenir el model de dades intern de l'eina de BI (Star Schema, mesures DAX a Power BI).
- Formar els usuaris de negoci en l'ús dels dashboards i en la interpretació de les dades.
- Garantir la consistència de les xifres: que "vendes" signifiqui el mateix a tots els departaments.
Eines principals
Power BI (DAX, Power Query), Tableau (LOD expressions), Looker (LookML), Apache Superset, Metabase, SQL intermedi-avançat.
Salari a Espanya i Catalunya (2026)
| Nivell | Espanya (brut anual) | Catalunya / Barcelona |
|---|---|---|
| Junior | 24.000 - 33.000 € | 26.000 - 36.000 € |
| Mid | 33.000 - 48.000 € | 36.000 - 52.000 € |
| Senior | 45.000 - 62.000 € | 50.000 - 68.000 € |
Data Architect
El Data Architect és el perfil estratègic responsable de dissenyar l'arquitectura global del sistema de dades d'una organització: quines tecnologies, com es relacionen, com escalen, i quines garanties de qualitat i seguretat ofereixen.
Responsabilitats principals
- Dissenyar l'arquitectura de dades corporativa: DW, Data Lake, Lakehouse, Data Mesh.
- Definir els estàndards tecnològics: quins formats de fitxer, quines eines d'orquestració, quines plataformes de cloud.
- Establir les polítiques de governança: seguretat, privacitat (GDPR), qualitat de dades, data lineage.
- Avaluar i seleccionar noves tecnologies de dades en funció de les necessitats de l'organització.
- Liderar la migració de sistemes legacy cap a arquitectures modernes.
- Mentoritzar els equips tècnics (Data Engineers, Analytics Engineers) en les bones pràctiques.
Perfil típic
El Data Architect sol ser un professional sènior amb 8-15 anys d'experiència, que ha passat per rols de Data Engineer o Software Engineer prèviament. No sol escriure codi de producció el dia a dia, però ha de tenir una comprensió profunda de totes les tecnologies que recomana.
Salari a Espanya i Catalunya (2026)
| Nivell | Espanya (brut anual) | Catalunya / Barcelona |
|---|---|---|
| Mid | 60.000 - 80.000 € | 65.000 - 88.000 € |
| Senior | 75.000 - 100.000 € | 82.000 - 115.000 € |
| Principal | 95.000 - 130.000 € | 105.000 - 145.000 € |
ML Engineer
El ML Engineer (Machine Learning Engineer) és el perfil pont entre el Data Scientist i el Software Engineer: s'encarrega de portar models de ML des del notebook de recerca fins a sistemes de producció robustos, escalables i monitoritzats.
Responsabilitats principals
- Implementar pipelines de ML en producció: ingestió de dades per a inferència, preprocessament, serving del model.
- Desplegar models com a APIs REST (FastAPI, TorchServe, TensorFlow Serving) o en streaming (Kafka + model).
- Implementar MLOps: versionat de models (MLflow, DVC), CI/CD per a models, monitorització de data drift.
- Optimitzar models per a producció: quantització, pruning, selecció del hardware adequat (CPU vs GPU vs TPU).
- Gestionar la infraestructura de ML: Kubernetes, Kubeflow, SageMaker, Azure ML, Vertex AI.
Eines principals
Python (FastAPI, PyTorch, TensorFlow), MLflow, DVC, Docker, Kubernetes, Kubeflow, Seldon Core, BentoML, Grafana (monitorització), AWS SageMaker / Azure ML / Google Vertex AI.
Salari a Espanya i Catalunya (2026)
| Nivell | Espanya (brut anual) | Catalunya / Barcelona |
|---|---|---|
| Junior | 32.000 - 45.000 € | 36.000 - 50.000 € |
| Mid | 45.000 - 65.000 € | 50.000 - 72.000 € |
| Senior | 65.000 - 90.000 € | 72.000 - 100.000 € |
Taula resum de perfils
| Perfil | Rol principal | Eines clau | Salari mid Espanya | Nivell d'entrada |
|---|---|---|---|---|
| Data Engineer | Construeix pipelines i infraestructura de dades | Spark, Kafka, Airflow, dbt, SQL, Python | 38.000 - 55.000 € | Grau en Informàtica / CEIABD + 1-2 anys |
| Data Scientist | Anàlisi i models de ML per a decisions de negoci | Python, scikit-learn, SQL, Jupyter, MLflow | 38.000 - 58.000 € | Grau en Matemàtiques / Estadística / Informàtica |
| Analytics Engineer | Transformacions SQL i capa semàntica (dbt) | dbt, SQL, Snowflake/BigQuery, Looker | 36.000 - 52.000 € | Perfil transversal, bon SQL és suficient per entrar |
| BI Developer | Dashboards i informes per al negoci | Power BI, Tableau, SQL, DAX | 33.000 - 48.000 € | FP Superior + certificació Power BI / Tableau |
| Data Architect | Disseny d'arquitectures de dades corporatives | Coneixement ampli de tot l'ecosistema | 60.000 - 80.000 € | Sènior (8+ anys d'experiència prèvia) |
| ML Engineer | Desplegament i operació de models de ML en producció | Python, Docker, Kubernetes, MLflow, FastAPI | 45.000 - 65.000 € | Grau en Informàtica + experiència en DE o DS |
Ruta d'aprenentatge recomanada per a alumnes CEIABD
El cicle CEIABD us proporciona una base sòlida per entrar al sector de dades. La ruta més natural per a la majoria d'alumnes és la d'Analytics Engineer o Data Engineer junior, perquè:
- Ja teniu Python (M5073) i SQL (M5071/M5072) del cicle.
- El mòdul M5074 (Sistemes de Big Data) cobreix Spark, Kafka i arquitectures.
- El mòdul M5075 (Big Data Aplicat) cobreix pipelines en producció.
Passos recomanats per a les primeres feines
A curt termini (durant el cicle):
- Consolidar SQL avançat (window functions, CTEs, subqueries). SQL és la competència que tots els perfils exigeixen sí o sí.
- Fer un projecte personal de Data Engineering a GitHub: ingestió d'una API pública, transformació amb dbt o PySpark, càrrega a un DW al núvol (BigQuery Free Tier o Snowflake Free Trial).
- Obtenir una certificació d'entrada: AWS Cloud Practitioner (gratuïta amb AWS Educate) o dbt Fundamentals (gratuïta a courses.getdbt.com).
A mig termini (primer any de feina):
- Aprofundir en Apache Airflow (orquestració) o dbt (transformació).
- Aprendre els fonaments de Spark (PySpark).
- Construir experiència amb almenys una plataforma cloud (AWS, Azure o GCP).
A llarg termini:
- Especialitzar-se en streaming (Kafka, Flink) per a rols d'alta demanda.
- Considerar la certificació de Data Engineer d'AWS, Azure o GCP.
- Estudiar arquitectures avançades (Lakehouse, Data Mesh) per evolucionar cap a rols d'arquitectura.
AC5074/01/03 — Miniactivitat
Accedeix a LinkedIn Jobs, InfoJobs o Indeed i cerca ofertes de feina de "Data Engineer" a Espanya (pots filtrar per Catalunya si vols).
Selecciona 3 ofertes reals i actuals i, per a cadascuna, analitza i documenta:
- Empresa i sector: a quin sector pertany l'empresa (banca, retail, tech, salut...)?
- Requisits tècnics: quines eines i tecnologies demana? Fes una llista ordenada.
- Requisits de nivell: demana experiència prèvia? Quanta? Demana titulació específica?
- Salari: indica el rang si és visible. Si no hi és, per qué creus que no l'inclouen?
- Tasques del rol: quines responsabilitats descriu l'oferta?
Un cop analitzades les tres ofertes, respon:
- Quines 3 competències tècniques es repeteixen en totes o quasi totes les ofertes?
- Quines competències que tens (o tindràs al finalitzar el cicle) apareixen a les ofertes?
- Quines competències t'hi falten i com podries adquirir-les?
Lliurament: Document de text (màx. 2 pàgines), incloent les URLs de les tres ofertes analitzades. Entregat al Campus Virtual.
Mòdul M5074 Sistemes de Big Data | Institut Sa Palomera (Blanes) | Curs CEIABD 2026-2027