Recursos
Documentació oficial
Apache Spark i ecosistema Hadoop
- Apache Spark Documentation — Referència oficial: RDD, DataFrame, Spark SQL, Structured Streaming, MLlib.
- PySpark API Reference — Documentació de l'API Python de Spark.
- Apache Hadoop Documentation — HDFS, YARN i MapReduce.
- Apache Hive Documentation — Data warehouse SQL sobre Hadoop.
Streaming i orquestració
- Apache Kafka Documentation — Arquitectura, producers, consumers, Kafka Connect i Kafka Streams.
- Apache Airflow Documentation — DAGs, operadors, scheduling i bones pràctiques.
- Astronomer Airflow Guides — Guies pràctiques d'Airflow, més pedagògiques que la documentació oficial.
Bases de dades no relacionals
- MongoDB Manual — Referència completa: CRUD, agregació, índexs, modelatge de documents.
- MongoDB University — Cursos gratuïts oficials amb certificació.
- Redis Documentation — Estructures de dades, pub/sub i casos d'ús de caché.
- Apache Cassandra Documentation — Model columnar i consistència eventual.
Cloud per a Big Data
- AWS Big Data Documentation — S3, RDS, Redshift, Glue, Athena i EMR.
- Azure Synapse Analytics Documentation — Data Warehouse, Spark pools i pipelines a Azure.
- Google Cloud BigQuery Documentation — Data Warehouse serverless de Google Cloud.
- Databricks Documentation — Plataforma Lakehouse: Delta Lake, Unity Catalog i notebooks col·laboratius.
Formats de dades
- Apache Parquet Documentation — Format columnar, row groups i compressió.
- Delta Lake Documentation — Transaccions ACID, time travel i schema evolution sobre Parquet.
- Apache Iceberg Documentation — Format de taula obert per a data lakes a gran escala.
- Apache Avro Documentation — Serialització binària i schema registry.
Visualització i BI
- Power BI Documentation — Power BI Desktop, Service i llenguatge DAX.
- Metabase Documentation — Instal·lació, preguntes, dashboards i administració.
- Apache Superset Documentation — Plataforma de BI open source.
- Grafana Documentation — Visualització i monitoratge en temps real.
- Plotly Python Documentation — Gràfics interactius i dashboards amb Dash.
- Matplotlib Documentation — La biblioteca base de visualització en Python.
Eines gràfiques i d'administració
DBeaver Community Edition
DBeaver és l'eina universal recomanada per al curs per a les fonts relacionals i MongoDB. És gratuïta i suporta pràcticament tots els motors treballats al mòdul.
- Descàrrega: dbeaver.io
MongoDB Compass
Eina gràfica oficial de MongoDB per explorar col·leccions, executar consultes i pipelines d'agregació visualment.
- Descàrrega: mongodb.com/products/tools/compass
pgAdmin 4
Eina oficial de PostgreSQL per a l'administració de les bases de dades relacionals treballades al Bloc 2.
- Descàrrega: pgadmin.org
Astro CLI (Airflow)
Eina oficial d'Astronomer per executar Apache Airflow en local amb Docker sense haver de configurar-lo manualment.
- Descàrrega: astronomer.io/docs/astro/cli/install-cli
Imatges Docker recomanades
| Eina | Imatge | Versió recomanada |
|---|---|---|
| PostgreSQL | postgres |
postgres:17 |
| MongoDB | mongo |
mongo:7 |
| Apache Kafka | apache/kafka |
apache/kafka:3.7.0 |
| Apache Airflow | apache/airflow |
apache/airflow:2.9.0 |
| Apache Superset | apache/superset |
latest |
| Metabase | metabase/metabase |
v0.50 |
| Grafana | grafana/grafana |
10.3.0 |
| InfluxDB | influxdb |
2.7 |
| pgAdmin 4 | dpage/pgadmin4 |
latest |
| MongoDB Compass | — | aplicació d'escriptori, no Docker |
Una xarxa Docker per pràctica
Quan una pràctica necessita diversos serveis (per exemple, PostgreSQL + Metabase, o Airflow + PostgreSQL), defineix-los al mateix docker-compose.yml perquè comparteixin la xarxa interna de Docker i es puguin adreçar pel nom del contenidor, tal com es mostra a les pràctiques de cada bloc.
Entorns en línia sense instal·lació
- Databricks Community Edition — Clúster Spark gratuït al núvol amb notebooks col·laboratius. Ideal per practicar PySpark sense instal·lar res.
- MongoDB Atlas (free tier) — Clúster MongoDB gestionat gratuït (512 MB) per practicar sense Docker.
- Google Colab — Notebooks Python gratuïts amb GPU opcional, útils per a pandas, PySpark local i visualització.
- AWS Free Tier i Azure for Students — Crèdit gratuït per practicar S3, RDS, Glue, Blob Storage i Synapse.
Llibres recomanats
| Títol | Autor/s | Notes |
|---|---|---|
| Spark: The Definitive Guide | Bill Chambers, Matei Zaharia | La referència per a Apache Spark, escrita pels creadors del projecte. |
| Designing Data-Intensive Applications | Martin Kleppmann | El llibre de capçalera per entendre arquitectures de dades distribuïdes. |
| Fundamentals of Data Engineering | Joe Reis, Matt Housley | Visió moderna i completa de l'enginyeria de dades el 2025. |
| MongoDB: The Definitive Guide | Shannon Bradshaw et al. | Referència completa de MongoDB, des de CRUD fins a sharding. |
| The Big Book of Data Engineering | Databricks | Gratuït (PDF), centrat en Lakehouse, Delta Lake i Spark. |
| Storytelling with Data | Cole Nussbaumer Knaflic | El llibre de referència per a la comunicació visual de dades. |
Recursos en català i castellà
- Big Data a Catosfera (Generalitat de Catalunya) — Informació institucional sobre dades obertes i polítiques digitals a Catalunya.
- Open Data Barcelona — Portal de dades obertes de l'Ajuntament de Barcelona, ideal per a pràctiques amb dades reals.
- INE — Instituto Nacional de Estadística — Dades estadístiques oficials d'Espanya, útils per a exercicis d'ETL i visualització.
- Datos.gob.es — Portal de dades obertes del Govern d'Espanya.
Comunitats i fòrums
- Stack Overflow — apache-spark i mongodb — Les etiquetes més actives per a preguntes tècniques.
- r/dataengineering — Comunitat de Reddit molt activa sobre enginyeria de dades, eines i tendències del sector.
- MongoDB Community Forums — Fòrum oficial de MongoDB.
- Apache Airflow Slack — Canal oficial de la comunitat d'Airflow.
- dbt Community Slack — Comunitat molt activa sobre transformació de dades i ELT modern.
- Databricks Community — Fòrum oficial de Databricks, centrat en Spark i Delta Lake.