Rúbrica PR5075/01: Anàlisi amb PySpark
Criteris d'avaluació
| Criteri | Pes | Excel·lent (9-10) | Notable (7-8) | Aprovat (5-6) | Insuficient (<5) |
|---|---|---|---|---|---|
| Configuració Spark Docker | 10% | Contenidor en marxa, Spark UI accessible al port 4040, configuració AQE activada i justificada | Docker + Spark funcionant, UI accessible | Spark bàsic funcional, sense configuració addicional | Errors de configuració que impedeixen l'execució |
| Càrrega i neteja de dades | 20% | Neteja completa i justificada, estadístiques descriptives, valors nuls analitzats i documentats | Neteja adequada amb filtres raonats | Càrrega del dataset i filtres bàsics sense justificació | Sense neteja de dades o errors en la càrrega |
| Transformacions Spark SQL | 25% | Window functions implementades i correctes, agregacions complexes, consultes SQL avançades documentades | Consultes correctes i útils, almenys 3 consultes SQL | Consultes SQL bàsiques funcionals (SELECT, GROUP BY) | Errors en les consultes o absència de Spark SQL |
| Optimització | 20% | Reparticionament justificat, cache aplicada i quantificada, Explain Plan analitzat i comentat | Alguna tècnica d'optimització aplicada i comentada | Coneix el concepte de cache o reparticionament | Cap tècnica d'optimització aplicada |
| Visualitzacions Plotly | 15% | 3 o més visualitzacions clares, titulades, amb títol que inclou el nom de l'alumne, amb insights extrets | 2 o més visualitzacions correctes i llegibles | Almenys 1 visualització funcional | Sense visualitzacions o visualitzacions incorrectes |
| Personalització | 5% | Variable ALUMNE configurada, nom de l'alumne als noms de fitxers i directoris de sortida, comentaris al codi |
Nom visible a la variable ALUMNE i als fitxers principals |
Nom parcialment incorporat | Nom absent o inconsistent |
| Lliurament i documentació | 5% | Notebook net, executat de dalt a baix sense errors, resultats exportats en Parquet, 8 preguntes contestades | Notebook complet amb alguna cel·la sense executar, 6+ preguntes | Notebook bàsic funcional, 4+ preguntes | Notebook incomplet o amb errors d'execució |
Desglosse de la nota final
Nota = (Configuració × 0,10) + (Neteja × 0,20) + (SQL × 0,25) +
(Optimització × 0,20) + (Visualitzacions × 0,15) +
(Personalització × 0,05) + (Lliurament × 0,05)
Aspectes que resten nota
Causes de suspens directe
- El notebook no s'executa de dalt a baix sense errors (nota màxima: 4).
- El nom de l'alumne no apareix a cap fitxer lliurat (nota màxima: 4).
- No s'han contestat les preguntes de reflexió (nota màxima: 4,5).
- No hi ha cap exportació de resultats en Parquet (resta 1 punt de la nota final).
Criteris addicionals de qualitat
Codi: - El codi té comentaris explicatius en català o castellà - Les variables i funcions tenen noms descriptius - No hi ha codi duplicat innecessari (s'usen funcions quan cal)
Anàlisi: - Les conclusions extretes de les dades estan justificades - Les estadístiques s'interpreten correctament - S'identifiquen patrons rellevants (hores punta, zones actives, categories de viatge)
Documentació: - Les cel·les Markdown expliquen el que fa el codi següent - Les visualitzacions tenen títol, etiquetes d'eix i llegenda - L'informe de conclusions és coherent amb els resultats obtinguts
Exemples d'entregues
| Nivell | Descripció |
|---|---|
| Excel·lent | Notebook complet, codi net i comentat, 3+ visualitzacions Plotly interactives, Window Functions implementades, benchmark de cache quantificat, Explain Plan analitzat, 8 preguntes respostes amb profunditat |
| Notable | Notebook funcional, SQL correcte, almenys 1 Window Function, cache aplicada, 2 visualitzacions, 6+ preguntes respostes |
| Aprovat | Notebook executa sense errors, Spark SQL bàsic (SELECT + GROUP BY), 1 visualització, nom de l'alumne present, 4+ preguntes respostes |
| Insuficient | Notebook amb errors, SQL absent o incorrecte, sense visualitzacions, menys de 4 preguntes |
Rúbrica PR5075/01 | Mòdul 5074 Sistemes de Big Data | Institut Sa Palomera (Blanes)