Salta el contingut

Rúbrica PR5075/01: Anàlisi amb PySpark

Criteris d'avaluació

Criteri Pes Excel·lent (9-10) Notable (7-8) Aprovat (5-6) Insuficient (<5)
Configuració Spark Docker 10% Contenidor en marxa, Spark UI accessible al port 4040, configuració AQE activada i justificada Docker + Spark funcionant, UI accessible Spark bàsic funcional, sense configuració addicional Errors de configuració que impedeixen l'execució
Càrrega i neteja de dades 20% Neteja completa i justificada, estadístiques descriptives, valors nuls analitzats i documentats Neteja adequada amb filtres raonats Càrrega del dataset i filtres bàsics sense justificació Sense neteja de dades o errors en la càrrega
Transformacions Spark SQL 25% Window functions implementades i correctes, agregacions complexes, consultes SQL avançades documentades Consultes correctes i útils, almenys 3 consultes SQL Consultes SQL bàsiques funcionals (SELECT, GROUP BY) Errors en les consultes o absència de Spark SQL
Optimització 20% Reparticionament justificat, cache aplicada i quantificada, Explain Plan analitzat i comentat Alguna tècnica d'optimització aplicada i comentada Coneix el concepte de cache o reparticionament Cap tècnica d'optimització aplicada
Visualitzacions Plotly 15% 3 o més visualitzacions clares, titulades, amb títol que inclou el nom de l'alumne, amb insights extrets 2 o més visualitzacions correctes i llegibles Almenys 1 visualització funcional Sense visualitzacions o visualitzacions incorrectes
Personalització 5% Variable ALUMNE configurada, nom de l'alumne als noms de fitxers i directoris de sortida, comentaris al codi Nom visible a la variable ALUMNE i als fitxers principals Nom parcialment incorporat Nom absent o inconsistent
Lliurament i documentació 5% Notebook net, executat de dalt a baix sense errors, resultats exportats en Parquet, 8 preguntes contestades Notebook complet amb alguna cel·la sense executar, 6+ preguntes Notebook bàsic funcional, 4+ preguntes Notebook incomplet o amb errors d'execució

Desglosse de la nota final

Nota = (Configuració × 0,10) + (Neteja × 0,20) + (SQL × 0,25) +
       (Optimització × 0,20) + (Visualitzacions × 0,15) +
       (Personalització × 0,05) + (Lliurament × 0,05)

Aspectes que resten nota

Causes de suspens directe

  • El notebook no s'executa de dalt a baix sense errors (nota màxima: 4).
  • El nom de l'alumne no apareix a cap fitxer lliurat (nota màxima: 4).
  • No s'han contestat les preguntes de reflexió (nota màxima: 4,5).
  • No hi ha cap exportació de resultats en Parquet (resta 1 punt de la nota final).

Criteris addicionals de qualitat

Codi: - El codi té comentaris explicatius en català o castellà - Les variables i funcions tenen noms descriptius - No hi ha codi duplicat innecessari (s'usen funcions quan cal)

Anàlisi: - Les conclusions extretes de les dades estan justificades - Les estadístiques s'interpreten correctament - S'identifiquen patrons rellevants (hores punta, zones actives, categories de viatge)

Documentació: - Les cel·les Markdown expliquen el que fa el codi següent - Les visualitzacions tenen títol, etiquetes d'eix i llegenda - L'informe de conclusions és coherent amb els resultats obtinguts

Exemples d'entregues

Nivell Descripció
Excel·lent Notebook complet, codi net i comentat, 3+ visualitzacions Plotly interactives, Window Functions implementades, benchmark de cache quantificat, Explain Plan analitzat, 8 preguntes respostes amb profunditat
Notable Notebook funcional, SQL correcte, almenys 1 Window Function, cache aplicada, 2 visualitzacions, 6+ preguntes respostes
Aprovat Notebook executa sense errors, Spark SQL bàsic (SELECT + GROUP BY), 1 visualització, nom de l'alumne present, 4+ preguntes respostes
Insuficient Notebook amb errors, SQL absent o incorrecte, sense visualitzacions, menys de 4 preguntes

Rúbrica PR5075/01 | Mòdul 5074 Sistemes de Big Data | Institut Sa Palomera (Blanes)