Rúbrica PR5075/02: Clúster Hadoop amb Docker Compose
Informació general
Camp
Detall
Pràctica
PR5075/02 — Clúster Hadoop amb Docker Compose
Mòdul
5075 — Big Data Aplicat
Resultat d'Aprenentatge
RA3 — Gestiona i opera clústers Big Data distribuïts
Criteris d'Avaluació
CA3.1, CA3.2, CA3.3, CA3.4
Pes sobre la nota final
15% del mòdul 5075
Format de lliurament
Fitxer .md o .pdf + captures de pantalla
Criteris d'avaluació detallats
Criteri 1: Configuració del clúster (20%)
Nivell
Puntuació
Descripció
Excel·lent
9-10
Docker Compose complet amb tots els serveis (NameNode + DataNode + ResourceManager + NodeManager + HiveServer2 + Hive Metastore + PostgreSQL). Tots els contenidors actius i sans. Noms personalitzats amb el nom de l'alumne. Healthcheck configurat al NameNode.
Notable
7-8
Almenys 5 serveis actius i funcionant correctament. Noms personalitzats. Possibles petits errors de configuració que no impedeixen el funcionament bàsic.
Aprovat
5-6
NameNode + DataNode + ResourceManager actius. Hive pot no estar funcional. Noms personalitzats presents.
Insuficient
< 5
Errors greus de configuració que impedeixen arrencar el clúster, o absència de personalització del nom.
Evidències requerides: Captura de docker compose ps mostrant tots els serveis i captura del NameNode UI.
Criteri 2: Operacions HDFS (25%)
Nivell
Puntuació
Descripció
Excel·lent
9-10
Directori personalitzat creat (/user/nom_alumne/), fitxer de text propi creat en català (mínim 15 línies sobre IA/Big Data), pujat a HDFS, verificat amb hdfs dfs -cat i hdfs fsck. Demostració de la replicació de blocs i comprensió del factor de replicació.
Notable
7-8
Directori personalitzat i fitxer creat i pujat correctament. Verificació bàsica amb hdfs dfs -ls. Comprensió del model HDFS.
Aprovat
5-6
Fitxer pujat a HDFS (possiblement al directori / o sense personalitzar). Operacions bàsiques funcionals.
Insuficient
< 5
HDFS no funcional, o no s'ha demostrat cap operació de fitxers.
Evidències requerides: Captura de la navegació de fitxers a NameNode UI i captura dels resultats de hdfs dfs -ls i hdfs fsck.
Criteri 3: Job MapReduce (25%)
Nivell
Puntuació
Descripció
Excel·lent
9-10
Job WordCount executat correctament sobre el fitxer personalitzat. Resultats a HDFS verificats. Captura del ResourceManager UI mostrant el job SUCCEEDED. Explicació del paradigma Map-Reduce (fases Map, Shuffle, Reduce) i per qué és adequat per a comptar paraules. Reflexió sobre les paraules d'ompliment (stop words).
Notable
7-8
Job executat correctament, resultats verificats. Descripció bàsica del funcionament de MapReduce.
Aprovat
5-6
Job executat (possiblement sobre fitxers de mostra preexistents, no els personalitzats). Comprensió bàsica del resultat.
Insuficient
< 5
Job no executat o acabat amb error.
Evidències requerides: Captura del ResourceManager UI amb estat SUCCEEDED i captura dels resultats del WordCount.
Criteri 4: Consultes Hive (20%)
Nivell
Puntuació
Descripció
Excel·lent
9-10
Base de dades personalitzada creada, taula de vendes creada i poblada amb dades CSV pròpies (mínim 15 registres). Almenys 4 consultes Hive correctes: una amb GROUP BY, una amb HAVING, una amb subconsulta, una de màxim/mínim. Diferència entre taula interna i externa explicada.
Notable
7-8
Base de dades i taula creades correctament, dades carregades. 3 consultes Hive correctes incloent almenys una amb GROUP BY.
Aprovat
5-6
Connexió a HiveServer2 i execució d'almenys 1-2 consultes simples. Base de dades o taula creades.
Insuficient
< 5
Hive no funcional, o cap consulta executada correctament.
Evidències requerides: Captures dels resultats de les consultes Hive.
Criteri 5: Documentació i reflexió (10%)
Nivell
Puntuació
Descripció
Excel·lent
9-10
README complet amb: tots els passos d'arrancada, mínim 5 captures de pantalla ben etiquetades, respostes argumentades a totes les preguntes de reflexió (no respostes d'una línia), temps estimat per part, dificultats trobades i com s'han resolt.
Notable
7-8
Documentació completa amb captures i respostes a les preguntes de reflexió. Algun aspecte podria ser més detallat.
Aprovat
5-6
Documentació bàsica amb captures mínimes i respostes breus.
Insuficient
< 5
Documentació absent o molt incompleta. Sense captures.
Taula resum de criteris
Criteri
Pes
Excel·lent (9-10)
Notable (7-8)
Aprovat (5-6)
Insuficient (< 5)
Configuració del clúster
20%
Tots els serveis actius, healthcheck, noms personalitzats
5+ serveis actius, noms personalitzats
NameNode + DataNode + ResourceManager
Errors greus de configuració
Operacions HDFS
25%
Directori personalitzat, fitxer propi en català, hdfs fsck, comprensió de la replicació
Operacions correctes, verificació bàsica
Fitxer pujat a HDFS
HDFS no funcional
Job MapReduce
25%
WordCount sobre fitxer propi, resultats verificats, explicació del paradigma
Job executat, resultats verificats
Job executat (fitxers genèrics)
Job no executat
Consultes Hive
20%
4+ consultes (GROUP BY, HAVING, subconsulta), taula pròpia
Evidències insuficients (captures no mostren el que s'afirma)
-0.5 punts per evidència
Còpia d'un altre company (detectada similitud > 80%)
0 en la pràctica i comunicació a la direcció
Preguntes de reflexió: criteris de correcció
Pregunta
Resposta mínima acceptable
Pregunta 1 (replicació amb 1 DataNode)
Mencionar que HDFS intentaria crear 3 rèpliques però només en podria crear 1, generant blocs sub-replicats. Possible via hdfs dfsadmin -report per a veure l'advertència.
Pregunta 2 (NameNode en memòria)
Mencionar que a escala de PB, el mapa de blocs pot no cabre en memòria d'un sol node. Solució: HDFS Federation (múltiples NameNodes independents per a espais de noms diferents).
Pregunta 3 (taula interna vs externa)
Taula interna: Hive gestiona les dades, DROP TABLE elimina les dades. Taula externa: les dades resten a HDFS, DROP TABLE elimina només la definició. Per a ús compartit Hive + Spark: taula externa.
Pregunta 4 (escalabilitat MapReduce)
El temps hauria d'escalar quasi linealment: N vegades més dades amb N vegades més nodes hauria de mantenir el temps aproximadament constant.
Pregunta 5 (TeraSort)
TeraSort ordena 1 TB de dades. És un benchmark perquè combina I/O intensiu de disc, xarxa (shuffle) i CPU, testant tots els colls d'ampolla del clúster.