Rúbrica PR5075/02: Clúster Hadoop amb Docker Compose

Informació general

Camp	Detall
Pràctica	PR5075/02 — Clúster Hadoop amb Docker Compose
Mòdul	5075 — Big Data Aplicat
Resultat d'Aprenentatge	RA3 — Gestiona i opera clústers Big Data distribuïts
Criteris d'Avaluació	CA3.1, CA3.2, CA3.3, CA3.4
Pes sobre la nota final	15% del mòdul 5075
Format de lliurament	Fitxer `.md` o `.pdf` + captures de pantalla

Nivell	Puntuació	Descripció
Excel·lent	9-10	Docker Compose complet amb tots els serveis (NameNode + DataNode + ResourceManager + NodeManager + HiveServer2 + Hive Metastore + PostgreSQL). Tots els contenidors actius i sans. Noms personalitzats amb el nom de l'alumne. Healthcheck configurat al NameNode.
Notable	7-8	Almenys 5 serveis actius i funcionant correctament. Noms personalitzats. Possibles petits errors de configuració que no impedeixen el funcionament bàsic.
Aprovat	5-6	NameNode + DataNode + ResourceManager actius. Hive pot no estar funcional. Noms personalitzats presents.
Insuficient	< 5	Errors greus de configuració que impedeixen arrencar el clúster, o absència de personalització del nom.

Evidències requerides: Captura de docker compose ps mostrant tots els serveis i captura del NameNode UI.

Nivell	Puntuació	Descripció
Excel·lent	9-10	Directori personalitzat creat (`/user/nom_alumne/`), fitxer de text propi creat en català (mínim 15 línies sobre IA/Big Data), pujat a HDFS, verificat amb `hdfs dfs -cat` i `hdfs fsck`. Demostració de la replicació de blocs i comprensió del factor de replicació.
Notable	7-8	Directori personalitzat i fitxer creat i pujat correctament. Verificació bàsica amb `hdfs dfs -ls`. Comprensió del model HDFS.
Aprovat	5-6	Fitxer pujat a HDFS (possiblement al directori `/` o sense personalitzar). Operacions bàsiques funcionals.
Insuficient	< 5	HDFS no funcional, o no s'ha demostrat cap operació de fitxers.

Evidències requerides: Captura de la navegació de fitxers a NameNode UI i captura dels resultats de hdfs dfs -ls i hdfs fsck.

Nivell	Puntuació	Descripció
Excel·lent	9-10	Job WordCount executat correctament sobre el fitxer personalitzat. Resultats a HDFS verificats. Captura del ResourceManager UI mostrant el job SUCCEEDED. Explicació del paradigma Map-Reduce (fases Map, Shuffle, Reduce) i per qué és adequat per a comptar paraules. Reflexió sobre les paraules d'ompliment (stop words).
Notable	7-8	Job executat correctament, resultats verificats. Descripció bàsica del funcionament de MapReduce.
Aprovat	5-6	Job executat (possiblement sobre fitxers de mostra preexistents, no els personalitzats). Comprensió bàsica del resultat.
Insuficient	< 5	Job no executat o acabat amb error.

Evidències requerides: Captura del ResourceManager UI amb estat SUCCEEDED i captura dels resultats del WordCount.

Nivell	Puntuació	Descripció
Excel·lent	9-10	Base de dades personalitzada creada, taula de vendes creada i poblada amb dades CSV pròpies (mínim 15 registres). Almenys 4 consultes Hive correctes: una amb `GROUP BY`, una amb `HAVING`, una amb subconsulta, una de màxim/mínim. Diferència entre taula interna i externa explicada.
Notable	7-8	Base de dades i taula creades correctament, dades carregades. 3 consultes Hive correctes incloent almenys una amb `GROUP BY`.
Aprovat	5-6	Connexió a HiveServer2 i execució d'almenys 1-2 consultes simples. Base de dades o taula creades.
Insuficient	< 5	Hive no funcional, o cap consulta executada correctament.

Evidències requerides: Captures dels resultats de les consultes Hive.

Nivell	Puntuació	Descripció
Excel·lent	9-10	README complet amb: tots els passos d'arrancada, mínim 5 captures de pantalla ben etiquetades, respostes argumentades a totes les preguntes de reflexió (no respostes d'una línia), temps estimat per part, dificultats trobades i com s'han resolt.
Notable	7-8	Documentació completa amb captures i respostes a les preguntes de reflexió. Algun aspecte podria ser més detallat.
Aprovat	5-6	Documentació bàsica amb captures mínimes i respostes breus.
Insuficient	< 5	Documentació absent o molt incompleta. Sense captures.

Criteri	Pes	Excel·lent (9-10)	Notable (7-8)	Aprovat (5-6)	Insuficient (< 5)
Configuració del clúster	20%	Tots els serveis actius, healthcheck, noms personalitzats	5+ serveis actius, noms personalitzats	NameNode + DataNode + ResourceManager	Errors greus de configuració
Operacions HDFS	25%	Directori personalitzat, fitxer propi en català, `hdfs fsck`, comprensió de la replicació	Operacions correctes, verificació bàsica	Fitxer pujat a HDFS	HDFS no funcional
Job MapReduce	25%	WordCount sobre fitxer propi, resultats verificats, explicació del paradigma	Job executat, resultats verificats	Job executat (fitxers genèrics)	Job no executat
Consultes Hive	20%	4+ consultes (GROUP BY, HAVING, subconsulta), taula pròpia	3 consultes correctes amb GROUP BY	1-2 consultes simples	Hive no funcional
Documentació	10%	README complet, 5+ captures, reflexions argumentades, dificultats	Documentació completa, captures	Documentació bàsica, captures mínimes	Absent o molt incompleta

Incidència	Penalització
Lliurament fora de termini (fins a 3 dies)	-1 punt de la nota final
Lliurament fora de termini (>3 dies)	-2 punts de la nota final
Sense personalització (nom de l'alumne absent)	-1 punt de la nota final
Evidències insuficients (captures no mostren el que s'afirma)	-0.5 punts per evidència
Còpia d'un altre company (detectada similitud > 80%)	0 en la pràctica i comunicació a la direcció

Pregunta	Resposta mínima acceptable
Pregunta 1 (replicació amb 1 DataNode)	Mencionar que HDFS intentaria crear 3 rèpliques però només en podria crear 1, generant blocs sub-replicats. Possible via `hdfs dfsadmin -report` per a veure l'advertència.
Pregunta 2 (NameNode en memòria)	Mencionar que a escala de PB, el mapa de blocs pot no cabre en memòria d'un sol node. Solució: HDFS Federation (múltiples NameNodes independents per a espais de noms diferents).
Pregunta 3 (taula interna vs externa)	Taula interna: Hive gestiona les dades, `DROP TABLE` elimina les dades. Taula externa: les dades resten a HDFS, `DROP TABLE` elimina només la definició. Per a ús compartit Hive + Spark: taula externa.
Pregunta 4 (escalabilitat MapReduce)	El temps hauria d'escalar quasi linealment: N vegades més dades amb N vegades més nodes hauria de mantenir el temps aproximadament constant.
Pregunta 5 (TeraSort)	TeraSort ordena 1 TB de dades. És un benchmark perquè combina I/O intensiu de disc, xarxa (shuffle) i CPU, testant tots els colls d'ampolla del clúster.

Part	Temps estimat	Observació
Part 1: docker-compose.yml	20 min	Crear i entendre la configuració
Part 2: Arrancada i verificació	15 min	Inclou temps d'espera
Part 3: Operacions HDFS	45 min	Crear fitxers, pujar, verificar
Part 4: Job MapReduce	20 min	Executar i analitzar resultats
Part 5: Consultes Hive	60 min	Connectar, crear taules, consultes
Part 6: Monitoratge	15 min	Explorar les UIs
Documentació i reflexió	45 min	README i captures
Total	~3,5 hores