Salta el contingut

Rúbrica PR5075/02: Clúster Hadoop amb Docker Compose

Informació general

Camp Detall
Pràctica PR5075/02 — Clúster Hadoop amb Docker Compose
Mòdul 5075 — Big Data Aplicat
Resultat d'Aprenentatge RA3 — Gestiona i opera clústers Big Data distribuïts
Criteris d'Avaluació CA3.1, CA3.2, CA3.3, CA3.4
Pes sobre la nota final 15% del mòdul 5075
Format de lliurament Fitxer .md o .pdf + captures de pantalla

Criteris d'avaluació detallats

Criteri 1: Configuració del clúster (20%)

Nivell Puntuació Descripció
Excel·lent 9-10 Docker Compose complet amb tots els serveis (NameNode + DataNode + ResourceManager + NodeManager + HiveServer2 + Hive Metastore + PostgreSQL). Tots els contenidors actius i sans. Noms personalitzats amb el nom de l'alumne. Healthcheck configurat al NameNode.
Notable 7-8 Almenys 5 serveis actius i funcionant correctament. Noms personalitzats. Possibles petits errors de configuració que no impedeixen el funcionament bàsic.
Aprovat 5-6 NameNode + DataNode + ResourceManager actius. Hive pot no estar funcional. Noms personalitzats presents.
Insuficient < 5 Errors greus de configuració que impedeixen arrencar el clúster, o absència de personalització del nom.

Evidències requerides: Captura de docker compose ps mostrant tots els serveis i captura del NameNode UI.


Criteri 2: Operacions HDFS (25%)

Nivell Puntuació Descripció
Excel·lent 9-10 Directori personalitzat creat (/user/nom_alumne/), fitxer de text propi creat en català (mínim 15 línies sobre IA/Big Data), pujat a HDFS, verificat amb hdfs dfs -cat i hdfs fsck. Demostració de la replicació de blocs i comprensió del factor de replicació.
Notable 7-8 Directori personalitzat i fitxer creat i pujat correctament. Verificació bàsica amb hdfs dfs -ls. Comprensió del model HDFS.
Aprovat 5-6 Fitxer pujat a HDFS (possiblement al directori / o sense personalitzar). Operacions bàsiques funcionals.
Insuficient < 5 HDFS no funcional, o no s'ha demostrat cap operació de fitxers.

Evidències requerides: Captura de la navegació de fitxers a NameNode UI i captura dels resultats de hdfs dfs -ls i hdfs fsck.


Criteri 3: Job MapReduce (25%)

Nivell Puntuació Descripció
Excel·lent 9-10 Job WordCount executat correctament sobre el fitxer personalitzat. Resultats a HDFS verificats. Captura del ResourceManager UI mostrant el job SUCCEEDED. Explicació del paradigma Map-Reduce (fases Map, Shuffle, Reduce) i per qué és adequat per a comptar paraules. Reflexió sobre les paraules d'ompliment (stop words).
Notable 7-8 Job executat correctament, resultats verificats. Descripció bàsica del funcionament de MapReduce.
Aprovat 5-6 Job executat (possiblement sobre fitxers de mostra preexistents, no els personalitzats). Comprensió bàsica del resultat.
Insuficient < 5 Job no executat o acabat amb error.

Evidències requerides: Captura del ResourceManager UI amb estat SUCCEEDED i captura dels resultats del WordCount.


Criteri 4: Consultes Hive (20%)

Nivell Puntuació Descripció
Excel·lent 9-10 Base de dades personalitzada creada, taula de vendes creada i poblada amb dades CSV pròpies (mínim 15 registres). Almenys 4 consultes Hive correctes: una amb GROUP BY, una amb HAVING, una amb subconsulta, una de màxim/mínim. Diferència entre taula interna i externa explicada.
Notable 7-8 Base de dades i taula creades correctament, dades carregades. 3 consultes Hive correctes incloent almenys una amb GROUP BY.
Aprovat 5-6 Connexió a HiveServer2 i execució d'almenys 1-2 consultes simples. Base de dades o taula creades.
Insuficient < 5 Hive no funcional, o cap consulta executada correctament.

Evidències requerides: Captures dels resultats de les consultes Hive.


Criteri 5: Documentació i reflexió (10%)

Nivell Puntuació Descripció
Excel·lent 9-10 README complet amb: tots els passos d'arrancada, mínim 5 captures de pantalla ben etiquetades, respostes argumentades a totes les preguntes de reflexió (no respostes d'una línia), temps estimat per part, dificultats trobades i com s'han resolt.
Notable 7-8 Documentació completa amb captures i respostes a les preguntes de reflexió. Algun aspecte podria ser més detallat.
Aprovat 5-6 Documentació bàsica amb captures mínimes i respostes breus.
Insuficient < 5 Documentació absent o molt incompleta. Sense captures.

Taula resum de criteris

Criteri Pes Excel·lent (9-10) Notable (7-8) Aprovat (5-6) Insuficient (< 5)
Configuració del clúster 20% Tots els serveis actius, healthcheck, noms personalitzats 5+ serveis actius, noms personalitzats NameNode + DataNode + ResourceManager Errors greus de configuració
Operacions HDFS 25% Directori personalitzat, fitxer propi en català, hdfs fsck, comprensió de la replicació Operacions correctes, verificació bàsica Fitxer pujat a HDFS HDFS no funcional
Job MapReduce 25% WordCount sobre fitxer propi, resultats verificats, explicació del paradigma Job executat, resultats verificats Job executat (fitxers genèrics) Job no executat
Consultes Hive 20% 4+ consultes (GROUP BY, HAVING, subconsulta), taula pròpia 3 consultes correctes amb GROUP BY 1-2 consultes simples Hive no funcional
Documentació 10% README complet, 5+ captures, reflexions argumentades, dificultats Documentació completa, captures Documentació bàsica, captures mínimes Absent o molt incompleta

Penalitzacions

Incidència Penalització
Lliurament fora de termini (fins a 3 dies) -1 punt de la nota final
Lliurament fora de termini (>3 dies) -2 punts de la nota final
Sense personalització (nom de l'alumne absent) -1 punt de la nota final
Evidències insuficients (captures no mostren el que s'afirma) -0.5 punts per evidència
Còpia d'un altre company (detectada similitud > 80%) 0 en la pràctica i comunicació a la direcció

Preguntes de reflexió: criteris de correcció

Pregunta Resposta mínima acceptable
Pregunta 1 (replicació amb 1 DataNode) Mencionar que HDFS intentaria crear 3 rèpliques però només en podria crear 1, generant blocs sub-replicats. Possible via hdfs dfsadmin -report per a veure l'advertència.
Pregunta 2 (NameNode en memòria) Mencionar que a escala de PB, el mapa de blocs pot no cabre en memòria d'un sol node. Solució: HDFS Federation (múltiples NameNodes independents per a espais de noms diferents).
Pregunta 3 (taula interna vs externa) Taula interna: Hive gestiona les dades, DROP TABLE elimina les dades. Taula externa: les dades resten a HDFS, DROP TABLE elimina només la definició. Per a ús compartit Hive + Spark: taula externa.
Pregunta 4 (escalabilitat MapReduce) El temps hauria d'escalar quasi linealment: N vegades més dades amb N vegades més nodes hauria de mantenir el temps aproximadament constant.
Pregunta 5 (TeraSort) TeraSort ordena 1 TB de dades. És un benchmark perquè combina I/O intensiu de disc, xarxa (shuffle) i CPU, testant tots els colls d'ampolla del clúster.

Programació temporal orientativa

Part Temps estimat Observació
Part 1: docker-compose.yml 20 min Crear i entendre la configuració
Part 2: Arrancada i verificació 15 min Inclou temps d'espera
Part 3: Operacions HDFS 45 min Crear fitxers, pujar, verificar
Part 4: Job MapReduce 20 min Executar i analitzar resultats
Part 5: Consultes Hive 60 min Connectar, crear taules, consultes
Part 6: Monitoratge 15 min Explorar les UIs
Documentació i reflexió 45 min README i captures
Total ~3,5 hores