1.3 Les Limitacions dels LLM Fundacionals¶

El Problema Central

Els LLM són extraordinàriament potents, però tenen limitacions fonamentals que els impedeixen ser útils en molts escenaris del món real. Comprendre-les és essencial per entendre per què existeixen els agents.

🗺️ Les Quatre Grans Limitacions¶

🔇

1. Stateless (Sense Estat)

El model no recorda converses anteriors. Cada petició és completament independent. No hi ha memòria persistent entre sessions.

⏰

2. Knowledge Cutoff

El model desconeix qualsevol event posterior a la seva data d'entrenament. Preguntar per notícies recents, preus actuals o actualitzacions de software retorna informació obsoleta.

🌀

3. Al·lucinacions

El model inventa informació amb total confiança. Genera URLs inexistents, cita papers que no existeixen, inventa dades estadístiques plausibles però falses.

📏

4. Context Window Finita

El model només pot "veure" una quantitat limitada de text alhora (el context window). Documents llargs, historials extensos o bases de dades no caben.

🔇 Limitació 1: Stateless (Sense Estat)¶

El Problema¶

Quan envies un missatge a un LLM, el model no sap res del que heu parlat prèviament, a menys que l'historial s'envïi explícitament en cada petició.

# ❌ COM FUNCIONA REALMENT UN LLM (il·lustratiu)
from openai import OpenAI
client = OpenAI()

# Missatge 1: funcionarà bé
r1 = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "El meu nom és Anna."}]
)
print(r1.choices[0].message.content)
# → "Hola Anna, encantat de conèixer-te!"

# Missatge 2: el model NO recorda! Cada crida és independent
r2 = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Com em dic?"}]
    # ⚠️ No s'inclou la conversa anterior!
)
print(r2.choices[0].message.content)
# → "Ho sento, no tinc informació sobre el teu nom."
#    El model NO recorda el missatge anterior!

# ✅ LA SOLUCIÓ MANUAL: enviar tot l'historial cada vegada
r3 = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "user",      "content": "El meu nom és Anna."},
        {"role": "assistant", "content": "Hola Anna, encantada!"},
        {"role": "user",      "content": "Com em dic?"},  # Ara sí!
    ]
)
# → "Et dius Anna."

Com ho Resolen els Agents¶

Els agents gestionen la memòria de conversa automàticament:

Memòria de finestra (Buffer Memory): guarda els últims N missatges
Memòria resumida (Summary Memory): resumeix periòdicament la conversa per estalviar tokens
Memòria persistent (Long-term Memory): guarda informació rellevant en base de dades

⏰ Limitació 2: Knowledge Cutoff¶

El Problema¶

Tots els LLM tenen una data de tall del coneixement (knowledge cutoff). El model simplement no sap res dels events posteriors a aquesta data.

# Exemple de petició que pot donar informació incorrecta
prompt = """
Quina és la versió actual de Python?
Quin és el preu actual de Bitcoin?
Qui és el president dels EUA?
"""

# El model respondrà amb la INFORMACIÓ QUE TENIA EN EL MOMENT
# D'ENTRENAMENT, no la informació actual!

# Per exemple, GPT-4 (cutoff: abril 2023) diria:
# "Python 3.11 és la versió actual" (avui ja és 3.12/3.13)
# "Bitcoin val ~$30,000" (podria estar a $90,000 avui!)
# "Joe Biden és el president dels EUA" (potser ja no ho és!)

Knowledge Cutoff dels Models Principals (2024-2025)

| Model | Knowledge Cutoff | Notes | |-------|-----------------|-------| | GPT-4o | Octubre 2023 | OpenAI | | Claude 3.5 Sonnet | Abril 2024 | Anthropic | | Gemini 1.5 Pro | Novembre 2023 | Google | | Llama 3.1 70B | Desembre 2023 | Meta (Open Source) | *Les dates poden variar; consultar documentació oficial de cada model.*

Com ho Resolen els Agents¶

Eina de cerca web (web search tool): l'agent pot cercar informació actual a internet
RAG amb documents actualitzats: la base de coneixement es pot actualitzar independentment del model
APIs de dades en temps real: connectar l'agent a feeds de notícies, preus, etc.

🌀 Limitació 3: Al·lucinacions¶

El Problema¶

Potser la limitació més perillosa. Els LLM generen text estadísticament plausible, però no necessàriament veraç. Quan no saben alguna cosa, inventen de forma convincent.

# EXEMPLE REAL DE AL·LUCINACIÓ
# (Il·lustratiu — no executis sense verificar!)

prompt = "Cita'm 3 papers acadèmics sobre l'ús de LangChain en educació"

# Resposta típica d'un LLM sense eines:
"""
Aquí tens tres papers rellevants:

1. García-López, M. et al. (2023). "LangChain as Educational Tool: 
   A Systematic Review". Journal of AI in Education, 15(3), 234-251.
   DOI: 10.1234/jaied.2023.15.3.234  ← ❌ NO EXISTEIX!

2. Smith, J. & Johnson, K. (2024). "Implementing LLM Agents in 
   Higher Education". Computers & Education, 89(2), 104512.
   DOI: 10.1016/j.compedu.2024.104512  ← ❌ INVENTAT!

3. Patel, R. (2023). "Pedagogical Implications of Conversational 
   AI Agents". IEEE Trans. Learning Technologies, 16(4), 789-801.
   DOI: 10.1109/TLT.2023.3289123  ← ❌ PODRIA NO EXISTIR!
"""
# El model genera títols, autors, revistes i DOIs plausibles,
# però potencialment TOTALMENT INVENTATS.

Per Què Passa Això?¶

El LLM és, fonamentalment, un motor de predicció del token següent. No té un mecanisme intern de "verificació de fets". Genera el que estadísticament és més probable que segueixi al text anterior.

Probabilitat d'al·lucinació per tipus de pregunta (estimació general)

Fets generals coneguts

~15%

Cites i referències

~55%

Estadístiques específiques

~70%

Dades molt noves/nichades

~85%

Nota sobre les xifres

Aquestes estimacions són orientatives. Les taxes reals d'al·lucinació depenen molt del model, la versió, el domini i la manera com es formula la pregunta. Cada model i versió té el seu benchmark específic (TruthfulQA, HaluEval, etc.).

Com ho Resolen els Agents¶

RAG: el model només respon basat en documents verificats que se li proporcionen
Grounding: vincular les respostes a fonts citables
Eines de verificació: l'agent pot cercar i contrastar informació
Cadena de pensament (CoT): demanar al model que mostri el seu raonament pas a pas

📏 Limitació 4: Context Window Finita¶

El Problema¶

El context window és la quantitat màxima de text que el model pot processar en una sola crida. Tot el que no cap en el context, el model no ho "veu".

📊 Distribució Típica d'un Context Window de 128K tokens

System Prompt

Historial conversa

Context RAG

Disponible

🟣 System Prompt: ~19K tokens 🔵 Historial: ~45K tokens 🟢 Context RAG: ~38K tokens ⬜ Disponible: ~26K tokens

Comparació de Context Windows (2024-2025)¶

Model	Context Window	Aprox. paraules	Notes
GPT-3.5	16K tokens	~12,000 paraules	Obsolet per tasques llargues
GPT-4o	128K tokens	~96,000 paraules	~1 novel·la curta
Claude 3.5 Sonnet	200K tokens	~150,000 paraules	~2 novel·les
Gemini 1.5 Pro	1M tokens	~750,000 paraules	Gairebé il·limitat pràcticament
Llama 3.1	128K tokens	~96,000 paraules	Open source

Conversió ràpida

Com a regla general: 1 token ≈ 0.75 paraules en anglès i 1 token ≈ 0.5-0.6 paraules en català/castellà (el vocabulari llatí ocupa més tokens perquè molts tokenitzadors estan optimitzats per a l'anglès).

Com ho Resolen els Agents¶

RAG: en lloc de posar tot el document al context, es recuperen els fragments rellevants
Compressió de memòria: resumir periòdicament l'historial
Gestió dinàmica del context: seleccionar intel·ligentment quina informació posar al context

🔄 Resum: LLM vs Agent¶

Característica	❌ LLM Sol	✅ Agent d'IA
Memòria entre sessions	Cap. Cada petició és independent.	Memòria curta (buffer) i llarga (BD vectorial).
Coneixement actual	Limitat al knowledge cutoff.	Cerca web en temps real, RAG actualitzable.
Veracitat	Al·lucina amb confiança.	Grounding en fonts verificables, RAG.
Quantitat d'informació	Limitada al context window.	Il·limitada via RAG i BD externes.
Execució de tasques	Només genera text.	Executa codi, crida APIs, escriu fitxers...
Planificació	Una sola resposta, no iterativa.	Descompon en subtasques, itera fins assolir l'objectiu.

✅ Activitats de Consolidació¶

Exercici 1.3.1 — Detectar Al·lucinacions

Fes les següents preguntes a un LLM (ChatGPT, Claude, o Gemini) i verifica les respostes:

"Cita'm el DOI d'un paper sobre LangChain a l'educació publicat el 2023"
"Quin és el preu actual de NVIDIA en borsa?"
"Quina és la versió actual de Python?"

Per a cada pregunta: és correcta la resposta? Com ho has verificat?

Exercici 1.3.2 — Calcular Tokens

Usa el tokenitzador de OpenAI o la web de Anthropic per calcular:

Quants tokens ocupa la Constitució Espanyola completa?
Quants tokens ocupa el teu CV/portfolio professional?
Cabria el teu CV en un context window de 4K tokens? I de 128K?

Exercici 1.3.3 — Cas Pràctic

Una empresa vol usar un LLM per respondre preguntes sobre el seu catàleg de productes (500 pàgines PDF, s'actualitza mensualment). Identifica totes les limitacions que afectarien un LLM sense agent i proposa com un agent les resoldria.