1.3 Les Limitacions dels LLM Fundacionals¶
El Problema Central
Els LLM són extraordinàriament potents, però tenen limitacions fonamentals que els impedeixen ser útils en molts escenaris del món real. Comprendre-les és essencial per entendre per què existeixen els agents.
🗺️ Les Quatre Grans Limitacions¶
1. Stateless (Sense Estat)
El model no recorda converses anteriors. Cada petició és completament independent. No hi ha memòria persistent entre sessions.
2. Knowledge Cutoff
El model desconeix qualsevol event posterior a la seva data d'entrenament. Preguntar per notícies recents, preus actuals o actualitzacions de software retorna informació obsoleta.
3. Al·lucinacions
El model inventa informació amb total confiança. Genera URLs inexistents, cita papers que no existeixen, inventa dades estadístiques plausibles però falses.
4. Context Window Finita
El model només pot "veure" una quantitat limitada de text alhora (el context window). Documents llargs, historials extensos o bases de dades no caben.
🔇 Limitació 1: Stateless (Sense Estat)¶
El Problema¶
Quan envies un missatge a un LLM, el model no sap res del que heu parlat prèviament, a menys que l'historial s'envïi explícitament en cada petició.
# ❌ COM FUNCIONA REALMENT UN LLM (il·lustratiu)
from openai import OpenAI
client = OpenAI()
# Missatge 1: funcionarà bé
r1 = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "El meu nom és Anna."}]
)
print(r1.choices[0].message.content)
# → "Hola Anna, encantat de conèixer-te!"
# Missatge 2: el model NO recorda! Cada crida és independent
r2 = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "Com em dic?"}]
# ⚠️ No s'inclou la conversa anterior!
)
print(r2.choices[0].message.content)
# → "Ho sento, no tinc informació sobre el teu nom."
# El model NO recorda el missatge anterior!
# ✅ LA SOLUCIÓ MANUAL: enviar tot l'historial cada vegada
r3 = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "user", "content": "El meu nom és Anna."},
{"role": "assistant", "content": "Hola Anna, encantada!"},
{"role": "user", "content": "Com em dic?"}, # Ara sí!
]
)
# → "Et dius Anna."
Com ho Resolen els Agents¶
Els agents gestionen la memòria de conversa automàticament:
- Memòria de finestra (Buffer Memory): guarda els últims N missatges
- Memòria resumida (Summary Memory): resumeix periòdicament la conversa per estalviar tokens
- Memòria persistent (Long-term Memory): guarda informació rellevant en base de dades
⏰ Limitació 2: Knowledge Cutoff¶
El Problema¶
Tots els LLM tenen una data de tall del coneixement (knowledge cutoff). El model simplement no sap res dels events posteriors a aquesta data.
# Exemple de petició que pot donar informació incorrecta
prompt = """
Quina és la versió actual de Python?
Quin és el preu actual de Bitcoin?
Qui és el president dels EUA?
"""
# El model respondrà amb la INFORMACIÓ QUE TENIA EN EL MOMENT
# D'ENTRENAMENT, no la informació actual!
# Per exemple, GPT-4 (cutoff: abril 2023) diria:
# "Python 3.11 és la versió actual" (avui ja és 3.12/3.13)
# "Bitcoin val ~$30,000" (podria estar a $90,000 avui!)
# "Joe Biden és el president dels EUA" (potser ja no ho és!)
Com ho Resolen els Agents¶
- Eina de cerca web (web search tool): l'agent pot cercar informació actual a internet
- RAG amb documents actualitzats: la base de coneixement es pot actualitzar independentment del model
- APIs de dades en temps real: connectar l'agent a feeds de notícies, preus, etc.
🌀 Limitació 3: Al·lucinacions¶
El Problema¶
Potser la limitació més perillosa. Els LLM generen text estadísticament plausible, però no necessàriament veraç. Quan no saben alguna cosa, inventen de forma convincent.
# EXEMPLE REAL DE AL·LUCINACIÓ
# (Il·lustratiu — no executis sense verificar!)
prompt = "Cita'm 3 papers acadèmics sobre l'ús de LangChain en educació"
# Resposta típica d'un LLM sense eines:
"""
Aquí tens tres papers rellevants:
1. García-López, M. et al. (2023). "LangChain as Educational Tool:
A Systematic Review". Journal of AI in Education, 15(3), 234-251.
DOI: 10.1234/jaied.2023.15.3.234 ← ❌ NO EXISTEIX!
2. Smith, J. & Johnson, K. (2024). "Implementing LLM Agents in
Higher Education". Computers & Education, 89(2), 104512.
DOI: 10.1016/j.compedu.2024.104512 ← ❌ INVENTAT!
3. Patel, R. (2023). "Pedagogical Implications of Conversational
AI Agents". IEEE Trans. Learning Technologies, 16(4), 789-801.
DOI: 10.1109/TLT.2023.3289123 ← ❌ PODRIA NO EXISTIR!
"""
# El model genera títols, autors, revistes i DOIs plausibles,
# però potencialment TOTALMENT INVENTATS.
Per Què Passa Això?¶
El LLM és, fonamentalment, un motor de predicció del token següent. No té un mecanisme intern de "verificació de fets". Genera el que estadísticament és més probable que segueixi al text anterior.
Nota sobre les xifres
Aquestes estimacions són orientatives. Les taxes reals d'al·lucinació depenen molt del model, la versió, el domini i la manera com es formula la pregunta. Cada model i versió té el seu benchmark específic (TruthfulQA, HaluEval, etc.).
Com ho Resolen els Agents¶
- RAG: el model només respon basat en documents verificats que se li proporcionen
- Grounding: vincular les respostes a fonts citables
- Eines de verificació: l'agent pot cercar i contrastar informació
- Cadena de pensament (CoT): demanar al model que mostri el seu raonament pas a pas
📏 Limitació 4: Context Window Finita¶
El Problema¶
El context window és la quantitat màxima de text que el model pot processar en una sola crida. Tot el que no cap en el context, el model no ho "veu".
Comparació de Context Windows (2024-2025)¶
| Model | Context Window | Aprox. paraules | Notes |
|---|---|---|---|
| GPT-3.5 | 16K tokens | ~12,000 paraules | Obsolet per tasques llargues |
| GPT-4o | 128K tokens | ~96,000 paraules | ~1 novel·la curta |
| Claude 3.5 Sonnet | 200K tokens | ~150,000 paraules | ~2 novel·les |
| Gemini 1.5 Pro | 1M tokens | ~750,000 paraules | Gairebé il·limitat pràcticament |
| Llama 3.1 | 128K tokens | ~96,000 paraules | Open source |
Conversió ràpida
Com a regla general: 1 token ≈ 0.75 paraules en anglès i 1 token ≈ 0.5-0.6 paraules en català/castellà (el vocabulari llatí ocupa més tokens perquè molts tokenitzadors estan optimitzats per a l'anglès).
Com ho Resolen els Agents¶
- RAG: en lloc de posar tot el document al context, es recuperen els fragments rellevants
- Compressió de memòria: resumir periòdicament l'historial
- Gestió dinàmica del context: seleccionar intel·ligentment quina informació posar al context
🔄 Resum: LLM vs Agent¶
| Característica | ❌ LLM Sol | ✅ Agent d'IA |
|---|---|---|
| Memòria entre sessions | Cap. Cada petició és independent. | Memòria curta (buffer) i llarga (BD vectorial). |
| Coneixement actual | Limitat al knowledge cutoff. | Cerca web en temps real, RAG actualitzable. |
| Veracitat | Al·lucina amb confiança. | Grounding en fonts verificables, RAG. |
| Quantitat d'informació | Limitada al context window. | Il·limitada via RAG i BD externes. |
| Execució de tasques | Només genera text. | Executa codi, crida APIs, escriu fitxers... |
| Planificació | Una sola resposta, no iterativa. | Descompon en subtasques, itera fins assolir l'objectiu. |
✅ Activitats de Consolidació¶
Exercici 1.3.1 — Detectar Al·lucinacions
Fes les següents preguntes a un LLM (ChatGPT, Claude, o Gemini) i verifica les respostes:
- "Cita'm el DOI d'un paper sobre LangChain a l'educació publicat el 2023"
- "Quin és el preu actual de NVIDIA en borsa?"
- "Quina és la versió actual de Python?"
Per a cada pregunta: és correcta la resposta? Com ho has verificat?
Exercici 1.3.2 — Calcular Tokens
Usa el tokenitzador de OpenAI o la web de Anthropic per calcular:
- Quants tokens ocupa la Constitució Espanyola completa?
- Quants tokens ocupa el teu CV/portfolio professional?
- Cabria el teu CV en un context window de 4K tokens? I de 128K?
Exercici 1.3.3 — Cas Pràctic
Una empresa vol usar un LLM per respondre preguntes sobre el seu catàleg de productes (500 pàgines PDF, s'actualitza mensualment). Identifica totes les limitacions que afectarien un LLM sense agent i proposa com un agent les resoldria.