Salta el contingut

1.3 Les Limitacions dels LLM Fundacionals

El Problema Central

Els LLM són extraordinàriament potents, però tenen limitacions fonamentals que els impedeixen ser útils en molts escenaris del món real. Comprendre-les és essencial per entendre per què existeixen els agents.


🗺️ Les Quatre Grans Limitacions

🔇

1. Stateless (Sense Estat)

El model no recorda converses anteriors. Cada petició és completament independent. No hi ha memòria persistent entre sessions.

2. Knowledge Cutoff

El model desconeix qualsevol event posterior a la seva data d'entrenament. Preguntar per notícies recents, preus actuals o actualitzacions de software retorna informació obsoleta.

🌀

3. Al·lucinacions

El model inventa informació amb total confiança. Genera URLs inexistents, cita papers que no existeixen, inventa dades estadístiques plausibles però falses.

📏

4. Context Window Finita

El model només pot "veure" una quantitat limitada de text alhora (el context window). Documents llargs, historials extensos o bases de dades no caben.


🔇 Limitació 1: Stateless (Sense Estat)

El Problema

Quan envies un missatge a un LLM, el model no sap res del que heu parlat prèviament, a menys que l'historial s'envïi explícitament en cada petició.

# ❌ COM FUNCIONA REALMENT UN LLM (il·lustratiu)
from openai import OpenAI
client = OpenAI()

# Missatge 1: funcionarà bé
r1 = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "El meu nom és Anna."}]
)
print(r1.choices[0].message.content)
# → "Hola Anna, encantat de conèixer-te!"

# Missatge 2: el model NO recorda! Cada crida és independent
r2 = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Com em dic?"}]
    # ⚠️ No s'inclou la conversa anterior!
)
print(r2.choices[0].message.content)
# → "Ho sento, no tinc informació sobre el teu nom."
#    El model NO recorda el missatge anterior!

# ✅ LA SOLUCIÓ MANUAL: enviar tot l'historial cada vegada
r3 = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "user",      "content": "El meu nom és Anna."},
        {"role": "assistant", "content": "Hola Anna, encantada!"},
        {"role": "user",      "content": "Com em dic?"},  # Ara sí!
    ]
)
# → "Et dius Anna."

Com ho Resolen els Agents

Els agents gestionen la memòria de conversa automàticament:

  • Memòria de finestra (Buffer Memory): guarda els últims N missatges
  • Memòria resumida (Summary Memory): resumeix periòdicament la conversa per estalviar tokens
  • Memòria persistent (Long-term Memory): guarda informació rellevant en base de dades

⏰ Limitació 2: Knowledge Cutoff

El Problema

Tots els LLM tenen una data de tall del coneixement (knowledge cutoff). El model simplement no sap res dels events posteriors a aquesta data.

# Exemple de petició que pot donar informació incorrecta
prompt = """
Quina és la versió actual de Python?
Quin és el preu actual de Bitcoin?
Qui és el president dels EUA?
"""

# El model respondrà amb la INFORMACIÓ QUE TENIA EN EL MOMENT
# D'ENTRENAMENT, no la informació actual!

# Per exemple, GPT-4 (cutoff: abril 2023) diria:
# "Python 3.11 és la versió actual" (avui ja és 3.12/3.13)
# "Bitcoin val ~$30,000" (podria estar a $90,000 avui!)
# "Joe Biden és el president dels EUA" (potser ja no ho és!)
Knowledge Cutoff dels Models Principals (2024-2025)
| Model | Knowledge Cutoff | Notes | |-------|-----------------|-------| | GPT-4o | Octubre 2023 | OpenAI | | Claude 3.5 Sonnet | Abril 2024 | Anthropic | | Gemini 1.5 Pro | Novembre 2023 | Google | | Llama 3.1 70B | Desembre 2023 | Meta (Open Source) | *Les dates poden variar; consultar documentació oficial de cada model.*

Com ho Resolen els Agents

  • Eina de cerca web (web search tool): l'agent pot cercar informació actual a internet
  • RAG amb documents actualitzats: la base de coneixement es pot actualitzar independentment del model
  • APIs de dades en temps real: connectar l'agent a feeds de notícies, preus, etc.

🌀 Limitació 3: Al·lucinacions

El Problema

Potser la limitació més perillosa. Els LLM generen text estadísticament plausible, però no necessàriament veraç. Quan no saben alguna cosa, inventen de forma convincent.

# EXEMPLE REAL DE AL·LUCINACIÓ
# (Il·lustratiu — no executis sense verificar!)

prompt = "Cita'm 3 papers acadèmics sobre l'ús de LangChain en educació"

# Resposta típica d'un LLM sense eines:
"""
Aquí tens tres papers rellevants:

1. García-López, M. et al. (2023). "LangChain as Educational Tool: 
   A Systematic Review". Journal of AI in Education, 15(3), 234-251.
   DOI: 10.1234/jaied.2023.15.3.234  ← ❌ NO EXISTEIX!

2. Smith, J. & Johnson, K. (2024). "Implementing LLM Agents in 
   Higher Education". Computers & Education, 89(2), 104512.
   DOI: 10.1016/j.compedu.2024.104512  ← ❌ INVENTAT!

3. Patel, R. (2023). "Pedagogical Implications of Conversational 
   AI Agents". IEEE Trans. Learning Technologies, 16(4), 789-801.
   DOI: 10.1109/TLT.2023.3289123  ← ❌ PODRIA NO EXISTIR!
"""
# El model genera títols, autors, revistes i DOIs plausibles,
# però potencialment TOTALMENT INVENTATS.

Per Què Passa Això?

El LLM és, fonamentalment, un motor de predicció del token següent. No té un mecanisme intern de "verificació de fets". Genera el que estadísticament és més probable que segueixi al text anterior.

Probabilitat d'al·lucinació per tipus de pregunta (estimació general)
Fets generals coneguts
~15%
Cites i referències
~55%
Estadístiques específiques
~70%
Dades molt noves/nichades
~85%

Nota sobre les xifres

Aquestes estimacions són orientatives. Les taxes reals d'al·lucinació depenen molt del model, la versió, el domini i la manera com es formula la pregunta. Cada model i versió té el seu benchmark específic (TruthfulQA, HaluEval, etc.).

Com ho Resolen els Agents

  • RAG: el model només respon basat en documents verificats que se li proporcionen
  • Grounding: vincular les respostes a fonts citables
  • Eines de verificació: l'agent pot cercar i contrastar informació
  • Cadena de pensament (CoT): demanar al model que mostri el seu raonament pas a pas

📏 Limitació 4: Context Window Finita

El Problema

El context window és la quantitat màxima de text que el model pot processar en una sola crida. Tot el que no cap en el context, el model no ho "veu".

📊 Distribució Típica d'un Context Window de 128K tokens
System Prompt
Historial conversa
Context RAG
Disponible
🟣 System Prompt: ~19K tokens 🔵 Historial: ~45K tokens 🟢 Context RAG: ~38K tokens ⬜ Disponible: ~26K tokens

Comparació de Context Windows (2024-2025)

Model Context Window Aprox. paraules Notes
GPT-3.5 16K tokens ~12,000 paraules Obsolet per tasques llargues
GPT-4o 128K tokens ~96,000 paraules ~1 novel·la curta
Claude 3.5 Sonnet 200K tokens ~150,000 paraules ~2 novel·les
Gemini 1.5 Pro 1M tokens ~750,000 paraules Gairebé il·limitat pràcticament
Llama 3.1 128K tokens ~96,000 paraules Open source

Conversió ràpida

Com a regla general: 1 token ≈ 0.75 paraules en anglès i 1 token ≈ 0.5-0.6 paraules en català/castellà (el vocabulari llatí ocupa més tokens perquè molts tokenitzadors estan optimitzats per a l'anglès).

Com ho Resolen els Agents

  • RAG: en lloc de posar tot el document al context, es recuperen els fragments rellevants
  • Compressió de memòria: resumir periòdicament l'historial
  • Gestió dinàmica del context: seleccionar intel·ligentment quina informació posar al context

🔄 Resum: LLM vs Agent

Característica ❌ LLM Sol ✅ Agent d'IA
Memòria entre sessions Cap. Cada petició és independent. Memòria curta (buffer) i llarga (BD vectorial).
Coneixement actual Limitat al knowledge cutoff. Cerca web en temps real, RAG actualitzable.
Veracitat Al·lucina amb confiança. Grounding en fonts verificables, RAG.
Quantitat d'informació Limitada al context window. Il·limitada via RAG i BD externes.
Execució de tasques Només genera text. Executa codi, crida APIs, escriu fitxers...
Planificació Una sola resposta, no iterativa. Descompon en subtasques, itera fins assolir l'objectiu.

✅ Activitats de Consolidació

Exercici 1.3.1 — Detectar Al·lucinacions

Fes les següents preguntes a un LLM (ChatGPT, Claude, o Gemini) i verifica les respostes:

  1. "Cita'm el DOI d'un paper sobre LangChain a l'educació publicat el 2023"
  2. "Quin és el preu actual de NVIDIA en borsa?"
  3. "Quina és la versió actual de Python?"

Per a cada pregunta: és correcta la resposta? Com ho has verificat?

Exercici 1.3.2 — Calcular Tokens

Usa el tokenitzador de OpenAI o la web de Anthropic per calcular:

  1. Quants tokens ocupa la Constitució Espanyola completa?
  2. Quants tokens ocupa el teu CV/portfolio professional?
  3. Cabria el teu CV en un context window de 4K tokens? I de 128K?

Exercici 1.3.3 — Cas Pràctic

Una empresa vol usar un LLM per respondre preguntes sobre el seu catàleg de productes (500 pàgines PDF, s'actualitza mensualment). Identifica totes les limitacions que afectarien un LLM sense agent i proposa com un agent les resoldria.