1.1 Història de la IA: Del Perceptró als LLM¶

Motivació

"Per entendre on anem, cal saber d'on venim. Els LLM no van sorgir del no-res: són el resultat de 70 anys d'investigació, errors, resets i breakthroughs."

🧵 La Línia del Temps de la IA¶

Recorre els moments clau que han donat forma a la intel·ligència artificial moderna.

1

1943 – 1950

🔬 Les Primeres Teories Neuronals

McCulloch & Pitts (1943) proposen el primer model matemàtic de neurona artificial. Alan Turing publica "Computing Machinery and Intelligence" (1950) i planteja el famós Test de Turing: "Can machines think?"

2

1956 – 1969

🌅 Naixement Oficial de la IA

La conferència de Dartmouth (1956) encunya el terme "Intel·ligència Artificial". Frank Rosenblatt inventa el Perceptró (1958), el primer algorisme d'aprenentatge automàtic. Primer "AI Summer".

3

1969 – 1980

❄️ Primer Hivern de la IA

Minsky & Papert demostren les limitacions del Perceptró en Perceptrons (1969). Retallades massives de finançament. La IA semblava un carreró sense sortida.

4

1980 – 1987

☀️ Segon Summer: Sistemes Experts

Els Sistemes Experts (MYCIN, XCON) dominen la IA empresarial. Rumelhart & Hinton popularitzen la Backpropagation (1986), ressuscitant les xarxes neuronals. Inici del Machine Learning modern.

5

1987 – 1993

❄️ Segon Hivern de la IA

El mercat dels sistemes experts s'enfonsa. Poca potència de càlcul per entrenar xarxes profundes. Desil·lusió generalitzada i reducció de finançament públic i privat.

6

1997 – 2006

♟️ Màquines que Guanyen als Humans

Deep Blue (IBM, 1997) derrota Garry Kasparov als escacs. Apareixen les primeres LSTM (Hochreiter & Schmidhuber, 1997) per a dades seqüencials. Hinton proposa el terme "Deep Learning" (2006).

7

2012 – 2014

🚀 La Revolució del Deep Learning

AlexNet (2012) guanya ImageNet amb una diferència abismal, usant GPUs per primer cop. Apareixen Word2Vec (2013) i els primers word embeddings. La visió per computador es transforma radicalment.

8

2017

⚡ "Attention Is All You Need"

Google Brain publica el paper fundacional del Transformer. L'arquitectura elimina la recurrència i permet paral·lelitzar l'entrenament. És el big bang dels LLM moderns. Tot canvia a partir d'aquí.

9

2018 – 2020

🤗 L'Era dels Models Pre-entrenats

BERT (Google, 2018) estableix nous rècords en comprensió del llenguatge. GPT-1 (OpenAI, 2018) demostra la potència del pre-entrenament generatiu. GPT-2 (2019) és considerat "massa perillós per publicar" (finalment es publica). GPT-3 (2020): 175B de paràmetres, l'emergència de capacitats no esperada.

10

2022 – 2023

🌍 L'Era dels LLM i els Agents

ChatGPT (novembre 2022): 100 milions d'usuaris en 2 mesos (record històric). GPT-4 (març 2023): multimodal, 8K–32K context. Aparició dels primers agents (Auto-GPT, BabyAGI). Llama 2 (Meta, juliol 2023): primer gran model de codi obert per a ús comercial. Mistral 7B (setembre 2023): model petit que supera Llama 2 13B.

11

2023 – 2025

🟠 La Genealogia de Claude (Anthropic)

Anthropic —fundada per ex-investigadors d'OpenAI— aposta per la seguretat i l'alineació com a pilars de disseny.

· Claude 1 (març 2023) — Primera versió pública. Context de 9K tokens, orientat a seguir instruccions de forma segura.
· Claude 2 (juliol 2023) — Context de 100K tokens (revolucionari). Millora notable en raonament i codi.
· Claude 2.1 (novembre 2023) — Context de 200K tokens. Reducció d'al·lucinacions i millor calibració de la confiança.
· Claude 3 (març 2024) — Tres variants: Haiku (ràpid i barat), Sonnet (equilibrat) i Opus (el més potent). Opus supera GPT-4 en múltiples benchmarks.
· Claude 3.5 Sonnet (juny 2024) — Supera Opus en rendiment amb menys cost. Introdueix Artifacts (generació d'apps interactives). El model més usat de la família.
· Claude 3.5 Haiku / Sonnet v2 (octubre 2024) — Haiku assoleix el rendiment de Claude 3 Opus. Sonnet v2 millora la visió per computador i l'ús d'eines.
· Claude 4 / 4.5 / 4.6 (2025) — Nova família amb Opus 4.6, Sonnet 4.6 i Haiku 4.5. Capacitats d'agents avançades i millores en raonament multi-pas.

🔑 Concepte clau d'Anthropic: Constitutional AI (CAI) — el model s'entrena amb un conjunt de principis (la "constitució") per avaluar i corregir les seves pròpies respostes.

12

2024 – avui

🤖 L'Era dels Agents Autònoms

Gemini 1.5 Pro (Google, febrer 2024): context d'1 milió de tokens. Llama 3 (Meta, abril 2024): 8B i 70B, models oberts de referència. GPT-4o (OpenAI, maig 2024): multimodal natiu (text, àudio, imatge en temps real). Els frameworks d'agents (LangGraph, CrewAI, AutoGen) maduren i s'integren en producció. Els agents de codi (Devin, Claude Code, Copilot Workspace) comencen a automatitzar tasques de programació reals.

🧠 Les Arquitectures Clau: Una Comparació¶

Entendre per què el Transformer va ser revolucionari requereix comparar-lo amb les arquitectures anteriors.

RNN i LSTM: El Problema de la Memòria Seqüencial¶

Les Xarxes Neuronals Recurrents (RNN) i les seves variants LSTM (Long Short-Term Memory) van ser l'estàndard per al processament de text fins al 2017.

🔄

RNN — El Problema

Processament seqüencial: no podem paral·lelitzar. El token 100 no es pot processar fins que el 99 hagi acabat.

Vanishing gradient: en seqüències llargues, el gradient es torna negligible. El model "oblida" el inici de la frase.

🔒

LSTM — Millora Parcial

Afegeix gates (input, forget, output) per controlar el flux d'informació.

Millora la memòria a llarg termini, però segueix sent seqüencial. No aprofita les GPUs modernes. Màxim pràctic: ~1000 tokens.

⚡

Transformer — La Solució

Paral·lelisme total: tots els tokens es processen simultàniament.

Self-attention: cada token pot "mirar" directament qualsevol altre token, sense importar la distància. Context de milers de tokens.

Exemple Pràctic: Com Processaven les RNN/LSTM vs. Transformer¶

Imagina que volem traduir la frase:

"The animal didn't cross the street because it was too tired."

Amb RNN/LSTM (abans de 2017):

Token 1: "The"      → estat ocult h1
Token 2: "animal"   → estat ocult h2  (h2 depèn de h1)
Token 3: "didn't"   → estat ocult h3  (h3 depèn de h2)
...
Token 9: "it"       → estat ocult h9  (h9 depèn de h8)

El model intenta resoldre a quin referent apunta "it" (animal o street) però el senyal del token "animal" (posició 2) s'ha degradat molt en arribar a la posició 9. El gradient ha hagut de recórrer 7 passos enrere per aprendre aquesta relació, i en seqüències llargues el senyal quasi desapareix. A més, no podem calcular h3 fins a tenir h2, ni h4 fins a tenir h3: entrenament 100% seqüencial.

Amb Transformer (des de 2017):

# Tots els tokens es processen EN PARAL·LEL
# Matriu d'atenció (simplificada):

#           The  animal  didn't  cross  street  because  it  was  tired
# it →  [  0.02,  0.71,   0.01,  0.03,   0.18,    0.02, 0.00, 0.01, 0.02 ]
#                 ↑↑↑↑                    ↑↑↑
#         Alta atenció              Atenció moderada
#         cap a "animal"            cap a "street"

El token "it" pot comparar-se directament amb tots els altres tokens en un sol pas. El model aprèn que "it" té alta atenció cap a "animal" (0.71) i baixa cap a "street" (0.18), resolent la co-referència amb facilitat. I com que tots els tokens es calculen en paral·lel, podem aprofitar la GPU al 100%.

	RNN/LSTM	Transformer
Processament	Seqüencial (token a token)	Paral·lel (tots a la vegada)
Ús GPU	Baix (~10-20%)	Alt (~80-100%)
Context màxim pràctic	~1.000 tokens	8.000 – 2.000.000 tokens
Dependències llargues	Difícil (gradient que desapareix)	Directe (atenció O(1))
Temps d'entrenament	Setmanes per models grans	Dies (paral·lelitzable)

Per què importa el paral·lelisme?

GPT-3 (175B paràmetres) es va entrenar amb milers de GPUs durant mesos. Amb arquitectura RNN, el cost hagués estat prohibitiu: cada GPU hauria d'esperar la del costat. El Transformer va fer possible escalar fins a mides inimaginables.

El Mecanisme d'Atenció (Self-Attention)¶

L'atenció és el cor del Transformer. La idea bàsica: cada paraula decideix a quines altres paraules ha de "prestar atenció".

# Simplificació conceptual del self-attention
# El model aprèn Q (Query), K (Key), V (Value) per a cada token

import numpy as np

def self_attention_simple(query, keys, values, d_k=64):
    """
    query: vector de la paraula actual
    keys:  vectors de totes les paraules del context
    values: informació que volem extreure de cada paraula
    d_k:   dimensió dels vectors (per escalar el producte)
    """
    # Càlcul de la similitud entre la query i cada key
    scores = np.dot(query, keys.T) / np.sqrt(d_k)  # (1, seq_len)

    # Softmax: convertim en distribució de probabilitat
    # → Quanta "atenció" posem en cada token?
    attention_weights = np.exp(scores) / np.sum(np.exp(scores))

    # Suma ponderada dels values
    output = np.dot(attention_weights, values)

    return output, attention_weights

# Exemple: "El gat menja el peix perquè té fam"
# Quan processem "té", l'atenció serà alta en "gat" (subjecte),
# però baixa en "peix" (objecte del verb anterior)

Exemple d'Atenció en Acció

En la frase "El banquer va negar el préstec perquè ell era avar", el Transformer aprèn que "ell" fa referència a "banquer" (no a "préstec") perquè l'atenció entre "ell" i "banquer" és molt alta. Les RNN tenien dificultats amb aquesta resolució de co-referència en frases llargues.

📈 L'Escalada dels LLM: La Llei de Scaling¶

Un dels descobriments més sorprenents dels últims anys és que els LLM segueixen una llei d'escala (scaling law) matemàticament precisa.

Llei de Scaling de Chinchilla (DeepMind, 2022)

Per obtenir un model òptim, calen aproximadament 20 tokens d'entrenament per cada paràmetre del model. Un model de 70B paràmetres necessita ~1.4 trilions de tokens d'entrenament.

Emergència: Capacitats No Esperades¶

Quan els models assoleixen certes mides, apareixen capacitats que no estaven explícitament entrenades:

Mida del model	Capacitats emergents observades
~7B paràmetres	Raonament aritmètic bàsic, seguiment d'instruccions simple
~70B paràmetres	Raonament multi-pas, analogies complexes, traducció
~175B+ paràmetres	Raonament abstracte, generació de codi funcional

Per reflexionar

El fenomen de l'emergència és encara poc entès científicament. No sabem exactament per què a partir de certes mides el model "pren vida". Alguns investigadors el qüestionen; altres el consideren el descobriment més important de la dècada.

🔑 Conceptes Clau d'aquesta Unitat¶

Terme	Definició
Transformer	Arquitectura neuronal basada en mecanismes d'atenció, publicada el 2017 per Google. Base de tots els LLM moderns.
Self-attention	Mecanisme que permet a cada token d'una seqüència "atendir" a qualsevol altre token, capturant dependències a llarga distància.
Pre-training	Fase d'entrenament inicial en enormes corpus de text, on el model aprèn patrons generals del llenguatge.
Fine-tuning	Fase d'adaptació del model pre-entrenament a una tasca específica amb un dataset més petit.
RLHF	Reinforcement Learning from Human Feedback. Tècnica per alinear el model amb preferències humanes (ChatGPT, Claude, etc.).
Scaling Law	Relació matemàtica entre mida del model, dades d'entrenament i rendiment.
Emergència	Aparició de capacitats no previstes quan un model supera certes mides.
Token	Unitat mínima de text que processa el model. Aproximadament 0.75 paraules en anglès, ~0.5-0.6 en català/castellà.

✅ Activitats de Consolidació¶

Exercici 1.1.1 — Comprensió Conceptual

Explica amb les teves paraules per què el mecanisme de self-attention va ser un avenç respecte a les LSTM. Posa un exemple amb una frase on les LSTM fallarien i el Transformer triomfaria.

Exercici 1.1.2 — Investigació Guiada

Visita HuggingFace Open LLM Leaderboard i respon:

Quin és el model de codi obert amb millor rendiment actual?
Quin model té la millor relació rendiment/mida?
A quin dels grans models propietaris s'aproxima més?

Exercici 1.1.3 — Reflexió Crítica

El 2019, OpenAI va retardar la publicació de GPT-2 perquè el considerava "massa perillós". Al final el va publicar íntegrament.

Debat: Hauria OpenAI hagut de publicar GPT-2 immediatament? Argumenta des de la perspectiva (a) de la seguretat i (b) de la comunitat científica.

📚 Lectures Complementàries¶

Paper fundacional: Vaswani et al. (2017) — "Attention Is All You Need". arXiv:1706.03762
Blog accessible: Jay Alammar — "The Illustrated Transformer" (2018). Visualitzacions excel·lents del mecanisme d'atenció. jalammar.github.io
Scaling Laws: Kaplan et al. (2020) — "Scaling Laws for Neural Language Models". arXiv:2001.08361
Emergència: Wei et al. (2022) — "Emergent Abilities of Large Language Models". arXiv:2206.07682