IA Forta i IA Feble

Introducció

La distinció entre intel·ligència artificial forta i feble és fonamental per comprendre el camp en la seva totalitat. No és una classificació tècnica basada en l'arquitectura dels models, sinó una distinció filosòfica sobre el tipus d'intel·ligència que un sistema pot exhibir. El 2025, en plena efervescència del debat sobre l'AGI (Artificial General Intelligence), aquesta distinció ha adquirit una importància pràctica que va molt més enllà de l'acadèmia: determina decisions d'inversió de bilions de dòlars, polítiques regulatòries com l'EU AI Act i fins i tot la seguretat planetària a llarg termini.

IA Feble (Narrow AI)

Definició i característiques

La IA feble o IA estreta (Narrow AI) és qualsevol sistema d'intel·ligència artificial dissenyat i entrenat per a una tasca específica o un conjunt limitat de tasques. La paraula "feble" no implica inferioritat en rendiment —en la seva tasca concreta, sovint supera amb escreix la capacitat humana— sinó que fa referència a l'abast restringit d'aplicació.

Les característiques definitòries de la IA feble són:

Especialització: El sistema ha estat optimitzat per a un domini particular. AlphaFold és extraordinàriament bo predicant estructures proteiques, però no podria jugar als escacs ni reconèixer veus. GPT-4 és impressionant generant text, però no pot executar tasques físiques en el món real.

Dependència de l'entrenament: La IA feble no aprèn de manera contínua de les seves interaccions en temps real (tret que es dissenyi explícitament per fer-ho). El seu coneixement queda "congelat" en el moment en que s'atura l'entrenament. Per exemple, GPT-4 té un tall de coneixement i no coneix esdeveniments posteriors.

Manca de comprensió genuïna: Malgrat les aparences, els sistemes actuals no "comprenen" el contingut que processen en el sentit filosòfic del terme. Un LLM que escriu poesia no experimenta emocions; un sistema de diagnòstic mèdic no "entén" la malaltia de la manera que ho fa un metge. Opera sobre correlacions estadístiques en dades d'alta dimensió.

Transferència limitada: La IA feble no pot aplicar el que ha après en una tasca a un domini completament diferent. Un classificador d'imatges de gossos i gats entrenat de nou hauria d'aprendre des del principi a reconèixer vehicles, malgrat que els mecanismes visuals de baix nivell siguin similars (excepte amb transfer learning, que redueix però no elimina aquest problema).

Exemples actuals de IA feble

GPT-4o (OpenAI, 2024) — És el model de llenguatge multimodal més avançat públicament disponible al moment de la seva publicació. Genera text de qualitat humana, resol problemes matemàtics complexos, escriu codi i analitza imatges. Malgrat tot, és IA feble: no té memòria persistent entre sessions sense eines externes, no pot actuar autònomament en el món real sense andamiatge d'agents, i les seves capacitats es degraden fora de les distribucions de les seves dades d'entrenament.

AlphaFold 3 (DeepMind, 2024) — Prediu l'estructura tridimensional de proteïnes i les seves interaccions amb ADN, ARN i molècules petites amb una precisió que abans requeria anys de cristal·lografia de raigs X. Ha revolucionat la biologia estructural i accelera el descobriment de fàrmacs. És, no obstant, purament estret: no pot fer res fora del domini de la biologia molecular.

DALL-E 3 / Stable Diffusion XL / Midjourney v6 — Sistemes de generació d'imatge de text a imatge que produeixen art fotorealist, il·lustracions i disseny gràfic a un nivell que hauria semblat màgic fa cinc anys. Segueixen sent IA feble: no "veuen" les imatges que generen, no comprenen el context narratiu més ampli i presenten artefactes sistemàtics (dits, text) que un humà no cometria.

Systèmes de recomanació de Netflix, Spotify, TikTok — Algoritmes de filtrat col·laboratiu i deep learning que prediuen amb alta precisió quins continguts t'agradaran. Representen milers de milions de dòlars en valor per a les empreses, però el seu funcionament es limita a correlacionar patrons de comportament d'usuaris similars.

Tesla Autopilot / Waymo Driver — Sistemes de conducció assistida o autònoma que processen dades de LiDAR, càmera i radar per navegar trànsit complex. Constitueixen alguns dels sistemes IA feble més sofisticats, però segueixen requerint supervisió humana o estan limitats a geofences específiques.

GitHub Copilot / Cursor — Assistents de codificació basats en models de codi (Codex, Claude, GPT-4) que suggereixen completions de codi en temps real, accelerant significativament la productivitat dels programadors. Emeten codi amb errors i no "comprenen" el propòsit del sistema que ajuden a construir.

Per quin motiu segueix sent "feble"

Una pregunta freqüent és: si GPT-4 pot aprovar l'examen MIR de medicina, l'examen del bar d'advocats i la prova de doctorat del MIT, com és que segueix sent IA feble?

La clau és la generalitat i la comprensió. Un metge no memoritza respostes d'examen: entén la fisiopatologia, integra informació de múltiples fonts en temps real, pren decisions sota incertesa en situacions mai vistes i adapta el seu criteri al context social i emocional del pacient. GPT-4 ha après associacions estadístiques entre tokens en un corpus massiu; pot produir respostes molt similars a les d'un expert, però els processos subjacents són radicalment diferents.

graph LR
    subgraph IA_feble ["IA Feble (Narrow AI)"]
        A["GPT-4\nGeneració de text"]
        B["AlphaFold\nEstructures proteiques"]
        C["AlphaGo\nJoc de go"]
        D["Tesla Autopilot\nConducció"]
        E["ChatBots\nAtenció al client"]
    end
    subgraph IA_forta ["IA Forta (AGI) - Hipotètica"]
        F["Raonament general\nsense restriccions de domini"]
        G["Aprenentatge continu\nde noves situacions"]
        H["Comprensió genuïna\ni consciència"]
        I["Transferència total\nentre dominis"]
    end
    J["Humà"] --> F & G & H & I
    A & B & C --> IA_feble

Miniactivitat — Anàlisi d'un sistema IA feble

Escull un dels sistemes esmentats (GPT-4o, AlphaFold, sistema de recomanació de Spotify). Investiga:

Quin model ML utilitza per dessota (transformer, CNN, collaborative filtering...)?
Quines dades es van usar per entrenar-lo?
En quins casos falla o es comporta de manera inesperada?
Quina tasca específica no podria fer malgrat ser molt potent en la seva àrea?

Documenta les teves troballes en 400 paraules i comparteix-les a l'aula virtual.

IA Forta (AGI)

Definició

La IA forta o Intel·ligència Artificial General (AGI, Artificial General Intelligence) és un sistema hipotètic capaç de realitzar qualsevol tasca cognitiva que pugui realitzar un ésser humà, amb la mateixa flexibilitat, adaptabilitat i profunditat de comprensió. No existeix cap sistema AGI el 2025; és un objectiu de recerca a llarg termini (i controvertit en quant a la seva factibilitat).

Les característiques d'una hipotètica AGI inclourien:

Generalitat: capacitat de transferir aprenentatge entre dominis arbitraris sense reentrenament explícit.
Aprenentatge continu: aprendre de noves situacions en temps real sense oblidar el que ja sap (evitant el "catastrophic forgetting").
Raonament causal: entendre relacions causa-efecte, no només correlacions estadístiques.
Autoconsciència: capacitat de modelar el propi estat intern, coneixements i limitacions.
Comprensió del sentit: entendre el significat intrínsec de les coses, no simplement patrons superficials.

La IA Superintel·ligent (ASI)

Més enllà de l'AGI, alguns teòrics postules la possibilitat d'una IA Superintel·ligent (ASI, Artificial Superintelligence): un sistema que supera la intel·ligència humana en tots els àmbits cognoscibles simultàniament. Nick Bostrom al seu llibre "Superintelligence" (2014) i Eliezer Yudkowsky argumenten que una ASI podria millorar-se recursivament fins a assolir capacitats incomprensibles per als humans, representant un punt d'inflexió ("singularitat tecnològica") de conseqüències impredictibles.

La discussió AGI 2024-2025

On estem realment?

El 2024-2025 ha vist un increment espectacular en les capacitats dels LLMs, que ha renovat el debat sobre si ja s'han assolit les primeres etapes de l'AGI o si estem simplement davant de sistemes molt sofisticats de compressió estadística de coneixement humà.

Arguments a favor que estem acostant-nos a l'AGI:

OpenAI ha adoptat internament una escala de 5 nivells: - Nivell 1: Chatbots capaços de conversa raonada (GPT-4 — assolit el 2023) - Nivell 2: Raonadors (models que resolen problemes nous; o1 hi aspira el 2024) - Nivell 3: Agents (sistemes que actuen autònomament; en curs el 2025) - Nivell 4: Innovadors (sistemes que generen coneixement nou de manera independent) - Nivell 5: Organitzacions (IA que podria dirigir organitzacions complexes)

El model o1 d'OpenAI (2024) demostra capacitats de raonament en cadena ("chain of thought") que superen els humans en benchmarks matemàtics i científics selectes, cosa que ha accelerat la discussió.

Arguments en contra que haguem assolit l'AGI:

François Chollet (creador de Keras) argumenta que els benchmarks actuals mesuren memorització disfressada de raonament. El seu ARC (Abstraction and Reasoning Corpus) planteja tasques d'analogia visual simples per a humans però molt difícils per als LLMs actuals, suggerint que l'abstracció genuïna segueix fora del seu abast.

Gary Marcus, psicòleg cognitiu, argumenta que els LLMs fallen de manera sistemàtica en tasques que requereixen sentit comú físic, causalitat i raonament composicional.

Yoshua Bengio, des d'una perspectiva de seguretat en IA, sosté que els sistemes actuals no mostren comprensió causal real i que l'AGI requerirà arquitectures radicalment noves.

graph TD
    subgraph Empreses ["Empreses líders i les seves apostes AGI"]
        OAI["OpenAI\nObjectiu declarat: AGI segura\nEstratègia: Scaling + RLHF + o1"]
        ANT["Anthropic\nObjectiu: IA constitucional segura\nEstratègia: Constitutional AI + interpretabilitat"]
        DM["DeepMind (Google)\nObjectiu: Science AI general\nEstratègia: AlphaCode, Gemini Ultra"]
        META["Meta AI\nObjectiu: Open source AGI\nEstratègia: LLaMA 3, JEPA"]
    end
    subgraph Postures ["Postures sobre el timing AGI"]
        OPT["Optimistes (2026-2030)\nSam Altman, Demis Hassabis"]
        MOD["Moderats (2030-2040)\nYan LeCun, Andrej Karpathy"]
        ESC["Esceptics (post-2050 o mai)\nGary Marcus, Francois Chollet"]
    end
    OAI & ANT --> OPT
    DM --> OPT & MOD
    META --> MOD & ESC

El perill de la hype

Cada avanç notable dels LLMs genera una onada de titulars que afirmen que l'AGI és imminent. Convé mantenir el pensament crític: superar un benchmark específic no és equivalent a intel·ligència general. Els benchmarks s'esgoten i se'n creen de nous; la intel·ligència genuïna és infinitament més rica. Llegeix les afirmacions sobre AGI amb el mateix escepticisme que aplicaries a qualsevol afirmació científica extraordinària.

Tests de la Intel·ligència Artificial

El Test de Turing (1950)

Alan Turing va proposar el 1950 un "joc d'imitació": si un jutge humà no pot distingir, a través d'una conversa en text, si la seva interlocutora és una persona o una màquina, la màquina es considera intel·ligent. El test va ser conceptualment revolucionari però té limitacions importants:

Es mesura la simulació de la intel·ligència, no la intel·ligència en si mateixa.
Un chatbot poc sofisticat pot "enganyar" usuaris crèduls amb trucs retòrics simples.
No avalua comprensió, creativitat, raonament o aprenentatge; sols la capacitat de mantenir una conversa convincent.

El 2014, un chatbot anomenat "Eugene Goostman" va ser proclamat com el primer en superar el test de Turing, però la premissa va ser molt criticada: simulava ser un nen ucraïnès de 13 anys, cosa que excusava les seves respostes incoherents i limitava les expectatives dels jutges.

GPT-4 supera fàcilment el test de Turing en la seva formulació original, però ningú considera que sigui AGI. Això il·lustra les limitacions del test com a mesura d'intel·ligència real.

El Schema de Winograd

Els "Winograd Schema Challenges" proposen frases amb ambigüitat pronominal que els humans resolem intuïtivament però que requereixen comprensió del món per part de la màquina:

"El trofeu no cabia a la maleta perquè era massa gran." — El "era" fa referència al trofeu o a la maleta?

Resoldre aquest tipus d'ambigüitat requereix sentit comú físic (un trofeu gran no cap en una maleta petita). Durant anys, va ser un repte per als NLP systems; els LLMs actuals el resolen bé en casos directes però fallen en variants més subtils.

BIG-Bench i MMLU

BIG-Bench (Beyond the Imitation Game Benchmark) — Col·lecció de 204 tasques dissenyades per ser difícils per als models actuals, incloent-hi raonament matemàtic, comprensió de codis morals, traducció de llenguatges rars i lògica no estàndard. Alguns models com GPT-4 i Gemini Ultra superen el rendiment humà en moltes subtasques, però no en totes.

MMLU (Massive Multitask Language Understanding) — Benchmark de 57 àrees de coneixement (dret, medicina, física, ciències socials...) amb preguntes de resposta múltiple. GPT-4 assoleix ~86% vs. ~89% del human baseline. Útil per mesurar coneixement de domini ample, però no capacitat de raonament.

ARC-AGI (Abstraction and Reasoning Corpus for AGI) — Proposat per Chollet el 2019, presenta tasques de transformació visual que els humans resolen intuïtivament. El millor model (o3 d'OpenAI, 2024) assoleix ~75% en la versió pública, mentre que els humans arriben al 98%. Segueix sent un dels benchmarks més difícils per als sistemes actuals.

IA i Consciència: el debat filosòfic

L'habitació xinesa de Searle (1980)

El filòsof John Searle va proposar el 1980 un experiment mental que continua sent rellevant avui:

Imagina't tancat en una habitació, sense parlar xinès, amb un gran manual de regles. Per la finestra entren preguntes en xinès; tu consultes el manual i respons combinant símbols seguint les regles. Algú des de fora no pot distingir les teves respostes de les d'un parlant nadiu. Però tu no entens el xinès; simplement manipules símbols formals.

Searle argumenta que els ordinadors fan exactament el mateix: manipulen símbols sense comprensió semàntica genuïna. La sintaxi (regles de manipulació de símbols) no és suficient per generar semàntica (significat real).

Les crítiques a l'habitació xinesa inclouen la "Systems Reply" (la sala sencera entesa com a unitat sí comprèn el xinès) i argumentar que la consciència és una propietat emergent de la complexitat, no de la naturalesa del substrat físic.

Teoria de la Informació Integrada (IIT)

Giulio Tononi proposa que la consciència és idèntica a la informació integrada, mesurada per φ (phi). Un sistema té experiència subjectiva en la mesura en que les seves parts s'integren de manera que el tot conté més informació que la suma de les parts. Sota aquesta teoria, els LLMs actuals tindrien φ molt baix —malgrat la seva complexitat aparent— mentre que el cervell humà tindria φ molt alt.

Implicacions pràctiques per als professionals

Independentment de la resolució filosòfica del debat, els professionals del sector han de navegar les implicacions pràctiques:

Responsabilitat: si un sistema IA pren una decisió que causa dany, qui és responsable? La manca de comprensió genuïna fa difícil atribuir intencionalitat o culpa.
Confiança: fins a quin punt es pot confiar en les recomanacions d'un sistema que opera per correlació estadística i pot al·ucinar fets?
Sesgo: un sistema que aprèn de dades humanes hereta els biaixos humans. Sense comprensió genuïna, no pot reconèixer ni corregir autònomament el seus propis biaixos.

Barreres entre IA i Machine Learning

Existeix una confusió freqüent entre IA i ML. La relació és la d'un conjunt contenidor (IA) i un subset (ML):

Aspecte	IA General	Machine Learning	Deep Learning
Abast	Tot sistema que imita intel·ligència	Sistemes que aprenen de dades	Xarxes neuronals profundes
Programació	Regles explícites O aprenentatge	Sempre aprenentatge de dades	Aprenentatge amb moltes capes
Exemples	Sistemes experts, xatbots basats en regles	Random Forest, SVM, K-Means	CNN, Transformer, GPT
Interpretabilitat	Alta (regles explícites)	Mitjana	Baixa ("caixa negra")
Dades necessàries	Pot funcionar sense dades	Moltes dades (centenars a milions)	Grans volums (milions a bilions)
Computació	Baixa-mitjana	Mitjana	Molt alta (GPU/TPU)

La frontera pràctica entre IA i ML ha canviat amb el temps. El 1997, Deep Blue batia Kasparov als escacs amb un sistema expert basat en regles i cerca exhaustiva —IA, però no ML. El 2016, AlphaGo batia Lee Sedol amb deep reinforcement learning —ML en tota regla.

Generalització vs Memorització

Una de les barreres crítiques entre ML feble i qualsevol cosa que s'acosti a la intel·ligència general és la generalització. Els models d'ML aprenen a generalitzar des de les dades d'entrenament a noves dades de la mateixa distribució. Però la distribució mai és perfectament representativa del món real.

Un model entrenat per detectar pneumònia en radiografies de tòrax de l'Hospital de Stanford pot fallar en radiografies de l'Hospital de Barcelona si les propietats tècniques de les imatges (resolució, contrast, orientació) difereixen. Això no és un problema de "feblesa filosòfica" sinó de distributional shift.

La transferència entre dominis (domain transfer) és un dels problemes oberts més importants del ML modern. Transfer learning i preentrenament massiu (com el que fan els LLMs) han mitigat el problema, però no l'han eliminat.

Avantatges i limitacions per a negocis reals

Quan usar IA feble (que sempre és el cas avui)

La IA feble ofereix avantatges empresarials concrets i mesurables:

Automatització de tasques repetitives: classificació de correus, extracció d'informació de factures, detecció de frau, moderació de contingut. El ROI és clar i mesurable.

Personalització a escala: sistemes de recomanació, màrqueting personalitzat, preus dinàmics. Impossible de fer manualment amb milions d'usuaris.

Suport a la decisió: models predictius per a diagnòstic mèdic, risc de crèdit, manteniment predictiu d'equips industrials. Augmenten la capacitat dels experts, no els substitueixen.

Procesament de dades no estructurades: anàlisi de sentiments en ressenyes, transcripció de trucades de servei al client, extracció d'informació de documents legals.

Limitacions a tenir en compte

Necessitat de dades etiquetades: l'aprenentatge supervisat requereix dades anotades, que sovint requereixen esforç humà considerable (data labeling). Datasets de qualitat insuficient o biaixada produiran models deficients.

Explicabilitat: en sectors regulats (banca, salut, assegurances), la normativa (GDPR Article 22, EU AI Act) pot exigir que les decisions automatitzades siguin explicables. Les caixes negres del deep learning no ho fan fàcil.

Costos de manteniment: els models en producció requereixen monitorització contínua per detectar data drift i degradació del rendiment. No és un projecte que es fa una vegada i s'oblida.

Risc de biaix algorítmic: un model entrenat amb dades biaixades perpetua i amplifica el biaix. Casos famosos: COMPAS (predicció de reincidència criminal racista), Amazon Recruiting Tool (discriminació de gènere).

Miniactivitat — Debat: IA forta o feble?

Llegeix les afirmacions següents sobre capacitats dels LLMs actuals. Per a cada una, argumenta si constitueix evidència d'IA forta o simplement IA feble molt sofisticada:

GPT-4 aprova l'examen del bar d'advocats amb puntuació al percentil 90.
GPT-4 falla sistemàticament en tasques d'aritmètica de 7 xifres que qualsevol calculadora resol.
Claude 3.5 Sonnet pot escriure codi Python funcional per a tasques que no havia vist mai.
Un LLM al·lucina ("inventa") cites bibliogràfiques que semblen plausibles però no existeixen.
AlphaCode 2 de DeepMind supera el 85% dels competidors humans en plataformes de programació competitiva.

Debateu a l'aula: quin criteri utilitzeu per distingir IA feble de forta?

Exercici pràctic — Anàlisi de la frontera IA/ML

Objectiu: Identificar, analitzar i presentar un cas real de sistema IA feble d'ús empresarial.

Tasca:

Escull un sistema IA en producció d'una empresa real (Amazon Rekognition, Google Cloud Vision, IBM Watson, Salesforce Einstein, etc.).
Investiga el seu funcionament a través de la documentació pública, papers tècnics i articles.
Elabora un informe de 800-1000 paraules (en català) que respongui:
Quina tasca concreta realitza? Quins problemes resol per al negoci?
Quin tipus de ML utilitza per dessota (supervisat, no supervisat, deep learning)?
Quines dades va necessitar per entrenar-se i com s'obtenen?
Quines són les seves limitacions documentades?
Per quin motiu és IA feble i no AGI?
Quina seria la solució "IA forta" hipotètica al problema que resol, i per quin motiu no existeix?
Presenta les conclusions en 5 minuts a l'aula.

Criteris d'avaluació: precisió tècnica, qualitat de l'argumentació, fonts citades correctament, estructura i claredat de l'exposició.

Codi de l'activitat: AC5072/01