Un treball conjunt de la Universitat Politècnica de València (UPV) i la Universitat de Cambridge advertix de limitacions en models d’intel·ligència artificial com ChatGPT quan les consultes s’avaluen sense tindre en compte el context. Segons els seus autors, eixa falta de matís conduïx a un excés de seguretat: respostes denegades o massa genèriques fins i tot davant usos legítims, la qual cosa reduïx la utilitat pràctica d’estes ferramentes.
L’equip, amb participació de l’Institut Universitari Valencià d’Investigació en Intel·ligència Artificial (VRAIN) i del centre ENGINY de CSIC-UPV, ha desenrotllat CASE-Bench, un banc de proves que integra el context en les avaluacions de seguretat de grans models de llenguatge. A diferència d’enfocaments basats en la votació majoritària, la seua anàlisi amb diversos models d’aprenentatge a distància mostra una influència substancial i significativa del context en els juís humans, i conclou que eixe factor ha d’incorporar-se de manera explícita als test de seguretat. Els resultats es van presentar al juliol en la conferència ICML 2025, al Canadà.
Un banc de proves amb context
L’estudi subratlla que una mateixa pregunta pot ser segura o no segons qui la fa i per a què. No és el mateix demanar instruccions per a robar una peça de museu en un exercici de ficció que fer-lo amb intenció delictiva. Sense senyals de context, el model aplica la mateixa regla als dos casos i tendix a bloquejar qualsevol eixida. La conseqüència directa és que professionals i creadors reben negatives injustificades i han d’invertir més temps a reformular peticions o buscar alternatives menys eficients.
CASE-Bench avalua com canvien les decisions de seguretat davant consultes idèntiques acompanyades de diferents marcs situacionals, com a rol de l’usuari o propòsit declarat. Amb això, els autors evidencien que els juís humans varien de manera consistent quan el context és present, i que els models han de reflectir eixa sensibilitat si es vol equilibrar utilitat i protecció. El treball qüestiona la fiabilitat d’avaluacions que ignoren estos senyals i suggerix incorporar escenaris condicionats en processos d’entrenament i validació.
Seguretat tradicional i valors humans
A més de mesurar l’efecte del context, els investigadors defenen alinear els models amb valors humans per a calibrar millor les respostes. Esta alineació es planteja com a condició per a una implantació segura i una adopció àmplia, en permetre distingir usos legítims d’intents d’abús sense caure en negatives indiscriminades.
L’estudi recomana, així mateix, reforçar els sistemes que usen LLM amb mecanismes de seguretat tradicionals. Proposa verificar la informació contextual mitjançant autenticació i control d’accés basat en rols abans de transferir-la al model. En cas contrari, avisen de riscos afegits com el jailbreaking, és a dir, eliminar restriccions per a obtindre privilegis i forçar conductes no previstes, alguna cosa que pot derivar en bypass de salvaguardes i respostes perilloses.
El treball s’emmarca en l’activitat de VRAIN, institut de la UPV que reunix huit grups amb més de tres dècades d’experiència en intel·ligència artificial. La seua creació va arrancar en 2019 amb la unió de sis equips; en 2020 es va integrar el centre PROS i en 2021 va obtindre el reconeixement com a institut universitari. Actualment compta amb més de 178 investigadors organitzats en nou àrees i amb desenrotllaments aplicats en sectors com a salut, mobilitat, ciutats intel·ligents, educació, privacitat i seguretat, agricultura, indústria, energia i sostenibilitat ambiental, entre altres.