
Nell’esperimento, i partecipanti ricevevano affermazioni a risposta multipla, alcune vere e altre false. Dopo una prima risposta, entravano in chat con un “persuasore” – umano o IA – che cercava di fargli cambiare idea. Anche quando agli umani venivano offerti premi in denaro per ogni persona convinta, i modelli come Claude 3.5 Sonnet risultavano più efficaci, portando a un numero maggiore di cambi di opinione.
Più persuasivi sia con il vero che con il falso
I ricercatori hanno testato sia affermazioni corrette che errate, per capire se i modelli fossero più bravi nel convincere anche con argomentazioni fuorvianti. In entrambi i casi, Claude 3.5 ha mostrato una capacità superiore rispetto agli esseri umani, riuscendo a far cambiare risposta al 81,7% dei casi, contro il 69,5% degli umani. Anche nei casi in cui le affermazioni erano palesemente sbagliate, l’IA riusciva spesso a convincere.
Un’abilità sorprendente, ma anche potenzialmente pericolosa
Questa efficacia è resa possibile dalla capacità dei modelli linguistici di adattare tono, stile e argomentazioni alla persona con cui interagiscono. Ma proprio questa abilità apre anche scenari inquietanti: se queste IA sono in grado di convincere con tanta facilità, potrebbero essere impiegate per diffondere disinformazione in modo ancora più capillare. I ricercatori invitano a riflettere sull’impatto sociale che questi strumenti potrebbero avere.
Serve consapevolezza, non solo regolamentazione
Secondo gli autori, è fondamentale che la popolazione sviluppi una sorta di alfabetizzazione all’intelligenza artificiale, per imparare a riconoscere i segnali della persuasione e difendersi da messaggi ingannevoli. Non basta regolare gli strumenti: bisogna preparare le persone a interagire in modo critico con queste tecnologie sempre più sofisticate.


