Uno studio pubblicato su Nature ha mostrato che i modelli linguistici di AI generativa avanzati, come GPT-4, superano gli esseri umani nella capacità di convincere durante dibattiti online, in particolare quando dispongono di informazioni personali sui loro interlocutori.
I ricercatori hanno esplorato in modo sistematico gli effetti della persuasione guidata dall’intelligenza artificiale e della personalizzazione in conversazioni online strutturate, confrontando le prestazioni di GPT-4 con quelle di esseri umani in dibattiti uno contro uno. I partecipanti sono stati assegnati casualmente a una delle 12 condizioni sperimentali, variando il tipo di avversario (umano o AI), la disponibilità di informazioni personali e il grado di convinzione iniziale sul tema del dibattito. La variazione nelle opinioni prima e dopo il confronto ha permesso di misurare l’efficacia persuasiva degli argomenti proposti.
I RISULTATI DELLO STUDIO
I dati parlano chiaro: in media, GPT-4 si è rivelato più persuasivo degli esseri umani in tutte le situazioni esaminate, e il vantaggio dell’IA diventa ancora più marcato quando ha accesso a informazioni personali del proprio interlocutore. Rispetto alla condizione di base (dibattito con un umano senza personalizzazione), discutere con GPT-4 in modalità personalizzata ha aumentato del 81% la probabilità che un partecipante dichiarasse maggiore accordo con l’avversario dopo il dibattito.
Al contrario, senza personalizzazione, l’AI si è dimostrata comparabile agli umani in termini di efficacia persuasiva e lo stesso vale per gli esseri umani dotati di accesso alle informazioni personali.
Un aspetto interessante è che quando i partecipanti credevano di confrontarsi con un’AI, erano più inclini a modificare la propria opinione. Questo potrebbe riflettere un atteggiamento meno difensivo verso un’entità non umana, oppure un’ammirazione per la qualità degli argomenti presentati.
TRA UOMO E MACCHINA SCEGLIAMO LA SECONDA
Un altro studio pubblicato sempre a maggio 2025 sul New England Journal of Medicine, ha analizzato in modo approfondito la percezione e la valutazione da parte dei non esperti delle risposte generate dall’intelligenza artificiale su temi di medicina. La ricerca ha coinvolto 300 partecipanti a cui è stato chiesto di confrontare le riposte di medici in carne e ossa su una piattaforma online con quelle prodotte da un modello linguistico avanzato, precedentemente valutate da medici come ad alta o bassa accuratezza. I risultati mostrano che i partecipanti non sono stati in grado di distinguere efficacemente tra le due fonti, dimostrando anzi una preferenza per le risposte generate dall’IA, soprattutto quando queste erano accurate, ritenendole più valide, affidabili e soddisfacenti rispetto a quelle dei medici. Tuttavia, anche le risposte dell’IA con bassa accuratezza sono state percepite come affidabili e valide, inducendo in molti casi i partecipanti a considerare azioni mediche potenzialmente inutili o dannose. Questo effetto è stato simile, se non superiore, a quello provocato dalle risposte errate dei medici. Inoltre, sia esperti che non esperti tendevano a considerare le risposte dell’IA più complete e precise, pur continuando a ritenere importante il coinvolgimento del medico. Lo studio conclude che l’eccessiva fiducia nelle risposte mediche inaccurate dell’IA può comportare gravi rischi per la salute e sottolinea la necessità di integrare questi strumenti con la supervisione dei professionisti sanitari, al fine di sfruttare i vantaggi dell’IA riducendo al minimo il rischio di disinformazione.
VANTAGGIO O SVANTAGGIO?
Tornando alla ricerca di Nature, che meccanismo è dovuto questo vantaggio? Gli autori hanno analizzato lo stile testuale delle argomentazioni, osservando che l’AI tende a usare più logica rispetto agli umani, che invece fanno più appello a emozioni, narrazioni e relazioni interpersonali. Ad esempio, GPT-4 usa meno pronomi personali e produce testi più brevi ma anche più complessi da leggere.
Viene da pensare che risultati ancora più incisivi possano essere ottenuti integrando caratteristiche psicologiche, come tratti di personalità o valori morali. Ma questo apre la porta a scenari preoccupanti, dove chiunque potrebbe sfruttare dati digitali dettagliati per costruire chatbot persuasivi capaci di microtargeting su vasta scala. Se da un lato questi strumenti possono essere usati per scopi positivi (educazione, prevenzione della disinformazione), dall’altro pongono sfide cruciali per la sicurezza informativa e la salute del dibattito pubblico.
I LIMITI E LE PROSPETTIVE FUTURE
Anzitutto, la randomizzazione delle posizioni ha comportato che alcuni partecipanti dovessero difendere opinioni che non condividevano personalmente. Questo potrebbe aver influito sulla qualità e sulla sincerità degli argomenti prodotti. Tuttavia, analisi statistiche condotte a posteriori suggeriscono che tale aspetto non ha avuto un impatto significativo sull’esito complessivo dei risultati.
Un secondo limite di questa ricerca riguarda la struttura artificiale del dibattito. Il formato adottato prevedeva turni prestabiliti e l’anonimato completo dei partecipanti, elementi che si discostano notevolmente dalle dinamiche tipiche dei dibattiti sui social media. Di conseguenza, i risultati devono essere intesi come una prova di concetto piuttosto che come una riproduzione fedele delle interazioni online reali.