Creato algoritmo che riesce a produrre testi di senso compiuto partendo da una traccia

Una svolta sembra essere arrivata per quanto riguarda testi prodotti di intelligenze artificiali. L’annuncio è stato fatto da OpenAI, una società, i cui studi sono incentrati proprio sull’intelligenza artificiale, che è stata fondata da Elon Musk ed altri. Si parla di uno straordinario passo in avanti riguardo proprio alla composizione di testi, secondo un nuovo post sul blog del sito.

L’algoritmo, denominato GPT-2, è stato addestrato col metodo del machine learning: i ricercatori gli hanno dato in pasto 8 milioni di pagine Web in modo che potesse letteralmente prevedere le parole successive ad un’altra e infine anche gli argomenti. I testi che riesce a sfornare risultano molto più coerenti e corretti, non solo sotto l’aspetto grammaticale ma anche per quanto riguarda i concetti espressi, di qualsiasi altro algoritmo simile.

Naturalmente l’algoritmo funziona bene con gli argomenti più trattati sul Web, come ad esempio la Brexit o altri argomenti di attualità, mentre arranca un po’ per quanto riguarda gli argomenti di nicchia. Ma anche il post dei ricercatori lascia intendere che è sostanzialmente questione di quantità di testo che l’algoritmo ha analizzato e che più testo gli si da in pasto, migliori saranno i risultati. Effettivamente 8 milioni di pagine Web sono nulla in confronto a quello che esiste in Rete in termini di parole scritte.

Nel posto sono pubblicati anche alcuni esempi che mostrano che, una volta che si immette manualmente una frase qualsiasi, l’algoritmo continua il racconto/l’articolo producendo altre fasi di senso compiuto collegate alla prima tanto che sostanzialmente diventa impossibile dire che questi paragrafi stati scritti da una macchina e non da un essere umano.
Di solito si arriva ad un testo sostanzialmente corretto dopo circa una decina di tentativi, raccontano i ricercatori, e ciò rappresenta un passo avanti enorme calcolando anche il livello qualitativo del testo stesso.

L’algoritmo funziona così bene che gli stessi ricercatori non hanno voluto rilasciarlo (ne hanno pubblicato solo una piccola parte, Una sorta di versione “light” su GitHub) perché letteralmente spaventati dagli utilizzi che i malintenzionati potrebbero farne. Per “malintenzionati” si intendono tutti coloro che, per esempio, sul Web vivono di grosse quantità di testi scritti, articoli scritti grammaticalmente in maniera corretta e che abbiano un minimo di senso, per apparire primi tra i risultati di Google. Ma questo è solo un esempio dell’utilizzo scorretto che si potrebbe fare di un algoritmo del genere.

Gli stessi ricercatori lasciano intendere che è questione di tempo, forse di mesi, prima che qualcun altro possa arrivare a risultati simili e che in generale anche per quanto riguarda i testi scritti, fino ad ora l’unico settore in cui le macchine arrancavano e nel quale i loro lavori erano ben riconoscibili, bisognerà stare attenti: un solo algoritmo del genere, gestito per esempio da una sola persona, potrebbe produrre migliaia se non milioni di articoli con fake news al giorno. A quel punto riconoscere fonti reali da fonti “fake”, anche solo giornalisticamente parlando, comincerà ad essere davvero difficile.

Fonti e approfondimenti

Articoli correlati

Condividi questo articolo


Resta aggiornato su Facebook