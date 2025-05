Un nuovo studio pubblicato su arXiv[1] introduce AnnualBERT, una serie di modelli linguistici pensati per analizzare l’evoluzione temporale del linguaggio scientifico. A differenza dei modelli generici, AnnualBERT si basa su un’architettura RoBERTa addestrata su articoli scientifici organizzati per anno.

Un modello per ogni anno di scienza

Il team ha sviluppato una strategia di pretraining originale: si parte da un modello base addestrato su articoli arXiv fino al 2008, poi si aggiorna il modello ogni anno con i nuovi articoli pubblicati. Questo approccio, detto “continual training”, consente a ciascun modello di riflettere il linguaggio e le tendenze specifiche di un periodo storico. I modelli usano tokenizzazione a parola intera, una scelta che consente di seguire meglio l’evoluzione dei concetti scientifici nel tempo, senza che vengano spezzettati in frammenti poco significativi.

Prestazioni e capacità predittive

AnnualBERT è stato confrontato con modelli noti come SciBERT e BioBERT su compiti NLP come classificazione, riconoscimento di entità e predizione di relazioni. Sebbene non eccella nei compiti di riconoscimento delle entità, si dimostra superiore nelle previsioni legate alla classificazione degli articoli e nella capacità di identificare articoli interdisciplinari. La versione continuamente aggiornata del modello ha prestazioni migliori anche rispetto alla variante addestrata una sola volta sull’intero corpus.

Modello e scienza evolvono insieme

Una delle applicazioni più originali di AnnualBERT è la predizione dei collegamenti nelle reti di citazione: il modello riesce a prevedere quali articoli citeranno altri articoli, sia nel presente che in futuro. Inoltre, analizzando il cambiamento nei pesi interni dei modelli nel tempo, si osservano traiettorie coerenti che riflettono l’evoluzione della scienza. Alcune funzioni come la previsione di sottocategorie migliorano nel tempo, altre invece mostrano segni di “dimenticanza” delle conoscenze passate.

Un nuovo modo per esplorare la conoscenza

AnnualBERT si propone non solo come strumento per migliorare le prestazioni su testi scientifici, ma anche come “archivio intelligente” capace di sintetizzare il sapere accumulato anno per anno. Le sue capacità di interpolazione tra modelli suggeriscono che il linguaggio scientifico evolve in modo graduale e comprensibile. Questo lavoro apre la strada a nuove ricerche sull’analisi temporale automatica della scienza attraverso i modelli linguistici.

Approfondimenti