L’OCR (optical character recognition) ha avuto ampia diffusione negli ultimi anni anche per quanto riguarda un particolare settore, quello della preservazione digitale dei vecchi testi. Molto spesso i libri pubblicati prima di una certa epoca, e tutti i dati e le informazioni in essi contenuti, non sono disponibili digitalmente e quindi non possono essere consultati, per esempio, su Internet. La trasformazione in dati digitali di questi archivi si rivela importante soprattutto per quei libri che, con il passare del tempo, non risultano più accessibili.
La mancata accessibilità si rivela un problema anche per i software di riconoscimento dei caratteri tanto che molto spesso questi libri, soprattutto quelli più antichi e delicati, non si possono neanche aprire pena danneggiamento delle pagine interne.
A tal proposito un gruppo di ricercatori del MIT ha sviluppato una particolare tecnologia che si serve delle radiazioni sulla lunghezza delle microonde e dell’infrarosso per leggere le pagine interne senza dover aprire nella copertina nelle pagine stesse.
La tecnica, descritta nell’ultimo numero di Nature Communications, è attualmente in grado di identificare correttamente le lettere e le parole solo di pochi fogli (nove per la precisione) ma i ricercatori si ripromettono di migliorare la stessa tecnologia per andare più a fondo.
La tecnologia potrebbe interessare soprattutto quei musei e quelle istituzioni che vogliono esaminare libri antichi la cui carta è diventata troppo debole per essere sfogliata o anche solo toccata.
Il sistema si serve di vari algoritmi che acquisiscono immagini da fogli singoli in pile di carta, algoritmi sviluppati da ricercatori del Massachusetts Institute of Technology e della Georgia Tech. Il sistema utilizza una rateazione terahertz che può penetrare le superfici e che permette di distinguere tra inchiostro e carta bianca, una cosa che neanche i raggi X possono fare.
Queste radiazioni vengono emesse con brevi raffiche e il sistema può misurare la differenza tra il tempo di emissione e il momento in cui la radiazione viene riflessa e torna al sensore.
Lo stesso sistema sfrutta il fatto che tra le pagine stesse di un libro vi sono minuscole sacche d’aria di circa 20 micrometri di profondità. La differenza nell’indice di rifrazione tra questa stessaarea e la carta permette di rilevare la differenza.