Anche l’intelligenza artificiale più avanzata non sa leggere un orologio analogico

Uno studio pubblicato su arXiv[1] ha messo alla prova le capacità dei modelli linguistici multimodali (Multimodal Large Language Models) nel leggere l’ora su orologi analogici. Nonostante i progressi raggiunti, risultati sorprendenti mostrano che anche modelli avanzati come GPT-4.1 faticano a gestire variazioni semplici nella forma o nei dettagli visivi degli orologi.

Quando l’intelligenza artificiale sbaglia l’ovvio

Sebbene siano progettati per interpretare immagini complesse, i MLLM dimostrano grosse difficoltà in un compito banale per un umano: leggere l’ora. Il motivo? I dati di addestramento spesso includono solo esempi comuni, come gli orologi impostati sulle 10:10. Questo squilibrio compromette l’effettiva capacità del modello di generalizzare.

L’effetto del fine-tuning e i suoi limiti

Per testare i modelli, i ricercatori hanno costruito un dataset completo di immagini di orologi e lo hanno usato per affinare GPT-4o. Dopo il fine-tuning, il modello ha mostrato miglioramenti evidenti nella lettura dell’ora su nuovi esempi simili. Tuttavia, con orologi alterati graficamente o con lancette più sottili e appuntite, le prestazioni sono crollate, segnalando una comprensione solo apparente del compito.

Confusione tra lancette e direzione

Analizzando gli errori, emerge una doppia debolezza. Da un lato, il modello ha difficoltà nel percepire correttamente la direzione delle lancette. Dall’altro, tende a confondere la loro funzione, scambiando spesso la lancetta delle ore con quella dei minuti. Anche dopo il fine-tuning, queste confusioni persistono soprattutto con orologi modificati.

Verso una nuova intelligenza visiva

Gli autori concludono che il vero ostacolo è la mancanza di astrazione: il modello sembra memorizzare schemi piuttosto che comprendere le regole. Se un semplice cambiamento grafico mina l’intero processo di riconoscimento, è evidente che i MLLM devono evolversi. Il rischio, come evidenziato, è che errori simili in contesti critici – come la guida autonoma o la diagnostica medica – possano avere conseguenze ben più gravi.

Approfondimenti

  1. [2505.10862] Have Multimodal Large Language Models (MLLMs) Really Learned to Tell the Time on Analog Clocks?
Condividi questo articolo

C’è un errore?

Hai trovato un errore in questa pagina? Segnalacelo!

Disclaimer notizie

Questo blog non rappresenta una testata giornalistica in quanto viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n° 62 del 7.03.2001. L’autore non è responsabile di altri siti collegati tramite link né del loro contenuto che può essere soggetto a variazioni nel tempo.

Notizie scientifiche.it usa i cookie per migliorare l'esperienza di navigazione (Leggi di più)


Dati articolo