
Uno studio pubblicato su arXiv[1] ha messo alla prova le capacità dei modelli linguistici multimodali (Multimodal Large Language Models) nel leggere l’ora su orologi analogici. Nonostante i progressi raggiunti, risultati sorprendenti mostrano che anche modelli avanzati come GPT-4.1 faticano a gestire variazioni semplici nella forma o nei dettagli visivi degli orologi.
Quando l’intelligenza artificiale sbaglia l’ovvio
Sebbene siano progettati per interpretare immagini complesse, i MLLM dimostrano grosse difficoltà in un compito banale per un umano: leggere l’ora. Il motivo? I dati di addestramento spesso includono solo esempi comuni, come gli orologi impostati sulle 10:10. Questo squilibrio compromette l’effettiva capacità del modello di generalizzare.
L’effetto del fine-tuning e i suoi limiti
Per testare i modelli, i ricercatori hanno costruito un dataset completo di immagini di orologi e lo hanno usato per affinare GPT-4o. Dopo il fine-tuning, il modello ha mostrato miglioramenti evidenti nella lettura dell’ora su nuovi esempi simili. Tuttavia, con orologi alterati graficamente o con lancette più sottili e appuntite, le prestazioni sono crollate, segnalando una comprensione solo apparente del compito.
Confusione tra lancette e direzione
Analizzando gli errori, emerge una doppia debolezza. Da un lato, il modello ha difficoltà nel percepire correttamente la direzione delle lancette. Dall’altro, tende a confondere la loro funzione, scambiando spesso la lancetta delle ore con quella dei minuti. Anche dopo il fine-tuning, queste confusioni persistono soprattutto con orologi modificati.
Verso una nuova intelligenza visiva
Gli autori concludono che il vero ostacolo è la mancanza di astrazione: il modello sembra memorizzare schemi piuttosto che comprendere le regole. Se un semplice cambiamento grafico mina l’intero processo di riconoscimento, è evidente che i MLLM devono evolversi. Il rischio, come evidenziato, è che errori simili in contesti critici – come la guida autonoma o la diagnostica medica – possano avere conseguenze ben più gravi.