home Tecnologia Come funzionano i software OCR

Come funzionano i software OCR

Una classe particolare di software viene classificata come OCR, dove i tre caratteri stanno per Optical Character Recognition.

Si tratta di programmi che si occupano di simulare l’atto umano della lettura, trasformando la parola stampata in testo modificabile, ovvero in caratteri in serie.

Il principio su cui si basano questi programmi è quello del “Pattern Recognition” ovvero del riconoscimento formale.

Per un computer infatti le lettere sono forme, non caratteri. Per distinguerle e riconoscerle il software esegue una serie di operazioni.

La prima è quella di separare i caratteri dal cosiddetto “rumore di fondo”, ovvero le immagini eventuali presenti nel documento da riconoscere, e le eventuali macchie o altro.

La seconda operazione consiste nel recuperare la forma e paragonarla con quelle contenute in uno speciale database algoritmico che estrapola la probabilità di somiglianza di quello che viene “letto” con le lettere contenute nel database. Se la percentuale di probabilità supera una certa soglia (solitamente il 95%) il riconoscimento viene considerato valido e la lettera considerata come riconosciuta.

Questa operazione viene ripetuta su tutte le forme candidate per il riconoscimento. Il risultato finale viene poi emesso sotto forma di documento modificabile con un normale editor di testi per l’intervento finale di un operatore umano.

Alcuni programmi particolarmente evoluti provvedono anche a confrontare le parole ottenute (riconoscibili come separate in base alla misurazione della distanza tra una forma e quella successiva), con un database di parole memorizzate in un apposito dizionario, o in vari dizionari, variabili a seconda della lingua utilizzata, in modo da ridurre la percentuale di errore che, nonostante tutto, senza questo tipo di intervento, rimane comunque abbastanza elevata.

Anche se può non sembrare, i software OCR sono molto presenti nella tecnologia attuale, ad esempio nei moderni smartphone sono utilizzati per fornire l’input ai software di sintesi vocale per la lettura dei messaggi e altro.

Per maggiori informazioni sull’uso particolare dei software ocr, clicca qui.