Οπτική Αναγνώριση Χαρακτήρων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Μετάβαση σε: πλοήγηση, αναζήτηση

Η Οπτική Αναγνώριση Χαρακτήρων (Αγγλ. Optical Character Recognition) ή αλλιώς Αυτόματη Αναγνώριση Χαρακτήρων Κειμένου ονομάζεται η διαδικασία μετατροπής σαρωμένων εικόνων χειρογράφων ή έντυπων κειμένων σε κείμενο αναγνώσιμο από ηλεκτρονικό υπολογιστή. Η Οπτική Αναγνώριση Χαρακτήρων καθιστά εφικτή την εκ νέου επεξεργασία του κειμένου, αποφεύγοντας την δακτυλογράφηση του από την αρχή.

Τα συστήματα Οπτικής Αναγνώρισης Χαρακτήρων απαιτούν βαθμονόμηση για να διαβάσουν μια συγκεκριμένη γραμματοσειρά. Οι πρώτες εκδόσεις ήταν προγραμματισμένες με εικόνες για κάθε χαρακτήρα και δούλευαν μια γραμματοσειρά την φορά. Τα ευφυή συστήματα με υψηλό δείκτη αναγνώρισης είναι πλέον κοινά. Μερικά συστήματα είναι ικανά να αναπαράγουν ακόμη και τις πληροφορίες που δεν είναι κείμενο σε ένα έγγραφο, όπως εικόνες, στήλες, γραμμές, γωνίες κτλ.

Ιστορική αναδρομή[Επεξεργασία | επεξεργασία κώδικα]

Το 1929, ο Gustav Tauschek απέκτησε ευρεσιτεχνία για το OCR στην Γερμανία, ακολουθούμενος από τον Paul W. Handel που απέκτησε την ευρεσιτεχνία για την OCR στις Ηνωμένες Πολιτείες το 1933. Το 1935 ο Tauschek πήρε επίσης την ευρεσιτεχνία στην μέθοδο του στις ΗΠΑ. Το μηχάνημα του Tauschek ήταν μια μηχανική συσκευή που χρησιμοποιούσε πρότυπα και αισθητήρα φωτός.

Το 1949, οι μηχανικοί της RCA δημιούργησαν τον πρώτο OCR σύστημα για να βοηθήσουν τους τυφλούς για το US Veterans Administration, αλλά αντί να μετατρέπουν εκτυπωμένους χαρακτήρες σε χαρακτήρες αναγνώσιμους από υπολογιστή, η συσκευή τους μετέτρεπε και τους διάβασε. Η συσκευή είχε υψηλό κόστος και δεν δόθηκε για παραγωγή.

Το 1950, ο David H. Shepard, ένας κρυπταναλητής των Armed Forces Security Agency των ΗΠΑ δημιούργησε μια συσκευή που μετέτρεπε τα εκτυπωμένα μηνύματα σε κείμενο αναγνώσιμο από ηλεκτρονικό υπολογιστή αφού έκδωσε την δική του πατέντα. Έπειτα, ο Shepard ίδρυσε την Intelligent Machines Research Corporation (IMR), η οποία ήταν η πρώτη που έβαλε σε εμπορική λειτουργία τα συστήματα OCR.

Το 1955, το πρώτο εμπορικό σύστημα εγκαταστάθηκε στο Reader's Digest. Το δεύτερο σύστημα πουλήθηκε στην Standard Oil για να διαβάζει αριθμούς πιστωτικών καρτών για λογαριασμούς. Άλλα συστήματα που πουλήθηκαν από την IMR γύρω στο 1950s είχαν αναγνωστέα αποκόμματος λογαριασμού στην Ohio Bell Telephone Company και έναν σαρωτή σελίδας στις United States Air Force για ανάγνωση και μετάδοση χειρόγραφων μηνυμάτων από τον. Η IBM και άλλες αγόρασαν τις άδειες ευρεσιτεχνίας OCR του Shepard.

Το 1965, το Reader's Digest και η RCA συνεργάστηκαν για να φτιάξουν μια συσκευή OCR για να διαβάζει και να ψηφιοποιεί τους σειριακούς αριθμούς από τα κουπόνια του Reader's Digest από τις διαφημίσεις. Οι γραμματοσειρά που χρησιμοποιήθηκε για την εκτύπωση των κουπονιών ήταν η OCR-A font. Η συσκευή ήταν συνδεδεμένη σε ένα RCA 301 υπολογιστή. Η συσκευή επίσης είχε έναν ειδικό αναγνωστέα TWA. Η συσκευή μπορούσε να επεξεργαστεί 1,500 έγγραφα ανά λεπτό, απορρίπτοντας ότι δεν μπορεί να αναγνωρίσει σωστά.

Το Ταχυδρομείο των ΗΠΑ χρησιμοποιεί τεχνολογία οπτικής αναγνώρισης από το 1965 βασιζόμενο σε τεχνολογία που ανέπτυξε ο εφευρέτης Jacob Rabinow. Η πρώτη χρήση της Οπτικής Αναγνώρισης στην Ευρώπη έγινε από το Ταχυδρομείο της Αγγλίας. Το 1965 ξεκίνησε την κατασκευή ενός τραπεζικού συστήματος βασιζόμενο στην τεχνολογία OCR, μια διαδικασία που έφερε επανάσταση στα συστήματα πληρωμής λογαριασμών στην Μ. Βρετανία. Το ταχυδρομείο του Καναδά υιοθέτησε τα συστήματα OCR από το 1971.

Το 1974, o Ray Kurzweil ίδρυσε την εταιρία Kurzweil Computer Products, Inc. και δημιούργησε το πρώτο σύστημα οπτικής αναγνώρισης χαρακτήρων που αναγνώριζε εκτυπωμένο κείμενο διαφόρων γραμματοσειρών. Η εταιρία εστίασε στην δημιουργία μιας συσκευής που θα βοηθήσει τους τυφλούς να διαβάζουν κείμενο με βοήθεια υπολογιστή. Η συσκευή απαιτούσε την εφεύρεση δύο τεχνολογιών – μια συσκευή σάρωσης και ένα σύστημα ανάγνωσης κειμένου από τον υπολογιστή.

Το 1978, η εταιρία Kurzweil Computer Products άρχισε να πουλά εταιρικές εκδόσεις του λογισμικού οπτικής αναγνώρισης. Η LexisNexis ήταν από τους πρώτους πελάτες που αγόρασαν το λογισμικό για να μεταφορτώνουν έγγραφα στην online βάση δεδομένων τους. Δύο χρόνια μετά, ο Kurzweil πούλησε την εταιρία στην Xerox, που έδειξε ενδιαφέρον για την επέκταση της τεχνολογίας οπτικής αναγνώρισης.

Πως Λειτουργεί[Επεξεργασία | επεξεργασία κώδικα]

Υπάρχουν δύο κύριοι τρόποι εφαρμογής της Οπτικής Αναγνώρισης, η "Αντιστοίχηση με Πρότυπα" και η "Εξαγωγή Χαρακτηριστικών". Η πρώτη μέθοδος είναι πιο διαδεδομένη και κοινή αλλά περιορίζεται αρκετά σε σχέση με την 2η τεχνική. Η σημερινή τεχνολογία χρησιμοποιεί τον συνδυασμό και των δύο τεχνολογιών για την καλύτερη επίτευξη αποτελεσμάτων, κυρίως σε χειρόγραφα έγγραφα.

Αντιστοίχηση με πρότυπα[Επεξεργασία | επεξεργασία κώδικα]

Η αντιστοίχηση με πρότυπα αφορά την αναγνώριση χαρακτήρων από έτοιμα πρότυπα ή περιγράμματα χαρακτήρων. Ο σαρωτής ψηφιοποιεί την εικόνα ενός εγγράφου στον υπολογιστή και το λογισμικό Οπτικής Αναγνώρισης προσπαθεί να ταιριάξει, με ένα βαθμό πιθανότητας, τους χαρακτήρες από το σαρωμένο αρχείο εικόνας με τα πρότυπα που έχει αποθηκευμένα. Αν η εικόνα ενός χαρακτήρα αντιστοιχεί με αναγνωρισμένο χαρακτήρα, τότε αντιστοιχίζεται με χαρακτήρα κειμένου για τον ηλεκτρονικό υπολογιστή.

Τα περισσότερα εκτυπωμένα έγγραφα κειμένου ήταν με γραμματοσειρές Times, Courier ή Helvetica με μέγεθος 10 ως 14. Ένα πρόγραμμα αναγνώρισης χαρακτήρων έχει εικόνες σε μορφή bitmap για κάθε χαρακτήρα κάθε μεγέθους κάθε γραμματοσειράς. Το λογισμικό διάβαζε την εικόνα που σάρωνε ο σαρωτής γραμμή-γραμμή και προσπαθούσε να αντιστοιχήσει κάθε χαρακτήρα με την αντίστοιχη εικόνα. Για παράδειγμα αν το πρόγραμμα εντόπιζε ένα χαρακτήρα "Γ" τότε το πρόγραμμα έψαχνε όλα τα πρότυπα από το Α μέχρι το ω σε όλα τα αποθηκευμένα μεγέθη και αν εντόπιζε κάποια εικόνα που έμοιαζε το Γ, το αντιστοίχιζε.

Η όλη διαδικασία είναι χρονοβόρα γιατί απαιτούνται πολλές επαναλήψεις για κάθε χαρακτήρα.[1]

Εξαγωγή Χαρακτηριστικών[Επεξεργασία | επεξεργασία κώδικα]

Η εξαγωγή χαρακτηριστικών είναι επίσης γνωστή ως Ευφυής Αναγνώριση Χαρακτήρων (Αγγλ. Intelligent Character Recognition – ICR), ή τοπολογική ανάλυση χαρακτηριστικών. Πρόκειται για ένα είδος οπτικής αναγνώρισης που δεν βασίζεται σε ακριβείς αντιστοιχήσεις με πρότυπα. Το λογισμικό λειτουργεί με ένα πιο σοφιστικό τρόπο αναγνώρισης χαρακτήρων, όπως ανίχνευση επιμέρους συστατικών στοιχείων ενός χαρακτήρα, όπως γωνίες, γραμμές, ενώσεις κτλ) Η εφαρμογή των αντιστοιχήσεων γίνεται με μορφή κανόνων.

Ένας κανόνας θα μπορούσε να είναι ως έξης: Αν εντοπιστούν δύο κάθετες που κλίνουν οι μια στην άλλη "/" και "\" και η κορυφές τους ενώνονται και στο κέντρο υπάρχει μια γραμμή "-" τότε είναι το γράμμα "Α". Η εφαρμογή αυτού του κανόνα θα μπορούσε να εντοπίσει όλα τα "Α" ανεξάρτητα από την μέγεθος ή τον τύπο γραμματοσειράς που χρησιμοποιήθηκε στο έγγραφο.[2]

Υβριδική Αναγνώριση[Επεξεργασία | επεξεργασία κώδικα]

Οι παραπάνω μέθοδοι χρησιμοποιούνται κυρίως για αναγνώριση κειμένου που εκτυπώθηκε από ηλεκτρονικό υπολογιστή ή δακτυλογραφήθηκε. Η αναγνώριση χειρόγραφων χαρακτήρων είναι πιο πολύπλοκη διαδικασία και απαιτεί τον συνδυασμό των παραπάνω τεχνικών, καθώς και στοιχεία όπως γνώσεις για τον συγγραφέα και το περιεχόμενο του κειμένου.

Τα προβλήματα με την αναγνώριση χειρογράφων οφείλονται στην καλλιγραφία (συνεχόμενη γραφή χαρακτήρων χωρίς κενό) διότι δεν μπορούν να ξεχωρίσουν πότε τελειώνει ένα γράμμα και πότε ξεκινάει ένα άλλο. Επίσης, κάθε άνθρωπος έχει διαφορετικό γραφικό χαρακτήρα, δυσχεραίνοντας την διαδικασία εφαρμογής προτύπων ή εξαγωγής χαρακτηριστικών για τον κάθε ένα. Όταν ένα λογισμικό πρέπει να αναγνωρίσει τέτοιες λέξεις, χρησιμοποιεί το νόημα του κειμένου, την γνώση του για τον συγγραφέα και τις λέξεις που ήδη αναγνώρισε.

Λογισμικό Αναγνώρισης Χαρακτήρων[Επεξεργασία | επεξεργασία κώδικα]

Desktop & Server Λογισμικό Αναγνώρισης Χαρακτήρων[Επεξεργασία | επεξεργασία κώδικα]

Το λογισμικό Οπτικής Αναγνώρισης και Ευφυούς Αναγνώρισης χαρακτήρων είναι συστήματα τεχνίτης νοημοσύνης που θεωρούν το κείμενο ως μια ακολουθία χαρακτήρων και όχι μεμονωμένες λέξεις ή φράσεις. Βασιζόμενα στην ανάλυση των γραμμών και των καμπυλών κάθε χαρακτήρα, προσπαθούν να μαντέψουν ποιος χαρακτήρας απεικονίζεται χρησιμοποιώντας βάσεις με πρότυπα που ταιριάζει.

WebOCR & OnlineOCR[Επεξεργασία | επεξεργασία κώδικα]

Με την ανάπτυξη της τεχνολογία της πληροφορίας, οι πλατφόρμες χρήσης λογισμικού αναγνώρισης χαρακτήρων άλλαξαν σε πολύ-πλατφόρμες με την χρήση του ηλεκτρονικού υπολογιστή, του διαδικτύου, του υπολογιστικού νέφους και τις κινητές συσκευές. Μετά από 30 χρόνια, το λογισμικό οπτικής αναγνώρισης υιοθετεί νέες μεθόδους όπως χρήση της αναγνώρισης χαρακτήρων ως υπηρεσία ιστού. Χωρίς την χρήση εξειδικευμένο λογισμικού ή την υπολογιστική ισχύ ενός υπολογιστή, ο χρήστης μπορεί να χρησιμοποιήσει την αναγνώριση χαρακτήρων με εξαιρετικά αποτελέσματα.

OCR Ειδικής Χρήσης[Επεξεργασία | επεξεργασία κώδικα]

Λόγω του μεγάλου εύρους χρήσης της τεχνολογίας Οπτικής Αναγνώρισης Χαρακτήρων, υπήρξε η ανάγκη ανάπτυξης λογισμικού ειδικής χρήσης. Το λογισμικό ειδικής χρήσης δίνει καλύτερα αποτελέσματα σε συγκεκριμένες περιπτώσεις, παρά σε γενικές. Το λογισμικό χρησιμοποιεί κάποιους κανόνες ή κάποια φίλτρα που αντιστοιχούν μόνο σε ορισμένες εικόνες κειμένων και εξάγει το κείμενο. Για παράδειγμα, κάποιο λογισμικό αναγνώρισης των χαρακτηριστικών μιας ταυτότητας, θα πρέπει να εφαρμόσει ειδικά φίλτρα και να διαβάσει ορισμένες περιοχές για να είναι πιο πετυχημένη η αναγνώριση.

Αναφορές[Επεξεργασία | επεξεργασία κώδικα]

  1. «eHow.com - How OCR works». http://www.ehow.com/how-does_4963233_ocr-work.html. 
  2. «ExplainThisStuff - Optical character recognition». http://www.explainthatstuff.com/how-ocr-works.html.