Μηχανική όραση

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Μετάβαση σε: πλοήγηση, αναζήτηση

Η μηχανική όραση, υπολογιστική όραση ή τεχνητή όραση είναι ένα επιστημονικό πεδίο της τεχνητής νοημοσύνης το οποίο επιχειρεί να αναπαράγει αλγοριθμικά την αίσθηση της όρασης, συνήθως σε ηλεκτρονικό υπολογιστή ή ρομπότ. Η μηχανική όραση σχετίζεται με τη θεωρία και την τεχνολογία που εμπλέκονται στη σχεδίαση και κατασκευή συστημάτων που λαμβάνουν και αναλύουν δεδομένα από ψηφιακές εικόνες. Τα εν λόγω δεδομένα μπορούν να είναι φωτογραφίες, βίντεο, όψεις από πολλαπλές κάμερες, πολυδιάστατες εικόνες από ιατρικό σαρωτή κλπ.

Η μηχανική όραση επιδιώκει να εφαρμόσει θεωρίες και μοντέλα στην κατασκευή μηχανικών συστημάτων με δυνατότητα όρασης. Παραδείγματα εφαρμογών τέτοιων συστημάτων είναι τα εξής:

  1. Έλεγχος διαδικασιών (π.χ. ένα βιομηχανικό ρομπότ ή ένα αυτόνομο όχημα)
  2. Ανίχνευση συμβάντων (π.χ. οπτική επιτήρηση)
  3. Οργάνωση πληροφοριών (π.χ. ευρετηριοποίηση βάσεων δεδομένων και ακολουθιών εικόνων)
  4. Εξομοίωση αντικειμένων και περιβαλλόντων (π.χ. βιομηχανική επιθεώρηση, ιατρική ανάλυση εικόνας ή τοπογραφική εξομοίωση)
  5. Αλληλεπίδραση χρηστών με υπολογιστικά συστήματα (π.χ. ως είσοδος σε μια συσκευή επικοινωνίας ανθρώπου / μηχανής).

Η μηχανική όραση μπορεί επίσης να περιγραφεί ως συμπλήρωμα (αλλά όχι απαραιτήτως αντίθετο) της βιολογικής όρασης. Στην τελευταία, μελετώνται η οπτική αντίληψη στους ανθρώπους και τα ζώα με αποτέλεσμα μοντέλα για το πώς αυτά τα συστήματα λειτουργούν υπό το πρίσμα των φυσιολογικών διαδικασιών. Η μηχανική όραση από την άλλη μελετά και περιγράφει το τεχνητά συστήματα όρασης που εφαρμόζονται σε λογισμικό ή/και σε υλικό υπολογιστών. Η διεπιστημονική ανταλλαγή μεταξύ της βιολογικής και υπολογιστικής όρασης αποδεικνύεται όλο και περισσότερο καρποφόρα και για τους δύο τομείς.

Ιστορικό[Επεξεργασία | επεξεργασία κώδικα]

Ιστορικά, η υπολογιστική όραση αναδύθηκε μετά το 1980 ως αποτέλεσμα επέκτασης του πεδίου της πληροφορικής το οποίο καλείται ψηφιακή επεξεργασία εικόνας σε αλγορίθμους ανάλυσης και κατανόησης εικόνων. Είχαν προηγηθεί η μαθηματική μοντελοποίηση της φυσικής όρασης, έστω σε ένα βασικό επίπεδο, και οι πρώτες προσπάθειες για αναπαραγωγή της αίσθησης της όρασης σε αυτόνομα ρομπότ. Ως τότε ο όρος μηχανική όραση σχετιζόταν με την ηλεκτρολογία και τη ρομποτική, συνήθως σε βιομηχανικό πλαίσιο. Κατά τη δεκαετία του 1980, μετά την εμφάνιση της υπολογιστικής όρασης, οι δύο όροι σταδιακά συνέκλιναν και συγχωνεύθηκαν ως επιστημονικά πεδία, σαν διακριτός τομέας της τεχνητής νοημοσύνης με εφαρμογές όχι μόνο στη ρομποτική αλλά και σε δεκάδες ακόμα κλάδους.

Από τη δεκαετία του 1990 κι έπειτα η μηχανική όραση έχει γνωρίσει αλματώδη ανάπτυξη, έχει συνδεθεί με το γνωστικό πεδίο της μηχανικής μάθησης και έχει δώσει σημαντικά απτά αποτελέσματα, με αλγορίθμους όρασης πραγματικού χρόνου να υλοποιούνται ακόμα και σε φτηνά κινητά τηλέφωνα εξοπλισμένα με κάμερα. Στο εν λόγω πλαίσιο, η μηχανική όραση έχει διαδραματίσει θεμελιώδη ρόλο στην εξέλιξη της ενισχυμένης πραγματικότητας.

Μετά την ευρύτατη διάδοση του Kinect, ενός καινοτόμου περιφερειακού διασύνδεσης μεταξύ χρηστών και υπολογιστικών συστημάτων, και τη σχετική άνθιση του τριδιάστατου (στερεοσκοπικού) οπτικού περιεχομένου ύστερα από τη μεγάλη επιτυχία της κινηματογραφικής ταινίας Άβαταρ το 2009, η μηχανική όραση έχει αρχίσει να εξετάζει πιο ενδελεχώς και την αξιοποίηση δεδομένων βάθους (π.χ. από στερεοσκοπική κάμερα ή ξεχωριστούς αισθητήρες βάθους) για την επίτευξη των στόχων της.

Αντικείμενα και σχέση με άλλα επιστημονικά πεδία[Επεξεργασία | επεξεργασία κώδικα]

Οι υποκατηγορίες της μηχανικής όρασης περιλαμβάνουν την κατανόηση σκηνής, την ανίχνευση συμβάντων, την ανίχνευση κίνησης, την αναγνώριση αντικειμένων, την ευρετηριοποίηση, την αναγνώριση κίνησης και την τριδιάστατη ανακατασκευή (παραγωγή τριδιάστατων μοντέλων της σκηνής από δεδομένα εικόνας / βίντεο). Σε σχέση με άλλα, συγγενή γνωστικά πεδία, η μηχανική όραση διαφοροποιείται ως εξής:

  • Η ψηφιακή επεξεργασία εικόνας εξετάζει αλγορίθμους οι οποίοι δέχονται ως είσοδο εικόνες / βίντεο και παράγουν ως έξοδο εικόνες / βίντεο.
  • Τα γραφικά υπολογιστή εξετάζουν αλγορίθμους οι οποίοι δέχονται ως είσοδο συμβολικές περιγραφές οπτικών σκηνών και παράγουν ως έξοδο εικόνες / βίντεο (με ή χωρίς αλληλεπίδραση με τον χρήστη).
  • Η μηχανική όραση εξετάζει αλγορίθμους οι οποίοι δέχονται ως είσοδο εικόνες / βίντεο και παράγουν συμβολικές περιγραφές των εν λόγω οπτικών σκηνών.
  • Η μηχανική μάθηση εξετάζει αλγορίθμους οι οποίοι δέχονται ως είσοδο δεδομένα κάθε τύπου και τα ταξινομούν ή κατηγοριοποιούν σε ομάδες. Ένα σημαντικό μέρος της μηχανικής όρασης, είναι ουσιαστικά εφαρμογή της μηχανικής μάθησης σε ψηφιακά οπτικά δεδομένα.

Πηγές[Επεξεργασία | επεξεργασία κώδικα]

  • Computer and Machine Vision --- Theory, Algorithms, Practicalities, E. R. Davies, 2012