Εξαγωγή πληροφοριών

Η εξαγωγή ή εξόρυξη πληροφοριών είναι ένα είδος ανάκτησης πληροφοριών από μη δομημένα ή ημιδομημένα δεδομένα (unstructured or semi-structured data – τυπικά κείμενα γραμμένα σε φυσική γλώσσα, ιστοσελίδες κ.α.) και αποτελεί κλάδο της σύγχρονης Επιστήμης των υπολογιστών. Είναι βασισμένη στην τεχνολογία της Επεξεργασίας του φυσικού λόγου.

Γενικά

Πρακτικά, συνίσταται στην αναγνώριση συγκεκριμένου είδους πληροφοριών, όπως κύρια ονόματα (ονόματα ανθρώπων, τοπωνύμια, ονόματα εταιρειών, ημερών, μηνών, κτλ.), χρονικές πληροφορίες (ημερομηνίες), σχέσεις και γεγονότα από (συνήθως) ηλεκτρονικά κείμενα. Απώτερος στόχος της εξαγωγής πληροφοριών είναι η «κατανόηση» των βασικών συστατικών του υπό ανάλυση κειμένου, τα οποία αργότερα μπορούν να χρησιμοποιηθούν από εφαρμογές όπως αυτόματη εξαγωγή περιλήψεων κειμένων, αυτόματη απάντηση ερωτήσεων, αυτόματη μετάφραση κ.α.

Τα βασικά στάδια της εξαγωγής πληροφοριών είναι συνήθως πέντε, σύμφωνα με τον οδηγό των συνεδρίων MUC (Message Understanding Conference):

Αναγνώριση κυρίων ονομάτων: Η αναγνώριση κυρίων ονομάτων είναι ο αυτόματος εντοπισμός και εξαγωγή λεξικών αλληλουχιών που αναφέρονται σε κύρια ονόματα μέσα στο υπό ανάλυση κείμενο.
Αναγνώριση αναφορικών σχέσεων μεταξύ ονομάτων
Αναγνώριση γεγονότων
Αναγνώριση σχέσεων μεταξύ κυρίων ονομάτων
Αναγνώριση σχέσεων μεταξύ γεγονότων

Η έρευνα στην Εξόρυξη πληροφοριών επηρεάστηκε σε μεγάλο βαθμό από τα MUC συνέδρια, τα οποία δημοσίευαν τα αποτελέσματα διαγωνισμών μεταξύ συστημάτων που επιχειρούσαν εξαγωγή πληροφοριών σε κείμενα που περιγράφουν καθημερινές ειδήσεις.

Σημασία της εξαγωγής πληροφοριών

Ο ρόλος της Εξαγωγής πληροφοριών, στα πλαίσια της Ανάκτησης πληροφοριών και Διαχείρισης γνώσης, είναι η αναγνώριση εξειδικευμένης πληροφορίας και η εξαγωγή γνώσης από μη δομημένα δεδομένα με μηχανικό (αυτόματο) τρόπο. Αντίθετα με την κλασσική Ανάκτηση πληροφοριών, σύμφωνα με την οποία η αναζήτηση γίνεται με βάση συγκεκριμένες λέξεις-κλειδιά και το αποτέλεσμα περιλαμβάνει μόνο κείμενα στα οποία βρίσκεται (ενδεχομένως) η χρήσιμη πληροφορία, η Εξόρυξη πληροφοριών στοχεύει ακριβώς στην αναγνώριση της χρήσιμης μόνο πληροφορίας και το περιβάλλον (context) στο οποίο αυτή εμφανίζεται.

Δεδομένου του μεγάλου όγκου πληροφοριών που παράγονται και διακινούνται σήμερα (κύριο χαρακτηριστικό του διαδικτύου) το ζητούμενο στις μέρες μας είναι όχι απλώς η κατοχή της πληροφορίας – ο οποιοσδήποτε σήμερα μπορεί να έχει πρόσβαση σε σχετικά οποιαδήποτε πληροφορία – αλλά η διαχείριση της πληροφορίας και ο εντοπισμός της «σχετικής» πληροφορίας. Έτσι, ενώ με μια κλασσική μηχανή αναζήτησης ο ενδιαφερόμενος θα λάβει ως απάντηση ένα σύνολο κειμένων που ενδεχομένως περιέχουν την απάντηση που περιμένει, η Εξόρυξη πληροφοριών στοχεύει στην απάντηση και μόνο σε αυτή.

Οι εφαρμογές μιας τέτοιας τεχνολογίας είναι πραγματικά αμέτρητες.

Αποτελέσματα – επιδόσεις

Οι επιδόσεις αναλόγων συστημάτων που έχουν παρουσιαστεί κατά καιρούς σε συνέδρια και ερευνητικές εργασίες αναφέρονται σε έρευνα πάνω σε συγκεκριμένους τομείς (κείμενα γραμμένα για συγκεκριμένους θεματικούς χώρους) και διαφέρουν ανάλογα με το είδος της πληροφορίας που στοχεύουν να αναγνωρίσουν. Έτσι, αναφορικά με της πέντε προαναφερθείσες κατηγορίες της Εξαγωγής πληροφοριών, έχουν παρατηρηθεί τα κάτωθι:

Όσο προχωράμε από την αναγνώριση κυρίων ονομάτων προς την αναγνώριση σχέσεων μεταξύ γεγονότων η δυσκολία αυξάνεται εκθετικά, αφού εξάλλου τα μετέπειτα στάδια ανάλυσης εξαρτώνται σε μεγάλο βαθμό στα προγενέστερα. Έχοντας ως δεδομένο το γεγονός αυτό, η αναγνώριση κυρίων ονομάτων επιτυγχάνεται κατά 93% περίπου (Cunningham, 2000) και, λαμβάνοντας υπ’ όψιν το γεγονός ότι ένας άνθρωπος δε μπορεί να επιτύχει το 100%, μπορούμε να ισχυριστούμε πως τα συστήματα αναγνώρισης ονομάτων τα καταφέρνουν το ίδιο ή σχεδόν το ίδιο καλά με τον άνθρωπο.

Όμως, τα επόμενα στάδια ανάλυσης δεν εφαρμόζονται με την ίδια επιτυχία. Τα αποτελέσματα που δημοσιεύονται είναι ενδεικτικά^{περισσότερες πληροφορίες εδώ}. Τελικά, η αναγνώριση γεγονότων (που είναι ο κύριος στόχος της εξαγωγής πληροφοριών) δεν εφαρμόζεται με μεγάλη επιτυχία ούτε αυτή: τα καλύτερα συστήματα αναφέρουν επιδόσεις της τάξεως του 60%, σύμφωνα με τα πρακτικά των συνεδρίων MUC. Τα νούμερα που αναφέρονται εδώ δηλώνουν κατά προσέγγιση την επίδοση των συστημάτων και είναι το F-measure των αποτελεσμάτων.

Στο σημείο αυτό πρέπει να σημειώσουμε δύο πράγματα. Πρώτον, τα αναφερόμενα μεγέθη αναφέρονται σε πειράματα πάνω σε συγκεκριμένους τομείς (domains) και συγκεκριμένες γλώσσες (Αγγλικά συνήθως). Το γεγονός αυτό είναι ιδιαίτερα σημαντικό, αφού κάθε τομέας και κάθε γλώσσα έχουν ιδιαιτερότητες οι οποίες πρέπει να ενσωματωθούν στα συστήματα εξόρυξης πληροφοριών. Από τη φύση της λοιπόν η Εξαγωγή πληροφοριών είναι άρρηκτα συνδεδεμένη με τη γλώσσα και το είδος των δεδομένων (κειμένων) που πρόκειται να αναλυθούν.

Δεύτερον, η σχετική έρευνα έχει γίνει πιο εντατική τα τελευταία χρόνια. Συνεχώς προτείνονται νέες μέθοδοι κατασκευής αναλόγων αρχιτεκτονικών και συστημάτων οι οποίες στοχεύουν σε καλύτερες επιδόσεις και στην απλοποίηση της επέκτασης της λειτουργίας υπαρχόντων συστημάτων σε νέους τομείς και νέες γλώσσες. Έμφαση δίνεται κυρίως στην ανάπτυξη ειδικών συστημάτων μέσω αυτόματης εκμάθησης της γλωσσικής πληροφορίας και των ιδιαιτεροτήτων του χώρου από το ίδιο το σύστημα. Στο μέλλον, λοιπόν, είναι βέβαιο ότι θα έχουμε καλύτερα συστήματα και σαφώς καλύτερες επιδόσεις.

Εξωτερικοί σύνδεσμοι

http://www.gate.ac.uk Το GATE είναι μια πλατφόρμα ανάπτυξης γλωσσικών εργαλείων που χρησιμοποιούνται για την Εξόρυξη πληροφοριών (Πανεπιστήμιο Sheffield).
http://www.ellogon.orgΤο Ellogon είναι μία πλατφόρμα ανάπτυξης γλωσσικών εργαλείων που χρησιμοποιούνται για την Εξόρυξη πληροφοριών (Ινστιτούτο Πληροφορικής και Τηλεπικοινωνιών - Δημόκριτος).
http://www.research.ibm.com/UIMAΤο UIMAAn είναι μια open source πλατφόρμα για ανάλυση και αναζήτηση μη δομημένων δεδομένων (ΙΒΜ Research).
http://www.itl.nist.gov/iad/894.02/related_projects/mucΤο MUC site περιέχει γενικές πληροφορίες για Εξόρυξη πληροφοριών και τα πρακτικά των αντιστοίχων συνεδρίων.

Βιβλιογραφία

Chinchor Ν., Robinson P. (1997) MUC-7 Information Extraction Task Definition (version 5.1). Message Understanding Conference Proceedings.
Cunningham Η. (2000) Information Extraction: a User Guide.Research Memo. University of Sheffield, 2000.
Jurafsky D., Martin J.H. (2000) Speech And Language Processing. Prentice Hall. ISBN 0-13-0950-69-6.