Επεξεργασία φυσικής γλώσσας
Η επεξεργασία φυσικής γλώσσας (ΕΦΓ) είναι ένας διεπιστημονικός κλάδος της επιστήμης της πληροφορικής, της τεχνητής νοημοσύνης και της υπολογιστικής γλωσσολογίας και ασχολείται με τις αλληλεπιδράσεις μεταξύ των υπολογιστών και των ανθρώπινων (φυσικών) γλωσσών. Κατά συνέπεια, η ΕΦΓ συνδέεται στενά με την αλληλεπίδραση ανθρώπου-υπολογιστή.[1] Προκλήσεις στην ΕΦΓ περιλαμβάνουν την κατανόηση φυσικής γλώσσας, δηλαδή την προσπάθεια να καταστούν ικανοί οι υπολογιστές να εξάγουν νοήματα από ανθρώπινα ή γλωσσικά δεδομένα, αλλά και την παραγωγή φυσικής γλώσσας.
Σημαντικά πεδία έρευνας στην επεξεργασία φυσικής γλώσσας
[Επεξεργασία | επεξεργασία κώδικα]Η παρακάτω λίστα καταγράφει τα συχνότερα πεδία έρευνας στην επεξεργασία φυσικής γλώσσας. Κάποια από τα πεδία έρευνας έχουν εφαρμογές στην καθημερινή ζωή, ενώ άλλα υφίστανται ως υποπεδία που υποβοηθούν την επίλυση μεγαλύτερων ζητημάτων. Το κριτήριο που ξεχωρίζει τα παρακάτω πεδία έρευνας από άλλα πιθανά και πραγματικά πεδία της ΕΦΓ είναι το γεγονός ότι για το καθένα από αυτά υπάρχει επίσημα ένας καλά ορισμένος χώρος εργασιών και επίλυσης ζητημάτων, ένα καθιερωμένο μετρικό σύστημα για την αξιολόγηση του πεδίου, κάποια δεδομένα σώματα κειμένων πάνω στα οποία κάθε πεδίο αξιολογείται και διαγωνισμοί αφιερωμένοι στο κάθε πεδίο.
- Ανάλυση λόγου: Είναι μία ρουμπρίκα που περιλαμβάνει ποικίλες μελέτες, Μία μελέτη αναφέρεται στην αναγνώριση της δομής του λόγου ενός συνδεόμενου κειμένου π.χ. την φύση των σχέσεων του λόγου μεταξύ δύο προτάσεων (π.χ. επεξήγηση, αντίθεση κτλ.). Μία άλλη πιθανή μελέτη είναι η αναγνώριση και η κατηγοριοποίηση των γλωσσικών πράξεων σε ένα κομμάτι κειμένου.
- Αυτόματη αναγνώριση ομιλίας: Η αυτόματη μετατροπή του προφερόμενου ανθρώπινου λόγου σε κείμενο από τους τους υπολογιστές.[1]
- Αυτόματη ερωταπόκριση: Η αναζήτηση της σωστής απάντησης σε μία δεδομένη ερώτηση διατυπωμένη σε ανθρώπινη γλώσσα.[2]
- Αυτόματη μορφολογική τεμαχιοποίηση: Η κατάτμηση των λέξεων στα μορφήματά τους καθώς και η αναγνώριση και κατηγοριοποίηση αυτών των μορφημάτων. Η δυσκολία του συγκεκριμένου πεδίου μελέτης εξαρτάται σε μεγάλο βαθμό από την περιπλοκότητα της μορφολογίας της εκάστοτε φυσικής γλώσσας υπό εξέταση.[1]
- Αυτόματη περίληψη: Η παραγωγή μίας αναγνώσιμης περίληψης ενός κειμένου. Συχνά χρησιμοποιείται για να παρέχει περιλήψεις σε κείμενα γνωστής διάταξης, όπως άρθρα στο οικονομικό μέρος μίας εφημερίδας.[3]
- Εξαγωγή πληροφοριών: Η ανάκτηση πληροφοριών από μη δομημένα ή ημιδομημένα δεδομένα (τυπικά κείμενα γραμμένα σε φυσική γλώσσα, ιστοσελίδες κ.α.)
- Επίλυση σχέσεων συναναφοράς: Η αναζήτηση του ποιες λέξεις (αναφορές) αναφέρονται στα ίδια υποκείμενα (οντότητες) σε μία δεδομένη πρόταση ή ένα μεγαλύτερο κομμάτι κειμένου. Η επίλυση σχέσεων αναφοράς είναι ένα συγκεκριμένο παράδειγμα αυτού του πεδίου και αναφέρεται συγκεκριμένα στην σύνδεση των αντωνυμιών με τα ουσιαστικά ή τα ονόματα στα οποία αναφέρονται.[4]
- Επισήμανση των μερών του λόγου: Ο αυτόματος καθορισμός των μερών του λόγου σε μία δεδομένη πρόταση και η επίλυση της συντακτικής αμφισημίας.[5]
- Κατανόηση φυσικής γλώσσας: Η μετατροπή κομματιών κειμένου σε πιο τυπικές αναπαραστάσεις όπως σε δομές λογικής πρώτου βαθμού, οι οποίες μπορούν να μεταχειριστούν ευκολότερα από τους υπολογιστές.[6]
- Μηχανική μετάφραση: Η αυτόματη μετάφραση ενός κειμένου από μία ανθρώπινη γλώσσα σε μία άλλη.[7]
- Οπτική αναγνώριση χαρακτήρων: Ο προσδιορισμός του αντίστοιχου κειμένου από μία δεδομένη εικόνα που αναπαριστά κάποιο τυπωμένο κείμενο.
- Παραγωγή φυσικής γλώσσας: Η μετατροπή των πληροφοριών από υπολογιστικές βάσεις δεδομένων σε αναγνώσιμο φυσικό λόγο.[8]
- Σύνθεση ομιλίας: Η αυτόματη, τεχνητή παραγωγή του ανθρώπινου λόγου από τους υπολογιστές.[1]
- Συντακτική ανάλυση: Ο αυτόματος καθορισμός του συντακτικού δέντρου μίας δεδομένης πρότασης και η επίλυση των οποιοδήποτε συντακτικών αμφισημιών. Εξαιτίας των πιθανών αμφισημιών που πιθανόν να φέρει μία πρόταση, είναι δυνατόν η εν λόγω πρόταση να αναλυθεί σε παραπάνω από ένα συντακτικά δέντρα.[9][10]
Παραπομπές
[Επεξεργασία | επεξεργασία κώδικα]- ↑ 1,0 1,1 1,2 1,3 Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
- ↑ Hirschman, L. & Gaizauskas, R. (2001) Natural Language Question Answering. The View from Here. Natural Language Engineering (2001), 7:4:275-300 Cambridge University Press
- ↑ Rada Mihalcea and Paul Tarau, 2004: TextRank: Bringing Order into Texts, Department of Computer Science University of North Texas
- ↑ 2006. Γούτσος, Δ., Κουτσουλέλου, Σ., Μπακάκου-Ορφανού, Α. & Παναρέτου Ε. (επιμ.) Ο κόσμος των κειμένων: Μελέτες αφιερωμένες στον καθηγητή Γεώργιο Μπαμπινιώτη. Αθήνα: Ελληνικά Γράμματα.
- ↑ DeRose, Steven J. 1988. "Grammatical category disambiguation by statistical optimization." Computational Linguistics 14(1): 31–39.
- ↑ Yucong Duan, Christophe Cruz (2011), Formalizing Semantic of Natural Language through Conceptualization from Existence. International Journal of Innovation, Management and Technology(2011) 2 (1), pp. 37-42.
- ↑ Μελίτα Σταύρου, Μαρία Τζεβελέκου, Η μηχανική μετάφραση και η ελληνική γλώσσα, ISBN 960-03-2718-1, Εύδοξος: 16929
- ↑ Dale, Robert; Reiter, Ehud (2000). Building natural language generation systems. Cambridge, UK: Cambridge University Press. ISBN 0-521-02451-X.
- ↑ Chapman, Nigel P., LR Parsing: Theory and Practice, Cambridge University Press, 1987. ISBN 0-521-30413-X
- ↑ Grune, Dick; Jacobs, Ceriel J.H., Parsing Techniques - A Practical Guide, Vrije Universiteit Amsterdam, Amsterdam, The Netherlands. Originally published by Ellis Horwood, Chichester, England, 1990; ISBN 0-13-651431-6