Λημματοποίηση

Στη γλωσσολογία, λημματοποίηση ή, σπανιότερα, λημματισμός^[1] είναι η διαδικασία ομαδοποίησης των κλιτών μορφών μιας λέξης, ώστε να μπορούν να αναλυθούν ως ένα ενιαίο στοιχείο, που προσδιορίζεται από το λήμμα της λέξης ή τη μορφή λεξικού.^[2]^[3]

Στην υπολογιστική γλωσσολογία, λημματοποίηση είναι η αλγοριθμική διαδικασία προσδιορισμού του λήμματος μιας λέξης με βάση τη σημασία της. Σε αντίθεση με την απλή αποκοπή των καταλήξεων (στελέχωση), η λήμματοποίηση εξαρτάται από τον σωστό προσδιορισμό της γραμματικής κατηγορίας και της σημασίας μιας λέξης σε μια πρόταση, καθώς και μέσα στο ευρύτερο εννοιολογικό πλαίσιο που περιβάλλει αυτήν την πρόταση, όπως γειτονικές προτάσεις ή ακόμα και ένα ολόκληρο κείμενο. Ως αποτέλεσμα, η ανάπτυξη αποτελεσματικών αλγορίθμων λημματοποίησης παραμένει ανοιχτός τομέας έρευνας.^[4]^[5]

Περιγραφή[Επεξεργασία | επεξεργασία κώδικα]

Σε πολλές γλώσσες, οι λέξεις εμφανίζονται σε πολλές κλιτές μορφές. Για παράδειγμα, στα ελληνικά, το ρήμα «βλέπω» μπορεί να εμφανίζεται ως «βλέπει», «είδαν», «δω» κ.λπ. Η βασική μορφή, «βλέπω», που θα μπορούσε κανείς να αναζητήσει σε ένα λεξικό, ονομάζεται λήμμα της λέξης. Ο συσχετισμός της βασικής μορφής με μια γραμματική κατηγορία ονομάζεται συχνά λέξημα της λέξης.

Η ληματοποίηση σχετίζεται στενά με την αποκοπή των καταλήξεων (στελέχωση). Η διαφορά έγκειται στο ότι αυτή λειτουργεί σε μία μόνο λέξη χωρίς να γνωρίζει το εννοιολογικό πλαίσιο, και επομένως δεν μπορεί να κάνει διάκριση μεταξύ λέξεων που έχουν διαφορετική σημασία ανάλογα με μέρος του λόγου. Ωστόσο, οι αλγόριθμοι αποκοπής καταλήξεων είναι συνήθως ευκολότεροι στην εφαρμογή και λειτουργούν πιο γρήγορα. Η μειωμένη "ακρίβεια" μπορεί να μην έχει σημασία για ορισμένες εφαρμογές. Για την ακρίβεια, όταν χρησιμοποιείται σε συστήματα ανάκτησης πληροφοριών, η αποκοπή καταλήξεων βελτιώνει την ακρίβεια ανάκλησης ερωτημάτων (ή το πραγματικό θετικό ποσοστό) σε σύγκριση με τη λημματοποίηση. Ωστόσο, η αποκοπή καταλήξεων μειώνει την ακρίβεια ή την αναλογία των περιπτώσεων με θετική επισήμανση που είναι πραγματικά θετικές, για τέτοια συστήματα.^[6]

Για παράδειγμα:

Η λέξη "είδα" έχει ως λήμμα το "βλέπω". Αυτή η σχέση χάνεται από τη αποκοπή καταλήξεων, καθώς απαιτεί αναζήτηση σε λεξικό.
Η λέξη "γραφείο" είναι η βασική μορφή για τη λέξη "γραφείων" και, ως εκ τούτου, αυτή ταιριάζει τόσο στην αποκοπή καταλήξεων όσο και στη λημματοποίηση.
Η λέξη "παιδιά" μπορεί να είναι είτε η βασική μορφή του θηλυκού ουσιαστικού "παιδιά" (παιχνίδι) είτε μορφή του ουδέτερου ουσιαστικού "παιδί" ανάλογα με το περιεχόμενο. Σε αντίθεση με την αποκοπή καταλήξεων, η λημματοποίηση επιχειρεί να επιλέξει το σωστό λήμμα ανάλογα με το περιβάλλον.

Κάποια λογισμικά ευρετηρίασης όπως το Lucene^[7] μπορούν να αποθηκεύουν τη βασική μορφή της λέξης χωρίς να γνωρίζουν το νόημα, αλλά λαμβάνοντας υπόψη μόνο τους γραμματικούς κανόνες σχηματισμού λέξεων. Η ίδια η βασική μορφή μπορεί να μην είναι έγκυρη λέξη. Αυτό συμβαίνει γιατί ο σκοπός της αποκοπής καταλήξεων δεν είναι να παραγάγει το κατάλληλο λήμμα – αυτό είναι κάτι πιο απαιτητικό, που απαιτεί γνώση του εννοιολογικού πλαισίου. Ο κύριος σκοπός της αποκοπής καταλήξεων είναι να αντιστοιχίσει διαφορετικές μορφές μιας λέξης σε μία ενιαία μορφή.^[8] Ως αλγόριθμος που βασίζεται σε κανόνες, ο οποίος εξαρτάται μόνο από την ορθογραφία μιας λέξης, θυσιάζει ενίοτε την ακρίβεια.

Αλγόριθμοι[Επεξεργασία | επεξεργασία κώδικα]

Ένας απλός τρόπος για να γίνει η λημματοποίηση είναι η απλή αναζήτηση σε ένα λεξικό. Αυτό λειτουργεί καλά για απλές κλιτές μορφές, αλλά χρειάζεται ένα σύστημα βασισμένο σε κανόνες για άλλες περιπτώσεις, όπως σε γλώσσες με μεγάλες σύνθετες λέξεις. Τέτοιοι κανόνες μπορούν είτε να δημιουργηθούν με το χέρι είτε μέσω αυτόματης μάθησης από ένα επισημειωμένο σώμα κειμένων.

Χρήση στη βιοϊατρική[Επεξεργασία | επεξεργασία κώδικα]

Η μορφολογική ανάλυση της δημοσιευμένης βιοϊατρικής βιβλιογραφίας μπορεί να αποφέρει χρήσιμα αποτελέσματα. Η μορφολογική επεξεργασία βιοϊατρικών κειμένων μπορεί να είναι πιο αποτελεσματική από ένα εξειδικευμένο πρόγραμμα λημματοποίησης για τη βιοϊατρική και μπορεί να βελτιώσει την ακρίβεια των εργασιών εξαγωγής πληροφοριών.^[9]

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

↑ Κατσόγιαννου, Μαριάννα· Βακαλοπούλου, Άννα (2021). Λεξικογραφια για ολους. Αθήνα: Εκδόσεις Παπαζήση. σελ. 312. ISBN 978-960-02-3711-5.
↑ Collins English Dictionary, entry for "lemmatize"
↑ «λημματοποίηση». Χρηστικό Λεξικό της Νεοελληνικής Γλώσσας. Ακαδημία Αθηνών. Ανακτήθηκε στις 26 Μαΐου 2024.
↑ «WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages».
↑ Bergmanis, Toms· Goldwater, Sharon. «Context Sensitive Neural Lemmatization with Lematus» (PDF). Αρχειοθετήθηκε από το πρωτότυπο (PDF) στις 31 Δεκεμβρίου 2019. Ανακτήθηκε στις 26 Μαΐου 2024.
↑ Manning, Christopher D.· Raghavan, Prabhakar· Schütze, Hinrich. «Introduction to Information Retrieval». Cambridge University Press.
↑ «Lucene Snowball». Apache project.
↑ Martin Porter. «Porter Stemmer».
↑ Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. (2012). «BioLemmatizer: A lemmatization tool for morphological processing of biomedical text». Journal of Biomedical Semantics 3: 3. doi:10.1186/2041-1480-3-3. PMID 22464129.

[:0-1] Κατσόγιαννου, Μαριάννα· Βακαλοπούλου, Άννα (2021). Λεξικογραφια για ολους. Αθήνα: Εκδόσεις Παπαζήση. σελ. 312. ISBN 978-960-02-3711-5.

[2] Collins English Dictionary, entry for "lemmatize"

[3] «λημματοποίηση». Χρηστικό Λεξικό της Νεοελληνικής Γλώσσας. Ακαδημία Αθηνών. Ανακτήθηκε στις 26 Μαΐου 2024.

[Semantic_Annotation_Research-4] «WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages».

[5] Bergmanis, Toms· Goldwater, Sharon. «Context Sensitive Neural Lemmatization with Lematus» (PDF). Αρχειοθετήθηκε από το πρωτότυπο (PDF) στις 31 Δεκεμβρίου 2019. Ανακτήθηκε στις 26 Μαΐου 2024.

[Stanford_Information_Retrieval_Book-6] Manning, Christopher D.· Raghavan, Prabhakar· Schütze, Hinrich. «Introduction to Information Retrieval». Cambridge University Press.

[Lucene_Snowball-7] «Lucene Snowball». Apache project.

[Porter_Stemmer-8] Martin Porter. «Porter Stemmer».

[9] Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. (2012). «BioLemmatizer: A lemmatization tool for morphological processing of biomedical text». Journal of Biomedical Semantics 3: 3. doi:10.1186/2041-1480-3-3. PMID 22464129.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]