Αναγνώριση ομιλητή

Η αναγνώριση ομιλητή είναι η διαδικασία της αυτόματης αναγνώρισης του ατόμου που μιλάει με βάση κάποια συγκεκριμένα χαρακτηριστικά που εξάγονται από τη φωνή του. Υπάρχει μια σημαντική διαφορά ανάμεσα στην αναγνώριση ομιλητή και στην αναγνώριση ομιλίας. Στην πρώτη περίπτωση ενδιαφερόμαστε να αναγνωρίσουμε ποιος μιλάει ενώ στη δεύτερη να αναγνωρίσουμε τι έχει ειπωθεί. Η αναγνώριση φωνής αποτελεί τον συνδυασμό των δύο παραπάνω. Η αναγνώριση ομιλητή δίνει τη δυνατότητα να χρησιμοποιηθεί η φωνή ενός ομιλητή για ταυτοποίηση και έλεγχο πρόσβασης σε διάφορες υπηρεσίες όπως τραπεζικές συναλλαγές μέσω τηλεφώνου, φωνητικές κλήσεις, αγορές μέσω τηλεφώνου, υπηρεσίες πρόσβασης σε βάσεις δεδομένων, υπηρεσίες πληροφοριών, έλεγχο ασφάλειας σε περιοχές εμπιστευτικών πληροφοριών, εξ΄ αποστάσεως πρόσβαση σε υπολογιστές κτλ.^[1]

Η αναγνώριση ομιλητή περιλαμβάνει διαδικασίες όπως η ταυτοποίηση (identification) και η επαλήθευση (verification). Η ταυτοποίηση ενός ομιλητή στοχεύει στον προσδιορισμό του ατόμου που παρέχει μια συγκεκριμένη φράση. Από την άλλη μεριά η επαλήθευση είναι η διαδικασία αποδοχής ή απόρριψης της ισχυριζόμενης ταυτότητας του ομιλητή. Πολλές εφαρμογές στις μέρες μας χρησιμοποιούν τη φωνή ως το κύριο κλειδί επιβεβαίωσης της ταυτότητας ενός ομιλητή. Οι τεχνικές αναγνώρισης ομιλητή μπορούν να διαχωριστούν σε αυτές που στηρίζονται σε κείμενο και σε αυτές που είναι ανεξάρτητες αυτού. Η πρώτη περίπτωση απαιτεί από τον ομιλητή να αναφέρει λέξεις κλειδιά ή προτάσεις έχοντας το ίδιο κείμενο και για δοκιμές δοκιμές εκπαίδευσης και για δοκιμές αναγνώρισης, ενώ η δεύτερη δεν βασίζεται σε κάποιο συγκεκριμένο κείμενο.^[2]

Και οι δύο τεχνικές όμως μοιράζονται ένα πρόβλημα. Τα συγκεκριμένα συστήματα μπορούν εύκολα να εξαπατηθούν, διότι όταν κάποιος αναπαράγει τη φωνή ενός εγγεγραμμένου χρήστη, ο οποίος αναφέρει τις λέξεις κλειδιά ή τις προτάσεις, για παράδειγμα με ένα ηχογραφημένο απόσπασμα, μπορεί να τον αποδεχτούν λανθασμένα. Για να αντιμετωπιστεί το πρόβλημα αυτό, υπάρχουν μέθοδοι στις οποίες ένα μικρό σύνολο λέξεων, όπως για παράδειγμα ψηφίων, χρησιμοποιούνται ως λέξεις κλειδιά, και κάθε χρήστης καλείται να προφέρει μια συγκεκριμένη ακολουθία λέξεων κλειδιών, η οποία είναι τυχαία επιλεγμένη κάθε φορά που χρησιμοποιείται το σύστημα. Παρόλα αυτά ακόμα και αυτή η μέθοδος δεν είναι εντελώς αξιόπιστη καθώς μπορεί να εξαπατηθεί από εξοπλισμό προηγμένης τεχνολογίας ηχογράφησης που μπορεί να αναπαράγει τις λέξεις κλειδιά σε οποιαδήποτε επιθυμητή σειρά.

Παραδοσιακές μέθοδοι αναγνώρισης ομιλητή[Επεξεργασία | επεξεργασία κώδικα]

Η ταυτότητα ομιλητή σχετίζεται με διάφορα στοιχεία φυσιολογίας και συμπεριφοράς ενός ατόμου. Οι πιο κοινές φασματικές μετρικές που χρησιμοποιούνται αφορούν τη γραμμική κωδικοποίηση πρόβλεψης (Linear Predictive Coding, LPC) που προέρχεται από τους φασματικούς συντελεστές και τους συντελεστές παλινδρόμησης.

Τεχνικές κανονικοποίησης[Επεξεργασία | επεξεργασία κώδικα]

Ο πιο σημαντικός παράγοντας που επηρεάζει την απόδοση της αυτόματης αναγνώριση ενός ομιλητή είναι η μεταβλητότητα των χαρακτηριστικών του σήματος από δοκιμή σε δοκιμή. Οι μεταβολές αυτές προκύπτουν από τους ίδιους τους ομιλητές, λόγω διαφορετικών συνθηκών ηχογράφησης και μεταφοράς του σήματος και φυσικά από τον θόρυβο. Οι ομιλητές δεν μπορούν να προφέρουν μια έκφραση επακριβώς με τον ίδιο τρόπο από δοκιμή σε δοκιμή. Είναι γνωστό ότι δείγματα της ίδιας έκφρασης, τα οποία έχουν ηχογραφηθεί την ίδια χρονική στιγμή είναι πολύ περισσότερο συσχετισμένα από δείγματα που έχουν ηχογραφηθεί σε διαφορετικές χρονικές στιγμές. Δεν πρέπει να ξεχνάμε επίσης ότι υπάρχουν και μακροπρόθεσμες αλλαγές στη φωνή. Είναι πολύ σημαντικό για ένα σύστημα αναγνώρισης φωνής να προσαρμόζεται στις αλλαγές αυτές. Δύο είναι οι τύποι κανονικοποίησης που έχουν χρησιμοποιηθεί. Η μια στο πεδίο των παραμέτρων και η άλλη στο πεδίο της απόστασης/ομοιότητας.

Κανονικοποίηση στο πεδίο των παραμέτρων[Επεξεργασία | επεξεργασία κώδικα]

Η φασματική εξίσωση (spectral equalization) ή πιο γνωστή ως μέθοδος της τυφλής εξίσωσης, είναι μια τυπική τεχνική κανονικοποίησης στο πεδίο των παραμέτρων, η οποία έχει αποδειχθεί ότι είναι αποδοτική στην μείωση της φασματικής μεταβολής.^[2] Η συγκεκριμένη μέθοδος είναι ιδιαίτερα αποτελεσματική για συστήματα αναγνώρισης ομιλητή τα οποία στηρίζονται σε κείμενο και χρησιμοποιούν αρκετά μεγάλες εκφράσεις κειμένου. Γενικά όμως, δεν ενδείκνυται για συστήματα που κάνουν χρήση σύντομων εκφράσεων.

Κανονικοποίηση στο πεδίο της απόστασης/ομοιότητας[Επεξεργασία | επεξεργασία κώδικα]

Στο παρελθόν έχει προταθεί από τους Higgins, Bahler και Porter ^[3] μια μέθοδος κανονικοποίησης για τιμές απόστασης (ομοιότητα, πιθανότητα) η οποία χρησιμοποιεί τον λόγο πιθανότητας. Ο λόγος πιθανότητας ορίζεται ως ο λόγος δύο δεσμευμένων πιθανοτήτων: των παρατηρημένων μετρήσεων δυο εκφράσεων. Η πρώτη είναι η πιθανότητα των ηχητικών δεδομένων, δοθέντος της ισχυριζόμενης ταυτότητας ομιλητή και η δεύτερη δοθέντος ότι ο ομιλητής είναι κακόβουλος χρήστης.

Μια άλλη μέθοδος κανονικοποίησης, βασισμένη αυτή τη φορά σε μια εκ των υστέρων πιθανότητα, είχε προταθεί από τους Matsui και Furui.^[4] Η διαφορά με την προηγούμενη μέθοδο κανονικοποίησης είναι το κατά πόσο ο ισχυριζόμενος ως εγγεγραμμένος χρήστης συγκαταλέγεται ή όχι στο σύνολο δεδομένων του ομιλητή προς κανονικοποίηση. Το σύνολο δεδομένων του ομιλητή στην μέθοδο κανονικοποίησης που βασίζεται στον λόγο πιθανότητας δεν περιλαμβάνει τον ομιλητή, ενώ η κανονικοποίηση στη παρούσα μέθοδο υπολογίζεται χρησιμοποιώντας όλα τα στοιχεία ομιλητών, συμπεριλαμβανομένου και αυτού που ισχυρίζεται ότι είναι εγγεγραμμένος. Τα πειραματικά αποτελέσματα έχουν δείξει ότι οι δύο μέθοδοι είναι σχεδόν ισοδύναμα αποτελεσματικές.^[4]

Μέθοδοι αναγνώρισης ομιλητή βασισμένες σε κείμενο[Επεξεργασία | επεξεργασία κώδικα]

Οι μέθοδοι αναγνώρισης ομιλητή που είναι βασισμένες σε κάποιο κείμενο, στηρίζουν συνήθως τη λειτουργία τους σε τεχνικές αντιστοίχησης προτύπων. Κατά την προσέγγιση αυτή, η εισαγόμενη έκφραση αντιπροσωπεύεται από μια ακολουθία διανυσμάτων χαρακτηριστικών. Η εισαγόμενη έκφραση και το πρότυπο αναφοράς κάθε εγγεγραμμένου χρήστη χρησιμοποιούνται από κάποιο αλγόριθμο για να υπολογιστεί ο βαθμός ομοιότητας μεταξύ τους, από την αρχή έως το τέλος της έκφρασης. Το κρυφό μοντέλο Markov HMM (Hidden Markov Hodel) μπορεί να μοντελοποιήσει αποτελεσματικά τις στατιστικές μεταβολές των φασματικών χαρακτηριστικών και για αυτό το λόγο οι μέθοδοι που κάνουν χρήση του μοντέλου αυτού έχουν επιτύχει σημαντικά ακριβέστερες αναγνωρίσεις προτύπου.

Μέθοδοι αναγνώρισης ομιλητή ανεξάρτητες από κείμενο[Επεξεργασία | επεξεργασία κώδικα]

Μία από τις πιο επιτυχημένες μεθόδους αναγνώρισης ομιλίας που δεν χρησιμοποιούν κείμενο βασίζεται στον κβαντισμό του διανύσματος (Vector Quantization, VQ). Σε αυτή τη μέθοδο χρησιμοποιείται ένας μικρός αριθμός αντιπροσωπευτικών διανυσμάτων χαρακτηριστικών σαν το μέσο υπόδειξης των χαρακτηριστικών ενός συγκεκριμένου χρήστη. Ένα διάνυσμα χαρακτηριστικών ομιλητή παράγεται ομαδοποιώντας (clustering) τα διανύσματα των χαρακτηριστικών εκπαίδευσης του ομιλητή. Στο στάδιο της αναγνώρισης, η έκφραση που εισάγεται, κβαντίζεται διανυσματικά χρησιμοποιώντας το διάνυσμα χαρακτηριστικών κάθε αναφοράς ομιλητή, και η συνολική παραποίηση VQ συσσωρεύεται από όλη την έκφραση για να παρθεί η απόφαση της αναγνώρισης.

Μέθοδος αναγνώρισης ομιλητή με παρεχόμενο κείμενο[Επεξεργασία | επεξεργασία κώδικα]

Σε αυτή τη μέθοδο το σύστημα αναγνώρισης προτύπου παρέχει, κάθε φορά που χρησιμοποιείται, σε έναν χρήστη, μια νέα πρόταση-φράση κλειδί και αποδέχεται την φράση μόνο όταν αποφασίσει ότι ο εγγεγραμμένος ομιλητής ήταν αυτός που επανέλαβε την παρεχόμενη πρόταση. Η πρόταση μπορεί να παρουσιαστεί σαν ακολουθία χαρακτήρων ή ως λεκτικό ηχητικό δεδομένο. Από τη στιγμή που το λεξιλόγιο είναι απεριόριστο, οι υποψήφιοι κακόβουλοι χρήστες δεν μπορούν να γνωρίζουν εκ των προτέρων ποια φράση θα απαιτηθεί να ειπωθεί. Η συγκεκριμένη μέθοδος μπορεί να αναγνωρίσει με μεγάλη ακρίβεια έναν ομιλητή αλλά και να απορρίψει φράσεις των οποίων το κείμενο διαφοροποιείται από το δοσμένο, ακόμα και εάν ειπώθηκε από τον εγγεγραμμένο χρήστη. Επίσης μια ηχογραφημένη φωνή μπορεί επίσης να απορριφθεί αποτελεσματικά.

Η συγκεκριμένη μέθοδος διευκολύνεται από τη χρήση συγκεκριμένων φωνητικών μοντέλων ενός ομιλητή όπως για παράδειγμα οι βασικές ανθρώπινες ακουστικές μονάδες. Ένα από τα σημαντικότερα ζητήματα στην εφαρμογή αυτής της μεθόδου είναι το πως θα δημιουργηθούν σωστά αυτά τα φωνητικά μοντέλα από φράσεις εκπαίδευσης περιορισμένου μεγέθους. Τα φωνητικά μοντέλα δημιουργούνται προσαρμόζοντας τα, ανεξάρτητου ομιλητή φωνητικά μοντέλα, με τη φωνή κάθε ομιλητή.

Στη φάση της αναγνώρισης το σύστημα συνενώνει τα φωνητικά μοντέλα κάθε εγγεγραμμένου ομιλητή για να παράγει μια πρόταση HMM σύμφωνα με το δοσμένο κείμενο. Στη συνέχεια υπολογίζεται η πιθανότητα ταιριάσματος της εισαγόμενης έκφρασης με την πρόταση του μοντέλου, η οποία χρησιμοποιείται στην απόφαση της αναγνώρισης του ομιλητή. Εάν η πιθανότητα είναι επαρκώς υψηλή γίνεται αποδεκτός ως εγγεγραμμένος χρήστης.

Επαλήθευση ομιλητή[Επεξεργασία | επεξεργασία κώδικα]

Τα ιδιαίτερα χαρακτηριστικά του λόγου ενός ομιλητή οφείλονται στις διαφορές της φυσιολογίας και της συμπεριφοράς τη στιγμή της παραγωγής του λόγου. Ο βασικός παράγοντας της φυσιολογίας του ανθρώπινου συστήματος παραγωγής λόγου είναι το σχήμα της φωνητικής οδού (vocal tract shape). Η φωνητική οδός τροποποιεί το φασματικό περιεχόμενο του ηχητικού κύματος καθώς περνά μέσα από αυτή, με αποτέλεσμα την παραγωγή του λόγου. Ως εκ τούτου ένα κοινό στα συστήματα επαλήθευσης ομιλητή είναι η χρήση των χαρακτηριστικών που προέρχονται μόνο από την φωνητική οδό.

Το ηχητικό κύμα παράγεται όταν η ροή του αέρα από τους πνεύμονες μεταφέρεται από την τραχεία, μέσω των φωνητικών χορδών. Χρησιμοποιώντας την ανάλυση φάσματος που περιγράφηκε νωρίτερα, μια φράση μπορεί να παρασταθεί ως μια ακολουθία διανυσμάτων χαρακτηριστικών. Φράσεις που έχουν ειπωθεί από το ίδιο άτομο, άλλα σε διαφορετικό χρόνο, έχουν παρόμοιο αποτέλεσμα, παρά τη διαφορετική ακολουθία των διανυσμάτων των χαρακτηριστικών. Ο λόγος της μοντελοποίησης της φωνής είναι να δημιουργηθεί ένα μοντέλο που αποτυπώνει τις μεταβολές αυτές στο εξαγόμενο σύνολο χαρακτηριστικών. Υπάρχουν δύο τύποι μοντέλων που έχουν χρησιμοποιηθεί εκτενώς για επαλήθευση ομιλητή και αναγνώριση ομιλίας. Τα στοχαστικά μοντέλα και τα μοντέλα που είναι βασισμένα σε πρότυπα. Τα στοχαστικά μοντέλα χειρίζονται την διαδικασία παραγωγής λόγου σαν τυχαία παραμετρική διαδικασία και υποθέτουν ότι οι παράμετροι της στοχαστικής διαδικασίας μπορούν να υπολογιστούν με ακρίβεια και σαφώς καθορισμένο τρόπο. Τα μοντέλα που βασίζουν την λειτουργία τους σε πρότυπα προσπαθούν να μοντελοποιήσουν την διαδικασία παραγωγής λόγου με μη-παραμετρικό τρόπο διατηρώντας έναν αριθμό από διανύσματα ακολουθιών χαρακτηριστικών που προέρχονται από πολλές φράσεις, με την ίδια λέξη, του ίδιου ατόμου. Τα μοντέλα αυτά κυριάρχησαν από νωρίς στην επαλήθευση ομιλητή και την αναγνώριση ομιλίας, διότι ένα μοντέλο με βάση κάποιο πρότυπο είναι διαισθητικά πιο λογικό. Παρόλα αυτά η έρευνα στα στοχαστικά μοντέλα απέδειξε ότι τα τελευταία είναι πιο ευέλικτα και ως εκ τούτου επιτρέπουν την καλύτερη μοντελοποίηση της διαδικασίας της παραγωγής λόγου. Ένα πολύ δημοφιλές στοχαστικό μοντέλο για την προσομοίωση της διαδικασίας της παραγωγής λόγου είναι το κρυφό μοντέλο Markov (Hidden Markov Model) στο οποίο αναφερθήκαμε και προηγουμένως. Το μοντέλο αυτό αποτελεί επέκταση των συμβατικών Μαρκοβιανών μοντέλων όπου οι παρατηρήσεις είναι πιθανοτικές συναρτήσεις της κατάστασης, δηλαδή το μοντέλο είναι μια διπλά ενσωματωμένη στοχαστική διαδικασία όπου η υποκείμενη στοχαστική διαδικασία δεν είναι άμεσα παρατηρήσιμη (είναι δηλαδή κρυφή).

Η διαδικασία αντιστοίχισης προτύπου περιλαμβάνει τη σύγκριση ενός δοθέντος συνόλου διανυσμάτων χαρακτηριστικών με το μοντέλο του ομιλητή, για την ταυτότητα που ισχυρίζεται, και υπολογίζει ένα βαθμό αντιστοίχησης. Για τα Μαρκοβιανά μοντέλα που αναφέρθηκαν προηγουμένως, ο βαθμός αντιστοίχησης είναι η πιθανότητα ότι ένα δοσμένο σύνολο διανυσμάτων χαρακτηριστικών έχει παραχθεί από ένα συγκεκριμένο μοντέλο.

Βιβλιογραφία[Επεξεργασία | επεξεργασία κώδικα]

↑ T. Matsui, and S. Furui, "Concatenated phoneme models for text-variable speaker recognition", Proceedings of ICASSP'93, 1993, pp. 391-394.
↑ ^2,0 ^2,1 S. Furui, "Cepstral analysis technique for automatic speaker verification", IEEE Transactions on Acoustics, Speech and Signal Processing, 29(2), 1981, pp. 254-272.
↑ A. L. Higgins, L. Bahler, and J. Porter, "Speaker verification using randomized phrase prompting", Digital Signal Processing, Vol. 1, 1991, pp. 89-106.
↑ ^4,0 ^4,1 T. Matsui, and S. Furui, "Similarity normalization method for speaker verification based on a posteriori probability", Proceedings of the ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, 1994, pp. 59-62.

Εξωτερικοί σύνδεσμοι[Επεξεργασία | επεξεργασία κώδικα]

(Αγγλικά)T. Matsui, and S. Furui, "Concatenated phoneme models for text-variable speaker recognition"
(Αγγλικά)S. Furui, "Cepstral analysis technique for automatic speaker verification"
(Αγγλικά)A. L. Higgins, L. Bahler, and J. Porter, "Speaker verification using randomized phrase prompting"^{[νεκρός σύνδεσμος]}
(Αγγλικά)T. Matsui, and S. Furui, "Similarity normalization method for speaker verification based on a posteriori probability"^{[νεκρός σύνδεσμος]}

[t1-1] T. Matsui, and S. Furui, "Concatenated phoneme models for text-variable speaker recognition", Proceedings of ICASSP'93, 1993, pp. 391-394.

[t2-2] 2,0 ^2,1 S. Furui, "Cepstral analysis technique for automatic speaker verification", IEEE Transactions on Acoustics, Speech and Signal Processing, 29(2), 1981, pp. 254-272.

[t3-3] A. L. Higgins, L. Bahler, and J. Porter, "Speaker verification using randomized phrase prompting", Digital Signal Processing, Vol. 1, 1991, pp. 89-106.

[t4-4] 4,0 ^4,1 T. Matsui, and S. Furui, "Similarity normalization method for speaker verification based on a posteriori probability", Proceedings of the ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, 1994, pp. 59-62.

[1]

[2]

[3]

[4]