Σύνθεση ομιλίας

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Μετάβαση σε: πλοήγηση, αναζήτηση

Ο όρος σύνθεση ομιλίας αναφέρεται στην τεχνητή παραγωγή της ανθρώπινης ομιλίας. Το υπολογιστικό σύστημα που χρησιμοποιείται για αυτόν τον σκοπό ονομάζεται συνθετητής ομιλίας, και μπορεί να εφαρμοστεί και σε προϊόντα λογισμικού και σε μηχανήματα υπολογιστών. Ένα σύστημα text-to-speech (TTS), δηλαδή "από-κείμενο-σε-ομιλία", μετατρέπει ένα κανονικό γλωσσικό κείμενο σε ομιλία. Άλλα συστήματα καθιστούν συμβολικές γλωσσικές αναπαραστάσεις, όπως οι φωνητικές καταγραφές, σε ομιλία[1].

Ο συντιθέμενη ομιλία μπορεί να δημιουργηθεί με την συνένωση κομματιών ηχογραφημένου λόγου τα οποία αποθηκεύονται σε κάποια βάση δεδομένων. Τα συστήματα διαφέρουν στο μέγεθος των αποθηκευμένων μονάδων ομιλίας π.χ. ένα σύστημα που αποθηκεύει φώνους ή δίφωνα παρέχει μεγαλύτερη κάλυψη της εξαγόμενης ομιλίας, αλλά μπορεί να στερείται σαφήνειας. Για συγκεκριμένους τομείς χρήσης, η αποθήκευση ολόκληρων λέξεων ή προτάσεων μπορεί να παρέχει υψηλής ποιότητας εξαγώμενη ομιλία. Εναλλακτικά, ένας συνθετητής μπορεί να συμπεριλάβει κάποιο μοντέλο της φωνητικής οδούς και άλλων χαρακτηριστικών της ανθρώπινης φωνής ώστε να δημιουργήσει ένα εντελώς "συνθετικό" φωνητικό αποτέλεσμα[2]. Η ποιότητα ενός συνθετητή ομιλίας εξαρτάται από την ομοιότητα του με την ανθρώπινη φωνή και από την ικανότητα του να μπορεί να κατανοηθεί. Ένα ευκολονόητο πρόγραμμα text-to-speech επιτρέπει σε ανθρώπους με προβλήματα όρασης ή δυσκολίες ανάγνωσης να ακούν τα γραπτά κείμενά τους στον υπολογιστή του σπιτιού τους. Πολλά λειτουργικά συστήματα ηλεκτρονικών υπολογιστών συμπεριλαμβάνουν συνθετητές ομιλίας από τις αρχές της δεκαετίας του 1990.

Ένα σύστημα (ή αλλίως "μηχανή") text-to-speech αποτελείται από δύο μέρη[3]: το μετωπιαίο και το νωτιαίο άκρο. Το μετωπιαίο άκρο εκτελεί δύο βασικές εργασίες. Πρώτα, μετατρέπει το ανεπεξέργαστο κείμενο που περιέχει σύμβολα όπως αριθμούς και συντομεύσεις στις αντίστοιχες λέξεις ολογράφως. Αυτή η διαδικασία ονομάζεται ομαλοποίηση κειμένου, προ-επεξεργασία ή σημειοποίηση. Έπειτα, το μετωπιαίο άκρο αναθέτει φωνητικές καταγραφές σε κάθε λέξη, και διαιρεί και σηματοδοτεί το κείμενο σε προσωδικές μονάδες, όπως φράσεις και προτάσεις. Η διαδικασία ανάθεσης φωνητικών καταγραφών σε λέξεις ονομάζεται μετατροπή text-to-phoneme (από-κείμενο-σε-φώνημα) ή grapheme-to-phoneme (από-γράφημα-σε-φώνημα). Οι φωνητικές καταγραφές και οι προσωδιακές πληροφορίες αποτελούν την συμβολική γλωσσική αναπαράσταση, η οποία είναι το εξαγώμενο του μετωπιαίου άκρου. Τέλος, το νωτιαίο άκρο- συχνά αναφέρεται και ως ο συνθετητής- μετατρέπει την συμβολική γλωσσική αναπαράσταση σε ήχο. Σε ορισμένα συστήματα, το συγκεκριμένο κομμάτι συμπεριλαμβάνει και τον υπολογισμό της στοχευόμενης προσωδίας (την περιβάλλουσα ύψους φωνής, τις διάρκειες των φωνημάτων)[4], η οποία στην συνέχεια υπαγορεύεται στην εξαγώμενη ομιλία.

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 0-521-30641-8.
  2. Rubin, P.; Baer, T.; Mermelstein, P. (1981). "An articulatory synthesizer for perceptual research". Journal of the Acoustical Society of America 70 (2): 321–328. doi:10.1121/1.386780.
  3. van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 0-387-94701-9.
  4. Van Santen, J. (April 1994). "Assignment of segmental duration in text-to-speech synthesis". Computer Speech & Language 8 (2): 95–128. doi:10.1006/csla.1994.1005.