Autoencoder

Ένας autoencoder είναι ένας τύπος τεχνητού νευρωνικού δικτύου που χρησιμοποιείται για την εκμάθηση αποτελεσματικών κωδικοποιήσεων δεδομένων χωρίς ετικέτα (μη εποπτευόμενη μάθηση). ^[1] Η κωδικοποίηση επικυρώνεται και βελτιώνεται επιχειρώντας να αναδημιουργηθεί η είσοδος από την κωδικοποίηση. Ο autoencoder μαθαίνει μια αναπαράσταση (κωδικοποίηση) για ένα σύνολο δεδομένων, συνήθως για να πετύχουμε μείωση διαστάσεων, εκπαιδεύοντας το δίκτυο να αγνοεί ασήμαντα δεδομένα («θόρυβο»).

Υπάρχουν παραλλαγές για autoencoders, οι οποίες στόχο έχουν να αναγκάσουν προς μάθηση αναπαραστάσεις να προσλάβουν χρήσιμες ιδιότητες. ^[2] Παραδείγματα είναι οι κανονικοποιημένοι autoencoders, οι οποίοι είναι αποτελεσματικοί στην εκμάθηση αναπαραστάσεων που αφορούν επόμενες εργασίες ταξινόμησης, ^[3] και variational autoencoder, με εφαρμογές ως παραγωγικά μοντέλα . ^[4] Οι autoencoders εφαρμόζονται σε πολλά προβλήματα, από την αναγνώριση προσώπου, ^[5] ανίχνευση χαρακτηριστικών, ^[6] ανίχνευση ανωμαλιών έως την απόκτηση της σημασίας των λέξεων. ^[7] ^[8] Οι autoencoders είναι επίσης μοντέλα παραγωγής: μπορούν να δημιουργήσουν τυχαία νέα δεδομένα που είναι παρόμοια με τα δεδομένα εισόδου (δεδομένα εκπαίδευσης). ^[6]

Βασική αρχιτεκτονική[Επεξεργασία | επεξεργασία κώδικα]

Ένας autoencoder έχει δύο κύρια μέρη: έναν κωδικοποιητή που αντιστοιχίζει την είσοδο σε μια κωδικοποιημένη μορφή και έναν αποκωδικοποιητή που αντιστοιχίζει την κωδικοποιημένη μορφή σε μια ανακατασκευή της εισόδου.

Ο απλούστερος τρόπος για να εκτελέσουμε την τέλεια εργασία αντιγραφής θα ήταν να αντιγράψουμε το σήμα εισόδου. Αντίθετα, οι autoencoders συνήθως αναγκάζονται να αναδημιουργήσουν την είσοδο κατά προσέγγιση, διατηρώντας μόνο τις πιο σχετικές πτυχές των δεδομένων στο αντίγραφο.

Η ιδέα των autoencoders είναι δημοφιλής εδώ και δεκαετίες. Οι πρώτες εφαρμογές ξεκίνησαν να κάνουν την εμφάνισή τους τη δεκαετία του 1980. ^[2] ^[9] ^[10] Η πιο παραδοσιακή τους εφαρμογή ήταν η μείωση διαστάσεων ή επιλογή χαρακτηριστικών, αλλά η ιδέα έγινε ευρέως χρησιμοποιούμενη για την εκμάθηση μοντέλων παραγωγής δεδομένων. ^[11] Μερικά από τα πιο ισχυρά AI συστήματα της δεκαετίας του 2010 περιλάμβαναν autoencoders εμφωλευμένα μέσα σε βαθιά νευρωνικά δίκτυα. ^[12]

Η απλούστερη μορφή ενός autoencoder είναι το πρόσθιας τροφοδότησης-μη αναδρομικό νευρωνικό δίκτυο, το οποίο είναι παρόμοιο με τα μονοστρωματικά perceptrons που συμμετέχουν σε πολυστρωματικά perceptrons (MLP) – χρησιμοποιώντας ένα επίπεδο εισόδου και ένα επίπεδο εξόδου που συνδέονται μεταξύ τους με ένα ή περισσότερα κρυφά επίπεδα. Το επίπεδο εξόδου έχει τον ίδιο αριθμό κόμβων (νευρώνων) με το επίπεδο εισόδου. Σκοπός του είναι να ανακατασκευάσει τις εισόδους του (ελαχιστοποιώντας τη διαφορά μεταξύ της εισόδου και της εξόδου) αντί να προβλέπει μια τιμή στόχο $Y$ δεδοµένων εισόδου $X$ . Άρα, οι autoencoders μαθαίνουν χωρίς επίβλεψη (μη εποπτευόμενη μάθηση).

Ένας autoencoder αποτελείται από δύο μέρη, τον κωδικοποιητή και τον αποκωδικοποιητή, τα οποία μπορούν να οριστούν ως συναρτήσεις $\phi$ και $\psi ,$ έτσι ώστε:

\phi :{\mathcal {X}}\rightarrow {\mathcal {F}}

\psi :{\mathcal {F}}\rightarrow {\mathcal {X}}

\phi ,\psi ={\underset {\phi ,\psi }{\operatorname {arg\,min} }}\,\|{\mathcal {X}}-(\psi \circ \phi ){\mathcal {X}}\|^{2}

Στην απλούστερη περίπτωση που μπορούμε να έχουμε, δεδομένου ενός κρυφού επιπέδου, το στάδιο της κωδικοποίησης ενός autoencoder παίρνει την είσοδο $\mathbf {x} \in \mathbb {R} ^{d}={\mathcal {X}}$ και το απεικονίζει σε ένα $\mathbf {h} \in \mathbb {R} ^{p}={\mathcal {F}}$ :

\mathbf {h} =\sigma (\mathbf {Wx} +\mathbf {b} )

Αυτή η εικόνα $\mathbf {h}$ αναφέρεται συνήθως ως κωδικοποιημένη μορφή, λανθάνουσα μεταβλητή ή λανθάνουσα αναπαράσταση. Η $\sigma$ είναι μια συνάρτηση ενεργοποίησης στοιχείων, όπως μια σιγμοειδής συνάρτηση ή μια rectified linear unit . Το $\mathbf {W}$ είναι ένας πίνακας βαρών και το $\mathbf {b}$ είναι ένα διάνυσμα μεροληψίας. Τα βάρη και οι μεροληψίες αρχικοποιούνται συνήθως τυχαία και στη συνέχεια ενημερώνονται επαναλαμβανόμενα κατά τη διάρκεια της εκπαίδευσης μέσω της οπισθοδιάδοσης . Μετά από αυτή τη διαδικασία, το στάδιο αποκωδικοποίησης του autoencoder, απεικονίζει το $\mathbf {h}$ στην ανακατασκευή $\mathbf {x'}$ του ίδιου σχήματος με το $\mathbf {x}$ :

\mathbf {x'} =\sigma '(\mathbf {W'h} +\mathbf {b'} )

που τα $\mathbf {\sigma '} ,\mathbf {W'} ,{\text{ and }}\mathbf {b'}$ για τον αποκωδικοποιητή μπορεί να μην σχετίζονται με τα αντίστοιχα $\mathbf {\sigma } ,\mathbf {W} ,{\text{ and }}\mathbf {b}$ για τον κωδικοποιητή.

Οι autoencoders εκπαιδεύονται για να ελαχιστοποιούν τα σφάλματα ανακατασκευής (όπως τα τετραγωνικά σφάλματα ), που συχνά αναφέρονται ως " απώλειες " (συνάρτηση κόστους):

{\mathcal {L}}(\mathbf {x} ,\mathbf {x'} )=\|\mathbf {x} -\mathbf {x'} \|^{2}=\|\mathbf {x} -\sigma '(\mathbf {W'} (\sigma (\mathbf {Wx} +\mathbf {b} ))+\mathbf {b'} )\|^{2}

που το $\mathbf {x}$ συνήθως υπολογίζεται ως ο μέσος όρος του συνόλου εκπαίδευσης.

Όπως αναφέρθηκε προηγουμένως, η εκπαίδευση του autoencoder υλοποιείται μέσω της αντίστροφης διάδοσης του σφάλματος, όπως και στα υπόλοιπα νευρωνικά δίκτυα ανατροφοδότησης.

Θα πρέπει ο χώρος χαρακτηριστικών ${\mathcal {F}}$ να έχει μικρότερη διάσταση από τον χώρο εισόδου ${\mathcal {X}}$ και το διάνυσμα χαρακτηριστικών $\phi (x)$ μπορεί να θεωρηθεί ως συμπιεσμένη αναπαράσταση της εισόδου $x$ . Αυτή είναι η περίπτωση των ελλιπών autoencoders. Εάν τα κρυφά επίπεδα είναι μεγαλύτερα από (υπερπλήρη) ή ίσα με το επίπεδο εισόδου ή εάν δοθεί αρκετή χωρητικότητα στους κρυφούς κόμβους, ένας autoencoder μπορεί ενδεχομένως να μάθει τη ταυτοτική συνάρτηση και να γίνει άχρηστος. Ωστόσο, πειραματικά αποτελέσματα έδειξαν ότι οι υπερπλήρεις autoencoders ενδέχεται να εξακολουθούν να μαθαίνουν χρήσιμα χαρακτηριστικά . ^[13] Υπό ιδανικές συνθήκες, η διάσταση της κωδικοποιημένης μορφής και η χωρητικότητα του μοντέλου θα μπορούσαν να ρυθμιστούν με βάση την πολυπλοκότητα της κατανομής δεδομένων που πρόκειται να μοντελοποιηθεί. Ένας τρόπος για να γίνει αυτό είναι να χρησιμοποιήσουμε παραλλαγές του μοντέλου που είναι γνωστές ως Regularized Autoencoders (Κανονικοποιημένοι Autoencoders). ^[2]

Παραλλαγές[Επεξεργασία | επεξεργασία κώδικα]

Κανονικοποιημένοι Autoencoders[Επεξεργασία | επεξεργασία κώδικα]

Υπάρχουν διάφορες τεχνικές για να εμποδίσουμε τους autoencoders από το να μάθουν τη ταυτοτική συνάρτηση και να βελτιώσουν την ικανότητά τους να εντοπίζουν σημαντικές πληροφορίες και να μαθαίνουν πλουσιότερες αναπαραστάσεις.

Αραιός (sparse) autoencoder(SAE)[Επεξεργασία | επεξεργασία κώδικα]

Η εκμάθηση αναπαραστάσεων με τρόπο που ενθαρρύνει την αραιότητα, βελτιώνει την απόδοση στις εργασίες ταξινόμησης. ^[14] Οι αραιοί autoencoders μπορεί να περιλαμβάνουν περισσότερα (και όχι λιγότερα) κρυφούς κόμβους παρά εισόδους, αλλά μόνο ένας μικρός αριθμός από τους κρυφούς κόμβους επιτρέπεται να είναι ταυτόχρονα ενεργοί (άρα, αραιοί). ^[12] Αυτός ο περιορισμός αναγκάζει το μοντέλο να ανταποκριθεί στα μοναδικά στατιστικά χαρακτηριστικά των δεδομένων εκπαίδευσης.

Συγκεκριμένα, ένας αραιός autoencoder είναι ένας autoencoder του οποίου το κριτήριο εκπαίδευσης περιλαμβάνει ποινή αραιότητας $\Omega ({\boldsymbol {h}})$ στο επίπεδο κωδικοποίησης ${\boldsymbol {h}}$ .

{\mathcal {L}}(\mathbf {x} ,\mathbf {x'} )+\Omega ({\boldsymbol {h}})

Υπενθυμίζοντας ότι ${\boldsymbol {h}}=f({\boldsymbol {W}}{\boldsymbol {x}}+{\boldsymbol {b}})$ , η ποινή ενθαρρύνει το μοντέλο να ενεργοποιήσει (δηλαδή τιμή εξόδου κοντά στο 1) συγκεκριμένες περιοχές του δικτύου με βάση τα δεδομένα εισόδου, ενώ απενεργοποιεί όλους τους άλλους νευρώνες (δηλαδή να έχει τιμή εξόδου κοντά στο 0). ^[15]

Αυτή η αραιότητα μπορεί να επιτευχθεί διατυπώνοντας τους όρους ποινής με διαφορετικούς τρόπους.

Ένας τρόπος είναι η εκμετάλλευση της απόκλισης Kullback-Leibler (KL) . ^[14] ^[15] ^[16] ^[17] Έστω

{\hat {\rho _{j}}}={\frac {1}{m}}\sum _{i=1}^{m}[h_{j}(x_{i})]

είναι η μέση ενεργοποίηση του κρυφού κόμβου

j

(κατά μέσο όρο πάνω από το πλήθος των παραδειγμάτων εκπαίδευσης). Η σημειογραφία

h_{j}(x_{i})

προσδιορίζει την τιμή εισόδου που ενεργοποίησε την ενεργοποίηση. Για να ενθαρρύνουμε τους περισσότερους νευρώνες να είναι ανενεργοί, το

{\hat {\rho _{j}}}

πρέπει να είναι κοντά στο 0. Επομένως, αυτή η μέθοδος επιβάλλει τον περιορισμό

{\hat {\rho _{j}}}=\rho

που

\rho

είναι η παράμετρος αραιότητας, που είναι μια τιμή κοντά στο μηδέν. Ο όρος της ποινής

\Omega ({\boldsymbol {h}})

παίρνει μια μορφή που τιμωρεί το

{\hat {\rho _{j}}}

για σημαντική απόκλιση από

\rho

, αξιοποιώντας την απόκλιση KL:

\sum _{j=1}^{s}KL(\rho ||{\hat {\rho _{j}}})=\sum _{j=1}^{s}\left[\rho \log {\frac {\rho }{\hat {\rho _{j}}}}+(1-\rho )\log {\frac {1-\rho }{1-{\hat {\rho _{j}}}}}\right]

όπου το

j

αθροίζεται πάνω από τους

s

κρυφούς κόμβους στο κρυφό στρώμα και

KL(\rho ||{\hat {\rho _{j}}})

είναι η KL-απόκλιση μεταξύ μιας τυχαίας μεταβλητής Bernoulli με μέσο όρο

\rho

και μια τυχαία μεταβλητή Bernoulli με μέσο όρο

{\hat {\rho _{j}}}

. ^[15]

Ένας άλλος τρόπος για να επιτευχθεί η αραιότητα είναι η εφαρμογή όρων L1 ή L2 κανονικοποίησης στην ενεργοποίηση, κλιμακούμενων κατά μια συγκεκριμένη παράμετρο $\lambda$ . ^[18] Για παράδειγμα, στην περίπτωση του L1 η συνάρτηση απώλειας γίνεται

{\mathcal {L}}(\mathbf {x} ,\mathbf {x'} )+\lambda \sum _{j}|h_{i}|

Μια άλλη προτεινόμενη στρατηγική για την επιβολή αραιότητας είναι ο μηδενισμός όλων εκτός από τις ισχυρότερες ενεργοποιήσεις κρυφών μονάδων ( k-sparse autoencoder ). ^[19] Ο k-sparse autoencoder βασίζεται σε έναν γραμμικό autoencoder (δηλαδή με συνάρτηση γραμμικής ενεργοποίησης) και σε δεμένα βάρη. Ο προσδιορισμός των ισχυρότερων ενεργοποιήσεων μπορεί να επιτευχθεί ταξινομώντας τις δραστηριότητες και διατηρώντας μόνο τις πρώτες τιμές k ή χρησιμοποιώντας κρυφές μονάδες ReLU με κατώφλια που προσαρμόζονται προσαρμοστικά μέχρι να εντοπιστούν οι k μεγαλύτερες δραστηριότητες. Αυτή η επιλογή λειτουργεί όπως οι όροι κανονικοποίησης που αναφέρθηκαν προηγουμένως, καθώς εμποδίζει το μοντέλο να ανακατασκευάσει την είσοδο χρησιμοποιώντας πάρα πολλούς νευρώνες. ^[19]

Autoencoder αποθορυβοποίησης (DAE)[Επεξεργασία | επεξεργασία κώδικα]

Οι autoencoders αποθορυβοποίησης (DAE) προσπαθούν να επιτύχουν μια καλή αναπαράσταση αλλάζοντας το κριτήριο ανακατασκευής . ^[2]

Πράγματι, οι DAE λαμβάνουν μια μερικώς κατεστραμμένη είσοδο και εκπαιδεύονται στο να ανακτούν την αρχική μη παραμορφωμένη είσοδο . Στην πράξη, ο στόχος της απαλλαγής από θόρυβο των autoencoders είναι ο καθαρισμός της κατεστραμμένης εισόδου ή η αποθορυβοποίηση. Δύο υποθέσεις είναι εγγενείς σε αυτή την προσέγγιση:

Οι αναπαραστάσεις υψηλότερου επιπέδου είναι σχετικά σταθερές και ανθεκτικές στη φθορά των εισροών.
Για να εκτελέσει καλά την αποθορυβοποίηση, το μοντέλο πρέπει να εξάγει χαρακτηριστικά που αποτυπώνουν χρήσιμη δομή στην κατανομή εισόδου. ^[3]

Με άλλα λόγια, η αποθορυβοποίηση υποστηρίζεται ως κριτήριο εκπαίδευσης για την εκμάθηση εξαγωγής χρήσιμων χαρακτηριστικών που θα αποτελέσουν καλύτερες αναπαραστάσεις υψηλότερου επιπέδου της εισόδου. ^[3]

Η εκπαιδευτική διαδικασία ενός DAE λειτουργεί ως εξής:

Η αρχική εισαγωγή $x$ αλλοιώνεται σε ${\boldsymbol {\tilde {x}}}$ μέσω στοχαστικής απεικόνισης ${\boldsymbol {\tilde {x}}}\thicksim q_{D}({\boldsymbol {\tilde {x}}}|{\boldsymbol {x}})$ .
Η αλλοιωμένη είσοδος ${\boldsymbol {\tilde {x}}}$ στη συνέχεια αντιστοιχίζεται σε μια κρυφή αναπαράσταση με την ίδια διαδικασία του τυπικού autoencoder, ${\boldsymbol {h}}=f_{\theta }({\boldsymbol {\tilde {x}}})=s({\boldsymbol {W}}{\boldsymbol {\tilde {x}}}+{\boldsymbol {b}})$ .
Από την κρυφή αναπαράσταση το μοντέλο ανακατασκευάζει ${\boldsymbol {z}}=g_{\theta '}({\boldsymbol {h}})$ . ^[3]

Οι παράμετροι του μοντέλου $\theta$ και $\theta '$ εκπαιδεύονται να ελαχιστοποιούν το μέσο σφάλμα ανακατασκευής στα δεδομένα εκπαίδευσης, ελαχιστοποιώντας τη διαφορά μεταξύ του ${\boldsymbol {z}}$ από την αρχική, μη αλλοιωμένη είσοδο ${\boldsymbol {x}}$ . ^[3] Σημειώστε ότι κάθε φορά που ένα τυχαίο παράδειγμα ${\boldsymbol {x}}$ παρουσιάζεται στο μοντέλο, μια νέα παραποιημένη έκδοσή του δημιουργείται στοχαστικά με βάση το $q_{D}({\boldsymbol {\tilde {x}}}|{\boldsymbol {x}})$ .

Η προαναφερθείσα διαδικασία εκπαίδευσης θα μπορούσε να εφαρμοστεί με κάθε είδους διαδικασία φθοράς. Μερικά παραδείγματα μπορεί να είναι ο προσθετικός Gaussian λευκός θόρυβος, ο θόρυβος κάλυψης (ένα κλάσμα της εισόδου που επιλέγεται τυχαία για κάθε παράδειγμα αναγκάζεται να γίνει 0) ή ο θόρυβος αλατοπίπερου (ένα κλάσμα της εισόδου που επιλέγεται τυχαία για κάθε παράδειγμα έχει οριστεί σε ελάχιστη ή μέγιστη τιμή του με ομοιόμορφη πιθανότητα). ^[3]

Η καταστροφή της εισόδου πραγματοποιείται μόνο κατά τη διάρκεια της εκπαίδευσης. Μετά την εκπαίδευση, δεν προστίθεται φθορά.

Πλεονεκτήματα του βάθους[Επεξεργασία | επεξεργασία κώδικα]

Οι autoencoders εκπαιδεύονται συχνά με έναν κωδικοποιητή μονής στρώσης (ένα κρυφό επίπεδο κωδικοποίησης) και έναν αποκωδικοποιητή μονής στρώσης (ένα κρυφό επίπεδο αποκωδικοποίησης), αλλά η χρήση κωδικοποιητών και αποκωδικοποιητών πολλών επιπέδων προσφέρει πολλά πλεονεκτήματα. ^[2]

Το βάθος μπορεί να μειώσει εκθετικά το υπολογιστικό κόστος της αναπαράστασης ορισμένων συναρτήσεων. ^[2]
Το βάθος μπορεί να μειώσει εκθετικά τον όγκο των δεδομένων εκπαίδευσης που απαιτούνται για την εκμάθηση ορισμένων λειτουργιών. ^[2]
Πειραματικά, οι βαθύς autoencoders αποδίδουν καλύτερα στη συμπίεση σε σύγκριση με τους ρηχούς ή γραμμικούς autoencoders. ^[20]

Εκπαίδευση[Επεξεργασία | επεξεργασία κώδικα]

O Geoffrey Hinton ανέπτυξε την τεχνική του δικτύου βαθιάς πεποίθησης για την εκπαίδευση πολυεπίπεδων βαθιών autoencoders. Η μέθοδός του, περιλαμβάνει τη μεταχείριση κάθε γειτονικού συνόλου δύο στρωμάτων ως περιορισμένης μηχανής Boltzmann, έτσι ώστε η προεκπαίδευση να προσεγγίζει μια καλή λύση, και στη συνέχεια να χρησιμοποιεί την οπίσθια διάδοση (backpropagation) για να τελειοποιήσει τα αποτελέσματα. ^[20]

Εφαρμογές[Επεξεργασία | επεξεργασία κώδικα]

Οι δύο κύριες εφαρμογές των autoencoders είναι η μείωση διαστάσεων και η ανάκτηση πληροφοριών ^[2], αλλά σύγχρονες παραλλαγές έχουν εφαρμοστεί σε άλλες εργασίες.

Μείωση διαστάσεων[Επεξεργασία | επεξεργασία κώδικα]

Η μείωση διαστάσεων ήταν μια από τις πρώτες εφαρμογές της βαθιάς μάθησης . ^[2]

Για τη μελέτη του ο Hinton το 2006, ^[20] προεκπαίδευσε έναν autoencoder πολλαπλών επιπέδων με μια στοίβα από RBMs και στη συνέχεια χρησιμοποίησε τα βάρη τους για να προετοιμάσει έναν βαθύ autoencoder με σταδιακά μικρότερα κρυφά στρώματα μέχρι να φτάσει σε ένα σημείο συμφόρησης 30 νευρώνων. Οι προκύπτουσες 30 διαστάσεις της κωδικοποιημένης μορφής απέδωσαν μικρότερο σφάλμα ανακατασκευής σε σύγκριση με τα πρώτα 30 συστατικά που προκύπτουν από μια ανάλυση κύριων συνιστωσών (PCA) και έμαθαν μια αναπαράσταση που ήταν ποιοτικά πιο εύκολη στην ερμηνεία, διαχωρίζοντας σαφώς τα συμπλέγματα δεδομένων. ^[2] ^[20]

Η αναπαράσταση διαστάσεων μπορεί να βελτιώσει την απόδοση σε εργασίες όπως η ταξινόμηση. ^[2] Πράγματι, το χαρακτηριστικό της μείωσης των διαστάσεων είναι η τοποθέτηση σημασιολογικά σχετικών παραδειγμάτων το ένα κοντά στο άλλο. ^[21]

Ανάλυση κύριων συνιστωσών[Επεξεργασία | επεξεργασία κώδικα]

Εάν χρησιμοποιούνται γραμμικές συναρτήσεις ενεργοποίησης ή μόνο ένα κρυφό στρώμα σιγμοειδούς συνάρτησης, τότε η βέλτιστη λύση σε έναν autoencoder σχετίζεται στενά με την ανάλυση κύριων συνιστωσών (PCA). ^[22] ^[23] Τα βάρη ενός autoencoder με ένα μόνο κρυφό στρώμα μεγέθους $p$ (που $p$ είναι μικρότερο από το μέγεθος της εισόδου) εκτείνεται στον ίδιο διανυσματικό υποχώρο με αυτόν που εκτείνεται από τις πρώτες $p$ κύριες συνιστώσες, και η έξοδος του autoencoder είναι μια ορθογώνια προβολή σε αυτόν τον υποχώρο. Τα βάρη του autoencoder δεν είναι ίσα με των κύριων συνιστωσών και γενικά δεν είναι ορθογώνια, ωστόσο οι κύριες σινιστώσες μπορούν να ανακτηθούν από αυτά χρησιμοποιώντας την αποσύνθεση μοναδικής τιμής .

Ωστόσο, η δυναμική των autoencoders έγκειται στη μη γραμμικότητά τους, επιτρέποντας στο μοντέλο να μάθει πιο ισχυρές γενικεύσεις σε σύγκριση με την PCA και να ανακατασκευάσει την είσοδο με σημαντικά μικρότερη απώλεια πληροφοριών. ^[20]

Ανάκτηση πληροφορίας[Επεξεργασία | επεξεργασία κώδικα]

Η ανάκτηση πληροφοριών επωφελείται ιδιαίτερα από τη μείωση των διαστάσεων, καθώς η αναζήτηση μπορεί να γίνει πιο αποτελεσματική σε ορισμένα είδη χώρων χαμηλών διαστάσεων. Οι autoencoders εφαρμόστηκαν πράγματι στο σημασιολογικό κατακερματισμό, που προτάθηκε από τους Salakhutdinov και Hinton το 2007. ^[21] Εκπαιδεύοντας τον αλγόριθμο για την παραγωγή μιας δυαδικής κωδικοποιημένης μορφής χαμηλής διάστασης, όλες οι εγγραφές της βάσης δεδομένων θα μπορούσαν να αποθηκευτούν σε έναν πίνακα κατακερματισμού αντιστοιχίζοντας διανύσματα δυαδικού κώδικα σε εγγραφές. Αυτός ο πίνακας θα υποστηρίξει στη συνέχεια την ανάκτηση πληροφοριών επιστρέφοντας όλες τις εγγραφές με τον ίδιο δυαδικό κώδικα με το ερώτημα ή ελαφρώς λιγότερο παρόμοιες εγγραφές αναστρέφοντας μερικά bit από την κωδικοποίηση του ερωτήματος.

Ανίχνευση ανωμαλιών[Επεξεργασία | επεξεργασία κώδικα]

Μια άλλη εφαρμογή για autoencoders είναι η ανίχνευση ανωμαλιών . ^[24] ^[25] ^[26] ^[27] ^[28] Μαθαίνοντας να αναπαράγει τα πιο σημαντικά χαρακτηριστικά στα δεδομένα εκπαίδευσης κάτω από ορισμένους από τους περιορισμούς που περιγράφηκαν προηγουμένως, το μοντέλο ενθαρρύνεται να μάθει να αναπαράγει με ακρίβεια τα χαρακτηριστικά που παρατηρούνται πιο συχνά. Όταν αντιμετωπίζει ανωμαλίες, το μοντέλο θα πρέπει να επιδεινώσει την απόδοση ανακατασκευής του. Στις περισσότερες περιπτώσεις, μόνο δεδομένα με κανονικές αναπαραστάσεις χρησιμοποιούνται για την εκπαίδευση του autoencoder. Σε άλλες, η συχνότητα των ανωμαλιών είναι μικρή σε σύγκριση με το σύνολο παρατήρησης, έτσι ώστε η συνεισφορά του στην εκμάθηση αναπαράστασης θα μπορούσε να αγνοηθεί. Μετά την εκπαίδευση, ο autoencoder θα ανακατασκευάσει με ακρίβεια τα "κανονικά" δεδομένα, ενώ δεν θα το κάνει με δεδομένα τα οποία περιέχουν στοιχεία ανωμαλίας. ^[26] Το σφάλμα ανακατασκευής (το σφάλμα μεταξύ των αρχικών δεδομένων και της ανακατασκευής χαμηλών διαστάσεων) χρησιμοποιείται ως βαθμολογία ανωμαλίας για τον εντοπισμό ανωμαλιών. ^[26]

Ωστόσο, η πρόσφατη βιβλιογραφία έχει δείξει ότι ορισμένα μοντέλα autoencoding, μπορούν, αντιδιαισθητικά, να είναι πολύ καλά στην ανακατασκευή ανώμαλων παραδειγμάτων και κατά συνέπεια να μην μπορούν να εκτελέσουν αξιόπιστη ανίχνευση ανωμαλιών. ^[29]

Ανακάλυψη φαρμάκων[Επεξεργασία | επεξεργασία κώδικα]

Το 2019 μόρια που δημιουργήθηκαν με μεταβλητούς autoencoders επικυρώθηκαν πειραματικά σε ποντίκια. ^[30]

Πρόβλεψη δημοτικότητας[Επεξεργασία | επεξεργασία κώδικα]

Πρόσφατα, ένας στοιβαγμένου πλαίσιο autoencoder παρήγαγε πολλά υποσχόμενα αποτελέσματα στην πρόβλεψη της δημοτικότητας των αναρτήσεων στα μέσα κοινωνικής δικτύωσης, ^[31] που είναι χρήσιμο για στρατηγικές διαδικτυακής διαφήμισης.

Μηχανική μετάφραση[Επεξεργασία | επεξεργασία κώδικα]

Autoencoders έχουν εφαρμοστεί στη μηχανική μετάφραση, η οποία συνήθως αναφέρεται ως νευρωνική μηχανική μετάφραση (NMT). ^[32] ^[33] Σε αντίθεση με τους παραδοσιακούς autoencoders, η έξοδος δεν ταιριάζει με την είσοδο - είναι σε άλλη γλώσσα. Στο μοντέλο NMT, τα κείμενα αντιμετωπίζονται ως ακολουθίες που πρέπει να κωδικοποιηθούν στη διαδικασία εκμάθησης, ενώ στην πλευρά του αποκωδικοποιητή δημιουργούνται ακολουθίες στη γλώσσα(ες) στόχο. Οι autoencoders ειδικά για τη γλώσσα, ενσωματώνουν περαιτέρω γλωσσικά χαρακτηριστικά στη διαδικασία εκμάθησης, όπως τα κινεζικά χαρακτηριστικά αποσύνθεσης. ^[34]

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

↑ Kramer, Mark A. (1991). «Nonlinear principal component analysis using autoassociative neural networks». AIChE Journal 37 (2): 233–243. doi:10.1002/aic.690370209. https://www.researchgate.net/profile/Abir_Alobaid/post/To_learn_a_probability_density_function_by_using_neural_network_can_we_first_estimate_density_using_nonparametric_methods_then_train_the_network/attachment/59d6450279197b80779a031e/AS:451263696510979@1484601057779/download/NL+PCA+by+using+ANN.pdf.
↑ ^2,00 ^2,01 ^2,02 ^2,03 ^2,04 ^2,05 ^2,06 ^2,07 ^2,08 ^2,09 ^2,10 Goodfellow, Ian· Bengio, Yoshua (2016). Deep Learning. MIT Press. ISBN 978-0262035613.
↑ ^3,0 ^3,1 ^3,2 ^3,3 ^3,4 ^3,5 Vincent, Pascal; Larochelle, Hugo (2010). «Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion». Journal of Machine Learning Research 11: 3371–3408.
↑ Welling, Max; Kingma, Diederik P. (2019). «An Introduction to Variational Autoencoders». Foundations and Trends in Machine Learning 12 (4): 307–392. doi:10.1561/2200000056. Bibcode: 2019arXiv190602691K.
↑ Hinton GE, Krizhevsky A, Wang SD. Transforming auto-encoders. In International Conference on Artificial Neural Networks 2011 Jun 14 (pp. 44-51). Springer, Berlin, Heidelberg.
↑ ^6,0 ^6,1 Géron, Aurélien (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. Canada: O’Reilly Media, Inc. σελίδες 739–740.
↑ Liou, Cheng-Yuan; Huang, Jau-Chi; Yang, Wen-Chie (2008). «Modeling word perception using the Elman network». Neurocomputing 71 (16–18): 3150. doi:10.1016/j.neucom.2008.04.030.
↑ Liou, Cheng-Yuan; Cheng, Wei-Chen; Liou, Jiun-Wei; Liou, Daw-Ran (2014). «Autoencoder for words». Neurocomputing 139: 84–96. doi:10.1016/j.neucom.2013.09.055.
↑ Schmidhuber, Jürgen (January 2015). «Deep learning in neural networks: An overview». Neural Networks 61: 85–117. doi:10.1016/j.neunet.2014.09.003. PMID 25462637.
↑ Hinton, G. E., & Zemel, R. S. (1994). Autoencoders, minimum description length and Helmholtz free energy. In Advances in neural information processing systems 6 (pp. 3-10).
↑ Generating Faces with Torch, Boesen A., Larsen L. and Sonderby S.K., 2015 torch.ch/blog/2015/11/13/gan.html
↑ ^12,0 ^12,1 Domingos, Pedro (2015). «4». The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. Basic Books. ISBN 978-046506192-1.
↑ Bengio, Y. (2009). «Learning Deep Architectures for AI». Foundations and Trends in Machine Learning 2 (8): 1795–7. doi:10.1561/2200000006. PMID 23946944. http://www.iro.umontreal.ca/~lisa/pointeurs/TR1312.pdf.
↑ ^14,0 ^14,1 Frey, Brendan; Makhzani, Alireza (2013-12-19). k-Sparse Autoencoders. Bibcode: 2013arXiv1312.5663M.
↑ ^15,0 ^15,1 ^15,2 Ng, A. (2011). Sparse autoencoder. CS294A Lecture notes, 72(2011), 1-19.
↑ Nair, Vinod; Hinton, Geoffrey E. (2009). «3D Object Recognition with Deep Belief Nets». Proceedings of the 22Nd International Conference on Neural Information Processing Systems. NIPS'09 (USA: Curran Associates Inc.): 1339–1347. ISBN 9781615679119. http://dl.acm.org/citation.cfm?id=2984093.2984244.
↑ Zeng, Nianyin; Zhang, Hong; Song, Baoye; Liu, Weibo; Li, Yurong; Dobaie, Abdullah M. (2018-01-17). «Facial expression recognition via learning deep sparse autoencoders». Neurocomputing 273: 643–649. doi:10.1016/j.neucom.2017.08.043. ISSN 0925-2312.
↑ Arpit, Devansh (2015). «Why Regularized Auto-Encoders learn Sparse Representation?». MISSING LINK. .
↑ ^19,0 ^19,1 Makhzani, Alireza; Frey, Brendan (2013). «K-Sparse Autoencoders». arXiv:1312.5663 [cs.LG].
↑ ^20,0 ^20,1 ^20,2 ^20,3 ^20,4 Hinton, G. E.; Salakhutdinov, R.R. (28 July 2006). «Reducing the Dimensionality of Data with Neural Networks». Science 313 (5786): 504–507. doi:10.1126/science.1127647. PMID 16873662. Bibcode: 2006Sci...313..504H. https://archive.org/details/sim_science_2006-07-28_313_5786/page/504.
↑ ^21,0 ^21,1 Salakhutdinov, Ruslan; Hinton, Geoffrey (2009-07-01). «Semantic hashing». International Journal of Approximate Reasoning. Special Section on Graphical Models and Information Retrieval 50 (7): 969–978. doi:10.1016/j.ijar.2008.11.006. ISSN 0888-613X.
↑ Bourlard, H.; Kamp, Y. (1988). «Auto-association by multilayer perceptrons and singular value decomposition». Biological Cybernetics 59 (4–5): 291–294. doi:10.1007/BF00332918. PMID 3196773. http://infoscience.epfl.ch/record/82601.
↑ Chicco, Davide· Sadowski, Peter (2014). «Deep autoencoder neural networks for gene ontology annotation predictions». Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics - BCB '14. σελ. 533. ISBN 9781450328944.
↑ Morales-Forero, A., & Bassetto, S. (2019, December). Case Study: A Semi-Supervised Methodology for Anomaly Detection and Diagnosis. In 2019 IEEE International Conference on Industrial Engineering and Engineering Management (IEEM) (p. 4) (pp. 1031-1037). IEEE.
↑ Sakurada, M., & Yairi, T. (2014, December). Anomaly detection using autoencoders with nonlinear dimensionality reduction. In Proceedings of the MLSDA 2014 2nd Workshop on Machine Learning for Sensory Data Analysis (p. 4). ACM.
↑ ^26,0 ^26,1 ^26,2 An, J., & Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability. Special Lecture on IE, 2, 1-18.
↑ Zhou, C., & Paffenroth, R. C. (2017, August). Anomaly detection with robust deep autoencoders. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 665-674). ACM.
↑ Ribeiro, Manassés; Lazzaretti, André Eugênio; Lopes, Heitor Silvério (2018). «A study of deep convolutional auto-encoders for anomaly detection in videos». Pattern Recognition Letters 105: 13–22. doi:10.1016/j.patrec.2017.07.016. Bibcode: 2018PaReL.105...13R.
↑ Xiao, Zhisheng; Yan, Qing; Amit, Yali (2020). «Likelihood Regret: An Out-of-Distribution Detection Score For Variational Auto-encoder» (στα αγγλικά). Advances in Neural Information Processing Systems 33. https://proceedings.neurips.cc/paper/2020/hash/eddea82ad2755b24c4e168c5fc2ebd40-Abstract.html.
↑ Zhavoronkov, Alex (2019). «Deep learning enables rapid identification of potent DDR1 kinase inhibitors». Nature Biotechnology 37 (9): 1038–1040. doi:10.1038/s41587-019-0224-x. PMID 31477924.
↑ De, Shaunak· Maity, Abhishek (2017). «Predicting the popularity of instagram posts for a lifestyle magazine using deep learning». 2017 2nd IEEE International Conference on Communication Systems, Computing and IT Applications (CSCITA). σελίδες 174–177. ISBN 978-1-5090-4381-1.
↑ Cho, Kyunghyun; Bart van Merrienboer; Bahdanau, Dzmitry; Bengio, Yoshua (2014). «On the Properties of Neural Machine Translation: Encoder-Decoder Approaches». arXiv:1409.1259 [cs.CL].
↑ Sutskever, Ilya (2014). «Sequence to Sequence Learning with Neural Networks». arXiv:1409.3215 [cs.CL].
↑ Han, Lifeng (2018). «Incorporating Chinese Radicals into Neural Machine Translation: Deeper Than Character Level». arXiv:1805.01565 [cs.CL].

[1] Kramer, Mark A. (1991). «Nonlinear principal component analysis using autoassociative neural networks». AIChE Journal 37 (2): 233–243. doi:10.1002/aic.690370209. https://www.researchgate.net/profile/Abir_Alobaid/post/To_learn_a_probability_density_function_by_using_neural_network_can_we_first_estimate_density_using_nonparametric_methods_then_train_the_network/attachment/59d6450279197b80779a031e/AS:451263696510979@1484601057779/download/NL+PCA+by+using+ANN.pdf.

[:0-2] 2,00 ^2,01 ^2,02 ^2,03 ^2,04 ^2,05 ^2,06 ^2,07 ^2,08 ^2,09 ^2,10 Goodfellow, Ian· Bengio, Yoshua (2016). Deep Learning. MIT Press. ISBN 978-0262035613.

[:4-3] 3,0 ^3,1 ^3,2 ^3,3 ^3,4 ^3,5 Vincent, Pascal; Larochelle, Hugo (2010). «Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion». Journal of Machine Learning Research 11: 3371–3408.

[:11-4] Welling, Max; Kingma, Diederik P. (2019). «An Introduction to Variational Autoencoders». Foundations and Trends in Machine Learning 12 (4): 307–392. doi:10.1561/2200000056. Bibcode: 2019arXiv190602691K.

[5] Hinton GE, Krizhevsky A, Wang SD. Transforming auto-encoders. In International Conference on Artificial Neural Networks 2011 Jun 14 (pp. 44-51). Springer, Berlin, Heidelberg.

[:2-6] 6,0 ^6,1 Géron, Aurélien (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. Canada: O’Reilly Media, Inc. σελίδες 739–740.

[7] Liou, Cheng-Yuan; Huang, Jau-Chi; Yang, Wen-Chie (2008). «Modeling word perception using the Elman network». Neurocomputing 71 (16–18): 3150. doi:10.1016/j.neucom.2008.04.030.

[8] Liou, Cheng-Yuan; Cheng, Wei-Chen; Liou, Jiun-Wei; Liou, Daw-Ran (2014). «Autoencoder for words». Neurocomputing 139: 84–96. doi:10.1016/j.neucom.2013.09.055.

[9] Schmidhuber, Jürgen (January 2015). «Deep learning in neural networks: An overview». Neural Networks 61: 85–117. doi:10.1016/j.neunet.2014.09.003. PMID 25462637.

[10] Hinton, G. E., & Zemel, R. S. (1994). Autoencoders, minimum description length and Helmholtz free energy. In Advances in neural information processing systems 6 (pp. 3-10).

[gan_faces-11] Generating Faces with Torch, Boesen A., Larsen L. and Sonderby S.K., 2015 torch.ch/blog/2015/11/13/gan.html

[domingos-12] 12,0 ^12,1 Domingos, Pedro (2015). «4». The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. Basic Books. ISBN 978-046506192-1.

[bengio-13] Bengio, Y. (2009). «Learning Deep Architectures for AI». Foundations and Trends in Machine Learning 2 (8): 1795–7. doi:10.1561/2200000006. PMID 23946944. http://www.iro.umontreal.ca/~lisa/pointeurs/TR1312.pdf.

[:5-14] 14,0 ^14,1 Frey, Brendan; Makhzani, Alireza (2013-12-19). k-Sparse Autoencoders. Bibcode: 2013arXiv1312.5663M.

[:6-15] 15,0 ^15,1 ^15,2 Ng, A. (2011). Sparse autoencoder. CS294A Lecture notes, 72(2011), 1-19.

[16] Nair, Vinod; Hinton, Geoffrey E. (2009). «3D Object Recognition with Deep Belief Nets». Proceedings of the 22Nd International Conference on Neural Information Processing Systems. NIPS'09 (USA: Curran Associates Inc.): 1339–1347. ISBN 9781615679119. http://dl.acm.org/citation.cfm?id=2984093.2984244.

[17] Zeng, Nianyin; Zhang, Hong; Song, Baoye; Liu, Weibo; Li, Yurong; Dobaie, Abdullah M. (2018-01-17). «Facial expression recognition via learning deep sparse autoencoders». Neurocomputing 273: 643–649. doi:10.1016/j.neucom.2017.08.043. ISSN 0925-2312.

[18] Arpit, Devansh (2015). «Why Regularized Auto-Encoders learn Sparse Representation?». MISSING LINK. .

[:1-19] 19,0 ^19,1 Makhzani, Alireza; Frey, Brendan (2013). «K-Sparse Autoencoders». arXiv:1312.5663 [cs.LG].

[:7-20] 20,0 ^20,1 ^20,2 ^20,3 ^20,4 Hinton, G. E.; Salakhutdinov, R.R. (28 July 2006). «Reducing the Dimensionality of Data with Neural Networks». Science 313 (5786): 504–507. doi:10.1126/science.1127647. PMID 16873662. Bibcode: 2006Sci...313..504H. https://archive.org/details/sim_science_2006-07-28_313_5786/page/504.

[:3-21] 21,0 ^21,1 Salakhutdinov, Ruslan; Hinton, Geoffrey (2009-07-01). «Semantic hashing». International Journal of Approximate Reasoning. Special Section on Graphical Models and Information Retrieval 50 (7): 969–978. doi:10.1016/j.ijar.2008.11.006. ISSN 0888-613X.

[22] Bourlard, H.; Kamp, Y. (1988). «Auto-association by multilayer perceptrons and singular value decomposition». Biological Cybernetics 59 (4–5): 291–294. doi:10.1007/BF00332918. PMID 3196773. http://infoscience.epfl.ch/record/82601.

[23] Chicco, Davide· Sadowski, Peter (2014). «Deep autoencoder neural networks for gene ontology annotation predictions». Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics - BCB '14. σελ. 533. ISBN 9781450328944.

[24] Morales-Forero, A., & Bassetto, S. (2019, December). Case Study: A Semi-Supervised Methodology for Anomaly Detection and Diagnosis. In 2019 IEEE International Conference on Industrial Engineering and Engineering Management (IEEM) (p. 4) (pp. 1031-1037). IEEE.

[25] Sakurada, M., & Yairi, T. (2014, December). Anomaly detection using autoencoders with nonlinear dimensionality reduction. In Proceedings of the MLSDA 2014 2nd Workshop on Machine Learning for Sensory Data Analysis (p. 4). ACM.

[:8-26] 26,0 ^26,1 ^26,2 An, J., & Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability. Special Lecture on IE, 2, 1-18.

[27] Zhou, C., & Paffenroth, R. C. (2017, August). Anomaly detection with robust deep autoencoders. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 665-674). ACM.

[28] Ribeiro, Manassés; Lazzaretti, André Eugênio; Lopes, Heitor Silvério (2018). «A study of deep convolutional auto-encoders for anomaly detection in videos». Pattern Recognition Letters 105: 13–22. doi:10.1016/j.patrec.2017.07.016. Bibcode: 2018PaReL.105...13R.

[29] Xiao, Zhisheng; Yan, Qing; Amit, Yali (2020). «Likelihood Regret: An Out-of-Distribution Detection Score For Variational Auto-encoder» (στα αγγλικά). Advances in Neural Information Processing Systems 33. https://proceedings.neurips.cc/paper/2020/hash/eddea82ad2755b24c4e168c5fc2ebd40-Abstract.html.

[30] Zhavoronkov, Alex (2019). «Deep learning enables rapid identification of potent DDR1 kinase inhibitors». Nature Biotechnology 37 (9): 1038–1040. doi:10.1038/s41587-019-0224-x. PMID 31477924.

[31] De, Shaunak· Maity, Abhishek (2017). «Predicting the popularity of instagram posts for a lifestyle magazine using deep learning». 2017 2nd IEEE International Conference on Communication Systems, Computing and IT Applications (CSCITA). σελίδες 174–177. ISBN 978-1-5090-4381-1.

[32] Cho, Kyunghyun; Bart van Merrienboer; Bahdanau, Dzmitry; Bengio, Yoshua (2014). «On the Properties of Neural Machine Translation: Encoder-Decoder Approaches». arXiv:1409.1259 [cs.CL].

[33] Sutskever, Ilya (2014). «Sequence to Sequence Learning with Neural Networks». arXiv:1409.3215 [cs.CL].

[34] Han, Lifeng (2018). «Incorporating Chinese Radicals into Neural Machine Translation: Deeper Than Character Level». arXiv:1805.01565 [cs.CL].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]