Μηχανική μάθηση: Διαφορά μεταξύ των αναθεωρήσεων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
Dada (συζήτηση | συνεισφορές)
μ αρκούν οι εσωτ. σύνδ.
Melmathiakh (συζήτηση | συνεισφορές)
Δημιουργήθηκε από μετάφραση της σελίδας "Machine learning"
Γραμμή 1: Γραμμή 1:
'''Μηχανική μάθηση''' είναι ένα υποπεδίο της [[Πληροφορική|επιστήμης των υπολογιστών]]<ref name="Britannica">http://www.britannica.com/EBchecked/topic/1116194/machine-learning <span> </span><small>This [[Βικιπαίδεια:Όχι πρωτότυπη έρευνα|tertiary source]] reuses information from other sources but does not name them.</small></ref> που αναπτύχθηκε από τη μελέτη της [[Αναγνώριση προτύπων|αναγνώρισης προτύπων]] και της  [[:en:Computational_learning_theory|υπολογιστικής θεωρίας μάθησης]] στην [[τεχνητή νοημοσύνη]].<ref name="Britannica">http://www.britannica.com/EBchecked/topic/1116194/machine-learning <span> </span><small>This [[Βικιπαίδεια:Όχι πρωτότυπη έρευνα|tertiary source]] reuses information from other sources but does not name them.</small></ref> Το 1959, ο Arthur Samuel ορίζει τη μηχανική μάθηση ως "Πεδίο μελέτης που δίνει στους υπολογιστές την ικανότητα να μάθαίνουν, χωρίς να έχουν ρητά προγραμματιστεί".<ref name="arthur_samuel_machine_learning_def">{{Πρότυπο:Cite book|url=https://books.google.com/books?id=Dn-Gdoh66sgC&pg=PA89#v=onepage&q&f=false|title=Too Big to Ignore: The Business Case for Big Data|date=March 18, 2013|publisher=Wiley|isbn=978-1-118-63817-0|pages=89|author=Phil Simon}}</ref>Η μηχανική μάθηση διερευνά τη μελέτη και την κατασκευή [[Αλγόριθμος|αλγορίθμων]] που μπορούν να [[Μάθηση|μάθαίνουν]] από [[Δεδομένα|τα δεδομένα]]<ref>{{Πρότυπο:Cite journal|url=http://ai.stanford.edu/~ronnyk/glossary.html|title=Glossary of terms|journal=[[Machine Learning (journal)|Machine Learning]]|year=1998|volume=30|pages=271–274|author1=Ron Kohavi|author2=Foster Provost}}</ref> και να κάνουν προβλέψεις σχετικά με αυτά. Τέτοιοι  αλγόριθμοι λειτουργούν κατασκευάζοντας μοντέλα από πειραματικά δεδομένα, προκειμένου να κάνουν προβλέψεις βασιζόμενες στα δεδομένα ή να εξάγουν αποφάσεις που εκφράζονται ως το αποτέλεσμα.<ref name="bishop">Machine learning and pattern recognition "can be viewed as two facets of
Η '''μηχανική μάθηση''' (machine learning) είναι μια περιοχή της [[Επιστήμη των Υπολογιστών|επιστήμης των υπολογιστών]] η οποία αφορά [[αλγόριθμος|αλγορίθμους]] και μεθόδους που επιτρέπουν στους [[ηλεκτρονικός υπολογιστής|υπολογιστές]] να «μαθαίνουν». Με τη μηχανική μάθηση καθίσταται εφικτή η κατασκευή ''προσαρμόσιμων'' (adaptable) [[πρόγραμμα υπολογιστή|προγραμμάτων υπολογιστών]] τα οποία λειτουργούν με βάση την αυτοματοποιημένη ανάλυση συνόλων δεδομένων και όχι τη διαίσθηση των μηχανικών που τα προγραμμάτισαν. Η μηχανική μάθηση εφαρμόζεται σε μια σειρά μηχανογραφικών εργασιών όπου η χρήση αλγορίθμων, τόσο κατά το σχεδιασμό όσο και κατά τον προγραμματισμό τους είναι ανέφικτη. Παραδείγματα εφαρμογών αποτελούν τα φίλτρα [[σπαμ]] (spam filtering), η [[Οπτική Αναγνώριση Χαρακτήρων|οπτική αναγνώριση χαρακτήρων]] (OCR), οι [[Μηχανή αναζήτησης|μηχανές αναζήτησης]] και η [[Μηχανική όραση|υπολογιστική όραση]]. Η μηχανική μάθηση επικαλύπτεται σημαντικά με τη [[στατιστική]], αφού και τα δύο πεδία μελετούν την ανάλυση δεδομένων, όπως επίσης και με τη [[εξόρυξη δεδομένων]] (data mining). Στην ανάλυση δεδομένων η μηχανική μάθηση χρησιμοποιείται ως μέθοδος για την κατασκευή πολύπλοκων μοντέλων και αλγορίθμων με στόχο την πρόβλεψη. Αυτά τα ερυνητικά μοντέλα επιτρέπουν στους ερευνητές, τους αναλυτές δεδομένων και τους μηχανικούς "να παράγουν αξιόπιστες και κατάλληλες αποφάσεις και αποτελέσματα" και να ανακαλύπτουν άγνωστες ιστορικές σχέσεις και τάσεις των δεδομένων. Η Μηχανική Μάθηση και η [[αναγνώριση προτύπων]], μπορούν να θεωρηθούν ως δυο όψεις του ίδιου τομέα.<ref>{{Cite web|url = http://www.rmki.kfki.hu/~banmi/elte/Bishop%20-%20Pattern%20Recognition%20and%20Machine%20Learning.pdf|title = C. M. Bishop (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8.|date = |accessdate = |website = |publisher = |last = |first = }}</ref>
the same field."</ref><sup class="reference" style="white-space:nowrap;" contenteditable="false">:2</sup>


Η μηχανική  μάθηση είναι στενά συνδεδεμένη και συχνά συγχέεται με [[:en:Computational_statistics|υπολογιστική στατιστική]], ένας κλάδος, που επίσης επικεντρώνεται στην πρόβλεψη μέσω της χρήσης των υπολογιστών. Έχει ισχυρούς δεσμούς με την  [[Βελτιστοποίηση|μαθηματική βελτιστοποίηση]], η οποία παρέχει μεθόδους, τη θεωρία και τομείς εφαρμογής. Η Μηχανική μάθηση εφαρμόζεται σε μια σειρά από υπολογιστικές εργασίες, όπου τόσο ο σχεδιασμός όσο και ο ρητός προγραμματισμός των αλγορίθμων είναι ανέφικτος. Παραδείγματα εφαρμογών αποτελούν  τα φίλτρα [[spam]] (spam filtering), η [[Οπτική Αναγνώριση Χαρακτήρων|οπτική αναγνώριση χαρακτήρων]] (OCR),<ref name="Wernick-Signal-Proc-July-2010">Wernick, Yang, Brankov, Yourganov and Strother, Machine Learning in Medical Imaging, ''IEEE Signal Processing Magazine'', vol. 27, no. 4, July 2010, pp. 25-38</ref>οι  [[Μηχανή αναζήτησης|μηχανές αναζήτησης]] και η υπολογιστική όραση. Η Μηχανική μάθηση  μερικές φορές συγχέεται με [[Εξόρυξη δεδομένων|την εξόρυξη δεδομένων]],<ref>{{Πρότυπο:Cite conference|last=Mannila|first=Heikki|title=Data mining: machine learning, statistics, and databases|conference=Int'l Conf. Scientific and Statistical Database Management|publisher=IEEE Computer Society|year=1996}}</ref> , όπου η τελευταία επικεντρώνεται περισσότερο στην εξερευνητική ανάλυση των δεδομένων, γνωστή και ως  [[:en:Unsupervised_learning|μη επιτηρούμενη μάθηση]].<ref name="bishop">Machine learning and pattern recognition "can be viewed as two facets of
==Ορισμός==
the same field."</ref><sup class="reference" style="white-space:nowrap;">:vii</sup><ref>{{Πρότυπο:Cite journal|title=Data Mining and Statistics: What's the connection?|last=Friedman|first=Jerome H.|authorlink=Jerome H. Friedman|journal=Computing Science and Statistics|issue=1|year=1998|volume=29|pages=3–9}}</ref>
Το 1959, ο πρωτοπόρος σχεδιαστής παιχνιδιών Άρθρουρ Σάμουελ (Arthur Samuel) όρισε ως μηχανική μάθηση «το πεδίο μελέτης που δίνει στους υπολογιστές την δυνατότητα να μαθαίνουν χωρίς να έχουν προγραμματιστεί ρητά γι' αυτό το σκοπό». <ref name="arthur_samuel_machine_learning_def"> {{cite book | title=Too Big to Ignore: The Business Case for Big Data | publisher=Wiley | author=Phil Simon | year=March 18, 2013 | pages=89 | isbn=978-1118638170 | url=http://books.google.gr/books?id=Dn-Gdoh66sgC&pg=PA89#v=onepage&q&f=false}} </ref>


Στο πεδίο της ανάλυσης δεδομένων,η μηχανική μάθηση είναι μια μέθοδος που χρησιμοποιείται για την επινόηση πολύπλοκων μοντέλων και αλγορίθμων που οδηγούν στην πρόβλεψη. Τα αναλυτικά μοντέλα επιτρέπουν στους ερευνητές, τους επιστήμονες δεδομένων, τους μηχανικούς και τους αναλυτές να "παράγουν αξιόπιστες αποφάσεις και αποτελέσματα" και να αποκαλύψουν τις "κρυφές ιδέες" μέσω της μάθησης από  ιστορικές σχέσεις και τάσεις στα δεδομένα.<ref>{{Πρότυπο:Cite web|url=http://www.sas.com/it_it/insights/analytics/machine-learning.html|title=Machine Learning: What it is and why it matters|website=www.sas.com|access-date=2016-03-29}}</ref>
To 1997 o Τομ Μ. Μιτσέλ (Tom M. Mitchell) έδωσε ένα πιο επίσημο ορισμό ο οποίος χρησιμοποιείται ευρέως: «Ένα πρόγραμμα υπολογιστή λέγεται ότι μαθαίνει από εμπειρία E ως προς μια κλάση εργασιών T και ένα μέτρο επίδοσης P, αν η επίδοσή του σε εργασίες της κλάσης Τ, όπως αποτιμάται από το μέτρο Ρ, βελτιώνεται με την εμπειρία Ε». <ref name="mitchell_machine_learning_def">{{cite book | title=Machine Learning | author=Tom M. Mitchell | year=1997 | pages=2 | isbn=0-07-042807-7}}</ref> <ref>{{cite book | title=Data mining: opportunities and challenges | author=John Wang | year=2003 | publisher=Idea Group Pub | pages=261 | isbn=978-1591400516 | url=http://books.google.gr/books?id=Nyvaaq9pI40C&pg=PA261#v=onepage&q&f=false}}</ref>


== Ορισμός ==
==Κατηγορίες==
Tom M. Mitchell προσέφερε έναν  πιο επίσημο ορισμό που χρησιμοποιείται ευρέως: "Ένα πρόγραμμα υπολογιστή λέγεται ότι μαθαίνει από εμπειρία E ως προς μια κλάση εργασιών T και ένα μέτρο επίδοσης P, αν η επίδοσή του σε εργασίες της κλάσης Τ, όπως αποτιμάται από το μέτρο Ρ, βελτιώνεται με την εμπειρία Ε".<ref>Mitchell, T. (1997). </ref> Αυτός ο ορισμός είναι σημαντικός για τον καθορισμό της μηχανικής μάθησης σε βασικό λειτουργικό πλαίσιο παρά με γνωστικούς όρους, ακολουθώντας έτσι την πρόταση του [[Άλαν Τιούρινγκ|Alan Turing]] στην εργασία του "[[:en:Computing_Machinery_and_Intelligence|Υπολογιστικές μηχανές και Νοημοσύνη]]",ότι το ερώτημα "Μπορούν οι μηχανές να σκεφτούν;" να αντικατασταθεί με το ερώτημα "Μπορούν οι μηχανές να κάνουν αυτό που εμείς (ως σκεπτόμενες οντότητες) μπορούμε να κάνουμε;"<ref>{{Πρότυπο:Citation|last=Harnad|first=Stevan|title=The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer|year=2008|chapter=The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence|chapterurl=http://eprints.ecs.soton.ac.uk/12954/|location=|publisher=Kluwer|editor1-last=Epstein|editor2-last=Peters|editor1-first=Robert|editor2-first=Grace|isbn=}}</ref>
[[File:Svm max sep hyperplane with margin.png|thumb|Παράδειγμα επιτηρούμενης μηχανικής μάθησης (ταξινόμησης) με χρήση ενός αλγορίθμου [[μηχανή διανυσμάτων υποστήριξης|μηχανής διανυσμάτων υποστήριξης]] (support vector machine). Τα δεδομένα ταξινομούνται σε δύο κλάσεις (μαύρες και λευκές κουκκίδες) και στο συγκεκριμένο παράδειγμα διαχωρίζονται στον δισδιάστατο χώρο που ορίζεται από τις μεταβλητές Χ1 και Χ2 από ένα γραμμικό σύνορο.]]


=== Τύποι προβλημάτων και εργασιών ===
Οι αλγόριθμοι μηχανικής μάθησης κατηγοριοποιούνται ανάλογα με το επιθυμητό αποτέλεσμα του αλγορίθμου. Οι συνηθέστερες κατηγορίες είναι οι εξής:
Οι εργασίες μηχανικής μάθησης  συνήθως ταξινομούνται σε τρεις μεγάλες κατηγορίες, ανάλογα με τη φύση του εκπαιδευτικού "σήματος" ή την "ανατροφοδότηση" που είναι διαθέσιμα σε ένα σύστημα εκμάθησης. Αυτά είναι:<ref name="aima"><cite class="citation book">Russell, Stuart; Norvig, Peter (2003) [1995]. </cite></ref>
* [[:en:Supervised_learning|Επιτηρούμενη μάθηση,]]<nowiki/>επιβλεπόμενη μάθηση ή μάθηση με επίβλεψη (supervised learning): Το υπολογιστικό πρόγραμμα δέχεται τις παραδειγματικές εισόδους καθώς και τα επιθυμητά αποτελέσματα από έναν "δάσκαλο", και ο στόχος είναι να "μάθει" έναν γενικό κανόνα προκειμένου να αντιστοιχίσει τις εισόδους με τα αποτελέσματα.
* [[:en:Unsupervised_learning|Μη επιτηρούμενη μάθηση]], ανεπίβλεπτη μάθηση ή μάθηση χωρίς επίβλεψη (unsupervised learning): Χωρίς να παρέχεται κάποια εμπειρία στον αλγόριθμο μάθησης, πρέπει να βρεί την δομή των δεδομένων εισόδου. Η Μη επιτηρούμενη μάθηση μπορεί να είναι αυτοσκοπός (ανακαλύπτοντας κρυμμένα μοτίβα σε δεδομένα) ή μέσο για ένα τέλος (χαρακτηριστικό της μάθησης).
* [[Ενισχυτική μάθηση]]: Ένα πρόγραμμα υπολογιστή  αλληλεπιδρά με ένα δυναμικό περιβάλλον στο οποίο πρέπει να επιτευχθεί ένας συγκεκριμένος στόχος (όπως η οδήγηση ενός οχήματος), χωρίς κάποιος δάσκαλος να του λέει ρητά αν έχει φτάσει κοντά στο στόχο του. Ένα άλλο παράδειγμα είναι να μάθει να παίζει ένα παιχνίδι εναντίον κάποιου αντιπάλου<ref name="bishop">Machine learning and pattern recognition "can be viewed as two facets of
the same field."</ref><sup class="reference" style="white-space:nowrap;" contenteditable="false">:3</sup>
Μεταξύ της  επιτηρούμενης και  της μη επιτηρούμενης μάθησης είναι [[:en:Semi-supervised_learning|ημι-επιτηρούμενη μάθηση]], όπου ο δάσκαλος δίνει ένα ελλειπές εκπαιδευτικό σήμα: ένα σύνολο εκπαίδευσης με κάποια (συχνά πολλά) από τα αποτελέσματα στόχους  λείπουν. H Μεταγωγή είναι μια ειδική περίπτωση της αρχής αυτής, όπου το σύνολο των καταστάσεων του προβλήματος είναι γνωστό κατά το χρόνο εκμάθησης, όμως ένα μέρος των στόχων λείπουν.
[[Αρχείο:Svm_max_sep_hyperplane_with_margin.png|μικρογραφία|Μία [[μηχανή διανυσμάτων υποστήριξης]], όπου τα δεδομένα ταξινομούνται σε δύο κλάσεις, που χωρίζονται από ένα [[:en:Linear_classifier|γραμμικό σύνορο]]. Εδώ, έχει μάθει να διακρίνει τους μαύρους από τους άσπρους κύκλους.]]
Μεταξύ άλλων θεμάτων μηχανικής μάθησης να αναφερθεί ότι η διαδικασία εκμάθησης μαθαίνει στην μηχανή (να αναπτύσσει) τις δικές της επαγωγικές μεθόδους, βασιζόμενο στην προηγούμενη εμπειρία. Η Αναπτυξιακή μάθηση, η οποία έχει ανπτυχθεί για την εκμάθηση από ρομπότ, δημιουργεί τη δική της ακολουθία μαθησιακών καταστάσεων, ώστε το ρομποτ συσσωρευτικά  αποκτά ποικιλία δεξιοτήτων μέσω της αυτόνομης αυτοεξερεύνησης και της κοινωνικής αλληλεπίδρασης με ανθρώπους εκπαιδευτές και χρησιμοποιώντας μηχανισμούς καθοδήγησης, όπως η ενεργητική  μάθηση, η ωρίμανση και η μίμηση.


Μια άλλη κατηγοριοποίηση των εργασιών  μηχανικής μάθησης προκύπτει όταν κάποιοςθεωρήσει'' το ε''πιθυμητό'' αποτέλεσμα του ''σύστηματος μηχανικής μάθησης.:<ref name="bishop">Machine learning and pattern recognition "can be viewed as two facets of
* ''[[Επιτηρούμενη μάθηση]]'', ''επιβλεπόμενη μάθηση'' ή ''μάθηση με επίβλεψη'' (supervised learning), όπου ο αλγόριθμος κατασκευάζει μια [[συνάρτηση]] που απεικονίζει δεδομένες εισόδους σε γνωστές, επιθυμητές εξόδους (''σύνολο εκπαίδευσης''), με απώτερο στόχο τη γενίκευση της συνάρτησης αυτής και για εισόδους με άγνωστη έξοδο (''σύνολο ελέγχου'').
the same field."</ref>{{Πρότυπο:Rp|3}}
* ''[[Μη επιτηρούμενη μάθηση]]'', ''ανεπίβλεπτη μάθηση'' ή ''μάθηση χωρίς επίβλεψη'' (unsupervised learning). Σε αυτήν την κατηγορία δεν παρέχεται κάποια εμπειρία, αλλά ο αλγόριθμος αφήνεται να ανακαλύψει μοτίβα στα δεδομένα εισόδου, μέσω κριτηρίων ομοιότητας.
* Στην [[Στατιστική ταξινόμηση|ταξινόμηση]], τα δεδομένα εισόδου χωρίζονται σε δύο ή περισσότερες κλάσεις, και η μηχανή πρέπει να κατασκευάσει ένα μοντέλο, το οποίο θα αντιστοιχίζει τα δεδομένα  σε μία ή περισσότερες ([[:en:Multi-label_classification|multi-label ταξινόμηση]]) κλάσεις. Αυτό είναι συνήθως εμπίπτει στην επιτηρούμενη μάθηση. Τα φίλτρα Spam  είναι ένα παράδειγμα  ταξινόμησης, όπου οι είσοδοι είναι τα emails ή άλλα μηνύματα και οι κλάσεις είναι "spam" και "όχι spam".
* ''[[Ενισχυτική μάθηση]]'' (reinforcement learning), όπου ο αλγόριθμος μαθαίνει μια στρατηγική ενεργειών για μια δεδομένη παρατήρηση, αλληλεπιδρώντας σε ένα δυναμικό περιβάλλον, μέσα στο οποίο πρέπει να επιτευχθεί ένας συγκεκριμένος στόχος. Όπως για παράδειγμα το να μάθει να παίζει ένα παιχνίδι εναντίον κάποιου αντιπάλου ή να οδηγεί ένα όχημα.
* Στην [[Παλινδρόμηση (στατιστική)|παλινδρόμηση]], επίσης πρόβλημα επιτηρούμενης μάθησης, τα αποτελέσματα είναι συνεχή και όχι διακριτά.
Μεταξύ της επιτηρούμενης και της μη επιτηρούμενης μάθησης υπάρχει και η [[ημι-επιτηρούμενη μάθηση]].
* Στην [[συσταδοποίηση]], ένα σύνολο εισόδων  πρόκειται να χωριστεί σε ομάδες. Σε αντίθεση με την ταξινόμηση, οι ομάδες δεν είναι γνωστές εκ των προτέρων, καθιστώντας αυτόν τον διαχωρισμό τυπική εργασία μη επιτηρούμενης μάθησης.
* Στην [[εκτίμηση πυκνότητας]] βρίσκει την [[Κατανομή πιθανότητας|κατανομή]] των δεδομένων εισόδου σε κάποιο χώρο.
* Στην  [[:en:Dimensionality_reduction|Μείωση διαστάσης]] τα δεδοένα απλοποιούνται και αντιστοιχίζονται σε ένα  χώρο λιγότερων διαστάσεων. Το Topic modeling είναι ένα σχετικό προβλημα, όπου η μηχανή καλείται να βρει  έγγραφα που καλύπτουν παρόμοια θέματα από ένα σύνολο εγγράφων γραμμένων σε [[φυσική γλώσσα]].


== Ιστορία και σχέσεις με άλλους τομείς ==
Μεταξύ άλλων θεμάτων μηχανικής μάθησης να αναφερθεί ότι η διαδικασία εκμάθησης μαθαίνει στην μηχανή (να αναπτύσσει) τις δικές του επαγωγικές μεθόδους, βασιζόμενο στην προηγούμενη εμπειρία. Χαρακτηριστικό παράδειγμα αποτελεί η εκμάθηση από ρομπότ, το οποίο συσσωρευτικά αποκτά ποικιλία δεξιοτήτων μέσω της αυτόνομης αυτοεξερεύνησης και της κοινωνικής αλληλεπίδρασης με ανθρώπους εκπαιδευτές και χρησιμοποιώντας μηχανισμούς καθοδήγησης, όπως η [[ενεργητική μάθηση]] και η [[μίμηση]].
Ως επιστημονικό εγχείρημα, η μηχανική μάθηση  αναπτύχθηκε από την αναζήτηση για την τεχνητή νοημοσύνη. Ήδη κατά τις πρώτες ημέρες της Τεχνητής νοημοσύνης ως ακαδημαϊκής εργασίας,  το ζήτημα της κατασκευής μηχανών που θα μάθαιναν από δεδομένα απασχόλησε τους ερευνητές. Προσπάθησαν να προσεγγίσουν το πρόβλημα με διάφορες συμβολικές μεθόδους, καθώς και με τα λεγόμενα "[[Νευρωνικό δίκτυο|νευρωνικά δίκτυα]]".Αυτά ήταν ως επί το πλείστον[[Perceptron| perceptrons]] και  μοντέλα, που όπως διαπιστώθηκε αργότερα ήταν επανεφευρέσεις των γενικευμένων γραμμικών μοντέλων της στατιστικής. Επίσης χρησιμοποιήθηκε η πιθανοθεωρητική λογική, ιδιαίτερα  στην αυτοματοποιημένη ιατρική διάγνωση.<ref name="aima"><cite class="citation book">Russell, Stuart; Norvig, Peter (2003) [1995]. </cite></ref>{{Πρότυπο:Rp|488}}


Ωστόσο, μια αυξανόμενη έμφαση σε προσεγγίσεις που βασίζονται στην λογική γνώση προκάλεσε ένα ρήγμα μεταξύ Τεχνητής Νοημοσύνης και μηχανικής μάθησης. Τα πιθανοθεωρητικά συστήματα μαστίζονταν από θεωρητικά και πρακτικά προβλήματα  απόκτησης δεδομένων και αναπαράστασης τους.<ref name="aima"><cite class="citation book">Russell, Stuart; Norvig, Peter (2003) [1995]. </cite></ref>{{Πρότυπο:Rp|488}} Από το 1980, [[έμπειρα συστήματα]] , επικράτησαν στο πεδίο της Τεχνητής Νοημοσύνης, και ο ρόλος της στατιστικής υποχώρησε.<ref name="changing">{{Πρότυπο:Cite journal|title=The changing science of machine learning|journal=[[Machine Learning (journal)|Machine Learning]]|issue=3|doi=10.1007/s10994-011-5242-y|year=2011|volume=82|pages=275–279|pmc=|pmid=|last1=Langley|first1=Pat}}</ref> Η εργασία σε συμβολική/βασισμένη σε γνώση εκμάθηση συνεχίστηκε εντός της ΤΝ, οδηγώντας στον  [[:en:Inductive_logic_programming|επαγωγικό λογικό προγραμματισμό]], αλλά οι κατευθηντήριες γραμμές της στατιστικής ήταν τώρα έξω από το χώρο της τεχνητής νοημοσύνης, στην [[αναγνώριση προτύπων]]  και στην [[ανάκτηση πληροφοριών]].<ref name="aima"><cite class="citation book">Russell, Stuart; Norvig, Peter (2003) [1995]. </cite></ref>{{Πρότυπο:Rp|708–710; 755}} Η έρευνα για νευρωνικά δίκτυα εγκαταλήφθηκε από την ΤΝ και την Επιστήμη Υπολογιστών τον ίδιο περίπου καιρό. Η ίδια επίσης κατεύθυνση ακολουθήθηκε πέρα από την ΤΝ και την πληροφορική, από  ερευνητές άλλων ειδικοτήτων, συμπεριλαμβανομένων των Hopfield, Rumelhart και Χίντον. Η επιτυχία ήρθε μέσα της δεκαετίας του 1980 με την επανεφεύρεση του backpropagation.<ref name="aima"><cite class="citation book">Russell, Stuart; Norvig, Peter (2003) [1995]. </cite></ref>{{Πρότυπο:Rp|25}}
Μια άλλη συνηθισμένη κατηγοριοποίηση της μηχανικής μάθησης βασίζεται στο είδος του προβλήματος που μελετάται:
* Σε προβλήματα [[ταξινόμηση (στατιστική)|ταξινόμησης]] (classification), μελετώνται μοντέλα πρόβλεψης διακριτών κλάσεων ή κατηγοριών, συνήθως στα πλαίσια επιτηρούμενης μάθησης. Τα φίλτρα σπαμ ηλεκτρονικού ταχυδρομείου είναι ένα τυπικό παράδειγμα ταξινόμησης σε δύο διακριτές κλάσεις (αποδεκτό μήνυμα ή σπαμ).
* Σε προβλήματα [[παλινδρόμηση (στατιστική)|παλινδρόμησης]] (regression), εξετάζονται μοντέλα πρόβλεψης αριθμητικών [[ποσοτική μεταβλητή|ποσοτήτων]] που παίρνουν συνεχείς τιμές.
* Σε προβλήματα [[συσταδοποίηση|συσταδοποίησης]] (clustering) στόχος είναι η κατηγοριοποίηση των δεδομένων σε διαφορετικές λογικές ομάδες. Σε αντίθεση με την ταξινόμηση, τέτοιου τύπου προβλήματα ανήκουν στην μη επιτηρούμενη μηχανική μάθηση, καθώς οι ομάδες δεν είναι γνωστές εκ των προτέρων.
* Σε προβλήματα [[Μείωση διάστασης|μείωσης διάστασης]] (dimensionality reduction) τα δεδομένα απλοποιούνται και μεταφέρονται σε χώρο με λιγότερες διαστάσεις.. Ένα σχετικό πρόβλημα είναι το Topic modeling, όπου η μηχανή καλείται να βρει τα έγγραφα που καλύπτουν ομοια θέματα από ένα σύνολο εγγράφων γραμμένων σε φυσική γλώσσα.


Η Μηχανική μάθηση, αναδιοργανώθηκε ως ένα ξεχωριστό πεδίο, που  άρχισε να ακμάζει κατά τη δεκαετία του 1990. Η προσοχή μετατοπίστηκε από τις συμβολικές προσεγγίσεις που κληρονόμησε από την Τεχνητή Νοημοσύνη, που στόχο είχαν την αντιμετώπιση επιλύσιμων προβλημάτων πρακτικής φύσης, και δόθηκε έμφαση σε μεθόδους και μοντέλα της στατιστικής και της <span class="cx-segment" data-segmentid="442"></span>[[Θεωρία πιθανοτήτων|θεωρίας πιθανοτήτων]].<ref name="changing">{{Πρότυπο:Cite journal|title=The changing science of machine learning|journal=[[Machine Learning (journal)|Machine Learning]]|issue=3|doi=10.1007/s10994-011-5242-y|year=2011|volume=82|pages=275–279|pmc=|pmid=|last1=Langley|first1=Pat}}</ref> Επίσης επωφελήθηκε από την διαθεσιμότητα ψηφιοποιημένων πληροφοριών και της δυνατότητας να διανεμηθούν μέσω [[Διαδίκτυο|Διαδικτύου]].
== Ιστορική αναδρομή και συσχέτιση με άλλους τομείς ==
Ως επιστημονικό εγχείρημα η μαχανική μάθηση αναπτύχθηκε από την έρευνα για [[τεχνητή νοημοσύνη]]. Ήδη, από τα πρώτα χρόνια της ακαδημαικής εργασίας πάνω στο θέμα της τεχνητής νοημοσύνης το ζήτημα της κατασκευής μηχανών που θα μάθαιναν από δεδομένα απασχόλησε τους ερευνητές. Επιχείρησαν να προσεγγίσουν το πρόβλημα με ποικίλες συμβολικές μεθόδους, καθώς και με τα λεγόμενα [[Νευρωνικό δίκτυο|νευρωνικά δίκτυα]]. Ήταν κατά κύριο λόγο μοντέλα, που όπως διαπιστώθηκε αργότερα ήταν επανεφευρέσεις των [[Γενικευμένα γραμμικά μοντέλα|γενικευμένων γραμμικών μοντέλων]] της στατιστικής, ενώ χρησιμοποιήθηκε και η πιθανοθεωρητική λογική, ιδιαίτερα στην αυτοποιημένη ιατρική διάγνωση.


Η Μηχανική μάθηση και η εξόρυξη δεδομένων συχνά χρησιμοποιούν τις ίδιες μεθόδους και επικαλύπτονται σημαντικά. Μπορούν να διακριθούν ως εξής:
Η μηχανική μάθηση αναπτύχθηκε ως ξεχωριστός τομέας που άνθισε την δεκαετία του 1990.Η προσοχή μετατοπίστηκε από τις συμβολικές προσεγγίσεις που κληρονόμησε από την Τεχνητή Νοημοσύνη, που στόχο είχαν την αντιμετώπιση επιλύσιμων προβλημάτων πρακτικής φύσης, και δόθηκε έμφαση σε μεθόδους και μοντέλα της [[Στατιστική|στατιστικής]] και της [[Θεωρία πιθανοτήτων|θεωρίας πιθανοτήτων]].Επίσης επωφελήθηκε από την διαθεσιμότητα ψηφιοποιημένων πληροφοριών και της δυνατότητας να διανεμηθούν μέσω [[Διαδίκτυο|Διαδικτύου]].

Η μηχανική μάθηση και η [[εξόρυξη δεδομένων]] χρησιμοποιούν συχνά τις ίδιες [[Μέθοδος|μεθόδους]] και επικαλύπτονται σημαντικά. Θα μπορούσαμε να τις διακρίνουμε ως εξης:
* Η μηχανική μάθηση εστιάζει στην πρόβλεψη, που βασίζεται σε γνωστές ιδιότητες που απορρέουν από το σύνολο εκπαίδευσης.
* Η μηχανική μάθηση εστιάζει στην πρόβλεψη, που βασίζεται σε γνωστές ιδιότητες που απορρέουν από το σύνολο εκπαίδευσης.
* Η εξόρυξη δεδομένων εστιάζει στην ανακάλυψη ιδιοτήτων μη γνωστών εκ των προτέρων. Αυτό είναι το βήμα ανάλυσης στην [[Ανακάλυψη Γνώσης]] από [[Βάση δεδομένων|βάσεις δεδομένων]].
* Η [[εξόρυξη δεδομένων]] εστιάζει στην [[ανακάλυψη]] ιδιοτήτων μη γνωστών εκ των προτέρων. Αυτό είναι το βήμα ανάλυσης στην [[Ανακάλυψη Γνώσης]] από βάσεις δεδομένων
Οι δύο τομείς επικαλύπτονται με πολλούς τρόπους.Η εξόρυξη δεδομένων χρησιμοποιεί πολλές μεθόδους μηχανικής μάθησης, αλλά συχνά με διαφορετικούς στόχους. Από την άλλη πλευρά και η μηχανική μάθηση χρησιμοποιεί μεθόδους εξόρυξης δεδομένων, όπως η [[μη επιτηρούμενη μάθηση]], ή στο στάδιο επεξεργασίας για να βελτιώνει την ακρίβεια της μάθησης. Ένα μεγάλο μέρος της σύγχυσης μεταξύ των δύο ερευνητικών τομέων (που συχνά έχουν ξεχωριστά συνέδρια και περιοδικά, ECML PKDD αποτελεί σημαντική εξαίρεση) προκύπτει από τις βασικες υπόθεσεις πάνω στις οποίες και οι δύο δουλεύουν: όμως στην μηχανική μάθηση η απόδοση συνήθως αξιολογείται ως προς την ικανότητα αναπαραγωγής γνώσης, την οποία ήδη κατέχουμε, ενώ στην Ανακάλυψη Γνώσης και την Εξόρυξη Δεδομένων το κλειδί είναι η ανακάλυψη γνώσης που δεν προκατέχουμε. Στην πρώτη περίπτωση μια μέθοδος [[Επιτηρούμενη μάθηση|επιτηρούμενης μάθησης]] μπορεί να έχει καλύτερα αποτελέσματα, ενώ σε μία τυπική διεργασία Ανακάλυψης Γνώσης και Εξόρυξης δεδομένων οι επιτηρούμενες μέθοδοι μάθησης δεν λειτουργούν εξαιτίας της μη διαθεσιμότητας συνόλου εκπαίδευσης.
<span class="cx-segment" data-segmentid="460"></span>Οι δύο τομείς επικαλύπτονται με πολλούς τρόπους.Η εξόρυξη δεδομένων χρησιμοποιεί πολλές μεθόδους μηχανικής μάθησης, αλλά συχνά με διαφορετικούς στόχους. Από την άλλη πλευρά και η μηχανική μάθηση χρησιμοποιεί μεθόδους εξόρυξης δεδομένων, όπως η μη επιτηρούμενη μάθηση, ή στο στάδιο προεπεξεργασίας για να βελτιώνει την ακρίβεια της μάθησης. Ένα μεγάλο μέρος της σύγχυσης μεταξύ των δύο ερευνητικών τομέων (που συχνά έχουν ξεχωριστά συνέδρια και περιοδικά, με το ECML PKDD να αποτελεί σημαντική εξαίρεση) προκύπτει από τις βασικές υπόθεσεις πάνω στις οποίες και οι δύο δουλεύουν: όμως στην μηχανική μάθηση η απόδοση συνήθως αξιολογείται ως προς την ικανότητα αναπαραγωγής γνώσης, την οποία ήδη κατέχουμε, ενώ στην Ανακάλυψη Γνώσης και την Εξόρυξη Δεδομένων το κλειδί είναι η ανακάλυψη γνώσης που δεν προκατέχουμε. Στην πρώτη περίπτωση μια μέθοδος επιτηρούμενης μάθησης μπορεί να έχει καλύτερα αποτελέσματα, ενώ σε μία τυπική διεργασία Ανακάλυψης Γνώσης και Εξόρυξης δεδομένων οι επιτηρούμενες μέθοδοι μάθησης δεν λειτουργούν εξαιτίας της μη διαθεσιμότητας συνόλου εκπαίδευσης


Ακόμη η μηχανική μάθηση συνδέεται με την [[βελτιστοποίηση]]: πολλά προβλήματα μάθησης διατυπώνονται ως η ελαχιστοποίηση της [[Συνάρτηση απώλειας|συνάρτησης απώλειας]] από ένα σύνολο δεδομένων εκπαίδευσης. Η διαφορά των δύο τομέων απορέει από τον στόχο της γενίκευσης: ενώ οι [[Αλγόριθμος βελτιστοποίησης|αλγόριθμοι βελτιστοποίησης]] μπορούν να ελαχιστοποιήσουν την απώλεια ενός συνόλου εκπαίδευσης, η μηχανική μάθηση εστιάζει στην ελαχιστοποίηση της απώλειας σε άγνωστες καταστάσεις.
Ακόμη η μηχανική μάθηση συνδέεται με την βελτιστοποίηση: πολλά προβλήματα μάθησης διατυπώνονται ως η ελαχιστοποίηση της συνάρτησης απώλειας από ένα σύνολο δεδομένων εκπαίδευσης. Η συνάρτηση απώλειας εκφράζει τη διαφορά μεταξύ των προβλέψεων του εκπαιδευμένου μοντέλου και των πραγματικών καταστάσεων του προβλήματος.Η διαφορά των δύο τομέων απορέει από τον στόχο της γενίκευσης: ενώ οι αλγόριθμοι βελτιστοποίησης μπορούν να ελαχιστοποιήσουν την απώλεια ενός συνόλου εκπαίδευσης, η μηχανική μάθηση εστιάζει στην ελαχιστοποίηση της απώλειας σε άγνωστες καταστάσεις.<ref>{{Πρότυπο:Cite encyclopedia|last1=Le Roux|first1=Nicolas|first2=Yoshua|last2=Bengio|first3=Andrew|last3=Fitzgibbon|title=Improving First and Second-Order Methods by Modeling Uncertainty|encyclopedia=Optimization for Machine Learning|year=2012|page=404|editor-last1=Sra|editor-first1=Suvrit|editor-first2=Sebastian|editor-last2=Nowozin|editor-first3=Stephen J.|editor-last3=Wright|publisher=MIT Press}}</ref>


===== Συσχέτιση με την στατιστική =====
=== Σχέση με την στατιστική ===
Η μηχανική μάθηση και η [[στατιστική]] είναι δύο στενά συνδεδεμένοι επιστημονικοί τομείς. Σύμφωνα με τον Michael Jordan, οι ιδέες της μηχανικής μάθησης, από τις μεθοδολογικές αρχές μέχρι τα θεωρητικά εργαλεία, προϋπάρχουν στην στατιστική. Ο ίδιος επίσης πρότεινε τον όρο [[Επιστήμη Δεδομένων|Επιστήμη Δεδομένων]] για το συνολικό πεδίο.
Η μηχανική μάθηση και η [[στατιστική]] είναι δύο στενά συνδεδεμένοι επιστημονικοί τομείς. Σύμφωνα με τον Michael Jordan, οι ιδέες της μηχανικής μάθησης, από τις μεθοδολογικές αρχές μέχρι τα θεωρητικά εργαλεία, προϋπάρχουν στην στατιστική. Ο ίδιος επίσης πρότεινε τον όρο [[Επιστήμη Δεδομένων]] για το συνολικό πεδίο<ref name="mi jordan ama">{{Πρότυπο:Cite web|url=http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckelmtt?context=3|title=statistics and machine learning|date=2014-09-10|publisher=reddit|language=|accessdate=2014-10-01|author=MI Jordan}}</ref><ref name="mi jordan ama">{{Πρότυπο:Cite web|url=http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckelmtt?context=3|title=statistics and machine learning|date=2014-09-10|publisher=reddit|language=|accessdate=2014-10-01|author=MI Jordan}}</ref>


Ο Leo Breiman διέκρινε δύο υποδείγματα [[Στατιστική μοντελοποίηση|στατιστικής μοντελοποίησης]]: το μοντέλο δεδομένων και το αλγοριθμικό μοντέλο, όπου το δεύτερο σημαίνει λίγο πολύ τους αλγορίθμους μηχανικής μάθησης, όπως τα [[Τυχαία Δάση]].
Ο Leo Breiman διέκρινε δύο υποδείγματα στατιστικής μοντελοποίησης: το μοντέλο δεδομένων και το αλγοριθμικό μοντέλο<ref>{{Πρότυπο:Cite web|url=http://projecteuclid.org/download/pdf_1/euclid.ss/1009213726|title=Breiman : Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author)|publisher=|accessdate=8 August 2015|author=Cornell University Library}}</ref>[[:en:Random_forest| , όπου το δεύτερο σημαίνει λίγο πολύ τους αλγορίθμους μηχανικής μάθησης, όπως τα Τυχαία Δάση.]]


Τέλος, ορισμένοι [[Στατιστικολόγος|στατιστικολόγοι]] υιοθετούν μεθόδους μηχανικής μάθησης, με αποτέλεσμα την δημιουργία ενός ανασυνδυσμένου τομέα που ονομάζεται ''στατιστική μάθηση''.
Τέλος, ορισμένοι στατιστικολόγοι υιοθετούν μεθόδους μηχανικής μάθησης, με αποτέλεσμα την δημιουργία ενός ανασυνδυσμένου τομέα που ονομάζεται ''στατιστική μάθηση''.<ref name="islr">{{Πρότυπο:Cite book|url=http://www-bcf.usc.edu/~gareth/ISL/|title=An Introduction to Statistical Learning|publisher=Springer|year=2013|page=vii|author1=Gareth James|author2=Daniela Witten|author3=Trevor Hastie|author4=Robert Tibshirani}}</ref>


== Θεωρία ==
== Θεωρία ==
Ο βασικός σκοπός ενός μαθητευόμενου είναι να γενικεύει την εμπειρία του. Σε αυτό το πλαίσιο γενίκευση είναι η ικανότητα μιας μηχανής μάθησης να αποδίδει με ακρίβεια σε καινούριες, πρωτόγνωρες εργασίες, αφού πρώτα έχει εκπαιδευτεί σε ένα σύνολο δεδομένων εκπαίδευσης. Γενικά τα προς εκπαίδευση παραδείγματα προέρχονται από κάποια άγνωστη κατανομή πιθανότητας, η οποία θεωρείται αντιπροσωπευτική, και η μηχανή πρέπει να κατασκευάσει ένα γενικό μοντέλο που θα επιτρέπει την παραγωγή προβλέψεων σε καινούριες καταστάσεις με επαρκή ακρίβεια.
Ο βασικός στόχος ενός μαθητευόμενου είναι να γενικεύει την εμπειρία του.<ref name="bishop2006">{{Πρότυπο:Citation|last=Bishop|first=C. M.|title=Pattern Recognition and Machine Learning|year=2006|authorlink=Christopher M. Bishop|publisher=Springer|isbn=0-387-31073-8}}</ref><ref>Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) ''Foundations of Machine Learning'', MIT Press [[:en:Special:BookSources/9780262018258|ISBN 978-0-262-01825-8]].</ref> Σε αυτό το πλαίσιο γενίκευση είναι η ικανότητα μιας μηχανής μάθησης να αποδίδει με ακρίβεια σε καινούριες, πρωτόγνωρες εργασίες, αφού πρώτα έχει εκπαιδευτεί σε ένα σύνολο δεδομένων εκπαίδευσης. Γενικά τα προς εκπαίδευση παραδείγματα προέρχονται από κάποια άγνωστη κατανομή πιθανότητας, η οποία θεωρείται αντιπροσωπευτική του χώρου των καταστάσεων, και η μηχανή πρέπει να κατασκευάσει ένα γενικό μοντέλο που θα επιτρέπει την παραγωγή προβλέψεων σε καινούριες καταστάσεις με επαρκή ακρίβεια<span class="cx-segment" data-segmentid="493"></span>

Η υπολογιστική ανάλυση των αλγορίθμων των μηχανών μάθησης και η απόδοσή τους είναι ένας κλάδος της [[Θεωρητική Πληροφορική|θεωρητικής πληροφορικής]], γνωστός ως [[Υπολογιστική θεωρία μάθησης]]. Επειδή τα εκπαιδευτικά σύνολα είναι πεπερασμένα και το μέλλον αβέβαιο, η θεωρία μάθησης δεν εγγυάται πάντα την απόδοση των αλγορίθμων. Αντ΄αυτού είναι συχνή η χρήση των πιπανοθεωρητικών ορίων της απόδοσης.

Το πόσο καλά ένα μοντέλο, που έχει εκπαιδευτεί σε υπαρκτά παραδείγματα, μπορεί να προβλέψει άγνωστες καταστάσεις ονομάζεται γενίκευση. Για την καλύτερη δυνατή γενίκευση, η πολυπλοκότητα της υπόθεσης θα πρέπει να είναι αντίστοιχη της πολυπλοκότητας της συνάρτησης των δεδομένων.

Πέρα όμως από την απόδοση, οι θεωρηρικοί της υπολογιστικής μάθησης μελετούν την [[χρονική πολυπλοκότητα]] καθώς και το κατά πόσο είναι εφικτή η μάθηση. Στην υπολογιστική θεωρία μάθησης ένας υπολογισμός θεωρείται εφικτός αν μπορεί να επιτελεστεί σε [[πολυωνυμικό χρόνο]]. Υπάρχουν δύο είδη αποτελεσμάτων αναφορικά με την χρονική πολυπλοκότητα. Τα θετικά αποτελέσματα που σημαίνουν ότι μια συγκεκριμένη κλάση αντιστοιχίσεων μπορούν να επιτευχθούν σε πολυωνυμικό χρόνο και τα αρνητικά αποτελέσματα που δείχνουν το αντίθετο.

Υπάρχουν πολλά κοινά στοιχεία μεταξύ της θεωρίας μηχανικής μάθησης και της [[Στατιστική συμπερασματολογία|στατιστικής συμπερασματολογίας]], ωστόσο συνήθως χρησιμοποιούν διαφορετικούς όρους.


Η υπολογιστική ανάλυση των αλγορίθμων των μηχανών μάθησης και η απόδοσή τους είναι ένας κλάδος της [[Θεωρητική Πληροφορική|θεωρητικής πληροφορικής]], γνωστός ως [[Υπολογιστική θεωρία μάθησης]]. Επειδή τα εκπαιδευτικά σύνολα είναι πεπερασμένα και το μέλλον αβέβαιο, η θεωρία μάθησης δεν εγγυάται πάντα την απόδοση των αλγορίθμων. Αντ΄αυτού είναι συχνή η χρήση των πιθανοθεωρητικών ορίων της απόδοσης.<span class="cx-segment" data-segmentid="500"></span>
==Παραπομπές==
{{παραπομπές}}


Το πόσο καλά ένα μοντέλο, που έχει εκπαιδευτεί σε υπαρκτά παραδείγματα, μπορεί να προβλέψει άγνωστες καταστάσεις ονομάζεται γενίκευση. Για την καλύτερη δυνατή γενίκευση, η πολυπλοκότητα της υπόθεσης θα πρέπει να είναι αντίστοιχη της πολυπλοκότητας της συνάρτησης των δεδομένων<ref>Ethem Alpaydin. </ref>
== Βιβλιογραφία ==
{{commonscat}}
* Bishop, C. M. (1995). ''Neural Networks for Pattern Recognition'', Oxford University Press. ISBN 0-19-853864-2
* MacKay, D. J. C. (2003). [http://www.inference.phy.cam.ac.uk/mackay/itila/ ''Information Theory, Inference, and Learning Algorithms''], Cambridge University Press. ISBN 0-521-64298-1
* Mitchell, T. (1997). ''Machine Learning'', McGraw Hill. ISBN 0-07-042807-7


<span class="cx-segment" data-segmentid="510"></span>Πέρα όμως από την απόδοση, οι θεωρηρικοί της υπολογιστικής μάθησης μελετούν την χρονική πολυπλοκότητα καθώς και το κατά πόσο είναι εφικτή η μάθηση. Στην υπολογιστική θεωρία μάθησης ένας υπολογισμός θεωρείται εφικτός αν μπορεί να επιτελεστεί σε [[πολυωνυμικό χρόνο]]. Υπάρχουν δύο είδη αποτελεσμάτων αναφορικά με την [[χρονική πολυπλοκότητα]]. Τα θετικά αποτελέσματα που σημαίνουν ότι μια συγκεκριμένη κλάση αντιστοιχίσεων μπορούν να επιτευχθούν σε πολυωνυμικό χρόνο και τα αρνητικά αποτελέσματα που δείχνουν το αντίθετο.


Υπάρχουν πολλές ομοιότητες μεταξύ της μηχανικής μάθησης και της [[:en:Statistical_inference|στατιστικής συμπερασματολογίας]], αν και χρησιμοποιούν διαφορετικούς όρους.
{{authority control}}


== See also ==


== References ==
[[Κατηγορία:Μηχανική μάθηση| ]]
{{Reflist|2}}
[[Κατηγορία:Κυβερνητική]]
[[Κατηγορία:Μάθηση]]
[[Κατηγορία:Μηχανική μάθηση]]

Έκδοση από την 01:17, 28 Μαΐου 2016

Μηχανική μάθηση είναι ένα υποπεδίο της επιστήμης των υπολογιστών[1] που αναπτύχθηκε από τη μελέτη της αναγνώρισης προτύπων και της  υπολογιστικής θεωρίας μάθησης στην τεχνητή νοημοσύνη.[1] Το 1959, ο Arthur Samuel ορίζει τη μηχανική μάθηση ως "Πεδίο μελέτης που δίνει στους υπολογιστές την ικανότητα να μάθαίνουν, χωρίς να έχουν ρητά προγραμματιστεί".[2]Η μηχανική μάθηση διερευνά τη μελέτη και την κατασκευή αλγορίθμων που μπορούν να μάθαίνουν από τα δεδομένα[3] και να κάνουν προβλέψεις σχετικά με αυτά. Τέτοιοι  αλγόριθμοι λειτουργούν κατασκευάζοντας μοντέλα από πειραματικά δεδομένα, προκειμένου να κάνουν προβλέψεις βασιζόμενες στα δεδομένα ή να εξάγουν αποφάσεις που εκφράζονται ως το αποτέλεσμα.[4]:2

Η μηχανική  μάθηση είναι στενά συνδεδεμένη και συχνά συγχέεται με υπολογιστική στατιστική, ένας κλάδος, που επίσης επικεντρώνεται στην πρόβλεψη μέσω της χρήσης των υπολογιστών. Έχει ισχυρούς δεσμούς με την  μαθηματική βελτιστοποίηση, η οποία παρέχει μεθόδους, τη θεωρία και τομείς εφαρμογής. Η Μηχανική μάθηση εφαρμόζεται σε μια σειρά από υπολογιστικές εργασίες, όπου τόσο ο σχεδιασμός όσο και ο ρητός προγραμματισμός των αλγορίθμων είναι ανέφικτος. Παραδείγματα εφαρμογών αποτελούν  τα φίλτρα spam (spam filtering), η οπτική αναγνώριση χαρακτήρων (OCR),[5]οι  μηχανές αναζήτησης και η υπολογιστική όραση. Η Μηχανική μάθηση  μερικές φορές συγχέεται με την εξόρυξη δεδομένων,[6] , όπου η τελευταία επικεντρώνεται περισσότερο στην εξερευνητική ανάλυση των δεδομένων, γνωστή και ως  μη επιτηρούμενη μάθηση.[4]:vii[7]

Στο πεδίο της ανάλυσης δεδομένων,η μηχανική μάθηση είναι μια μέθοδος που χρησιμοποιείται για την επινόηση πολύπλοκων μοντέλων και αλγορίθμων που οδηγούν στην πρόβλεψη. Τα αναλυτικά μοντέλα επιτρέπουν στους ερευνητές, τους επιστήμονες δεδομένων, τους μηχανικούς και τους αναλυτές να "παράγουν αξιόπιστες αποφάσεις και αποτελέσματα" και να αποκαλύψουν τις "κρυφές ιδέες" μέσω της μάθησης από  ιστορικές σχέσεις και τάσεις στα δεδομένα.[8]

Ορισμός

Tom M. Mitchell προσέφερε έναν  πιο επίσημο ορισμό που χρησιμοποιείται ευρέως: "Ένα πρόγραμμα υπολογιστή λέγεται ότι μαθαίνει από εμπειρία E ως προς μια κλάση εργασιών T και ένα μέτρο επίδοσης P, αν η επίδοσή του σε εργασίες της κλάσης Τ, όπως αποτιμάται από το μέτρο Ρ, βελτιώνεται με την εμπειρία Ε".[9] Αυτός ο ορισμός είναι σημαντικός για τον καθορισμό της μηχανικής μάθησης σε βασικό λειτουργικό πλαίσιο παρά με γνωστικούς όρους, ακολουθώντας έτσι την πρόταση του Alan Turing στην εργασία του "Υπολογιστικές μηχανές και Νοημοσύνη",ότι το ερώτημα "Μπορούν οι μηχανές να σκεφτούν;" να αντικατασταθεί με το ερώτημα "Μπορούν οι μηχανές να κάνουν αυτό που εμείς (ως σκεπτόμενες οντότητες) μπορούμε να κάνουμε;"[10]

Τύποι προβλημάτων και εργασιών

Οι εργασίες μηχανικής μάθησης  συνήθως ταξινομούνται σε τρεις μεγάλες κατηγορίες, ανάλογα με τη φύση του εκπαιδευτικού "σήματος" ή την "ανατροφοδότηση" που είναι διαθέσιμα σε ένα σύστημα εκμάθησης. Αυτά είναι:[11]

  • Επιτηρούμενη μάθηση,επιβλεπόμενη μάθηση ή μάθηση με επίβλεψη (supervised learning): Το υπολογιστικό πρόγραμμα δέχεται τις παραδειγματικές εισόδους καθώς και τα επιθυμητά αποτελέσματα από έναν "δάσκαλο", και ο στόχος είναι να "μάθει" έναν γενικό κανόνα προκειμένου να αντιστοιχίσει τις εισόδους με τα αποτελέσματα.
  • Μη επιτηρούμενη μάθηση, ανεπίβλεπτη μάθηση ή μάθηση χωρίς επίβλεψη (unsupervised learning): Χωρίς να παρέχεται κάποια εμπειρία στον αλγόριθμο μάθησης, πρέπει να βρεί την δομή των δεδομένων εισόδου. Η Μη επιτηρούμενη μάθηση μπορεί να είναι αυτοσκοπός (ανακαλύπτοντας κρυμμένα μοτίβα σε δεδομένα) ή μέσο για ένα τέλος (χαρακτηριστικό της μάθησης).
  • Ενισχυτική μάθηση: Ένα πρόγραμμα υπολογιστή  αλληλεπιδρά με ένα δυναμικό περιβάλλον στο οποίο πρέπει να επιτευχθεί ένας συγκεκριμένος στόχος (όπως η οδήγηση ενός οχήματος), χωρίς κάποιος δάσκαλος να του λέει ρητά αν έχει φτάσει κοντά στο στόχο του. Ένα άλλο παράδειγμα είναι να μάθει να παίζει ένα παιχνίδι εναντίον κάποιου αντιπάλου[4]:3

Μεταξύ της  επιτηρούμενης και  της μη επιτηρούμενης μάθησης είναι ημι-επιτηρούμενη μάθηση, όπου ο δάσκαλος δίνει ένα ελλειπές εκπαιδευτικό σήμα: ένα σύνολο εκπαίδευσης με κάποια (συχνά πολλά) από τα αποτελέσματα στόχους  λείπουν. H Μεταγωγή είναι μια ειδική περίπτωση της αρχής αυτής, όπου το σύνολο των καταστάσεων του προβλήματος είναι γνωστό κατά το χρόνο εκμάθησης, όμως ένα μέρος των στόχων λείπουν.

Μία μηχανή διανυσμάτων υποστήριξης, όπου τα δεδομένα ταξινομούνται σε δύο κλάσεις, που χωρίζονται από ένα γραμμικό σύνορο. Εδώ, έχει μάθει να διακρίνει τους μαύρους από τους άσπρους κύκλους.

Μεταξύ άλλων θεμάτων μηχανικής μάθησης να αναφερθεί ότι η διαδικασία εκμάθησης μαθαίνει στην μηχανή (να αναπτύσσει) τις δικές της επαγωγικές μεθόδους, βασιζόμενο στην προηγούμενη εμπειρία. Η Αναπτυξιακή μάθηση, η οποία έχει ανπτυχθεί για την εκμάθηση από ρομπότ, δημιουργεί τη δική της ακολουθία μαθησιακών καταστάσεων, ώστε το ρομποτ συσσωρευτικά  αποκτά ποικιλία δεξιοτήτων μέσω της αυτόνομης αυτοεξερεύνησης και της κοινωνικής αλληλεπίδρασης με ανθρώπους εκπαιδευτές και χρησιμοποιώντας μηχανισμούς καθοδήγησης, όπως η ενεργητική  μάθηση, η ωρίμανση και η μίμηση.

Μια άλλη κατηγοριοποίηση των εργασιών  μηχανικής μάθησης προκύπτει όταν κάποιοςθεωρήσει το επιθυμητό αποτέλεσμα του σύστηματος μηχανικής μάθησης.:[4]:3

  • Στην ταξινόμηση, τα δεδομένα εισόδου χωρίζονται σε δύο ή περισσότερες κλάσεις, και η μηχανή πρέπει να κατασκευάσει ένα μοντέλο, το οποίο θα αντιστοιχίζει τα δεδομένα  σε μία ή περισσότερες (multi-label ταξινόμηση) κλάσεις. Αυτό είναι συνήθως εμπίπτει στην επιτηρούμενη μάθηση. Τα φίλτρα Spam  είναι ένα παράδειγμα  ταξινόμησης, όπου οι είσοδοι είναι τα emails ή άλλα μηνύματα και οι κλάσεις είναι "spam" και "όχι spam".
  • Στην παλινδρόμηση, επίσης πρόβλημα επιτηρούμενης μάθησης, τα αποτελέσματα είναι συνεχή και όχι διακριτά.
  • Στην συσταδοποίηση, ένα σύνολο εισόδων  πρόκειται να χωριστεί σε ομάδες. Σε αντίθεση με την ταξινόμηση, οι ομάδες δεν είναι γνωστές εκ των προτέρων, καθιστώντας αυτόν τον διαχωρισμό τυπική εργασία μη επιτηρούμενης μάθησης.
  • Στην εκτίμηση πυκνότητας βρίσκει την κατανομή των δεδομένων εισόδου σε κάποιο χώρο.
  •  Στην  Μείωση διαστάσης τα δεδοένα απλοποιούνται και αντιστοιχίζονται σε ένα  χώρο λιγότερων διαστάσεων. Το Topic modeling είναι ένα σχετικό προβλημα, όπου η μηχανή καλείται να βρει  έγγραφα που καλύπτουν παρόμοια θέματα από ένα σύνολο εγγράφων γραμμένων σε φυσική γλώσσα.

Ιστορία και σχέσεις με άλλους τομείς

Ως επιστημονικό εγχείρημα, η μηχανική μάθηση  αναπτύχθηκε από την αναζήτηση για την τεχνητή νοημοσύνη. Ήδη κατά τις πρώτες ημέρες της Τεχνητής νοημοσύνης ως ακαδημαϊκής εργασίας,  το ζήτημα της κατασκευής μηχανών που θα μάθαιναν από δεδομένα απασχόλησε τους ερευνητές. Προσπάθησαν να προσεγγίσουν το πρόβλημα με διάφορες συμβολικές μεθόδους, καθώς και με τα λεγόμενα "νευρωνικά δίκτυα".Αυτά ήταν ως επί το πλείστον perceptrons και  μοντέλα, που όπως διαπιστώθηκε αργότερα ήταν επανεφευρέσεις των γενικευμένων γραμμικών μοντέλων της στατιστικής. Επίσης χρησιμοποιήθηκε η πιθανοθεωρητική λογική, ιδιαίτερα  στην αυτοματοποιημένη ιατρική διάγνωση.[11]:488

Ωστόσο, μια αυξανόμενη έμφαση σε προσεγγίσεις που βασίζονται στην λογική γνώση προκάλεσε ένα ρήγμα μεταξύ Τεχνητής Νοημοσύνης και μηχανικής μάθησης. Τα πιθανοθεωρητικά συστήματα μαστίζονταν από θεωρητικά και πρακτικά προβλήματα  απόκτησης δεδομένων και αναπαράστασης τους.[11]:488 Από το 1980, έμπειρα συστήματα , επικράτησαν στο πεδίο της Τεχνητής Νοημοσύνης, και ο ρόλος της στατιστικής υποχώρησε.[12] Η εργασία σε συμβολική/βασισμένη σε γνώση εκμάθηση συνεχίστηκε εντός της ΤΝ, οδηγώντας στον  επαγωγικό λογικό προγραμματισμό, αλλά οι κατευθηντήριες γραμμές της στατιστικής ήταν τώρα έξω από το χώρο της τεχνητής νοημοσύνης, στην αναγνώριση προτύπων  και στην ανάκτηση πληροφοριών.[11]:708–710; 755 Η έρευνα για νευρωνικά δίκτυα εγκαταλήφθηκε από την ΤΝ και την Επιστήμη Υπολογιστών τον ίδιο περίπου καιρό. Η ίδια επίσης κατεύθυνση ακολουθήθηκε πέρα από την ΤΝ και την πληροφορική, από  ερευνητές άλλων ειδικοτήτων, συμπεριλαμβανομένων των Hopfield, Rumelhart και Χίντον. Η επιτυχία ήρθε μέσα της δεκαετίας του 1980 με την επανεφεύρεση του backpropagation.[11]:25

Η Μηχανική μάθηση, αναδιοργανώθηκε ως ένα ξεχωριστό πεδίο, που  άρχισε να ακμάζει κατά τη δεκαετία του 1990. Η προσοχή μετατοπίστηκε από τις συμβολικές προσεγγίσεις που κληρονόμησε από την Τεχνητή Νοημοσύνη, που στόχο είχαν την αντιμετώπιση επιλύσιμων προβλημάτων πρακτικής φύσης, και δόθηκε έμφαση σε μεθόδους και μοντέλα της στατιστικής και της θεωρίας πιθανοτήτων.[12] Επίσης επωφελήθηκε από την διαθεσιμότητα ψηφιοποιημένων πληροφοριών και της δυνατότητας να διανεμηθούν μέσω Διαδικτύου.

Η Μηχανική μάθηση και η εξόρυξη δεδομένων συχνά χρησιμοποιούν τις ίδιες μεθόδους και επικαλύπτονται σημαντικά. Μπορούν να διακριθούν ως εξής:

  • Η μηχανική μάθηση εστιάζει στην πρόβλεψη, που βασίζεται σε γνωστές ιδιότητες που απορρέουν από το σύνολο εκπαίδευσης.
  • Η εξόρυξη δεδομένων εστιάζει στην ανακάλυψη ιδιοτήτων μη γνωστών εκ των προτέρων. Αυτό είναι το βήμα ανάλυσης στην Ανακάλυψη Γνώσης από βάσεις δεδομένων

Οι δύο τομείς επικαλύπτονται με πολλούς τρόπους.Η εξόρυξη δεδομένων χρησιμοποιεί πολλές μεθόδους μηχανικής μάθησης, αλλά συχνά με διαφορετικούς στόχους. Από την άλλη πλευρά και η μηχανική μάθηση χρησιμοποιεί μεθόδους εξόρυξης δεδομένων, όπως η μη επιτηρούμενη μάθηση, ή στο στάδιο προεπεξεργασίας για να βελτιώνει την ακρίβεια της μάθησης. Ένα μεγάλο μέρος της σύγχυσης μεταξύ των δύο ερευνητικών τομέων (που συχνά έχουν ξεχωριστά συνέδρια και περιοδικά, με το ECML PKDD να αποτελεί σημαντική εξαίρεση) προκύπτει από τις βασικές υπόθεσεις πάνω στις οποίες και οι δύο δουλεύουν: όμως στην μηχανική μάθηση η απόδοση συνήθως αξιολογείται ως προς την ικανότητα αναπαραγωγής γνώσης, την οποία ήδη κατέχουμε, ενώ στην Ανακάλυψη Γνώσης και την Εξόρυξη Δεδομένων το κλειδί είναι η ανακάλυψη γνώσης που δεν προκατέχουμε. Στην πρώτη περίπτωση μια μέθοδος επιτηρούμενης μάθησης μπορεί να έχει καλύτερα αποτελέσματα, ενώ σε μία τυπική διεργασία Ανακάλυψης Γνώσης και Εξόρυξης δεδομένων οι επιτηρούμενες μέθοδοι μάθησης δεν λειτουργούν εξαιτίας της μη διαθεσιμότητας συνόλου εκπαίδευσης

Ακόμη η μηχανική μάθηση συνδέεται με την βελτιστοποίηση: πολλά προβλήματα μάθησης διατυπώνονται ως η ελαχιστοποίηση της συνάρτησης απώλειας από ένα σύνολο δεδομένων εκπαίδευσης. Η συνάρτηση απώλειας εκφράζει τη διαφορά μεταξύ των προβλέψεων του εκπαιδευμένου μοντέλου και των πραγματικών καταστάσεων του προβλήματος.Η διαφορά των δύο τομέων απορέει από τον στόχο της γενίκευσης: ενώ οι αλγόριθμοι βελτιστοποίησης μπορούν να ελαχιστοποιήσουν την απώλεια ενός συνόλου εκπαίδευσης, η μηχανική μάθηση εστιάζει στην ελαχιστοποίηση της απώλειας σε άγνωστες καταστάσεις.[13]

Σχέση με την στατιστική

Η μηχανική μάθηση και η στατιστική είναι δύο στενά συνδεδεμένοι επιστημονικοί τομείς. Σύμφωνα με τον Michael Jordan, οι ιδέες της μηχανικής μάθησης, από τις μεθοδολογικές αρχές μέχρι τα θεωρητικά εργαλεία, προϋπάρχουν στην στατιστική. Ο ίδιος επίσης πρότεινε τον όρο Επιστήμη Δεδομένων για το συνολικό πεδίο[14][14]

Ο Leo Breiman διέκρινε δύο υποδείγματα στατιστικής μοντελοποίησης: το μοντέλο δεδομένων και το αλγοριθμικό μοντέλο[15] , όπου το δεύτερο σημαίνει λίγο πολύ τους αλγορίθμους μηχανικής μάθησης, όπως τα Τυχαία Δάση.

Τέλος, ορισμένοι στατιστικολόγοι υιοθετούν μεθόδους μηχανικής μάθησης, με αποτέλεσμα την δημιουργία ενός ανασυνδυσμένου τομέα που ονομάζεται στατιστική μάθηση.[16]

Θεωρία

Ο βασικός στόχος ενός μαθητευόμενου είναι να γενικεύει την εμπειρία του.[17][18] Σε αυτό το πλαίσιο γενίκευση είναι η ικανότητα μιας μηχανής μάθησης να αποδίδει με ακρίβεια σε καινούριες, πρωτόγνωρες εργασίες, αφού πρώτα έχει εκπαιδευτεί σε ένα σύνολο δεδομένων εκπαίδευσης. Γενικά τα προς εκπαίδευση παραδείγματα προέρχονται από κάποια άγνωστη κατανομή πιθανότητας, η οποία θεωρείται αντιπροσωπευτική του χώρου των καταστάσεων, και η μηχανή πρέπει να κατασκευάσει ένα γενικό μοντέλο που θα επιτρέπει την παραγωγή προβλέψεων σε καινούριες καταστάσεις με επαρκή ακρίβεια

Η υπολογιστική ανάλυση των αλγορίθμων των μηχανών μάθησης και η απόδοσή τους είναι ένας κλάδος της θεωρητικής πληροφορικής, γνωστός ως Υπολογιστική θεωρία μάθησης. Επειδή τα εκπαιδευτικά σύνολα είναι πεπερασμένα και το μέλλον αβέβαιο, η θεωρία μάθησης δεν εγγυάται πάντα την απόδοση των αλγορίθμων. Αντ΄αυτού είναι συχνή η χρήση των πιθανοθεωρητικών ορίων της απόδοσης.

Το πόσο καλά ένα μοντέλο, που έχει εκπαιδευτεί σε υπαρκτά παραδείγματα, μπορεί να προβλέψει άγνωστες καταστάσεις ονομάζεται γενίκευση. Για την καλύτερη δυνατή γενίκευση, η πολυπλοκότητα της υπόθεσης θα πρέπει να είναι αντίστοιχη της πολυπλοκότητας της συνάρτησης των δεδομένων[19]

Πέρα όμως από την απόδοση, οι θεωρηρικοί της υπολογιστικής μάθησης μελετούν την χρονική πολυπλοκότητα καθώς και το κατά πόσο είναι εφικτή η μάθηση. Στην υπολογιστική θεωρία μάθησης ένας υπολογισμός θεωρείται εφικτός αν μπορεί να επιτελεστεί σε πολυωνυμικό χρόνο. Υπάρχουν δύο είδη αποτελεσμάτων αναφορικά με την χρονική πολυπλοκότητα. Τα θετικά αποτελέσματα που σημαίνουν ότι μια συγκεκριμένη κλάση αντιστοιχίσεων μπορούν να επιτευχθούν σε πολυωνυμικό χρόνο και τα αρνητικά αποτελέσματα που δείχνουν το αντίθετο.

Υπάρχουν πολλές ομοιότητες μεταξύ της μηχανικής μάθησης και της στατιστικής συμπερασματολογίας, αν και χρησιμοποιούν διαφορετικούς όρους.

See also

References

  1. 1,0 1,1 http://www.britannica.com/EBchecked/topic/1116194/machine-learning  This tertiary source reuses information from other sources but does not name them.
  2. Phil Simon (18 Μαρτίου 2013). Too Big to Ignore: The Business Case for Big Data. Wiley. σελ. 89. ISBN 978-1-118-63817-0. 
  3. Ron Kohavi; Foster Provost (1998). «Glossary of terms». Machine Learning 30: 271–274. http://ai.stanford.edu/~ronnyk/glossary.html. 
  4. 4,0 4,1 4,2 4,3 Machine learning and pattern recognition "can be viewed as two facets of the same field."
  5. Wernick, Yang, Brankov, Yourganov and Strother, Machine Learning in Medical Imaging, IEEE Signal Processing Magazine, vol. 27, no. 4, July 2010, pp. 25-38
  6. Mannila, Heikki (1996). «Data mining: machine learning, statistics, and databases». Int'l Conf. Scientific and Statistical Database Management. IEEE Computer Society. 
  7. Friedman, Jerome H. (1998). «Data Mining and Statistics: What's the connection?». Computing Science and Statistics 29 (1): 3–9. 
  8. «Machine Learning: What it is and why it matters». www.sas.com. Ανακτήθηκε στις 29 Μαρτίου 2016. 
  9. Mitchell, T. (1997).
  10. Harnad, Stevan (2008), «The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence», στο: Epstein, Robert; Peters, Grace, επιμ., The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer, Kluwer, http://eprints.ecs.soton.ac.uk/12954/ 
  11. 11,0 11,1 11,2 11,3 11,4 Russell, Stuart; Norvig, Peter (2003) [1995].
  12. 12,0 12,1 Langley, Pat (2011). «The changing science of machine learning». Machine Learning 82 (3): 275–279. doi:10.1007/s10994-011-5242-y. 
  13. Le Roux, Nicolas; Bengio, Yoshua; Fitzgibbon, Andrew (2012). «Improving First and Second-Order Methods by Modeling Uncertainty». Optimization for Machine Learning. MIT Press, σελ. 404. 
  14. 14,0 14,1 MI Jordan (10 Σεπτεμβρίου 2014). «statistics and machine learning». reddit. Ανακτήθηκε στις 1 Οκτωβρίου 2014. 
  15. Cornell University Library. «Breiman  : Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author)». Ανακτήθηκε στις 8 Αυγούστου 2015. 
  16. Gareth James· Daniela Witten· Trevor Hastie· Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. σελ. vii. 
  17. Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, ISBN 0-387-31073-8 
  18. Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, MIT Press ISBN 978-0-262-01825-8.
  19. Ethem Alpaydin.