Απλή γραμμική παλινδρόμηση

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Μετάβαση σε: πλοήγηση, αναζήτηση
Παράδειγμα απλής γραμμικής παλινδρόμησης. Έχουμε ένα διάγραμμα διασποράς τιμών \{y_i, x_i\} με ανεξάρτητη μεταβλητή την x. Σκοπός είναι να βρεθεί μια ευθεία γραμμή  f(x) = y = \alpha + \beta x, \, (κόκκινη ευθεία) η οποία θα "ταιριάζει" καλύτερα στο πλήθος των σημείων.

Στην στατιστική, γραμμική παλινδρόμηση είναι μια προσέγγιση μοντελοποίησης της σχέσης μιας απλής εξαρτημένης (dependent) μεταβλητής y με μια ή περισσότερες ανεξάρτητες (independent) / μη ερμηνευτικές (explanatory) μεταβλητές \{x_1, x_2, \ldots, x_n \}. Η μεταβλητή/ες x_i δεν θεωρείται/ούνται τυχαία/ες ενώ η y θεωρείται τυχαία μεταβλητή. Στην περίπτωση που έχουμε μια μόνο ανεξάρτητη / ερμηνευτική μεταβλητή  x τότε η μοντελοποίηση ονομάζεται απλή γραμμική παλινδρόμηση (Αγγλικά: simple linear regression). [1]

Απλοποιημένη περιγραφή[Επεξεργασία | επεξεργασία κώδικα]

Στην απλή γραμμική παλινδρόμηση έχουμε ένα σύνολο με δείγματα τιμών \{x_i,y_i\}. Σκοπός είναι να βρούμε ένα απλό μαθηματικό μοντέλο, το οποίο να περιγράφει την σχέση αυτών των δύο μεταβλητών την  x και την y. Το απλό μαθηματικό μοντέλο που αναζητούμε είναι μια ευθεία γραμμή της μορφής  f(x) = y = \alpha + \beta x, η οποία "ταιριάζει" καλύτερα στο σύνολο των δειγμάτων. Έχοντας αυτό το μοντέλο μπορούμε να "προβλέψουμε" τις τιμές του  y για νέες τιμές του  x . Η μεθοδολογία αυτή χρησιμοποιείται στην μηχανική μάθηση (machine learning). Στο παρακάτω παράδειγμα έχουμε τα σημεία \{x_i,y_i\} όπου η ανεξάρτηση μεταβλητή x δηλώνει τα τετραγωνικά εκατοστά ενός σπιτιού ενώ η εξαρτημένη μεταβλητή y δηλώνει την τιμή πώλησης του σπιτιού.

x (σπίτι m^2) y (τιμή ευρώ)
100 100.000
105 90.000
80 85.000
\vdots \vdots

Με την μέθοδο της απλής γραμμική παλινδρόμησης ψάχνουμε να βρούμε μια ευθεία  f(x) = y = \alpha + \beta x, η οποία θα "ταιριάζει" καλύτερα στα δείγματα τιμών \{x_i,y_i\} που έχουμε. Ουσιαστικά ψάχνουμε να βρούμε τις κατάλληλες τιμές \alpha και \beta. Στο παρακάτω παράδειγμα έχουμε τα σημεία \{x_i,y_i\} όπου η ανεξάρτηση μεταβλητή x δηλώνει τα τετραγωνικά μέτρα ενώ η εξαρτημένη μεταβλητή y την τιμή πώλησης του σπιτιού. Η συνάρτηση  f(x) = y = \alpha + \beta x, στην μηχανική μάθηση χαρακτηρίζεται ως συνάρτηση "υπόθεσης". Με βάση αυτήν την συνάρτηση υπόθεσης μπορούμε να προβλέψουμε (με κάποιο σχετικό σφάλμα) τις τιμές πώλησης σπιτιών με τετραγωνικά για τα οποία δεν έχουμε τιμές στο δείγμα τιμών \{x_i,y_i\}.

Περιγραφή[Επεξεργασία | επεξεργασία κώδικα]

Έστω ότι έχουμε n σημεία \{y_i, x_i\}, όπου   i, \ldots , n . Ο στόχος είναι να βρούμε την συνάρτηση που δημιουργεί μια ευθεία γραμμή

 f(x) = y = \alpha + \beta x,

η οποία θα "ταιριάζει" καλύτερα για το πλήθος των σημείων \{x_i, y_i\} [2]. Η ευθεία  f(x) ονομάζεται ευθεία γραμμικής παλινδρόμησης και είναι ένα απλό μοντέλο το οποίο συνδέει/συσχετίζει τα  x_i με τα αντίστοιχα  y_i σημεία. [3]

Μέθοδος των Ελάχιστων Τετραγώνων[Επεξεργασία | επεξεργασία κώδικα]

Για να βρεθεί αυτή η ευθεία  f(x) , δηλαδή οι παράμετροι  \alpha και  \beta μπορεί να χρησιμοποιηθεί η Μέθοδος των Ελαχίστων Τετραγώνων η οποία πρωτοεμφανίστηκε το 1805 σε μια εργασία του Γάλλου μαθηματικού Legendre (1752-1833) και στην συνέχεια στον Γερμανό μαθηματικό Gauss (177-1855) στην αστρονομική εργασία Theoria Motus όπου προσδιοριζόταν η τροχιά του μικρού πλανήτη Δήμητρα. [4] Προσπαθούμε να βρούμε μια ευθεία όπου η απόσταση κάθε σημείου \{x_i, y_i\} είναι ελάχιστη:

Βρες \min_{\alpha,\,\beta}Q(\alpha,\beta), όπου  Q(\alpha,\beta) = \sum_{i=1}^n\hat{\varepsilon}_i^{\,2} = \sum_{i=1}^n (y_i - \alpha - \beta x_i)^2\

Χρησιμοποιώντας απειροστικό λογισμό, την γεωμετρία του εσωτερικού γινόμενου ή απλά αναπτύσσοντας την συνάρτηση μπορεί να δειχθεί ότι οι τιμές  \alpha και  \beta οι οποίες ελαχιστοποιούν την συνάρτηση Q(\alpha,\beta) [5] είναι

\begin{align}
  \hat\beta & = \frac{ \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y}) }{ \sum_{i=1}^{n} (x_{i}-\bar{x})^2 }
              = \frac{ \sum_{i=1}^{n}{x_{i}y_{i}} - \frac1n \sum_{i=1}^{n}{x_{i}}\sum_{j=1}^{n}{y_{j}}}{ \sum_{i=1}^{n}({x_{i}^2}) - \frac1n (\sum_{i=1}^{n}{x_{i}})^2 } \\[6pt]
            & = \frac{ \overline{xy} - \bar{x}\bar{y} }{ \overline{x^2} - \bar{x}^2 }   
              = \frac{ \operatorname{Cov}[x,y] }{ \operatorname{Var}[x] }
              = r_{xy} \frac{s_y}{s_x}, \\[6pt]
 \hat\alpha & = \bar{y} - \hat\beta\,\bar{x},
\end{align}

όπου r_{xy} είναι μια παράμετρος συσχέτισης μεταξύ x και y, το s_x είναι η τυπική απόκλιση του x, και s_y είναι αντίστοιχα η τυπική απόκλιση του y. Η οριζόντια γραμμή πάνω από μια μεταβλητή δηλώνει τον απλό μέσο όρο της μεταβλητής. Για παράδειγμα: \overline{xy} = \tfrac{1}{n}\textstyle\sum_{i=1}^n x_iy_i\ . Τα "α καπέλο" \hat\alpha και "b καπέλο" \hat\beta ονομάζονται εκτιμήτριες ελάχιστων τετραγώνων [4].

Αντικαθιστώντας τις παραπάνω μαθηματικές εκφράσεις για τις παραμέτρους \hat\alpha και \hat\beta στο

 y = \hat\alpha + \hat\beta x, \,

δίνει

\frac{ y-\bar{y}}{s_y} = r_{xy} \frac{ x-\bar{x}}{s_x}

Αυτό δείχνει ότι το r_{xy} έχει το ρόλο της γραμμής παλινδρόμησης για τα σημεία. Η συνάρτηση  y = \hat\alpha + \hat\beta x, \, λέγεται ευθεία ελαχίστων τετραγώνων ή ευθεία παλινδρόμησης [4]. Σε προβλήματα μηχανικής μάθησης η συνάρτηση αυτή λέγεται συνάρτηση υπόθεσης και συμβολίζεται ως  h_\theta(x) = \theta_0 + \theta_1x (το \hat\alpha \hat\beta είναι οι παράμετροι \theta_0 και \theta_1 αντίστοιχα).

Αλγόριθμος απότομης καθόδου[Επεξεργασία | επεξεργασία κώδικα]

Σε προβλήματα μηχανικής μάθησης χρησιμοποιείται ο αλγόριθμος απότομης καθόδου, γνωστός και ως αλγόριθμος σύγκλισης με ελάττωση της παραγώγου (Αγγλικά: Gradient descent). Έχουμε τη συνάρτηση υπόθεσης (η οποία είναι συνάρτηση γραμμικής παλινδρόμησης)  h_\theta(x) = \theta_0 + \theta_1x και θέλουμε να ελαχιστοποιήσουμε την συνάρτηση κόστους ελάχιστων τετραγώνων  \min_{\theta_0 ,\theta_1} J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2 όπου m είναι ο αριθμός των δειγμάτων \{y_i, x_i\}. Ο αλγόριθμος της απότομης καθόδου ξεκινάει με αρχικές τιμές \theta_0 και \theta_1 και αλλάζοντας τιμές στο \theta_0 και \theta_1 προσπαθεί να συγκλίνει σε τιμές που ελαχιστοποιούν της συνάρτησης κόστους J(\theta_0,\theta_1) [6]:

Επανάληψη μέχρι την σύγκλιση: \theta_j = \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1) με j=1 και j=2 με ταυτόχρονη ενημέρωση του \theta_0 , \theta_1

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. Μπούτσικας Μιχαήλ. «Απλή Γραμμική Παλινδρόμηση (Simple Linear Regression)». Σημειώσεις μαθήματος "Στατιστικά Προγράμματα". Πανεπιστήμιο Πειραιώς. http://www.unipi.gr/faculty/mbouts/statprog/SPSS_lesson9-10.pdf. Ανακτήθηκε στις 2013-04-30. 
  2. «Squared Error of Regression Line». khanacademy.org. https://www.khanacademy.org/math/probability/regression/regression-correlation/v/squared-error-of-regression-line. Ανακτήθηκε στις 2013-04-29. 
  3. Γεώργιος Σ. Ανδρουλάκης. «Γραμμική παλινδρόμηση». Πανεπιστήμιο Πατρών. http://androulakis.bma.upatras.gr/mediawiki/index.php/%CE%93%CF%81%CE%B1%CE%BC%CE%BC%CE%B9%CE%BA%CE%AE_%CF%80%CE%B1%CE%BB%CE%B9%CE%BD%CE%B4%CF%81%CF%8C%CE%BC%CE%B7%CF%83%CE%B7. Ανακτήθηκε στις 2013-04-30. 
  4. 4,0 4,1 4,2 Αδαμόπουλος Λεωνίδας, Δαμιανού Χαράλαμπος, Σβέρκος Ανδρέας. «Γραμμική Παλινδρόμηση». Μαθηματικά και Στοιχεία Στατιστικής - Βιβλίο Γ Λυκείου. Οργανισμός Εκδόσεων Διδακτικών Βιβλίων - Υπουργειο Παιδείας. http://digitalschool.minedu.gov.gr/modules/ebook/show.php/DSGL-C100/493/3203,13013/. Ανακτήθηκε στις 2013-04-30. 
  5. Kenney, J. F. and Keeping, E. S.. Linear Regression and Correlation - Ch. 15 in Mathematics of Statistics Pt. 1. NJ: Van Nostrand: Princeton 3rd ed.. σελ. 252-285. 
  6. Andrew Ng. «Linear Regression - LMS algorithm». CS229 Lecture notes. Standford University. σσ. 4-7. http://cs229.stanford.edu/notes/cs229-notes1.pdf. Ανακτήθηκε στις 2013-05-20. 
Στο λήμμα αυτό έχει ενσωματωθεί κείμενο από το λήμμα Simple linear regression της Αγγλικής Βικιπαίδειας, η οποία διανέμεται υπό την GNU FDL και την CC-BY-SA 3.0. (ιστορικό/συντάκτες).