Μετάβαση στο περιεχόμενο

Πίνακας προβολής

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια

Στη στατιστική, ο πίνακας προβολής ,[1] που μερικές φορές ονομάζεται επίσης πίνακας επιρροής[2] ή πίνακας καπέλου , απεικονίζει το διάνυσμα των τιμών απόκρισης (τιμές εξαρτημένης μεταβλητής) στο διάνυσμα των προσαρμοσμένων τιμών (ή προβλεπόμενων τιμών). Περιγράφει την επιρροή που έχει κάθε τιμή απόκρισης σε κάθε προσαρμοσμένη τιμή.[3][4] Τα διαγώνια στοιχεία του πίνακα προβολής είναι οι μοχλεύσεις, οι οποίες περιγράφουν την επιρροή που έχει κάθε τιμή απόκρισης στην προσαρμοσμένη τιμή για την ίδια παρατήρηση.

Αν το διάνυσμα των τιμών απόκρισης συμβολίζεται με και το διάνυσμα των προσαρμοσμένων τιμών με ,

Καθώς το συνήθως προφέρεται «y-hat», ο πίνακας προβολής ονομάζεται επίσης πίνακας καπέλου καθώς «βάζει ένα καπέλο[5] στο ».

Εφαρμογή για τα υπόλοιπα

[Επεξεργασία | επεξεργασία κώδικα]

Ο τύπος για το διάνυσμα των υπολοίπων μπορεί επίσης να εκφραστεί συμπαγώς χρησιμοποιώντας τον πίνακα προβολής:

όπου είναι ο πίνακας ταυτότητας. Ο πίνακας αναφέρεται μερικές φορές ως πίνακας υπολειμματικού δημιουργού ή πίνακας εξουδετέρωσης.

Ο πίνακας συνδιακύμανσης των υπολοίπων , με διάδοση σφάλματος, ισούται με

,

όπου είναι ο πίνακας συνδιακύμανσης του διανύσματος σφάλματος (και κατ' επέκταση και του διανύσματος απόκρισης). Για την περίπτωση των γραμμικών προτύπων με ανεξάρτητα και πανομοιότυπα κατανεμημένα σφάλματα στα οποία , αυτό ανάγεται σε:[3]

.
Ένας πίνακας, έχει το χώρο των στηλών του απεικονιζόμενο ως πράσινη γραμμή. Η προβολή κάποιου διανύσματος στο χώρο των στηλών του είναι το διάνυσμα

Από το σχήμα, είναι σαφές ότι το πλησιέστερο σημείο από το διάνυσμα στο χώρο των στηλών του , είναι το , και είναι ένα σημείο όπου μπορούμε να σχεδιάσουμε μια ευθεία ορθογώνια στο χώρο των στηλών του . Ένα διάνυσμα που είναι ορθογώνιο στο χώρο των στηλών ενός πίνακα βρίσκεται στο μηδενικό χώρο του μετασχηματισμού του πίνακα, οπότε

.

Από εκεί και πέρα, αναδιατάσσεται, έτσι

.

Επομένως, δεδομένου ότι ο βρίσκεται στο χώρο των στηλών του , του πίνακα προβολής, ο οποίος απεικονίζει τον πάνω στον είναι απλά , ή .

Ας υποθέσουμε ότι επιδιώκουμε να εκτιμήσουμε ένα γραμμικό πρότυπο με τη χρήση γραμμικών ελαχίστων τετραγώνων. Το πρότυπο μπορεί να γραφεί ως εξής

όπου είναι ένας πίνακας επεξηγηματικών μεταβλητών (ο πίνακας σχεδιασμού), β είναι ένα διάνυσμα άγνωστων παραμέτρων προς εκτίμηση και ε είναι το διάνυσμα σφάλματος.

Πολλοί τύποι μοντέλων και τεχνικών υπόκεινται σε αυτή τη διατύπωση. Μερικά παραδείγματα είναι τα γραμμικά ελάχιστα τετράγωνα, τα splines εξομάλυνσης, τα splines παλινδρόμησης, η τοπική παλινδρόμηση, η παλινδρόμηση πυρήνα και το γραμμικό φιλτράρισμα.

Συνήθης μέθοδος ελαχίστων τετραγώνων

[Επεξεργασία | επεξεργασία κώδικα]

Όταν τα βάρη για κάθε παρατήρηση είναι πανομοιότυπα και τα σφάλματα είναι ασυσχέτιστα, οι εκτιμώμενες παράμετροι είναι

έτσι οι προσαρμοσμένες τιμές είναι

Επομένως, ο πίνακας προβολής (και ο πίνακας καπέλου) δίνεται από τη σχέση

Σταθμισμένα και γενικευμένα ελάχιστα τετράγωνα

[Επεξεργασία | επεξεργασία κώδικα]

Τα παραπάνω μπορούν να γενικευτούν στις περιπτώσεις όπου τα βάρη δεν είναι ίδια ή/και τα σφάλματα συσχετίζονται. Ας υποθέσουμε ότι ο πίνακας συνδιακύμανσης των σφαλμάτων είναι Σ. Τότε αφού

.

ο πίνακας καπέλου είναι συνεπώς

και πάλι μπορούμε να δούμε ότι , αν και τώρα δεν είναι πλέον συμμετρική.

Ο πίνακας προβολής έχει ορισμένες χρήσιμες αλγεβρικές ιδιότητες[6][7]. Στη γλώσσα της γραμμικής άλγεβρας, ο πίνακας προβολής είναι η ορθογώνια προβολή στο χώρο των στηλών του πίνακα σχεδιασμού .[4] (Σημειώστε ότι είναι το ψευδοαντίστροφο του X). Ορισμένα γεγονότα του πίνακα προβολής σε αυτό το περιβάλλον συνοψίζονται ως εξής:[4]

  • και
  • είναι συμμετρικός, και το ίδιο ισχύει και για το .
  • είναι αδύναμος: , και έτσι είναι .
  • Αν είναι ένας n × r πίνακας με , τότε
  • Οι ιδιοτιμές του αποτελούνται από r μονάδες και n - r μηδενικά, ενώ οι ιδιοτιμές της αποτελούνται από n - r μονάδες και r μηδενικά. [8]
  • είναι αναλλοίωτος κάτω από  : ως εκ τούτου .
  • είναι μοναδικός για ορισμένους υποχώρους.

Ο πίνακας προβολής που αντιστοιχεί σε ένα γραμμικό πρότυπο είναι συμμετρικός και ιδιοσυστατικός, δηλαδή, . Ωστόσο, αυτό δεν ισχύει πάντα- στην εξομάλυνση τοπικά σταθμισμένων διασπορών (LOESS), παραδείγματος χάριν, ο πίνακας καπέλου δεν είναι γενικά ούτε συμμετρικός ούτε ιδιοσυστατικός.

Για τα γραμμικά πρότυπα, το ίχνος του πίνακα προβολής είναι ίσο με την τάξη του , η οποία είναι ο αριθμός των ανεξάρτητων παραμέτρων του γραμμικού προτύπου[9]. Για άλλα πρότυπα όπως το LOESS που εξακολουθούν να είναι γραμμικά στις παρατηρήσεις , ο πίνακας προβολής μπορεί να χρησιμοποιηθεί για τον ορισμό των πραγματικών βαθμών ελευθερίας του μοντέλου.

Οι πρακτικές εφαρμογές του πίνακα προβολής στην ανάλυση παλινδρόμησης περιλαμβάνουν τη μόχλευση και την απόσταση του Κουκ, οι οποίες αφορούν τον εντοπισμό παρατηρήσεων με επιρροή, δηλαδή παρατηρήσεων που έχουν μεγάλη επίδραση στα αποτελέσματα μιας παλινδρόμησης.

Ας υποθέσουμε ότι ο πίνακας σχεδιασμού μπορεί να αναλυθεί ανά στήλες ως X. Ορίζουμε τον τελεστή καπέλου ή προβολής ως . Ομοίως, ορίστε τον τελεστή υπολοίπου ως . Τότε ο πίνακας προβολής μπορεί να αναλυθεί ως εξής:[10]

Τότε ο πίνακας προβολής μπορεί να αναλυθεί ως εξής:[11]

όπου, π.χ., και . Υπάρχουν πολλές εφαρμογές μιας τέτοιας αποσύνθεσης. Στην κλασική εφαρμογή είναι μια στήλη όλων των μονάδων, η οποία επιτρέπει την ανάλυση των αποτελεσμάτων της προσθήκης ενός όρου παρεμβολής σε μια παλινδρόμηση. Μια άλλη χρήση είναι στο μοντέλο σταθερών επιδράσεων, όπου είναι ένας μεγάλος αραιός πίνακας των ψευδομεταβλητών για τους όρους σταθερών επιδράσεων. Μπορεί κανείς να χρησιμοποιήσει αυτή την κατάτμηση για να υπολογίσει τον πίνακα καπέλου του χωρίς να σχηματίσει ρητά τον πίνακα , ο οποίος μπορεί να είναι πολύ μεγάλος για να χωρέσει στη μνήμη του υπολογιστή.

Ο πίνακας καπέλου εισήχθη από τον Τζον Γουάιλντερ το 1972. Ένα άρθρο των Χόγκλιν, D.C. και Γουέλς, R.E. (1978) παρουσιάζει τις ιδιότητες του πίνακα καθώς και πολλά παραδείγματα εφαρμογής του.

Εξωτερικοί σύνδεσμοι

[Επεξεργασία | επεξεργασία κώδικα]
  1. Basilevsky, Alexander (2005). Applied Matrix Algebra in the Statistical Sciences. Dover. σελίδες 160–176. ISBN 0-486-44538-0. 
  2. «Data Assimilation: Observation influence diagnostic of a data assimilation system» (PDF). Αρχειοθετήθηκε από το πρωτότυπο (PDF) στις 3 Σεπτεμβρίου 2014. 
  3. 3,0 3,1 Hoaglin, David C.; Welsch, Roy E. (February 1978). «The Hat Matrix in Regression and ANOVA». The American Statistician 32 (1): 17–22. doi:10.2307/2683469. http://dspace.mit.edu/bitstream/1721.1/1920/1/SWP-0901-02752210.pdf. 
  4. 4,0 4,1 4,2 David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press. 
  5. Jidan (4 Μαρτίου 2021). «How to write a hat(^) symbol in LaTeX?». Physicsread (στα Αγγλικά). Ανακτήθηκε στις 27 Ιουλίου 2024. 
  6. Gans, P. (1992). Data Fitting in the Chemical SciencesΑπαιτείται δωρεάν εγγραφή. Wiley. ISBN 0-471-93412-7. 
  7. Draper, N. R.· Smith, H. (1998). Applied Regression Analysis. Wiley. ISBN 0-471-17082-8. 
  8. Amemiya, Takeshi (1985). Advanced EconometricsΑπαιτείται δωρεάν εγγραφή. Cambridge: Harvard University Press. σελίδες 460–461. ISBN 0-674-00560-0. 
  9. «Proof that trace of 'hat' matrix in linear regression is rank of X». Stack Exchange. 13 Απριλίου 2017. 
  10. Rao, C. Radhakrishna· Toutenburg, Helge· Shalabh· Heumann, Christian (2008). Linear Models and GeneralizationsΔωρεάν πρόσβαση υπoκείμενη σε περιορισμένη δοκιμή, συνήθως απαιτείται συνδρομή (3rd έκδοση). Berlin: Springer. σελ. 323. ISBN 978-3-540-74226-5. 
  11. Rao, C. Radhakrishna· Toutenburg, Helge· Shalabh· Heumann, Christian (2008). Linear Models and GeneralizationsΔωρεάν πρόσβαση υπoκείμενη σε περιορισμένη δοκιμή, συνήθως απαιτείται συνδρομή (3rd έκδοση). Berlin: Springer. σελ. 323. ISBN 978-3-540-74226-5. 
  • Janko Bračič, Kolobar aritmetičnih funkcij (Ring of arithmetical functions), (Obzornik mat, fiz. 49 (2002) 4, pp. 97–108) (MSC (2000) 11A25)
  • Iwaniec and Kowalski, Analytic number theory, AMS (2004).