Συντελεστής συσχέτισης Σπίαρμαν

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
(Ανακατεύθυνση από Συντελεστής συσχέτισης spearman)
Μια συσχέτιση Σπίαρμαν 1 προκύπτει όταν οι δύο μεταβλητές που συγκρίνονται σχετίζονται μονοτονικά, έστω και αν η σχέση τους δεν είναι γραμμική. Αντίθετα, αυτό δεν δίνει μια τέλεια συσχέτιση Πίαρσον.
Όταν τα δεδομένα είναι περίπου ελλειπτικά κατανεμημένα και δεν υπάρχουν εμφανείς ακραίες τιμές, η συσχέτιση Σπίαρμαν και Πίαρσον δίνουν παρόμοιες τιμές.
Η συσχέτιση Σπίαρμαν είναι λιγότερο ευαίσθητη από τη συσχέτιση Πίαρσον σε ισχυρά ακραίες τιμές που βρίσκονται στην ουρά των δύο δειγμάτων.

Στη στατιστική, ο συντελεστής συσχέτισης Σπίαρμαν (Spearman) που πήρε το όνομά του από τον Τσαρλς Σπίαρμαν και συχνά συμβολίζεται με το ελληνικό γράμμα ρ ή ως , είναι ένα μη-παραμετρικό μέτρο της στατιστικής εξάρτησης μεταξύ δύο μεταβλητών. Αξιολογεί το πόσο καλά μπορεί να περιγραφεί η σχέση μεταξύ των δύο μεταβλητών χρησιμοποιώντας μια μονότονη συνάρτηση. Εάν δεν υπάρχουν επαναλαμβανόμενες τιμές των δεδομένων, μια τέλεια συσχέτιση Σπίαρμαν κατά +1 ή -1 συμβαίνει όταν κάθε μία από τις μεταβλητές είναι μια τέλεια μονότονη συνάρτηση της άλλης. Ο συντελεστής Σπίαρμαν, όπως κάθε συντελεστής συσχέτισης, είναι κατάλληλος και για συνεχείς και για διακριτές μεταβλητές, συμπεριλαμβανομένων των τακτικών διακριτών μεταβλητών.

Ορισμός και υπολογισμός[Επεξεργασία | επεξεργασία κώδικα]

Ο συντελεστής συσχέτισης Σπίαρμαν ορίζεται όπως ο συντελεστής συσχέτισης Πίαρσον μεταξύ των μεταβλητών κατάταξης[εκκρεμεί παραπομπή].Οι n πρώτες βαθμολογίες μετατρέπονται σε κατατάξεις , και ο ρ υπολογίζεται από:

Στις ίσες τιμές απονέμεται κατάταξη ίση με το μέσο όρο των θέσεών τους στην αύξουσα σειρά των τιμών. Στον πίνακα που ακολουθεί, παρατηρήστε πώς η κατάταξη των τιμών που είναι ίδιες, είναι ο μέσος όρος των τάξεων που θα είχαν διαφορετικά:

Μεταβλητή Θέση στην φθίνουσα σειρά Κατάταξη
0.8 1 1
1.2 2
1.2 3
2.3 4 4
18 5 5

Σε εφαρμογές που είναι γνωστό ότι είναι δεν υπάρχει ισοψηφία, μπορεί να χρησιμοποιηθεί μια απλούστερη διαδικασία για τον υπολογισμό του ρ. Υπολογίζονται οι διαφορές ανάμεσα στις τάξεις της κάθε παρατήρησης των δύο μεταβλητών, και ο ρ δίνεται από τον τύπο:

[1]

Σχετικές ποσότητες[Επεξεργασία | επεξεργασία κώδικα]

Υπάρχουν διάφορα άλλα αριθμητικά μέτρα που προσδιορίζουν την έκταση της στατιστικής εξάρτησης μεταξύ των ζευγαριών των παρατηρήσεων. Το πιο κοινό από αυτά είναι ο συντελεστής συσχέτισης προϊόν-στιγμή του Πίαρσον (Pearson product-moment).

Ένα εναλλακτικό όνομα για τη συσχέτιση κατάταξης Σπίαρμαν είναι ο "βαθμός συσχέτισης". Σε αυτό, η «κατάταξη» μιας παρατήρησης αντικαθίσταται από το «βαθμό». Σε συνεχείς κατανομές, ο βαθμός μιας παρατήρησης είναι, κατά συνθήκη, πάντα το μισό λιγότερο από την κατάταξη, και ως εκ τούτου, σε αυτήν την περίπτωση, οι συσχετίσεις βαθμού και κατάταξης είναι οι ίδιες. Αν και ασυνήθιστο, ο όρος «βαθμός συσχέτισης» είναι ακόμα σε χρήση.

Ερμηνεία[Επεξεργασία | επεξεργασία κώδικα]

Ένας θετικός συντελεστής συσχέτισης Σπίαρμαν αντιστοιχεί σε μια αύξουσα μονότονη τάση μεταξύ Χ και Υ.
Ένας αρνητικός συντελεστής συσχέτισης Σπίαρμαν αντιστοιχεί σε μια φθίνουσα μονότονη τάση μεταξύ Χ και Υ.

Το πρόσημο της συσχέτισης Σπίαρμαν δείχνει την κατεύθυνση της σχέσης μεταξύ της Χ (ανεξάρτητη μεταβλητή) και της Υ (εξαρτημένη μεταβλητή). Εάν η Υ τείνει να αυξάνεται όταν η Χ αυξάνει, ο συντελεστής συσχέτισης Σπίαρμαν είναι θετικός. Εάν η Υ τείνει να μειώνεται όταν η Χ αυξάνει, ο συντελεστής συσχέτισης Σπίαρμαν είναι αρνητικός. Μια μηδενική συσχέτιση Spearman δείχνει ότι δεν υπάρχει τάση για την Υ είτε να αυξηθεί ή να μειωθεί, όταν η Χ αυξάνει. Η συσχέτιση Spearman αυξάνει σε μέγεθος, όταν η Χ και η Υ είναι πιο κοντά στο να είναι τέλειες μονότονες συναρτήσεις η μία της άλλης.. Όταν η Χ και η Υ έχουν απόλυτη μονοτονική σχέση, ο συντελεστής συσχέτισης Spearman γίνεται 1.

Μια τέλεια μονότονα αυξανόμενη σχέση σημαίνει, για κάθε δύο ζεύγη τιμών δεδομένων XiYi και XjYj, ότι Xi − Xj και Yi − Yj έχουν πάντα το ίδιο πρόσημο. Μια τέλεια μονότονη φθίνουσα σχέση σημαίνει ότι αυτές οι διαφορές έχουν πάντα αντίθετα πρόσημα.

Ο συντελεστής συσχέτισης Spearman συχνά περιγράφεται ως "μη παραμετρικός." Αυτό μπορεί να έχει δύο έννοιες. Πρώτον, το γεγονός ότι μια τέλεια συσχέτιση Spearman προκύπτει όταν Χ και Υ σχετίζονται με οποιαδήποτε μονότονη συνάρτηση, που μπορεί να αντιπαραβληθεί με τη συσχέτιση Pearson, η οποία δίνει μόνο μια τέλεια τιμή όταν X και Υ σχετίζονται με μια γραμμική συνάρτηση. Η άλλη έννοια με την οποία ο συσχετισμός Spearman είναι μη παραμετρικός είναι ότι η ακριβής κατανομή της δειγματοληψίας του μπορεί να ληφθεί χωρίς να απαιτείται γνώση της κοινής κατανομής πιθανότητας της Χ και Υ.

Παράδειγμα[Επεξεργασία | επεξεργασία κώδικα]

Σε αυτό το παράδειγμα, θα χρησιμοποιήσουμε τα δεδομένα στον παρακάτω πίνακα για τον υπολογισμό της συσχέτισης μεταξύ της νοημοσύνης (IQ) ενός ατόμου με τον αριθμό των ωρών που βλέπει τηλεόραση την εβδομάδα.

IQ, Ώρες τηλεόρασης ανά εβδομάδα,
106 7
86 0
100 27
101 50
99 28
103 29
97 20
113 12
112 6
110 17

Πρώτα, πρέπει να βρούμε την τιμή του όρου . Για να γίνει αυτό χρησιμοποιούμε τα ακόλουθα βήματα, που φαίνονται στον παρακάτω πίνακα.

  1. Ταξινομούμε τα στοιχεία από την πρώτη στήλη (). Δημιουργούμε μια νέα στήλη και της δίνουμε τις τιμές 1,2,3,...n σύμφωνα με την κατάταξη.
  2. Στη συνέχεια, ταξινομούμε τα δεδομένα από τη δεύτερη στήλη (). Δημιουργούμε μια τέταρτη στήλη και ομοίως δίνουμε τις τιμές 1,2,3,...n.
  3. Δημιουργούμε μια πέμπτη στήλη που δίνει τη διαφορά της κατάταξης μεταξύ των δύο τελευταίων στηλών ( and ).
  4. Δημιουργούμε μια τελευταία στήλη που δίνει την τιμή της στήλης στο τετράγωνο.
IQ, Ώρες τηλεόρασης ανά εβδομάδα, κατάταξη κατάταξη
86 0 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36

Αφού βρήκαμε τα , μπορούμε να τα προσθέσουμε για να βρούμε . Η τιμή του n είναι 10. Έτσι, οι τιμές αυτές μπορούν πλέον να αντικατασταθούν πίσω στην εξίσωση,

η οποία αξιολογεί το ρ = −0.175757575... με μία αξία-ρ = 0.6864058 (χρησιμοποιώντας την κατανομή student). Αυτή η χαμηλή τιμή δείχνει ότι η συσχέτιση μεταξύ του δείκτη νοημοσύνης και των ωρών ενασχόλησης με την τηλεόραση είναι πολύ χαμηλή.

Καθορίζοντας τη σημασία[Επεξεργασία | επεξεργασία κώδικα]

Μία προσέγγιση για τον έλεγχο του αν η παρατηρούμενη τιμή του ρ είναι σημαντικά διαφορετική από το μηδέν (r πάντα θα διατηρεί ότι 1 ≥ r ≥ −1) είναι να υπολογιστεί η πιθανότητα ότι θα είναι μεγαλύτερη ή ίση με την παρατηρηθείσα r, λαμβάνοντας υπόψη τη μηδενική υπόθεση, χρησιμοποιώντας μια αναδειγματοληψία. Μια άλλη προσέγγιση είναι παράλληλη με την χρήση του μετασχηματισμoού Fisher στην περίπτωση του συντελεστή συσχέτισης προϊόν-στιγμή του Πίαρσον. Δηλαδή, διαστήματα εμπιστοσύνης και έλεγχος υποθέσεων σχετικά με την τιμή ρ του πληθυσμού μπορούν να πραγματοποιηθούν με χρήση του μετασχηματισμού Φίσερ:

Αν F(r) είναι ο μετασχηματισμός fisher του r, ο συντελεστής συσχέτισης Σπίαρμαν του δείγματος, και n είναι το μέγεθος του δείγματος, τότε:

είναι ζ-σκορ για το r που ακολουθεί περίπου μια τυπική κανονική κατανομή κάτω από τη μηδενική υπόθεση της στατιστικής ανεξαρτησίας (ρ = 0).

Επίσης μπορεί να εξεταστεί η

που κατανέμεται περίπου όπως η κατανομή student με n − 2 βαθμούς ελευθερίας κάτω από τη μηδενική υπόθεση.

Πηγές και παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. Spearman's rho,εφαρμογή με χρήση excel
  • (Αγγλικά) G.W. Corder, D.I. Foreman, "Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach", Wiley (2009)
  • (Αγγλικά) C. Spearman, "The proof and measurement of association between two things" Amer. J. Psychol., 15 (1904) pp. 72–101
  • (Αγγλικά) M.G. Kendall, "Rank correlation methods", Griffin (1962)
  • (Αγγλικά) M. Hollander, D.A. Wolfe, "Nonparametric statistical methods", Wiley (1973)
  • (Αγγλικά) J. C. Caruso, N. Cliff, "Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho", Ed. and Psy. Meas., 57 (1997)