Συντελεστής συσχέτισης spearman

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Μετάβαση σε: πλοήγηση, αναζήτηση
Μια συσχέτιση Spearman 1 προκύπτει όταν οι δύο μεταβλητές που συγκρίνονται σχετίζονται μονοτονικά, έστω και αν η σχέση τους δεν είναι γραμμική. Αντίθετα, αυτό δεν δίνει μια τέλεια συσχέτιση Pearson.
Όταν τα δεδομένα είναι περίπου ελλειπτικά κατανεμημένα και δεν υπάρχουν εμφανείς ακραίες τιμές, η συσχέτιση Spearman και Pearson δίνουν παρόμοιες τιμές.
Η συσχέτιση Spearman είναι λιγότερο ευαίσθητη από τη συσχέτιση Pearson σε ισχυρά ακραίες τιμές που βρίσκονται στην ουρά των δύο δειγμάτων.

Στη στατιστική, ο συντελεστής συσχέτισης Spearman, που πήρε το όνομά του από τον Charles Spearman και συχνά συμβολίζεται με το ελληνικό γράμμα ρ ή ως r_s, είναι ένα μη-παραμετρικό μέτρο της στατιστικής εξάρτησης μεταξύ δύο μεταβλητών. Αξιολογεί το πόσο καλά μπορεί να περιγραφεί η σχέση μεταξύ των δύο μεταβλητών χρησιμοποιώντας μια μονότονη συνάρτηση. Εάν δεν υπάρχουν επαναλαμβανόμενες τιμές των δεδομένων, μια τέλεια συσχέτιση Spearman κατά +1 ή -1 συμβαίνει όταν κάθε μία από τις μεταβλητές είναι μια τέλεια μονότονη συνάρτηση της άλλης. Ο συντελεστής Spearman, όπως κάθε συντελεστής συσχέτισης, είναι κατάλληλος και για συνεχείς και για διακριτές μεταβλητές, συμπεριλαμβανομένων των τακτικών διακριτών μεταβλητών.


Ορισμός και υπολογισμός[Επεξεργασία | επεξεργασία κώδικα]

Ο συντελεστής συσχέτισης Spearman ορίζεται όπως ο συντελεστής συσχέτισης Pearson μεταξύ των μεταβλητών κατάταξης[εκκρεμεί παραπομπή].Οι n πρώτες βαθμολογίες X_i, Y_i μετατρέπονται σε κατατάξεις x_i, y_i, και ο ρ υπολογίζεται από:

 \rho = \frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_i (x_i-\bar{x})^2 \sum_i(y_i-\bar{y})^2}}.

Στις ίσες τιμές απονέμεται κατάταξη ίση με το μέσο όρο των θέσεών τους στην αύξουσα σειρά των τιμών. Στον πίνακα που ακολουθεί, παρατηρήστε πώς η κατάταξη των τιμών που είναι ίδιες, είναι ο μέσος όρος των τάξεων που θα είχαν διαφορετικά:

Variable X_i Position in the ascending order Κατάταξη x_i
0.8 1 1
1.2 2 \frac{2+3}{2}=2.5\
1.2 3 \frac{2+3}{2}=2.5\
2.3 4 4
18 5 5

Σε εφαρμογές που είναι γνωστό ότι είναι δεν υπάρχει ισοψηφία, μπορεί να χρησιμοποιηθεί μια απλούστερη διαδικασία για τον υπολογισμό του ρ. Υπολογίζονται οι διαφορές d_i = x_i - y_i ανάμεσα στις τάξεις της κάθε παρατήρησης των δύο μεταβλητών, και ο ρ δίνεται από τον τύπο:

 \rho = 1- {\frac {6 \sum d_i^2}{n(n^2 - 1)}}.[1]

Σχετικές ποσότητες[Επεξεργασία | επεξεργασία κώδικα]

Υπάρχουν διάφορα άλλα αριθμητικά μέτρα που προσδιορίζουν την έκταση της στατιστικής εξάρτησης μεταξύ των ζευγαριών των παρατηρήσεων. Το πιο κοινό από αυτά είναι ο συντελεστής συσχέτισης Pearson product-moment.

Ένα εναλλακτικό όνομα για τη συσχέτιση κατάταξης Spearman είναι ο "βαθμός συσχέτισης". Σε αυτό, η «κατάταξη» μιας παρατήρησης αντικαθίσταται από το «βαθμό». Σε συνεχείς κατανομές, ο βαθμός μιας παρατήρησης είναι, κατά συνθήκη, πάντα το μισό λιγότερο από την κατάταξη, και ως εκ τούτου, σε αυτήν την περίπτωση, οι συσχετίσεις βαθμού και κατάταξης είναι οι ίδιες. Αν και ασυνήθιστο, ο όρος «βαθμός συσχέτισης» είναι ακόμα σε χρήση.

Ερμηνεία[Επεξεργασία | επεξεργασία κώδικα]

Ένας θετικός συντελεστής συσχέτισης Spearman αντιστοιχεί σε μια αύξουσα μονότονη τάση μεταξύ Χ και Υ.
Ένας αρνητικός συντελεστής συσχέτισης Spearman αντιστοιχεί σε μια φθίνουσα μονότονη τάση μεταξύ Χ και Υ.

Το πρόσημο της συσχέτισης Spearman δείχνει την κατεύθυνση της σχέσης μεταξύ της Χ (ανεξάρτητη μεταβλητή) και της Υ (εξαρτημένη μεταβλητή). Εάν η Υ τείνει να αυξάνεται όταν η Χ αυξάνει, ο συντελεστής συσχέτισης Spearman είναι θετικός. Εάν η Υ τείνει να μειώνεται όταν η Χ αυξάνει, ο συντελεστής συσχέτισης Spearman είναι αρνητικός. Μια μηδενική συσχέτιση Spearman δείχνει ότι δεν υπάρχει τάση για την Υ είτε να αυξηθεί ή να μειωθεί, όταν η Χαυξάνει. Η συσχέτιση Spearman αυξάνει σε μέγεθος, όταν η Χ και η Υ είναι πιο κοντά στο να είναι τέλειες μονότονες συναρτήσεις η μία της άλλης.. Όταν η Χ και η Υ έχουν απόλυτη μονοτονική σχέση, ο συντελεστής συσχέτισης Spearman γίνεται 1.

Μια τέλεια μονότονα αυξανόμενη σχέση σημαίνει, για κάθε δύο ζεύγη τιμών δεδομένων XiYi και XjYj, ότι Xi − Xj και Yi − Yj έχουν πάντα το ίδιο πρόσημο. Μια τέλεια μονότονη φθίνουσα σχέση σημαίνει ότι αυτές οι διαφορές έχουν πάντα αντίθετα πρόσημα.

Ο συντελεστής συσχέτισης Spearman συχνά περιγράφεται ως "μη παραμετρικός." Αυτό μπορεί να έχει δύο έννοιες. Πρώτον, το γεγονός ότι μια τέλεια συσχέτιση Spearman προκύπτει όταν Χ και Υ σχετίζονται με οποιαδήποτε μονότονη συνάρτηση, που μπορεί να αντιπαραβληθεί με τη συσχέτιση Pearson, η οποία δίνει μόνο μια τέλεια τιμή όταν X και Υ σχετίζονται με μια γραμμική συνάρτηση. Η άλλη έννοια με την οποία ο συσχετισμός Spearman είναι μη παραμετρικός είναι ότι η ακριβής κατανομή της δειγματοληψίας του μπορεί να ληφθεί χωρίς να απαιτείται γνώση της κοινής κατανομής πιθανότητας της Χ και Υ.

Παράδειγμα[Επεξεργασία | επεξεργασία κώδικα]

Σε αυτό το παράδειγμα, θα χρησιμοποιήσουμε τα δεδομένα στον παρακάτω πίνακα για τον υπολογισμό της συσχέτισης μεταξύ της νοημοσύνης (IQ) ενός ατόμου με τον αριθμό των ωρών που βλέπει τηλεόραση την εβδομάδα.

IQ, X_i Ώρες τηλεόρασης ανά εβδομάδα, Y_i
106 7
86 0
100 27
101 50
99 28
103 29
97 20
113 12
112 6
110 17

Πρώτα, πρέπει να βρούμε την τιμή του όρου d^2_i. Για να γίνει αυτό χρησιμοποιούμε τα ακόλουθα βήματα, που φαίνονται στον παρακάτω πίνακα.

  1. Ταξινομούμε τα στοιχεία από την πρώτη στήλη (X_i). Δημιουργούμε μια νέα στήλη x_i και της δίνουμε τις τιμές 1,2,3,...n σύμφωνα με την κατάταξη.
  2. Στη συνέχεια, ταξινομούμε τα δεδομένα από τη δεύτερη στήλη (Y_i). Δημιουργούμε μια τέταρτη στήλη y_i και ομοίως δίνουμε τις τιμές 1,2,3,...n.
  3. Δημιουργούμε μια πέμπτη στήλη d_i που δίνει τη διαφορά της κατάταξης μεταξύ των δύο τελευταίων στηλών (x_i and y_i).
  4. Δημιουργούμε μια τελευταία στήλη d^2_i που δίνει την τιμή της στήλης d_i στο τετράγωνο.
IQ, X_i Ώρες τηλεόρασης ανά εβδομάδα, Y_i κατάταξη x_i κατάταξη y_i d_i d^2_i
86 0 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36

Αφού βρήκαμε τα d^2_i , μπορούμε να τα προσθέσουμε για να βρούμε \sum d_i^2 = 194. Η τιμή του n είναι 10. Έτσι, οι τιμές αυτές μπορούν πλέον να αντικατασταθούν πίσω στην εξίσωση,

 \rho = 1- {\frac {6\times194}{10(10^2 - 1)}}

η οποία αξιολογεί το ρ = −0.175757575... με μία p-value = 0.6864058 (χρησιμοποιώντας την κατανομή student). Αυτή η χαμηλή τιμή δείχνει ότι η συσχέτιση μεταξύ του δείκτη νοημοσύνης και των ωρών ενασχόλησης με την τηλεόραση είναι πολύ χαμηλή.

Καθορίζοντας τη σημασία[Επεξεργασία | επεξεργασία κώδικα]

Μία προσέγγιση για τον έλεγχο του αν η παρατηρούμενη τιμή του ρ είναι σημαντικά διαφορετική από το μηδέν (r πάντα θα διατηρεί ότι 1 ≥ r ≥ −1) είναι να υπολογιστεί η πιθανότητα ότι θα είναι μεγαλύτερη ή ίση με την παρατηρηθείσα r, λαμβάνοντας υπόψη τη μηδενική υπόθεση, χρησιμοποιώντας μια αναδειγματοληψία. Μια άλλη προσέγγιση είναι παράλληλη με την χρήση του μετασχηματισμoού Fisher στην περίπτωση του συντελεστή συσχέτισης Pearson product-moment. Δηλαδή, διαστήματα εμπιστοσύνης και έλεγχος υποθέσεων σχετικά με την τιμή ρ του πληθυσμού μπορούν να πραγματοποιηθούν με χρήση του μετασχηματισμού Fisher:

F(r) = {1 \over 2}\ln{1+r \over 1-r} = \operatorname{arctanh}(r).

Αν F(r) είναι ο μετασχηματισμός fisher του r, ο συντελεστής συσχέτισης Spearman του δείγματος, και n είναι το μέγεθος του δείγματος, τότε:

z = \sqrt{\frac{n-3}{1.06}}F(r)

είναι z-score για το r που ακολουθεί περίπου μια τυπική κανονική κατανομή κάτω από τη μηδενική υπόθεση της στατιστικής ανεξαρτησίας (ρ = 0).

Επίσης μπορεί να εξεταστεί η

t = r \sqrt{\frac{n-2}{1-r^2}}

που κατανέμεται περίπου όπως η κατανομή student με n − 2 βαθμούς ελευθερίας κάτω από τη μηδενική υπόθεση.

Πηγές και παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. Spearman's rho,εφαρμογή με χρήση excel
  • (Αγγλικά) G.W. Corder, D.I. Foreman, "Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach", Wiley (2009)
  • (Αγγλικά) C. Spearman, "The proof and measurement of association between two things" Amer. J. Psychol., 15 (1904) pp. 72–101
  • (Αγγλικά) M.G. Kendall, "Rank correlation methods", Griffin (1962)
  • (Αγγλικά) M. Hollander, D.A. Wolfe, "Nonparametric statistical methods", Wiley (1973)
  • (Αγγλικά) J. C. Caruso, N. Cliff, "Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho", Ed. and Psy. Meas., 57 (1997)