Πίνακας συνάφειας
Στη στατιστική, ο πίνακας συνάφειας[1] (επίσης γνωστός ως πίνακας συμπτώσεων) είναι ένας είδος που εμφανίζει την πολυμεταβλητή κατανομή συχνοτήτων των μεταβλητών. Χρησιμοποιούνται ευρέως σε έρευνες, οικονομικές πληροφορίες, μηχανική και επιστημονική έρευνα. Παρέχουν μια βασική εικόνα της αλληλεπίδρασης μεταξύ δύο μεταβλητών και μπορούν να βοηθήσουν στην εύρεση αλληλεπιδράσεων μεταξύ τους. Ο όρος πίνακας συνάφειας χρησιμοποιήθηκε για πρώτη φορά από τον Καρλ Πίρσον στο "On the Theory of Contingency and Its Relation to Association and Normal Correlation[2]" (Σχετικά με τη θεωρία συμπτώσεων και τη σχέση της με τη συνάφεια και την κανονική συσχέτιση),[3] μέρος των ερευνητικών σημειωμάτων της εταιρείας Drapers' Company Research Memoirs Biometric Series I[4] (Ερευνητικά απομνημονεύματα της εταιρείας Ντράπερς Βιομετρική σειρά Ι) που δημοσιεύθηκε το 1904.
Ένα κρίσιμο πρόβλημα της πολυμεταβλητής στατιστικής είναι η εύρεση της δομής (άμεσης) εξάρτησης που διέπει τις μεταβλητές που περιέχονται σε πίνακες συνάφειας υψηλής διάστασης. Εάν αποκαλυφθούν ορισμένες από τις υπό συνθήκη ανεξαρτησίες, τότε ακόμη και η αποθήκευση των δεδομένων μπορεί να γίνει με πιο έξυπνο τρόπο (βλ. Lauritzen (2002)). Για να γίνει αυτό μπορεί κανείς να χρησιμοποιήσει έννοιες της θεωρίας της πληροφορίας, οι οποίες αποκτούν την πληροφορία μόνο από την κατανομή των πιθανοτήτων, η οποία μπορεί εύκολα να εκφραστεί από τον πίνακα ενδεχομένων με τις σχετικές συχνότητες.
Ο συγκεντρωτικός πίνακας (Pivot Table) είναι ένας τρόπος δημιουργίας πίνακα συναφειας με τη χρήση λογισμικού λογιστικών φύλλων.
Παράδειγμα
[Επεξεργασία | επεξεργασία κώδικα]Ας υποθέσουμε ότι υπάρχουν δύο μεταβλητές, το φύλο (άνδρας ή γυναίκα) και η δεξιότητα (δεξιόχειρας ή αριστερόχειρας). Περαιτέρω, υποθέστε ότι 100 άτομα λαμβάνονται τυχαία από έναν πολύ μεγάλο πληθυσμό στο πλαίσιο μιας μελέτης για τις διαφορές φύλου στη δεξιότητα. Μπορεί να δημιουργηθεί ένας πίνακας συνάφειας που να εμφανίζει τον αριθμό των ατόμων που είναι άνδρες δεξιόχειρες και αριστερόχειρες, γυναίκες δεξιόχειρες και αριστερόχειρες. Ένας τέτοιος πίνακας συνάφειας παρουσιάζεται παρακάτω.
Handed- ness Φύλο |
Δεξιόχειρας | Αριστερόχειρας | Σύνολο |
---|---|---|---|
Αρσενικό | 43 | 9 | 52 |
Θηλυκό | 44 | 4 | 48 |
Σύνολο | 87 | 13 | 100 |
Οι αριθμοί των αρσενικών, των θηλυκών και των δεξιόχειρων και αριστερόχειρων ατόμων ονομάζονται περιθωριακά σύνολα. Το μεγάλο σύνολο (ο συνολικός αριθμός των ατόμων που αντιπροσωπεύονται στον πίνακα συνάφειας) είναι ο αριθμός στην κάτω δεξιά γωνία.
Ο πίνακας επιτρέπει στους χρήστες να δουν με μια ματιά ότι το ποσοστό των ανδρών που είναι δεξιόχειρες είναι περίπου το ίδιο με το ποσοστό των γυναικών που είναι δεξιόχειρες, αν και οι αναλογίες δεν είναι ταυτόσημες. Η ισχύς της συσχέτισης μπορεί να μετρηθεί με τον Λόγο απόδοσης και ο λόγος απόδοσης του πληθυσμού εκτιμάται από τον Λόγο απόδοσης του δείγματος. Η σημαντικότητα της διαφοράς μεταξύ των δύο αναλογιών μπορεί να εκτιμηθεί με μια ποικιλία στατιστικών δοκιμών, όπως το τεστ χι-τετράγωνο του Πίρσον, το τεστ G, το ακριβές τεστ του Φίσερ, το τεστ του Μπόσλοου και το τεστ του Μπάρναρντ, υπό την προϋπόθεση ότι οι καταχωρήσεις στον πίνακα αντιπροσωπεύουν άτομα που έχουν ληφθεί τυχαία από τον πληθυσμό για τον οποίο πρόκειται να εξαχθούν συμπεράσματα. Εάν τα ποσοστά των ατόμων στις διάφορες στήλες διαφέρουν σημαντικά μεταξύ των γραμμών (ή το αντίστροφο), λέγεται ότι υπάρχει μια ενδεχόμενη σχέση μεταξύ των δύο μεταβλητών. Με άλλα λόγια, οι δύο μεταβλητές δεν είναι ανεξάρτητες. Εάν δεν υπάρχει συνάφεια, λέγεται ότι οι δύο μεταβλητές είναι ανεξάρτητες.
Το παραπάνω παράδειγμα είναι το απλούστερο είδος πίνακα συνάφειας, ένας πίνακας στον οποίο κάθε μεταβλητή έχει μόνο δύο επίπεδα- αυτός ονομάζεται πίνακας συνάφειας 2 × 2. Κατ' αρχήν, μπορεί να χρησιμοποιηθεί οποιοσδήποτε αριθμός γραμμών και στηλών. Μπορούν επίσης να υπάρχουν περισσότερες από δύο μεταβλητές, αλλά οι πίνακες συνάφειας υψηλότερης τάξης είναι δύσκολο να αναπαρασταθούν οπτικά. Η σχέση μεταξύ τακτικών μεταβλητών ή μεταξύ τακτικών και κατηγορικών μεταβλητών μπορεί επίσης να αναπαρασταθεί σε πίνακες ενδεχομένων, αν και η πρακτική αυτή είναι σπάνια. Για περισσότερες πληροφορίες σχετικά με τη χρήση ενός πίνακα συνάφειας για τη σχέση μεταξύ δύο τακτικών μεταβλητών, βλέπε Goodman and Kruskal's gamma[5].
Τυποποιημένο περιεχόμενο ενός πίνακα συνάφειας
[Επεξεργασία | επεξεργασία κώδικα]- Πολλαπλές στήλες (ιστορικά, σχεδιάστηκαν για να χρησιμοποιούν όλο το λευκό χώρο μιας τυπωμένης σελίδας). Όταν κάθε γραμμή αναφέρεται σε μια συγκεκριμένη υπο-ομάδα του πληθυσμού (στην προκειμένη περίπτωση άνδρες ή γυναίκες), οι στήλες αναφέρονται μερικές φορές ως σημεία μπάνερ ή αποκοπές (και οι γραμμές αναφέρονται μερικές φορές ως αποκοπές).
- Έλεγχοι σημαντικότητας. Συνήθως, είτε συγκρίσεις στηλών, οι οποίες ελέγχουν για διαφορές μεταξύ στηλών και εμφανίζουν αυτά τα αποτελέσματα χρησιμοποιώντας γράμματα, είτε, συγκρίσεις κελιών, οι οποίες χρησιμοποιούν χρώμα ή βέλη για να προσδιορίσουν ένα κελί σε έναν πίνακα που ξεχωρίζει με κάποιο τρόπο.
- Δίκτυα ή netts, τα οποία είναι επιμέρους αθροίσματα.
- Ένα ή περισσότερα από τα εξής: ποσοστά, ποσοστά γραμμών, ποσοστά στηλών, δείκτες ή μέσοι όροι.
- Μη σταθμισμένα μεγέθη δείγματος (μετρήσεις).
Μέτρα συσχέτισης
[Επεξεργασία | επεξεργασία κώδικα]Ο βαθμός συσχέτισης μεταξύ των δύο μεταβλητών μπορεί να εκτιμηθεί με διάφορους συντελεστές. Στις υποενότητες που ακολουθούν περιγράφονται ορισμένοι από αυτούς. Για μια πληρέστερη συζήτηση των χρήσεών τους, ανατρέξτε στα κύρια άρθρα που συνδέονται με τον τίτλο κάθε υποενότητας.
Λόγος απόδοσης
[Επεξεργασία | επεξεργασία κώδικα]Κύριο άρθρο: Λόγος απόδοσης
Το απλούστερο μέτρο συσχέτισης για έναν πίνακα ενδεχομένων 2 × 2 είναι ο Λόγος απόδοσης. Δεδομένων δύο γεγονότων, Α και Β, ο Λόγος απόδοσης ορίζεται ως ο Λόγος απόδοσης του Α παρουσία του Β και των πιθανοτήτων του Α απουσία του Β, ή ισοδύναμα (λόγω συμμετρίας), ο Λόγος απόδοσης του Β παρουσία του Α και των πιθανοτήτων του Β απουσία του Α. Δύο γεγονότα είναι ανεξάρτητα εάν και μόνο εάν ο Λόγος απόδοσης είναι 1. Εάν ο Λόγος απόδοσης είναι μεγαλύτερος από 1, τα γεγονότα συνδέονται θετικά- εάν ο Λόγος απόδοσης είναι μικρότερος από 1, τα γεγονότα συνδέονται αρνητικά.
Ο λόγος απόδοσης έχει μια απλή έκφραση σε όρους πιθανοτήτων- δεδομένης της κοινής κατανομής πιθανοτήτων:
Ο Λόγος απόδοσης είναι:
Συντελεστής Φ
[Επεξεργασία | επεξεργασία κώδικα]Ένα απλό μέτρο, που εφαρμόζεται μόνο στην περίπτωση του Πίνακα συνάφειας 2 × 2, είναι ο συντελεστής Φ που ορίζεται ως εξής
όπου χ2 υπολογίζεται όπως στο τεστ χι-τετραγώνου του Πίρσον και Ν είναι το μεγάλο σύνολο των παρατηρήσεων. Το φ κυμαίνεται από 0 (που αντιστοιχεί σε καμία συσχέτιση μεταξύ των μεταβλητών) έως 1 ή -1 (πλήρης συσχέτιση ή πλήρης αντίστροφη συσχέτιση), εφόσον βασίζεται σε δεδομένα συχνότητας που αναπαρίστανται σε πίνακες 2 × 2. Τότε το πρόσημό του ισούται με το πρόσημο του γινομένου των κύριων διαγώνιων στοιχείων του πίνακα μείον το γινόμενο των εκτός διαγωνίου στοιχείων. φ παίρνει την ελάχιστη τιμή −1,0 ή τη μέγιστη τιμή +1,0 εάν και μόνο εάν κάθε οριακό ποσοστό είναι ίσο με 0,5 (και δύο διαγώνια κελιά είναι κενά).[6]
Το V του Κραμέρ και ο συντελεστής συνάφειας C
[Επεξεργασία | επεξεργασία κώδικα]Δύο εναλλακτικές λύσεις είναι ο συντελεστής συνάφειας C και ο V του Κραμέρ.
Οι τύποι για τους συντελεστές C και V είναι οι εξής
- και
k είναι ο αριθμός των γραμμών ή ο αριθμός των στηλών, όποιο από τα δύο είναι μικρότερο.
Το C υποφέρει από το μειονέκτημα ότι δεν φτάνει το μέγιστο 1,0, συγκεκριμένα το μέγιστο που μπορεί να φτάσει σε έναν πίνακα 2 × 2 είναι 0,707 . Μπορεί να φτάσει τιμές πιο κοντά στο 1,0 σε πίνακες συνάφειας με περισσότερες κατηγορίες- παραδείγματος χάριν, μπορεί να φτάσει το μέγιστο 0,870 σε έναν πίνακα 4 × 4. Επομένως, δεν θα πρέπει να χρησιμοποιείται για τη σύγκριση συσχετίσεων σε διαφορετικούς πίνακες, εάν αυτοί έχουν διαφορετικό αριθμό κατηγοριών.[7]
Το C μπορεί να ρυθμιστεί έτσι ώστε να φτάσει στο μέγιστο 1.0 όταν υπάρχει πλήρης συσχέτιση σε έναν πίνακα οποιουδήποτε αριθμού γραμμών και στηλών, διαιρώντας το C με όπου k είναι ο αριθμός των γραμμών ή των στηλών, όταν ο πίνακας είναι τετράγωνος ή με όπου r είναι ο αριθμός των γραμμών και c είναι ο αριθμός των στηλών.[8]
Συντελεστής λάμδα
[Επεξεργασία | επεξεργασία κώδικα]Ο συντελεστής λάμδα είναι ένα μέτρο της ισχύος της συσχέτισης των διασταυρούμενων πινάκων όταν οι μεταβλητές μετρώνται σε Κλίμακες μέτρησης. Οι τιμές κυμαίνονται από 0,0 (καμία συσχέτιση) έως 1,0 (η μέγιστη δυνατή συσχέτιση).
Το ασύμμετρο λάμδα μετρά την ποσοστιαία βελτίωση στην πρόβλεψη της εξαρτημένης μεταβλητής. Το συμμετρικό λάμδα μετρά την ποσοστιαία βελτίωση όταν η πρόβλεψη γίνεται και προς τις δύο κατευθύνσεις.
Συντελεστής αβεβαιότητας
[Επεξεργασία | επεξεργασία κώδικα]Ο συντελεστής αβεβαιότητας, ή U του Θεϊλ, είναι ένα άλλο μέτρο για τις μεταβλητές σε ονομαστικό επίπεδο. Οι τιμές του κυμαίνονται από -1,0 (100% αρνητική συσχέτιση ή τέλεια αντιστροφή) έως +1,0 (100% θετική συσχέτιση ή τέλεια συμφωνία). Η τιμή 0,0 υποδηλώνει την απουσία συσχέτισης.
Επίσης, ο συντελεστής αβεβαιότητας είναι υπό όρους και ένα ασύμμετρο μέτρο συσχέτισης, το οποίο μπορεί να εκφραστεί ως εξής
- .
Αυτή η ασύμμετρη ιδιότητα μπορεί να οδηγήσει σε γνώσεις που δεν είναι τόσο εμφανείς σε συμμετρικά μέτρα συσχέτισης.[9]
Λοιποί
[Επεξεργασία | επεξεργασία κώδικα]- Δοκιμή γάμμα: Δεν υπάρχει προσαρμογή ούτε για το μέγεθος του πίνακα ούτε για τις ισοπαλίες.
- Ταυ του Κένταλ: Προσαρμογή για ισοπαλίες.
- Tau-b: Χρησιμοποιείται για τετράγωνους πίνακες.
- Tau-c: Χρησιμοποιείται για ορθογώνιους πίνακες.
Εξωτερικοί σύνδεσμοι
[Επεξεργασία | επεξεργασία κώδικα]- English - Greek Dictionary of Pure and Applied Mathematics Εθνικό Μετσόβιο Πολυτεχνείο
- Αγγλοελληνικό Λεξικό Μαθηματικής Ορολογίας - Πανεπιστήμιο Κύπρου
- Ευκλείδεια Γεωμετρία - Πανελλήνιο Σχολικό Δίκτυο
- Θεωρία ομάδων και Λι αλγεβρών -Εθνικό Αρχείο Διδακτορικών Διατριβών
- Θεωρία Αριθμών και Εφαρμογές
- Υπολογιστική Θεωρία Αριθμών
- Καμπυλότητες και γεωμετρία του Riemann σε διαφορίσιμες πολλαπλότητες Εθνικό Αρχείο Διδακτορικών Διατριβών
- Μέθοδοι μηχανικής μάθησης βασισμένες σε έλεγχο μονοτροπικότητας Εθνικό Αρχείο Διδακτορικών Διατριβών
- Παράμετροι και Στατιστικά. Διωνυμική και Κανονική Κατανομή
Δείτε επίσης
[Επεξεργασία | επεξεργασία κώδικα]- Απαγορευτική αρχή του Πάουλι
- Κατανομή t-Student
- Κανονική κατανομή
- Αλγεβρική θεωρία αριθμών
- Διαφορική γεωμετρία
- Άρθουρ Στάνλεϋ Έντινγκτον
- Θεωρία αναπαραστάσεων
- Σουμπραμανιάν Τσαντρασεκάρ
- Ευκλείδειος χώρος
- Ένα προς ένα
- Σουμπραμανιάν Τσαντρασεκάρ
- Εφαρμοσμένα μαθηματικά
- Προβολικός χώρος
- Διακριτός μετασχηματισμός Φουριέ
- Θεμελιώδες θεώρημα αριθμητικής
- Αλγεβρική γεωμετρία
- Μιγαδικός αριθμός
- Άρθουρ Στάνλεϋ Έντινγκτον
- Τυπική απόκλιση
Βιβλιογραφία
[Επεξεργασία | επεξεργασία κώδικα]- Everitt, Brian S. (1 Φεβρουαρίου 1992). The Analysis of Contingency Tables, Second Edition. CRC Press. ISBN 978-0-412-39850-6.
- Rayner, J. C. W.· Best, D. J. (7 Δεκεμβρίου 2000). A Contingency Table Approach to Nonparametric Testing. CRC Press. ISBN 978-1-4200-3595-7.
- Fagerland, Morten· Lydersen, Stian (28 Ιουλίου 2017). Statistical Analysis of Contingency Tables. CRC Press. ISBN 978-1-315-35655-6.
- Johnson, Burke· Christensen, Larry (2008). Educational Research: Quantitative, Qualitative, and Mixed Approaches. SAGE. ISBN 978-1-4129-5456-3.
- Mielke, Paul W.· Berry, Kenneth J. (29 Ιουλίου 2007). Permutation Methods: A Distance Function Approach. Springer Science & Business Media. ISBN 978-0-387-69813-7.
- Atluri, Vijay (2008). Data and Applications Security XXII: 22nd Annual IFIP WG 11.3 Working Conference on Data and Applications Security London, UK, July 13-16, 2008, Proceedings. Springer Science & Business Media. ISBN 978-3-540-70566-6.
- Rumsey, Deborah J. (6 Μαρτίου 2006). Probability For Dummies. John Wiley & Sons. ISBN 978-0-470-04363-9.
- Abell, Martha L.· Braselton, James P. (1999). Statistics with Mathematica. Academic Press. ISBN 978-0-12-041554-0.
- Jekel, James F. (1 Ιανουαρίου 2007). Epidemiology, Biostatistics, and Preventive Medicine. Elsevier Health Sciences. ISBN 978-1-4160-3496-4.
- Baker, Lee. DataViz: How to Choose the Right Chart for Your Data. Lee Baker.
- Whipple, Guy Montrose (1914). Manual of Mental and Physical Tests: Simpler processes. Warwick & York.
- Mielke, Paul W.· Berry, Kenneth J. (29 Ιουλίου 2007). Permutation Methods: A Distance Function Approach. Springer Science & Business Media. ISBN 978-0-387-69813-7.
Παραπομπές
[Επεξεργασία | επεξεργασία κώδικα]- ↑ «Αγγλοελληνικό Λεξικό Μαθηματικής Ορολογίας - Πανεπιστήμιο Κύπρου - contingency table - Πίνακας συνάφειας, σελίδα 64» (PDF).
- ↑ Cornell University Library, Karl 1857-1936 (1904). On the theory of contingency and its relation to association and normal correlation. London, Dulau and Co.
- ↑ Karl Pearson, F.R.S. (1904). Mathematical contributions to the theory of evolution. Dulau and Co.
- ↑ Drapers' Company Research Memoirs: Biometric series. Dulau and Company. 1904.
- ↑ «Goodman and Kruskal's gamma using SPSS Statistics | A How-To Statistical Guide by Laerd Statistics». statistics.laerd.com. Ανακτήθηκε στις 2 Μαρτίου 2025.
- ↑ Ferguson, G. A. (1966). Statistical analysis in psychology and education. New York: McGraw–Hill.
- ↑ Smith, S. C., & Albaum, G. S. (2004) Fundamentals of marketing research. Sage: Thousand Oaks, CA. p. 631
- ↑ Blaikie, N. (2003) Analyzing Quantitative Data. Sage: Thousand Oaks, CA. p. 100
- ↑ «The Search for Categorical Correlation». 26 Δεκεμβρίου 2019.
- Bartle, Robert G. (1976). The Elements of Real Analysis (2nd έκδοση). Wiley. ISBN 978-0-471-05464-1.
- Cameron, A. C.· Trivedi, P. K. (1998). Regression analysis of count data
. Cambridge University Press. ISBN 978-0-521-63201-0.
- Christensen, Ronald (1997). Log-linear models and logistic regression. Springer Texts in Statistics (Second έκδοση). New York: Springer-Verlag. ISBN 978-0-387-98247-2. MR 1633357.
- Gouriéroux, Christian (2000). «The Econometrics of Discrete Positive Variables: the Poisson Model». Econometrics of Qualitative Dependent Variables. New York: Cambridge University Press. σελίδες 270–83. ISBN 978-0-521-58985-7.
- Greene, William H. (2008). «Models for Event Counts and Duration». Econometric Analysis
(8th έκδοση). Upper Saddle River: Prentice Hall. σελίδες 906–944. ISBN 978-0-13-600383-0.[νεκρός σύνδεσμος]
- Hilbe, J. M. (2007). Negative Binomial Regression. Cambridge University Press. ISBN 978-0-521-85772-7.
- Jones, Andrew M.· και άλλοι. (2013). «Models for count data». Applied Health Economics. London: Routledge. σελίδες 295–341. ISBN 978-0-415-67682-3.
- Myers, Raymond H.· και άλλοι. (2010). «Logistic and Poisson Regression Models». Generalized Linear Models With Applications in Engineering and the Sciences (Second έκδοση). New Jersey: Wiley. σελίδες 176–183. ISBN 978-0-470-45463-3.
- «Redressing grievances with the treatment of dimensionless quantities in SI». Measurement (London, UK: Elsevier Ltd.) 109: 105–110. October 2017. doi: . NIHMS1633436. ISSN 0263-2241. PMID 33311828. Bibcode: 2017Meas..109..105F. [1] (15 pages)
- Remes (Remez), E. (1934). «Sur le calcul effectif des polynomes d'approximation de Tschebyschef» (στα γαλλικά). C. R. Acad. Sci. 199: 337–340. https://gallica.bnf.fr/ark:/12148/bpt6k3151h/f337.item.
- Steffens, K.-G. (2006). The History of Approximation Theory: From Euler to Bernstein,. Birkhauser. doi:10.1007/0-8176-4475-X. ISBN 0-8176-4353-2.
- Erdélyi, T. (2008). «Extensions of the Bloch-Pólya theorem on the number of distinct real zeros of polynomials». Journal de théorie des nombres de Bordeaux 20: 281–7. http://www.numdam.org/item/10.5802/jtnb.627.pdf.
- Erdélyi, T. (2009). «The Remez inequality for linear combinations of shifted Gaussians». Math. Proc. Camb. Phil. Soc. 146: 523–530. doi: .
- Trefethen, L.N. (2020). Approximation theory and approximation practice. SIAM. ISBN 978-1-61197-594-9. Ch. 1–6 of 2013 edition
Πηγές
[Επεξεργασία | επεξεργασία κώδικα]- Apostol, Thomas M. (1976), Introduction to Analytic Number Theory, New York: Springer, ISBN 0-387-90163-9, https://archive.org/details/introductiontoan00apos_0
- Conway, John Horton; Guy, Richard K. (1996), The Book of Numbers, New York: Copernicus, ISBN 978-0-387-97993-9
- Crandall, Richard; Pomerance, Carl (2005), Prime Numbers: A Computational Perspective (2nd έκδοση), Berlin, New York: Springer-Verlag, ISBN 978-0-387-25282-7
- Singer, I. M.· Thorpe, J. A. (28 Μαΐου 2015). Lecture Notes on Elementary Topology and Geometry. Springer. ISBN 978-1-4615-7347-0.
- Apostol, Tom M. (29 Ιουνίου 2013). Introduction to Analytic Number Theory. Springer Science & Business Media. ISBN 978-1-4757-5579-4.
- Miller, P. D. (2006), Applied Asymptotic Analysis, American Mathematical Society, ISBN 9780821840788, https://books.google.com/books?id=KQvqBwAAQBAJ
- Apostol, Thomas M. (1976), Introduction to Analytic Number Theory, New York: Springer, ISBN 0-387-90163-9, https://archive.org/details/introductiontoan00apos_0