Δοκιμασία X2

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Πήδηση στην πλοήγηση Πήδηση στην αναζήτηση
Κατανομή χ τετράγωνο, εμφανίζοντας  X2 στον άξονα των x και την στατιστική σημαντικότητα στον άξονα των y.

Ένα χ² τεστ, που αναφέρεται επίσης ως δοκιμή , είναι κάθε στατιστικό τεστ υπόθεσης στο οποίο η δειγματοληπτική κατανομή από το στατιστικό αποτέλεσμα της δοκιμής είναι μια χ² κατανομή , όταν η μηδενική υπόθεση είναι αληθής. Τα χ² τεστ είναι συχνά κατασκευασμένα από το άθροισμα των τετραγώνων των σφαλμάτων, ή μέσα από την διακύμανση του δείγματος.Τα αποτελέσματα ενός στατιστικού τεστ  που ακολουθούν μια χ² κατανομή  προκύπτουν από την υπόθεση των ανεξάρτητων κανονικά κατανεμημένων δεδομένων, τα οποία ελέγχονται σε πολλές περιπτώσεις με το κεντρικό οριακό θεώρημα. Ένα χ² τεστ μπορεί στη συνέχεια να χρησιμοποιηθεί για να απορρίψουμε τη μηδενική υπόθεση ,ότι τα δεδομένα είναι ανεξάρτητα.

Επίσης θεωρούμε ο,τι ένα  χ²-τεστ είναι ένα τεστ στο οποίο η κατανομή δειγματοληψίας (αν ισχύει η μηδενική υπόθεση) μπορεί να προσεγγίσει, όσο εμείς επιθυμούμε, μια χ² κατανομή μεγαλώνοντας το μέγεθος του δείγματος αρκετά. Τα χ² - τεστ μπορούν να χρησιμοποιηθούν για να προσδιορίσουν αν υπάρχει σημαντική διαφορά μεταξύ των αναμενόμενων συχνοτήτων και των παρατηρούμενων συχνοτήτων σε μια ή περισσότερες κατηγορίες. Μήπως ο αριθμός των ατόμων ή αντικειμένων που εμπίπτουν σε κάθε κατηγορία διαφέρουν σημαντικά από τον αριθμό που θα περιμέναμε; Είναι η διαφορά μεταξύ των αναμενόμενων και των παρατηρούμενων συχνοτήτων επηρεασμένη από την διακύμανση της δειγματοληψίας, ή είναι μια πραγματική διαφορά;

Προϋποθέσεις Ελέγχου Ανεξαρτησίας[Επεξεργασία | επεξεργασία κώδικα]

Οι προϋποθέσεις για να είναι αξιόπιστος ο έλεγχος ανεξαρτησίας χ² είναι:

Τυχαίο δείγμα
Το δείγμα δεδομένων είναι μια τυχαία δειγματοληψία από έναν πληθυσμό, όπου κάθε παρατήρηση έχει ίση πιθανότητα επιλογής. Υπάρχουν και άλλες παραλλαγές του ελέγχου για πολύπλοκα δείγματα, στα οποία τα δεδομένα έχουν βάρη καθώς και παραλλαγές στις οποίες έχει γίνει σκόπιμη δειγματοληψία.
Μέγεθος Δείγματος
Γίνεται η υπόθεση ότι το δείγμα έχει αρκετά μεγάλο μέγεθος. Εάν μια χ² δοκιμή διεξάγεται σε ένα δείγμα με μικρό μέγεθος, τότε το τεστ θα αποδώσει ένα ανακριβές συμπέρασμα. Ο ερευνητής, χρησιμοποιώντας τον χ² έλεγχο σε μικρά δείγματα, θα μπορούσε να καταλήξει σε σφάλμα τύπου Β.
Ποσοστό Αναμενόμενων Συχνοτήτων
Το ποσοστό των αναμενόμενων συχνοτήτων που είναι μικρότερες από το 5, δε θα πρέπει να υπερβαίνει το 20% και δε θα πρέπει να υπάρχει συχνότητα ίση με 0. Όταν η υπόθεση αυτή δεν πληρούται, εφαρμόζεται η διόρθωση του Yates ή θα μπορούσε να χρησιμοποιηθεί ο έλεγχος Fisher.
Ανεξαρτησία
Γίνεται η υπόθεση ότι οι παρατηρήσεις είναι πάντα ανεξάρτητες η μία από την άλλη. Αυτό σημαίνει ότι το χ τετράγωνο δεν μπορεί να χρησιμοποιηθεί για τον έλεγχο συσχετιζόμενων δεδομένων. Σε αυτή την περίπτωση μπορεί να χρησιμοποιηθεί το τεστ του McNemar.

Παραδείγματα χ² έλέγχου με δείγματα[Επεξεργασία | επεξεργασία κώδικα]

Ένα στατιστικό τεστ που ακολουθεί μια κατανομή χ² ακριβώς, είναι το κριτήριο ότι η διακύμανση της κανονικής κατανομής του πληθυσμού έχει μια δεδομένη τιμή, βασισμένη  σε μια διακύμανση του δείγματος. Τέτοια τεστ δεν πραγματοποιούνται συχνά, επειδή η πραγματική διακύμανση του πληθυσμού είναι συνήθως άγνωστη. Ωστόσο, υπάρχουν πολλά στατιστικά τεστ, όπου η χ² κατανομή είναι προσεγγιστικά έγκυρη.

Το χ²-τέστ του Pearson[Επεξεργασία | επεξεργασία κώδικα]

Το χ²-τεστ του Pearson είναι επίσης γνωστό ως χ²-τεστ για την ανεξαρτησία. Αναπτύχθηκε κατά το έτος 1900. Το χ²-τεστ του Pearson αποτελεί μια στατιστική δοκιμή η οποία εφαρμόζεται σε σύνολα κατηγοριοποιημένων δεδομένων για να αξιολογήθει πόσο πιθανό είναι οποιαδήποτε παρατηρούμενη διαφορά μεταξύ των συνόλων να προέκυψε κατά τύχη. Είναι κατάλληλο για ασύζευκτα δεδομένα από μεγάλα δείγματα. Είναι το πιο ευρέως χρησιμοποιούμενο από όλα τα χ²-τεστ (π.χ., Yates, λόγου πιθανοφάνειας, κλπ.) - Στατιστικές διαδικασίες των οποίων τα αποτελέσματα αξιολογούνται από αναφορά στην κατανομή χ².

Η διόρθωση του Yates για την συνέχεια[Επεξεργασία | επεξεργασία κώδικα]

Χρησιμοποιώντας την κατανομή χ² για την ερμηνεία του χ²-τεστ του Pearson απαιτεί να υποθέσουμε ότι η διακριτή πιθανότητα των παρατηρούμενων διωνυμικών συχνοτήτων του πίνακα μπορεί να προσεγγιστεί από τη συνεχή κατανομή χ² . Αυτή η υπόθεση δεν είναι απολύτως σωστή, και εισάγει κάποιο σφάλμα.

Για να μειωθεί το σφάλμα της προσέγγισης, ο Frank Yates πρότεινε μια διόρθωση για τη συνέχεια που προσαρμόζει τον τύπο για το χ²-τεστ του Pearson  αφαιρώντας 0.5 από τη διαφορά μεταξύ κάθε παρατηρούμενης τιμής και της αναμενόμενης αξίας σε ένα 2 × 2 εφεδρικό πίνακα..[1] Αυτό μειώνει την  χ² αξία που λαμβάνεται και, συνεπώς αυξάνει τo παρατηρούμενο επίπεδο σημαντικότητας.

Άλλα  χ²-τεστ[Επεξεργασία | επεξεργασία κώδικα]

  • Cochran–Mantel–Haenszel  χ²-τεστ. Είναι μια συλλογή στατιστικών στοιχείων ελέγχου που χρησιμοποιήθηκε για την ανάλυση των χωριζομένων  κατηγοριοποιημένων δεδομένων.
  • McNemar τεστ, που χρησιμοποιείται σε ορισμένoυς 2×2 πινάκες για να καθοριστεί αν η σειρά και η στήλη οριακών συχνότητων είναι ίσες (δηλαδή, αν υπάρχει «περιθωριακή ομοιογένεια»).
  • Το τεστ τουTukey της προσθετικότητας.  Είναι μια προσέγγιση που χρησιμοποιείται, στην αμφίδρομη ανάλυση παλινδρόμησης που περιλαμβάνει δύο ποιοτικούς παράγοντες, για να εκτιμήσει κατά πόσον οι μεταβλητοί παράγοντες είναι προσθετικά συσχετισμένοι με την αναμενόμενη τιμή της μεταβλητής απόκρισης.
  •  Το τεστ της βαλίτσας στην ανάλυση χρονοσειρών . Είναι ένας τύπος δοκιμής στατιστικής υπόθεσης στην οποία η μηδενική υπόθεση είναι καλά καθορισμένη, αλλά η εναλλακτική υπόθεση είναι πιο χαλαρά διευκρινισμένη.
  • Πιθανότητα-δοκιμές αναλογίας.Στη γενική στατιστική μοντελοποίηση, για να διαπιστωθεί εάν υπάρχουν στοιχεία που αποδεικνύουν την ανάγκη να μετακινηθούμε από ένα απλό μοντέλο σε ένα πιο περίπλοκο (όπου το απλό μοντέλο είναι ένθετο στο περίπλοκο).

  χ²-τεστ για τη διακύμανση ενός κανονικού πληθυσμού[Επεξεργασία | επεξεργασία κώδικα]

Αν ένα δείγμα μεγέθους n λαμβάνετε από έναν πληθυσμό που έχει μια κανονική κατανομή, τότε υπάρχει αποτέλεσμα (βλ. κατανομή του δείγματος διακύμανσης), το οποίο επιτρέπει σε ένα τεστ να κατασκευαστεί από το αν η διακύμανση του πληθυσμού έχει μια προκαθορισμένη τιμή. Για παράδειγμα, μια διαδικασία παραγωγής μπορεί να έχει σταθερή κατάσταση για ένα μεγάλο χρονικό διάστημα, επιτρέποντας σε μια τιμή διακύμανσης να καθορίζεται ουσιαστικά χωρίς σφάλμα. Ας υποθέσουμε ότι μια τιμή της διαδικασίας δοκιμάζεται,αυξάνοντας ένα μικρό δείγμα των n στοιχείων του προϊόντος του οποίου η μεταβολή είναι να δοκιμαστεί. Το στατιστικό αποτέλεσμα της δοκιμής T σε αυτή την περίπτωση θα μπορούσε να οριστεί να είναι το άθροισμα των τετραγώνων για το δείγμα, διαχωρίζοντας το από την ονομαστική τιμή για τη διακύμανση (δηλαδή η τιμή που θα ελεγχθεί ως περιουσία). Τότε T  έχει χ² κατανομή με n − 1 βαθμούς ελευθερίας. Για παράδειγμα, αν το μέγεθος του δείγματος είναι 21, η αποδεκτή περιοχής για T,για επίπεδο σημαντικότητας 5% είναι το χρονικό διάστημα 9.59 να 34.17.

Παράδειγμα χ²-τεστ για κατηγοριοποιημένα δεδομένα[Επεξεργασία | επεξεργασία κώδικα]

Ας υποθέσουμε ότι υπάρχει μια πόλη 1 εκατ. κατοίκων με τέσσερις γειτονιές: Α, Β, Γ, και Δ. Ένα τυχαίο δείγμα 650 κατοίκων της πόλης και το επάγγελμά τους καταγράφεται ως "μπλε κολάρο", "λευκό κολάρο", ή "χωρίς κολάρο". Η μηδενική υπόθεση είναι ότι ο γείτονας του καθένα είναι ανεξάρτητος από το πρόσωπο που έχει επαγγελματική καταξίωση. Τα δεδομένα συνοψίζονται ως:

Α Β Γ Δ ΣΥΝΟΛΟ
Λευκό κολάρο 90 60 104 95 349
Μπλε κολάρο 30 50 51 20 151
Χωρίς κολάρο 30 40 45 35 150
Συνολικά 150 150 200 150 650

Ας πάρουμε το δείγμα των ατόμων που ζουν στη γειτονιά, 150, να υπολογίσετε τι ποσοστό του συνόλου  από τους 1 εκατ. άνθρωπους ζουν στη γειτονιά. A. Ομοίως παίρνουμε 349/650 για να υπολογίσουμε τι ποσοστό του 1 εκατ. άνθρωπων είναι το λευκό κολάρο-εργαζομένων. Από την υπόθεση της ανεξαρτησίας θα πρέπει να "περιμένουμε" τον αριθμό των λευκό κολάρο-εργαζομένων στην γειτονιά να είναι

Στη συνέχεια, στο "κελί" του πίνακα, έχουμε

Το άθροισμα των ποσοτήτων αυτών πάνω από όλα τα κελιά είναι το στατιστικό αποτέλεσμα της δοκιμής. Κάτω από την μηδενική υπόθεση , έχει περίπου μια χ² κατανομή των οποίων ο αριθμός των βαθμών ελευθερίας είναι


(αριθμός γραμμών-1) (αριθμός στηλών-1)=(3-1)(4-1)=6

Αν το στατιστικό αποτέλεσμα της δοκιμής είναι απίθανα μεγάλο, σύμφωνα με αυτή την κατανομή χ², τότε απορρίπτεται η μηδενική υπόθεση της ανεξαρτησίας.

Ένα σχετικό θέμα είναι μια δοκιμή της ομοιογένειας. Ας υποθέσουμε ότι αντί να δώσουμε σε κάθε κάτοικο της κάθε μίας από τις τέσσερις γειτονιές ίση πιθανότητα να περιληφθεί στο δείγμα, αποφασίζουμε εκ των προτέρων πόσους πολλούς κατοίκους της κάθε γειτονιάς θα συμπεριλάβουμε. Στη συνέχεια, κάθε κάτοικος έχει την ίδια πιθανότητα να επιλεγεί όπως και όλοι οι κάτοικοι από την ίδια γειτονιά, αλλά οι κάτοικοι από διαφορετικές γειτονιές θα έχουν διαφορετικές πιθανότητες να επιλεγούν αν τα τέσσερα μεγέθη των δειγμάτων δεν είναι ανάλογα με τους πληθυσμούς από τις τέσσερις γειτονιές. Σε μια τέτοια περίπτωση, θα ελέγχαμε την "ομοιογένεια" αντί για την "ανεξαρτησία". Το ερώτημα είναι αν οι αναλογίες του μπλε κολάρου, του λευκού κολάρου-και του χωρίς κολάρο-εργαζομένων σε τέσσερις γειτονιές είναι ίδιες. Ωστόσο, η δοκιμή γίνεται με τον ίδιο τρόπο.

Εφαρμογές[Επεξεργασία | επεξεργασία κώδικα]

Στην κρυπτανάλυση, τοχ² τεστ χρησιμοποιείται για να συγκρίνετε η κατανομή του απλού και (ενδεχομένως) αποκρυπτογραφημένου κρυπτογραφήματος. Η χαμηλότερη τιμή του τεστ σημαίνει ότι η αποκρυπτογράφηση είναι επιτυχής με υψηλή πιθανότητα.[2][3] Η μέθοδος αυτή μπορεί να γενικευθεί για την επίλυση σύγχρονων κρυπτογραφικών προβλημάτων.[4]

Δείτε επίσης[Επεξεργασία | επεξεργασία κώδικα]

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. Yates, F (1934). "Contingency table involving small numbers and the χ2 test". Supplement to the Journal of the Royal Statistical Society 1(2): 217–235. JSTOR 2983604
  2. «Chi-squared Statistic». Practical Cryptography. Ανακτήθηκε στις 18 Φεβρουαρίου 2015. 
  3. «Using Chi Squared to Crack Codes». IB Maths Resources. British International School Phuket. 
  4. Ryabko, B.Ya.; Stognienko, V.S.; Shokin, Yu.I. (2004). «A new test for randomness and its application to some cryptographic problems». Journal of Statistical Planning and Inference 123: 365–376. http://boris.ryabko.net/jspi.pdf. Ανακτήθηκε στις 18 February 2015. 

Πηγές[Επεξεργασία | επεξεργασία κώδικα]

  • Weisstein, Eric W., "Chi-Squared Test" από το MathWorld.
  • Corder, G.W. & Foreman, D.I. (2014).Nonparametric Statistics: A Step-by-Step Approach. Wiley, New York. ISBN 978-1118840313
  • Greenwood, P.E., Nikulin, M.S. (1996) A guide to chi-squared testing. Wiley, New York. ISBN 0-471-55779-X
  • Nikulin, M.S. (1973). "Chi-squared test for normality". In: Proceedings of the International Vilnius Conference on Probability Theory and Mathematical Statistics, v.2, pp. 119–122.
  • Bagdonavicius, V., Nikulin, M.S. (2011) "Chi-squared goodness-of-fit test for right censored data". The International Journal of Applied Mathematics and Statistics, p. 30-50.[full citation needed]


Στο λήμμα αυτό έχει ενσωματωθεί κείμενο από το λήμμα Chi-squared test της Αγγλικής Βικιπαίδειας, η οποία διανέμεται υπό την GNU FDL και την CC-BY-SA 3.0. (ιστορικό/συντάκτες).