Περιθώριο σφάλματος

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Μετάβαση σε: πλοήγηση, αναζήτηση
Το άνω τμήμα αυτού του απεικονιζόμενου γραφήματος πυκνότητας πιθανότητας , μας δείχνει την σχετική πιθανότητα ότι το πραγματικό ποσοστό το οποίο είναι σε μια συγκεκριμένη περιοχή, παρουσιάζει ποσοστό 50%. Το κάτω τμήμα δείχνει 95% του διαστήματος εμπιστοσύνης (οριζόντια του ευθυγράμμου τμήματος), τα αντίστοιχα περιθώρια σφάλματος (αριστερά) και το πλήθος δειγμάτων (δεξιά). Με άλλα λόγια, για κάθε πλήθος δειγμάτων, είναι 95% βέβαιο ότι το πραγματικό ποσοστό είναι στην περιοχή που υποδεικνύεται από το αντίστοιχο τμήμα. Όσο μεγαλύτερο είναι το δείγμα, τόσο μικρότερο είναι το περιθώριο σφάλματος.

Το περιθώριο σφάλματος είναι μια στατιστική συνάρτηση που εκφράζει το ποσό των τυχαίων δειγματοληπτικών σφαλμάτων στα αποτελέσματα μιας έρευνας. Όσο μεγαλύτερο είναι το περιθώριο σφάλματος, τόσο λιγότερη σιγουριά θα πρέπει να έχει κάποιος ότι τα αναφερόμενα αποτελέσματα της δημοσκόπησης θα είναι κοντά στην πραγματικά ποσά, που είναι τα ποσά όλου του πληθυσμού. Το περιθώριο σφάλματος υπάρχει όταν ένας πληθυσμός είναι ελλιπώς επιλεγμένος.

Επεξήγηση[Επεξεργασία | επεξεργασία κώδικα]

Το περιθώριο σφάλματος συνήθως ορίζεται ως η «ακτίνα» (ή το μισό πλάτος) ενός διαστήματος εμπιστοσύνης για μια συγκεκριμένη Στατιστική συνάρτηση [1]μιας έρευνας. Ένα παράδειγμα είναι το ποσοστό των ανθρώπων, οι οποίοι προτιμούν το προϊόν Α έναντι του προϊόντος Β. Όταν ένα ενιαίο συνολικό περιθώριο σφάλματος αναφέρεται σε μια έρευνα, αναφέρεται στο μέγιστο περιθώριο σφάλματος για όλα τα αναφερόμενα ποσοστά χρησιμοποιώντας το πλήρες δείγμα από την έρευνα. Αν η στατιστική συνάρτηση είναι ένα ποσοστό, αυτό το μέγιστο περιθώριο σφάλματος μπορεί να υπολογιστεί ως η ακτίνα του διαστήματος εμπιστοσύνης για ένα αναφερόμενο ποσοστό 50%.

Το περιθώριο σφάλματος έχει περιγραφεί ως "απόλυτη" ποσότητα, ίση με την ακτίνα του διαστήματος εμπιστοσύνης για τη στατιστική συνάρτηση. Για παράδειγμα, αν η πραγματική τιμή είναι 50 ποσοστιαίες μονάδες, και η στατιστική συνάρτηση έχει διάστημα εμπιστοσύνης 5 ποσοστιαίες μονάδες, τότε λέμε ότι το περιθώριο σφάλματος είναι 5 ποσοστιαίες μονάδες. Ένα άλλο παράδειγμα, αν η πραγματική αξία είναι 50 άτομα, και η στατιστική συνάρτηση έχει διάστημα εμπιστοσύνης 5 άτομα, τότε θα μπορούσαμε να πούμε το περιθώριο σφάλματος είναι 5 άτομα.

Σε ορισμένες περιπτώσεις, το περιθώριο σφάλματος δεν εκφράζεται ως απόλυτη ποσότητα, αλλά ως σχετική. Για παράδειγμα, ας υποθέσουμε ότι η πραγματική αξία είναι 50 άτομα, και η στατιστική συνάρτηση έχει διάστημα εμπιστοσύνης 5 άτομα. Αν χρησιμοποιήσουμε την απόλυτη έννοια, το περιθώριο σφάλματος θα είναι 5 άτομα. Αν χρησιμοποιήσετε την "παρόμοια" έννοια, τότε θα εκφράσουμε αυτό το απόλυτο περιθώριο σφάλματος ως ποσοστό της πραγματικής αξίας. Έτσι, στην περίπτωση αυτή, το απόλυτο περιθώριο σφάλματος είναι 5 άτομα, αλλά το σχετικό ποσοστό περιθωρίου λάθους είναι 10% (επειδή 5 άτομα είναι δέκα τοις εκατό των 50 ατόμων). Συχνά, ωστόσο, η διαφορά δεν είναι σαφής, αλλά συνήθως προκύπτει από το συμφραζόμενα.

Όπως και τα διαστήματα εμπιστοσύνης, έτσι και το περιθώριο σφάλματος μπορεί να οριστεί για κάθε επιθυμητό επίπεδο εμπιστοσύνης. Συνήθως επιλέγεται ένα ανάμεσα στα 90%, 95% ή 99% (συνήθως 95%). Το επίπεδο αυτό είναι η πιθανότητα ένα περιθώριο σφάλματος γύρω από το αναφερόμενο ποσοστό να περιλαμβάνει το «πραγματικό» ποσοστό. Μαζί με το επίπεδο εμπιστοσύνης, το σχέδιο δειγματοληψίας για την έρευνα, και ιδίως το μέγεθος του δείγματος της, καθορίζει το μέγεθος του περιθωρίου σφάλματος. Με ένα μεγαλύτερο μέγεθος δείγματος θα προκύψει μικρότερο περιθώριο λάθους, όλα τα άλλα παραμένουν ίδια.

Εάν χρησιμοποιήσουμε τα ακριβή διαστήματα εμπιστοσύνης, τότε το περιθώριο λάθους λαμβάνει υπόψη τόσο το δειγματοληπτικό όσο και το μη δειγματοληπτικό σφάλμα. Εάν πάρουμε κατά προσέγγιση τα διαστήματα εμπιστοσύνης (για παράδειγμα, υποθέτοντας ότι έχουμε κανονική κατανομή[2] τότε παίρνουμε ανάλογα και τα διαστήματα εμπιστοσύνης), τότε το περιθώριο σφάλματος μπορεί να πάρει υπόψη μόνο τυχαίο δείγμα σφάλματος. Δεν αντιπροσωπεύει άλλες πιθανές πηγές σφάλματος ή μεροληψίας όπως για παράδειγμα ένα μη αντιπροσωπευτικό δείγμα σχεδιασμού, άσχημα διατυπωμένες ερωτήσεις, οι άνθρωποι που λένε ψέματα η αρνούνται να απαντήσουν, τον αποκλεισμό των ανθρώπων που δεν μπορούν να έρθουν σε επαφή, η λάθος εκφράσεις και ανακρίβειες.

Έννοια[Επεξεργασία | επεξεργασία κώδικα]

Θα χρησιμοποιηθεί ένα παράδειγμα από την προεκλογική εκστρατεία των προεδρικών εκλογών του 2004 στις ΗΠΑ, για να γίνουν πιο κατανοητές οι έννοιες του άρθρου. Σύμφωνα με μια έρευνα, που διεξήχθη στις 2 Οκτωβρίου 2004 από το περιοδικό Newsweek, το 47% των καταγεγραμμένων ψηφοφόρων θα ψήφιζε τον Kerry/John Edards αν οι εκλογές γινόταν εκείνη την μέρα, το 54% θα ψήφιζε τον Τζορτζ Μπους/Ντικ Τσένεϊ, και το 2% θα ψήφιζε τον Ralph Nader/Peter Camejo. Το μέγεθος του δείγματος ήταν 1.013. [3] Απο εδώ και στο εξής ως διάστημα εμπιστοσύνης θα χρησιμοποιείται το 95%, εκτός αν αναφέρεται κάτι διαφορετικό.

Βασική Έννοια[Επεξεργασία | επεξεργασία κώδικα]

Οι δημοσκοπήσεις συνήθως περιλαμβάνουν την επιλογή δείγματος από συγκεκριμένο πληθυσμό. Στην περίπτωση της δημοσκόπησης του Newsweek, ο πληθυσμός ενδιαφέροντος είναι ο πληθυσμός των ανθρώπων που θα ψηφίσουν. Επειδή είναι πρακτικά αδύνατο να ερωτηθούν όλοι οι ψηφοφόροι, οι δημοσκόποι παίρνουν μικρότερα δείγματα που τείνουν να είναι αντιπροσωπευτικά, αυτά είναι τα λεγόμενα τυχαία δείγματα του πληθυσμού. [4] Είναι πιθανό οι δημοσκόποι να διαλέγουν 1.013 ψηφοφόρους που τυχαίνει να ψηφίσουν τον Bush ενώ στην πραγματικότητα ο πληθυσμός είναι ίσα χωρισμένος μεταξύ Bush και Kerry, αλλά αυτό είναι ιδιαίτερα απίθανο δεδομένου ότι το δείγμα είναι τυχαίο.

Η Θεωρία Δειγματοληψίας [5] παρέχει μεθόδους υπολογισμού της πιθανότητας τα αποτελέσματα της δημοσκόπησης να διαφέρουν από τα πραγματικά κατά μια ορισμένη ποσότητα, το οποίο απλώς οφείλεται στην πιθανότητα, για παράδειγμα, ότι η δημοσκόπηση αναφέρει 47% για τον Kerry αλλά στην πραγματικότητα το ποσοστό υποστήριξης του να ανέρχεται στο 50% ή να φτάνει στο 44%. Αυτή η θεωρία και κάποιες μπεϋζιανές υποθέσεις δείχνουν ότι τοο «πραγματικό» ποσοστό είναι πιθανώς αρκετά κοντά στο 47%. Όσο πιο μεγάλο το δείγμα, δηλαδή όσο πιο πολλοί ψηφοφόροι ερωτηθούν, τόσο πιο σίγουροι μπορούν να είναι οι δημοσκόποι ότι το «πραγματικό» ποσοστό είναι κοντά στο παρατηρηθέν ποσοστό. Το περιθώριο σφάλματος είναι ένα μέτρο για το πόσο κοντά είναι πιθανό να είναι τα δύο αυτά αποτελέσματα.

Ωστόσο το περιθώριο σφάλματος επηρεάζεται μόνο από τα σφάλματα τυχαίας δειγματοληψίας και όχι από τα συστηματικά σφάλματα που μπορεί ας πούμε να προκύψουν αν ένας από τους ερωτηθέντες δεν δώσει καμία απάντηση.[6]

Υπολογισμοί υποθέτοντας ότι έχουμε τυχαία δειγματοληψία[Επεξεργασία | επεξεργασία κώδικα]

Σε αυτήν την παράγραφο θα αναφερθεί εν συντομία το τυπικό λάθος ενός ποσοστού, το αντίστοιχο διάστημα εμπιστοσύνης, καθώς και η σύνδεση αυτών των δύο εννοιών με το περιθώριο σφάλματος. Για λόγους απλότητας, οι υπολογισμοί που θα ακολουθήσουν έχουν ως δεδομένο ότι η δημοσκόπηση βασίστηκε σε ένα απλό τυχαίο δείγμα από έναν μεγάλο πληθυσμό.

Το τυπικό σφάλμα μιας ποσότητας η ενός ποσοστού p μετράει την ακρίβεια του, και είναι η εκτίμηση της τυπικής απόκλισης του εν λόγω ποσοστού. Η εκτίμηση μπορεί να γίνει μόνο από το p και το μέγεθος του δείγματος n, αν το n είναι μικρό σε σχέση με το μέγεθος του πληθυσμού, χρησιμοποιείται ο ακόλουθος τύπος (τυπικό σφάλμα):[7]

τυπικό σφάλμα = \sqrt{\frac{p(1-p)}{n}}=\sqrt{\frac{(p-p^2)}{n}}

Όταν το δείγμα δεν είναι ένα απλό τυχαίο δείγμα από έναν μεγάλο πληθυσμό, το τυπικό σφάλμα και το διάστημα εμπιστοσύνης πρέπει να υπολογιστεί με πιο σύνθετους υπολογισμούς. Η γραμμικοποίηση και η αναδειγματοληψία είναι μέθοδοι που χρησιμοποιούνται ευρέως όταν πρόκειται για δεδομένα από περίπλοκα δειγματικά σχέδια.

Δεν υπάρχει απαραίτητα μια αυστηρή σύνδεση μεταξύ του πραγματικού διαστήματος εμπιστοσύνης, και του πραγματικού τυπικού σφάλματος. Το πραγματικό p τοις εκατό του διαστήματος εμπιστοσύνης είναι το διάστημα [a,b] που περιέχει το p τοις εκατό της κατανομής, και που το (100-p)/2 τοις εκατό του πληθυσμού βρίσκεται κάτω από το a και το (100-p)/2 τοις εκατό του πληθυσμού βρίσκεται πάνω από το b. Το πραγματικό τυπικό σφάλμα είναι η τετραγωνική ρίζα της πραγματικής δειγματικής διασποράς της στατιστικής συνάρτησης. Αυτά τα δύο μπορεί να μην συνδέονται άμεσα, αλλά σε γενικές γραμμές, για μεγάλες κατανομές που μοιάζουνε με κανονικές καμπύλες, υπάρχει άμεση σχέση.

Στην δημοσκόπηση του Newsweek, το ποσοστό υποστήριξης του Kerry ήταν p=0.47 και n=1.013. Το τυπικό σφάλμα (0,016 ή 1,6%) βοηθάει στο να έχουμε μια αίσθηση της ακρίβειας του εκτιμώμενου ποσοστού υποστήριξης του Kerry (47%). Μια μπεϋζιανή ερμηνεία του τυπικού σφάλματος είναι ότι παρόλο που δεν γνωρίζουμε το «πραγματικό» ποσοστό , είναι αρκετά πιθανό να βρίσκεται μεταξύ δύο τυπικών σφαλμάτων του εκτιμώμενου ποσοστού (47%). Το τυπικό σφάλμα μπορεί να χρησιμοποιηθεί για να δημιουργηθεί ένα διάστημα εμπιστοσύνης μέσα στο οποίο το «πραγματικό» ποσοστό θα πρέπει να είναι σε ένα ορισμένο επίπεδο εμπιστοσύνης.

Το εκτιμώμενο ποσοστό συν ή πλην το περιθώριο σφάλματος είναι το διάστημα εμπιστοσύνης του ποσοστού. Με άλλα λόγια, το περιθώριο σφάλματος είναι το μισό του πλάτους του διαστήματος εμπιστοσύνης. Μπορεί να υπολογιστεί ως πολλαπλάσιο του τυπικού σφάλματος, με παράγοντα ανάλογο του επιπέδου εμπιστοσύνης που επιθυμούμε. Το περιθώριο ενός τυπικού σφάλματος δίνει ένα 68% διάστημα εμπιστοσύνης, ενώ η εκτίμηση συν ή πλην 1,96 τυπικά σφάλματα δίνει ένα 95% διάστημα εμπιστοσύνης, τέλος ένα 99% διάστημα εμπιστοσύνης δίνεται αν στην εκτίμηση προσθαφαιρέσουμε 2,58 τυπικά σφάλματα.

Ορισμός[Επεξεργασία | επεξεργασία κώδικα]

Το περιθώριο σφάλματος για μια συγκεκριμένη στατιστική συνάρτηση που μας ενδιαφέρει συνήθως ορίζεται ως η ακτίνα ( ή το μισό του πλάτους) του διαστήματος εμπιστοσύνης για αυτήν την στατιστική συνάρτηση.[8][9] Ο όρος χρησιμοποιείται επίσης για το δειγματοληπτικό σφάλμα γενικά. Στις αναφορές των μέσων ενημέρωσης στα αποτελεσμάτων των δημοσκοπήσεων, ο όρος συχνά αναφέρεται στο μέγιστο περιθώριο σφάλματος για κάθε ποσοστό της δημοσκόπησης αυτής.

Διαφορετικά διαστήματα εμπιστοσύνης[Επεξεργασία | επεξεργασία κώδικα]

Για ένα απλό τυχαίο δείγμα από έναν μεγάλο πληθυσμό, το μέγιστο περιθώριο σφάλματος είναι απλώς μια εναλλακτική έκφραση του μεγέθους του δείγματος n. Οι αριθμητές αυτών των εξισώσεων στρογγυλοποιούνται στα δύο δεκαδικά ψηφία.

Περιθώριο σφάλματος σε 99% διάστημα εμπιστοσύνης  \approx 1.29/ \sqrt{n}
Περιθώριο σφάλματος σε 95% διάστημα εμπιστοσύνης  \approx 0.98/ \sqrt{n}
Περιθώριο σφάλματος σε 90% διάστημα εμπιστοσύνης  \approx 0.82/ \sqrt{n}

Αν σε ένα άρθρο σχετικά με μια δημοσκόπηση δεν αναφέρεται το περιθώριο σφάλματος, αλλά διευκρινίζεται ότι χρησιμοποιήθηκε ένα απλό τυχαίο δείγμα συγκεκριμένου μεγέθους n, το περιθώριο σφάλματος μπορεί να υπολογιστεί από τους προαναφερθέν τύπους για όποιο διάστημα εμπιστοσύνης επιθυμούμε. Επίσης αν δίνεται το 99% διάστημα εμπιστοσύνης, τότε μπορεί να βρεθεί το 90% διάστημα εμπιστοσύνης αυξάνοντας το περιθώριο σφάλματος κατά περίπου 30%. Θα δώσουμε ένα παράδειγμα για να γίνουν πιο κατανοητά. Αν έχουμε ένα δείγμα μεγέθους 400, σε ένα 95% διάστημα εμπιστοσύνης θα δίνει περιθώριο σφάλματος 0,98/20 ή 0,049, δηλαδή κάτω από 5%. Αν το μέγεθος του δείγματος είναι 1600, τότε θα δίνει περιθώριο σφάλματος 0,98/40 ή 0,0245, δηλαδή κάτω από 2,5%. Τέλος, σε ένα δείγμα μεγέθους 10.000 στο ίδιο διάστημα εμπιστοσύνης, το περιθώριο σφάλματος θα είναι 0,0098, δηλαδή κάτω από 1%.

Μέγιστα και ειδικά περιθώρια σφάλματος[Επεξεργασία | επεξεργασία κώδικα]

Συνήθως το περιθώριο σφάλματος αναφέρεται στα μέσα ενημέρωσης ως δημοσκόπηση που αντανακλά την μέγιστη διακύμανση από κάθε ποσοστιαία βάση όλων των ερωτηθέντων της δημοσκόπησης. Ο όρος περιθώριο σφάλματος αναφέρεται επίσης στην ακτίνα του διαστήματος εμπιστοσύνης για μια συγκεκριμένη στατιστική συνάρτηση. Το περιθώριο σφάλματος για ένα συγκεκριμένο ατομικό ποσοστό συνήθως είναι μικρότερο από το μέγιστο περιθώριο σφάλματος που αναφέρεται στην έρευνα. Αυτό το μέγιστο περιθώριο σφάλματος ισχύει μόνο όταν το παρατηρούμενο ποσοστό είναι 50%, και συρρικνώνεται όσο το ποσοστό πλησιάζει τα άκρα στο 0% και 100%. Με άλλα λόγια, το μέγιστο περιθώριο σφάλματος είναι η ακτίνα ενός διαστήματος εμπιστοσύνης 95% για ένα αναφερόμενο ποσοστό 50%. Αν το p απομακρύνεται από το 50% το διάστημα εμπιστοσύνης για το p θα μικραίνει. Έτσι το μέγιστο περιθώριο σφάλματος αντιπροσωπεύει το άνω όριο της αβεβαιότητας. Κάποιος είναι τουλάχιστον 95% σίγουρος ότι το αληθινό ποσοστό είναι εντός του μέγιστου σφάλματος του αναφερόμενου ποσοστού για κάθε αναφερόμενη μονάδα.

Επίδραση στο μέγεθος του πληθυσμού[Επεξεργασία | επεξεργασία κώδικα]

Ο παραπάνω τύπος για το περιθώριο σφάλματος υποθέτει ότι υπάρχει ένας απείρως μεγάλος πληθυσμός και επομένως δεν εξαρτάται από το μέγεθος του πληθυσμού ενδιαφέροντος. Σύμφωνα με την θεωρία δειγματοληψίας, αυτή η υπόθεση είναι λογική όταν το κλάσμα δειγματοληψίας είναι μικρό. Το περιθώριο σφάλματος για μια συγκεκριμένη μέθοδο δειγματοληψίας είναι ουσιαστικά η ίδια, ανεξάρτητα από το εάν το ενδιαφέρον του πληθυσμού είναι σε μέγεθος σχολείου, πόλης, πολιτείας η χώρας, όσο το κλάσμα δειγματοληψίας είναι μικρότερο από 5%. Σε περιπτώσεις που το κλάσμα δειγματοληψίας υπερβαίνει το 5%, οι αναλυτές μπορούν να προσαρμόσουν το περιθώριο σφάλματος χρησιμοποιώντας έναν πεπερασμένο διορθωτή πληθυσμού, (FPC) για να υπολογίσουν την προστιθέμενη ακρίβεια που έχει προστεθεί από την δειγματοληψία κοντά στο μεγαλύτερο ποσοστό του πληθυσμού. Το FPC μπορεί να υπολογιστεί χρησιμοποιώντας τον τύπο:[10]

\operatorname{FPC} = \sqrt{\frac{N-n}{N-1}}.

Για την προσαρμογή ενός μεγάλου κλάσματος δειγματοληψίας, το FPC λαμβάνει υπόψη τον υπολογισμό του περιθωρίου σφάλματος, το οποίο έχει σαν αποτέλεσμα την μείωση του περιθωρίου σφάλματος. Σε αυτό οφείλεται ότι το FPC πλησιάζει στο 0 όσο το μέγεθος του δείγματος(n) πλησιάζει το μέγεθος του πληθυσμού (N), το οποίο έχει σαν αποτέλεσμα να εξαλείψει το περιθώριο σφάλματος ολοκληρωτικά. Αυτό το υπολογίσαμε διαισθητικά επειδή όταν N=n, το δείγμα απογραφικό και το δειγματοληπτικό σφάλμα δεν επηρεάζει καθόλου.

Οι αναλυτές πρέπει να έχουν κατά νου ότι τα δείγματα παραμένουν πραγματικά τυχαία καθώς το κλάσμα δειγματοληψίας μεγαλώνει, μήπως προκύψει μεροληψία του δείγματος.

Άλλες στατιστικές συναρτήσεις[Επεξεργασία | επεξεργασία κώδικα]

Τα διαστήματα εμπιστοσύνης μπορούν να υπολογιστούν, συνεπώς και τα περιθώρια σφάλματος, για διάφορες στατιστικές συναρτήσεις, συμπεριλαμβανομένων τα ατομικά ποσοστά, τις διαφορές μεταξύ των ποσοστών, τους μέσους, τους διαμέσους [11] και τα αθροίσματα.
Το περιθώριο σφάλματος για τις διαφορές μεταξύ δύο ποσοστών είναι μεγαλύτερο από το μέγιστο περιθώριο σφάλματος για οποιοδήποτε ατομικό ποσοστό από την δημοσκόπηση.

Συγκρίνοντας ποσοστά[Επεξεργασία | επεξεργασία κώδικα]

Σε ένα πολυπληθές σύστημα ψηφοφορίας, στο οποίο νικητής είναι αυτός με τις περισσότερες ψήφους, είναι σημαντικό να γνωρίζουμε ποιος προηγείται. Οι όροι στατιστική ισοπαλία και σχεδόν στατιστική ισοπαλία μερικές φορές χρησιμοποιούνται για να περιγράψουν τα αναφερθέντα ποσοστά που διαφέρουν λιγότερο από ένα περιθώριο σφάλματος, αλλά αυτοί οι όροι μπορεί να είναι και παραπλανητικοί. [12][13] Από μια άποψη, ο γενικός υπολογισμός του περιθωρίου σφάλματος εφαρμόζεται σε ένα μεμονωμένο ποσοστό και όχι στη διαφορά μεταξύ ποσοστών, έτσι ο υπολογισμός της διαφοράς μεταξύ δύο ποσοστών μπορεί να μην είναι στατιστικά σημαντικό, ακόμα και όταν η διαφορά τους είναι μεγαλύτερη από το αναφερόμενο περιθώριο λάθους. Τα αποτελέσματα της έρευνας, συχνά παρέχουν ισχυρή πληροφόρηση, ακόμα και όταν δεν υπάρχει στατιστικά σημαντική διαφορά.

Κατά την σύγκριση ποσοστών, μπορεί να μας φανεί χρήσιμο να εξετάσουμε την πιθανότητα ότι ένα ποσοστό είναι μεγαλύτερο από ένα άλλο. [14]Σε απλές περιπτώσεις, αυτή η πιθανότητα μπορεί να προκύψει με 1) την τυποποιημένη μέθοδο υπολογισμού σφάλματος που αναφέραμε νωρίτερα, 2) τον τύπο για την διακύμανση της διαφοράς των δύο τυχαίων μεταβλητών και 3) την υπόθεση ότι αν κάποιος δεν επιλέξει Kerry, τότε θα επιλέξει Bush και το αντίστροφο αυτοί είναι τέλεια αρνητική συσχέτιση. Αυτό δεν μπορεί να είναι μια ευσταθής υπόθεση, όταν υπάρχουν περισσότερες από δύο πιθανές απαντήσεις στην δημοσκόπηση. Για πιο πολύπλοκα σχέδια έρευνας, πρέπει να χρησιμοποιούνται διαφορετικές μέθοδοι για τον υπολογισμό του τυπικού σφάλματος της διαφοράς.

Το τυπικό σφάλμα της διαφοράς των ποσοστών p για τον Kerry και q για τον Bush, αν υποτεθεί ότι έχουμε τέλεια αρνητική συσχέτιση, είναι:

 \text{Standard error of difference} = \sqrt{\frac{p+q-(p-q)^2}{n}} = \sqrt{\frac{p+q-p^2+2pq-q^2}{n}}.

Με δεδομένη την παρατηρούμενη ποσοστιαία διαφορά pq (2% or 0.02) και το τυπικό σφάλμα της διαφοράς υπολογίστηκε πάνω από (.03), κάθε στατιστική αριθμομηχανή μπορεί να χρησιμοποιηθεί για τον υπολογισμό της πιθανότητας ότι ένα δείγμα από μια κανονική κατανομή με μέσο όρο 0,02 και τυπική απόκλιση 0,03 είναι μεγαλύτερη από μηδέν.

Αναφορές[Επεξεργασία | επεξεργασία κώδικα]

  • Sudman, Seymour and Bradburn, Norman (1982). Asking Questions: A Practical Guide to Questionnaire Design. San Francisco: Jossey Bass. ISBN 0-87589-546-8
  • Wonnacott, T.H. and R.J. Wonnacott (1990). Introductory Statistics (5th ed. έκδοση). Wiley. ISBN 0-471-61518-8. 

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. Φ. Κολυβά-Μαχαίρα (1995). Μαθηματική Στατιστική. Ζήτη. σελ. 334. ISBN 978-960-431-240-5. 
  2. Φ. Κολυβά-Μαχαίρα, Ε. Σέντα-Μπόρα (1998). Στατιστική: Θεωρία και Εφαρμογές. Ζήτη. σελ. 490. ISBN 978-960-431-338-9. 
  3. Newsweek (2 October 2004). NEWSWEEK POLL: First Presidential Debate. Δελτίο τύπου. Ανακτήθηκε στις 2006-05-31.
  4. Wonnacott and Wonnacott (1990), pp. 4–8.
  5. Φαρμάκης Νικόλαος (2000). Εισαγωγή στην δειγματοληψία. Α & Π Χριστοδουλίδη. σελ. 237. ISBN 978-960-7577-27-6. 
  6. Sudman, S.L. and Bradburn N.M. (1982) Asking Questions. Jossey-Bass: pp. 17-19
  7. Sample Sizes, Margin of Error, Quantitative Analysis
  8. Lohr, Sharon L. (1999). Sampling: Design and Analysis. Pacific Grove, California: Duxbury Press. σελ. 49. ISBN 0-534-35361-4. «The margin of error of an estimate is the half-width of the confidence interval ...» 
  9. Stokes, Lynne (2004). «What is a Margin of Error?» (PDF). What is a Survey?. Survey Research Methods Section, American Statistical Association. σσ. 64. http://www.amstat.org/sections/srms/pamphlet.pdf. Ανακτήθηκε στις 2006-05-31. 
  10. Isserlis, L. (1918). «On the value of a mean as calculated from a sample». Journal of the Royal Statistical Society (Blackwell Publishing) 81 (1): 75–81. doi:10.2307/2340569.  (Equation 1)
  11. Income - Median Family Income in the Past 12 Months by Family Size, U.S. Census Bureau. Retrieved February 15, 2007.
  12. Braiker, Brian. "The Race is On: With voters widely viewing Kerry as the debate’s winner, Bush’s lead in the NEWSWEEK poll has evaporated". MSNBC, October 2, 2004. Retrieved on 2 February 2007.
  13. Rogosa, D.R. (2005). A school accountability case study: California API awards and the Orange County Register margin of error folly. In R.P. Phelps (Ed.), Defending standardized testing (pp. 205–226). Mahwah, NJ: Lawrence Erlbaum Associates.
  14. Drum, Kevin. Political Animal, Washington Monthly, August 19, 2004. Retrieved on 15 February 2007.

Εξωτερικές Συνδέσεις[Επεξεργασία | επεξεργασία κώδικα]