Διάστημα εμπιστοσύνης

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Πήδηση στην πλοήγηση Πήδηση στην αναζήτηση

Στη στατιστική, ένα διάστημα εμπιστοσύνης (ΔΕ) είναι ένας τύπος διαστήματος εκτίμησης μιας παραμέτρου του πληθυσμού. Είναι ένα παρατηρήσιμο διάστημα (δηλαδή, υπολογίζεται από τις παρατηρήσεις), κατ'αρχήν διαφέρει από δείγμα σε δείγμα, που συχνά περιλαμβάνει την αξία της μη παρατηρήσιμης παράμετρο ενδιαφέροντος, αν επαναληφθεί το πείραμα. Το πόσο συχνά παρατηρείται το διάστημα να περιέχει την παράμετρο καθορίζεται από το επίπεδο εμπιστοσύνης ή το συντελεστή εμπιστοσύνης. Πιο συγκεκριμένα, η έννοια του όρου "επίπεδο εμπιστοσύνης" είναι ότι, αν τα ΔΕ είναι κατασκευασμένα σε πολλές ξεχωριστές αναλύσεις δεδομένων από επανειλημμένα (και ενδεχομένως διαφορετικά) πειράματα, το ποσοστό αυτών των διαστημάτων που περιέχουν την πραγματική τιμή της παραμέτρου θα ταιριάζει με το δεδομένο επίπεδο εμπιστοσύνης.[1][2][3] Ενώ τα όρια εμπιστοσύνης διπλής όψεως σχηματίζουν ένα διάστημα εμπιστοσύνης, οι μονόπλευροι ομόλογοί τους αναφέρονται ως κάτω/πάνω όρια εμπιστοσύνης (ή όρια).

Τα διαστήματα εμπιστοσύνης αποτελούνται από ένα εύρος τιμών (διάστημα) που ενεργούν ως καλές εκτιμήσεις της άγνωστης παραμέτρου του πληθυσμού, ωστόσο, το χρονικό διάστημα που υπολογίζεται από ένα συγκεκριμένο δείγμα δεν περιλαμβάνει απαραίτητα την πραγματική τιμή της παραμέτρου. Όταν λέμε, "είμαστε 99% σίγουροι ότι η πραγματική τιμή της παραμέτρου είναι στο διάστημα εμπιστοσύνης μας", εκφράζουμε ότι το 99% των διαστημάτων εμπιστοσύνης που υποθετικά έχουμε παρατηρήσει θα κρατήσει την πραγματική τιμή της παραμέτρου. Αφού πάρουμε οποιοδήποτε συγκεκριμένο δείγμα, η παράμετρος του πληθυσμού είναι είτε στο διάστημα, συνειδητοποιημένα ή όχι δεν είναι θέμα τύχης. Το επιθυμητό επίπεδο εμπιστοσύνης ορίζεται από τον ερευνητή (δεν καθορίζεται από τα δεδομένα). Αν εκτελείται μια δοκιμή αντίστοιχης υπόθεσης, το επίπεδο εμπιστοσύνης είναι το συμπλήρωμα των αντίστοιχων επιπέδων σημαντικότητας, δηλαδή ένα 95% διάστημα εμπιστοσύνης αντικατοπτρίζει ένα επίπεδο σημαντικότητας 0,05. [4] Το διάστημα εμπιστοσύνης περιέχει τις τιμές των παραμέτρων που, κατά τη δοκιμή, δεν πρέπει να απορρίπτεται με τον ίδιο δείγμα. Υψηλότερα επίπεδα διακύμανσης αποδίδουν μεγαλύτερα διαστήματα εμπιστοσύνης, και ως εκ τούτου λιγότερο ακριβείς εκτιμήσεις της παραμέτρου. Διαστήματα εμπιστοσύνης διαφορετικών παραμέτρων που δεν περιέχουν το 0 υπονοούν ότι υπάρχει στατιστικά σημαντική διαφορά μεταξύ των πληθυσμών.

Στην εφαρμοσμένη πρακτική,τα διαστήματα εμπιστοσύνης αναφέρονται συνήθως στο 95% του επιπέδου εμπιστοσύνης.[5] Ωστόσο, όταν παρουσιάζονται με γραφική παράσταση,τα διαστήματα εμπιστοσύνης μπορούν να εμφανιστούν σε διάφορα επίπεδα εμπιστοσύνης, για παράδειγμα, 90%, 95% και 99%.

Ορισμένοι παράγοντες μπορεί να επηρεάσουν το μέγεθος του διαστήματος εμπιστοσύνης συμπεριλαμβανομένου του μεγέθους του δείγματος, το επίπεδο εμπιστοσύνης, και την πληθυσμιακή διακύμανση. Ένα μεγαλύτερου μεγέθους δείγμα συνήθως θα οδηγήσει σε μια καλύτερη εκτίμηση της παραμέτρου του πληθυσμού.

Τα διαστήματα εμπιστοσύνης παρουσιάστηκαν στην στατιστική από Jerzy Neyman σε ένα έγγραφο που δημοσιεύτηκε το 1937.[3]

Εννοιολογική βάση[Επεξεργασία | επεξεργασία κώδικα]

Σε αυτό το γράφημα ράβδων, τα κορυφαία άκρα των ράβδων υποδεικνύουν τα μέσα των παρατηρήσεων και τα κόκκινα ευθύγραμμα τμήματα αντιπροσωπεύουν τα διαστήματα εμπιστοσύνης γύρω τους. Αν και οι μπάρες εμφανίζονται ως συμμετρικές σε αυτό το διάγραμμα, δεν χρειάζεται να είναι συμμετρικές.

Εισαγωγή[Επεξεργασία | επεξεργασία κώδικα]

Τα διαστήματα εκτιμήσεων μπορούν να αντιπαραβληθούν με το σημείο εκτιμήσεων. Μια εκτίμηση είναι μια ενιαία τιμή που δίνεται ως η εκτίμηση μιας παραμέτρου του πληθυσμού που είναι ενδιαφέρον, για παράδειγμα το μέσο κάποιας ποσότητας. Το διάστημα εκτίμησης καθορίζει αντ' αυτού ένα εύρος εντός του οποίου η παράμετρος εκτιμάται να είναι λανθασμένη. Τα διαστήματα εμπιστοσύνης συνήθως αναφέρονται σε πίνακες ή γραφήματα μαζί με το σημείο εκτίμησης για τις ίδιες παραμέτρους, για να δείξουν την αξιοπιστία των εκτιμήσεων.

Για παράδειγμα, ένα διάστημα εμπιστοσύνης μπορεί να χρησιμοποιηθεί για να περιγράψει πόσο αξιόπιστα είναι τα αποτελέσματα της έρευνας. Σε μια δημοσκόπηση της εκλογικής ψηφοφορίας-προθέσεων, το αποτέλεσμα θα μπορούσε να είναι ότι το 40% των ερωτηθέντων σκοπεύει να ψηφίσει ένα συγκεκριμένο κόμμα. Ένα 99% διάστημα εμπιστοσύνης για το ποσοστό στο σύνολο του πληθυσμού έχει την ίδια πρόθεση της έρευνας που μπορεί να είναι 30% έως 50%. Από τα ίδια στοιχεία μπορεί κανείς να υπολογίσει ένα 90% διάστημα εμπιστοσύνης, το οποίο σε αυτή την περίπτωση μπορεί να είναι από 37% μέχρι 43%. Ένας σημαντικός παράγοντας για τον καθορισμό του μήκους του διαστήματος εμπιστοσύνης είναι το μέγεθος του δείγματος που χρησιμοποιείται στη διαδικασία εκτίμησης, για παράδειγμα, ο αριθμός των ανθρώπων που παίρνουν μέρος σε μια έρευνα.

Έννοια και ερμηνεία[Επεξεργασία | επεξεργασία κώδικα]

Για τους χρήστες των frequentist μεθόδων, διάφορες ερμηνείες από ένα διάστημα εμπιστοσύνης μπορούν να δοθούν (παίρνοντας το 90% διάστημα εμπιστοσύνης ως ένα παράδειγμα στο παρακάτω).

  • Το διάστημα εμπιστοσύνης μπορεί να εκφραστεί σε όρους των δειγμάτων (ή επαναλαμβανόμενων δειγμάτων): "Αν αυτή η διαδικασία μπορούσε να επαναλαμβάνεται σε πολλαπλά δείγματα, υπολογισμένο διάστημα εμπιστοσύνης (το οποίο θα διαφέρει από κάθε δείγμα) θα περιλάμβανε την πραγματική παράμετρο του πληθυσμού το 90% του χρόνου. [1] Αναφέρεται στην επαναλαμβανόμενη μέτρηση του ίδιου δείγματος, αλλά στην επανάληψη της δειγματοληψίας.[2]
  • Το διάστημα εμπιστοσύνης μπορεί να εκφραστεί σε ένα μόνο δείγμα: "Υπάρχει 90% πιθανότητα ότι το υπολογισμένο διάστημα εμπιστοσύνης από κάποιο μελλοντικό πείραμα περιλαμβάνει την πραγματική τιμή της παραμέτρου του πληθυσμού." Σημειώστε ότι αυτό είναι μια πιθανή δήλωση για το διάστημα εμπιστοσύνης, όχι για την παράμετρο του πληθυσμού. Αυτό εκτιμά την πιθανότητα που σχετίζεται με ένα διάστημα εμπιστοσύνης από μια προ-πειραματική άποψη, στο ίδιο πλαίσιο στο οποίο δημιουργούνται οι διαφωνίες για την τυχαία κατανομή των θεραπειών για τη μελέτη στοιχείων. Εδώ ο πειραματιστής καθορίζει τον τρόπο με τον οποίο σκοπεύουν να υπολογίσουν ένα διάστημα εμπιστοσύνης και να ξέρουν, πριν κάνουν το πραγματικό πείραμα,ότι το διάστημα το οποίο θα καταλήξουν να υπολογίσουν έχει μια ορισμένη πιθανότητα να καλύπτουν την πραγματική αλλά άγνωστη τιμή.[3] Αυτό είναι πολύ παρόμοιο με παραπάνω ερμηνευμένο "επαναλαμβανόμενο δείγμα", εκτός από το ότι αποφεύγει να βασίζεται στην εξέταση των υποθετικών επαναλήψεων της δειγματοληπτικής διαδικασίας που δεν μπορεί να είναι επαναλαμβανόμενη σε οποιαδήποτε λογική έννοια. Δείτε κατασκευή Neyman.
  • Η εξήγηση για ένα διάστημα εμπιστοσύνης μπορεί να ανέλθει σε κάτι σαν: "Το διάστημα εμπιστοσύνης αντιπροσωπεύει τις τιμές της παραμέτρου του πληθυσμού, για την οποία η διαφορά μεταξύ της παραμέτρου και της παρατηρούμενης εκτίμησης δεν είναι στατιστικά σημαντική στο επίπεδο του 10%".[6] Στην πραγματικότητα, αυτό σχετίζεται με ένα συγκεκριμένο τρόπο με τον οποίο ένα διάστημα εμπιστοσύνης μπορεί να κατασκευαστεί.

Σε κάθε ένα από τα παραπάνω, ισχύουν τα εξής: Αν η πραγματική τιμή της παραμέτρου βρίσκεται έξω από το διάστημα εμπιστοσύνης 90% αφού έχει υπολογιστεί,τότε ένα συμβάν συνέβη, το οποίο είχε μια πιθανότητα 10% (ή λιγότερο) από το να συμβεί κατά τύχη.

Παρεξηγήσεις[Επεξεργασία | επεξεργασία κώδικα]

Τα διαστήματα εμπιστοσύνης είναι συχνά παρεξηγημένα, και δημοσιευμένες μελέτες έχουν δείξει ότι ακόμα και επαγγελματίες επιστήμονες συχνά τα παρερμηνεύουν.[7][8][9][10]

  • Ένα 95% διάστημα εμπιστοσύνης δεν σημαίνει ότι για ένα δεδομένο συνειδητοποιημένο διάστημα που υπολογίζεται από τα δεδομένα του δείγματος υπάρχει 95% πιθανότητα η παράμετρος του πληθυσμού να βρίσκεται εντός του διαστήματος, ούτε ότι υπάρχει 95% πιθανότητα το διάστημα να καλύπτει την παράμετρο του πληθυσμού.[11] Μόλις τελειώσει ένα πείραμα και ένα διάστημα έχει υπολογιστεί, αυτό το διάστημα, είτε καλύπτει την τιμή της παραμέτρου είτε όχι, δεν είναι πλέον θέμα πιθανοτήτων. Η 95% πιθανότητα σχετίζεται με την αξιοπιστία της διαδικασίας εκτίμησης, όχι σε ένα συγκεκριμένο υπολογισμένο διάστημα.[12] Ο Neyman (ο αρχικός υποστηρικτής των διαστημάτων εμπιστοσύνης) έκανε αυτήν την υπόδειξη στο αρχικό του έγγραφο:[3]

    "Θα παρατηρηθεί ότι στην παραπάνω περιγραφή, οι δηλώσεις πιθανότητας αναφέρονται στα προβλήματα της εκτίμησης με την οποία ο στατιστικολόγος θα ασχοληθεί στο μέλλον. Στην πραγματικότητα, έχω επανειλημμένα δηλώσει ότι η συχνότητα των σωστών αποτελεσμάτων θα τείνουν στο α. Ας θεωρήσουμε τώρα την περίπτωση, όταν ένα δείγμα είναι ήδη σχεδιασμένο και οι υπολογισμοί έχουν δώσει [συγκεκριμένα όρια]. Μπορούμε να πούμε ότι, στη συγκεκριμένη περίπτωση, η πιθανότητα της πραγματικής τιμής [που βρίσκεται μεταξύ αυτών των ορίων] είναι ίση με το α; Η απάντηση είναι προφανώς αρνητική. Η παράμετρος είναι μια άγνωστη σταθερά και όχι δήλωση πιθανότητας όσον αφορά την αξία της που μπορεί να γίνει..."

Η Deborah Mayo επεκτείνει περαιτέρω ως εξής:[13]

"Πρέπει να τονιστεί, ωστόσο, ότι έχοντας δει την τιμή [των δεδομένων],η θεωρία των Neyman-Pearson δεν επιτρέπει ποτέ να συμπεράνουμε ότι το συγκεκριμένο διάστημα εμπιστοσύνης που σχηματίζεται καλύπτει την πραγματική τιμή του 0 με είτε (1 - α)100% πιθανότητα ή (1 - α)100% βαθμό εμπιστοσύνης. Η παρατήρηση του Seidenfeld φαίνεται ριζωμένη σε μια (όχι ασυνήθιστη) επιθυμία για τα διαστήματα εμπιστοσύνης Neyman-Pearson να παρέχει κάτι το οποίο δεν μπορούν νόμιμα να παρέχουν, δηλαδή, ένα μέτρο του βαθμού της πιθανότητας, πεποιθήσεων, ή να υποστηρίξει ότι μια άγνωστη τιμή της παραμέτρου βρίσκεται σε ένα συγκεκριμένο διάστημα. Μετά το Savage (1962), η πιθανότητα ότι μια παράμετρος βρίσκεται σε ένα συγκεκριμένο διάστημα μπορεί να αναφερθεί ως ένα μέτρο της τελικής ακρίβειας. Ενώ το μέτρο της τελικής ακρίβειας μπορεί να φαίνεται επιθυμητό, και, ενώ τα επίπεδα εμπιστοσύνης είναι συχνά (λανθασμένα) ερμηνευμένα ως παροχή ενός τέτοιου μέτρου, καμία τέτοια ερμηνεία δεν είναι δικαιολογημένη. Βέβαια, μια τέτοια παρερμηνεία ενθαρρύνεται από τη λέξη "εμπιστοσύνη"."

  • Ένα 95% διάστημα εμπιστοσύνης δεν σημαίνει ότι το 95% των δεδομένων των δειγμάτων βρίσκονται εντός του διαστήματος.
  • Ένα διάστημα εμπιστοσύνης δεν είναι ένα εύρος των εύλογων αξιών για το δείγμα, αν και αυτό μπορεί να γίνει κατανοητό ως μια εκτίμηση των εύλογων αξιών για την παραμέτρου του πληθυσμού.
  • Ένα συγκεκριμένο διάστημα εμπιστοσύνης του 95% που υπολογίζεται από ένα πείραμα, δεν σημαίνει ότι υπάρχει 95% πιθανότητα ένα δείγμα συμβαίνει από μια επανάληψη του πειράματος, που εμπίπτουν στο διάστημα αυτό.[14]

Φιλοσοφικά θέματα[Επεξεργασία | επεξεργασία κώδικα]

Η αρχή πίσω από τα διαστήματα εμπιστοσύνης ήταν σχεδιασμένη για να δώσει μια απάντηση στο ερώτημα που έχει τεθεί στην στατιστική συμπερασματολογία για το πώς να ασχοληθεί με την αβεβαιότητα που ενυπάρχει σε αποτελέσματα που προέρχονται από τα δεδομένα τα οποία είναι ίδια μόνο με ένα τυχαία επιλεγμένο υποσύνολο του πληθυσμού. Υπάρχουν και άλλες απαντήσεις, ιδίως αυτές που παρέχονται από την Μπεϋζιανή συμπερασματολογία με τη μορφή αξιόπιστων διαστημάτων. Τα διαστήματα εμπιστοσύνης αντιστοιχούν σε ένα επιλεγμένο κανόνα για τον καθορισμό των ορίων εμπιστοσύνης, όπου ο κανόνας αυτός καθορίζεται ουσιαστικά πριν από οποιαδήποτε δεδομένα που λαμβάνονται, ή πριν από ένα πείραμα που έγινε. Ο κανόνας ορίζεται, όπως ότι πάνω από όλα τα πιθανά σύνολα δεδομένων που μπορούν να επιτευχθούν, υπάρχει μια υψηλή πιθανότητα (το "high" είναι συγκεκριμένα, ποσοτικά) ότι το διάστημα που καθορίζεται από τον κανόνα θα περιλαμβάνει την πραγματική τιμή της ποσότητας που βρίσκεται υπό εξέταση. Αυτός είναι ένας αρκετά απλός και λογικός τρόπος να καθορίσετε έναν κανόνα για τον προσδιορισμό της αβεβαιότητας των διαστημάτων. Η Μπεϋζιανή προσέγγιση φαίνεται να προσφέρει διαστήματα που μπορεί, με την επιφύλαξη της αποδοχής της ερμηνείας των "πιθανοτήτων", όπως η Μπεϋζιανή πιθανότητα, να ερμηνευθεί υπό την έννοια ότι το συγκεκριμένο διάστημα που υπολογίζεται από ένα δεδομένο σύνολο δεδομένων έχει μια ορισμένη πιθανότητα καθώς και την πραγματική αξία, υπό τον όρο ότι από τα δεδομένα και άλλες πληροφορίες που είναι διαθέσιμες. Η προσέγγιση του διαστήματος εμπιστοσύνης δεν το επιτρέπει αυτό, αφού σε αυτό το σκεύασμα και σε αυτό το ίδιο το στάδιο, και τα δύο από τα όρια του διαστήματος και τις πραγματικές αξίες είναι σταθερές αξίες και δεν υπάρχει τυχαιότητα που εμπλέκονται.

Για παράδειγμα, στο παράδειγμα δημοσκόπησης που περιγράφεται στην εισαγωγή, για να είναι 95% σίγουρο ότι ο πραγματικός αριθμός των ψηφοφόρων που προτίθενται να ψηφίσουν το εν λόγω κόμμα είναι μεταξύ 36% και 44%, δεν πρέπει να ερμηνεύεται με την κοινή λογική ότι υπάρχει 95% πιθανότητα ο πραγματικός αριθμός των ψηφοφόρων που προτίθενται να ψηφίσουν το εν λόγω κόμμα είναι μεταξύ 36% και 44%. Η πραγματική έννοια των επιπέδων εμπιστοσύνης και των διαστημάτων εμπιστοσύνης είναι μάλλον πιο λεπτή. Στην παραπάνω περίπτωση, η σωστή ερμηνεία είναι η εξής: Αν οι εκλογές επαναλήφθηκαν πολλαπλές φορές (θα μπορούσε να παράγει ένα 95% διάστημα εμπιστοσύνης για το εκλογικό διάστημα εμπιστοσύνης), κάθε φορά δημιουργώντας ένα 95% διάστημα εμπιστοσύνης από το δείγμα δημοσκόπησης, τότε το 95% των παραγόμενων διαστημάτων θα περιέχει το πραγματικό ποσοστό των ψηφοφόρων που προτίθενται να ψηφίσουν το συγκεκριμένο κόμμα. Κάθε φορά που οι δημοσκοπήσεις επαναλαμβάνονται,ένα διαφορετικό διάστημα εμπιστοσύνης παράγεται και ως εκ τούτου, δεν είναι δυνατόν να κάνει απόλυτες δηλώσεις σχετικά με τις πιθανότητες για κάθε ένα δεδομένο διάστημα. Για περισσότερες πληροφορίες, δείτε την ενότητα σχετικά με την έννοια και την ερμηνεία.

Οι ερωτήσεις σχετικά με το πώς ένα διάστημα που εκφράζει την αβεβαιότητα στην εκτίμηση μπορεί να διατυπωθεί και για το πώς αυτά τα διαστήματα μπορούν να ερμηνευθούν, δεν είναι αυστηρά μαθηματικά προβλήματα και φιλοσοφικά προβλήματα.[15] Τα μαθηματικά μπορεί να πάρουν πάνω από μια φορά τις βασικές αρχές της προσέγγισης του "συμπεράσματος" που έχει δημιουργηθεί, αλλά έχει μόνο ένα περιορισμένο ρόλο στο να πει το γιατί μια προσέγγιση θα πρέπει να προτιμάται σε σχέση με ένα άλλο: Για παράδειγμα, ένα επίπεδο εμπιστοσύνης 95% χρησιμοποιείται συχνά στις βιολογικές επιστήμες, αλλά αυτό είναι ένα θέμα της σύμβασης ή της διαιτησίας. Στις φυσικές επιστήμες, ένα πολύ υψηλότερο επίπεδο μπορεί να χρησιμοποιηθεί.[16]

Σχέση με άλλα στατιστικά θέματα[Επεξεργασία | επεξεργασία κώδικα]

Έλεγχος στατιστικών υποθέσεων[Επεξεργασία | επεξεργασία κώδικα]

Τα διαστήματα εμπιστοσύνης είναι στενά συνδεδεμένα με τον έλεγχο στατιστικής σημαντικότητας . Για παράδειγμα, για κάποια εκτιμώμενη παράμετρο θ αν κάποιος θέλει να ελέγξει την μηδενική υπόθεση ότι το θ = 0 έναντι της εναλλακτικής ότι θ ≠ 0, τότε αυτός ο έλεγχος μπορεί να πραγματοποιηθεί με τον καθορισμό του εάν το διάστημα εμπιστοσύνης για το θ περιέχει το 0.

Γενικότερα, με δεδομένη τη διαθεσιμότητα της διαδικασίας ελέγχου μιας υπόθεσης που μπορεί να εξετάσει τη μηδενική υπόθεση θ = θ0 έναντι της εναλλακτικής ότι θθ0 για κάθε τιμή του θ0, ένα διάστημα εμπιστοσύνης με επίπεδο εμπιστοσύνης γ = 1 − α μπορεί να οριστεί ως το διάστημα που περιέχει οποιοδήποτε αριθμό θ0 για τον οποίο η αντίστοιχη μηδενική υπόθεση επαληθεύεται σε επίπεδο σημαντικότητας α.[17]

Αν οι εκτιμήσεις των δύο παραμέτρων (για παράδειγμα, οι μέσες τιμές μιας μεταβλητής σε δύο ανεξάρτητες ομάδες) έχουν διαστήματα εμπιστοσύνης που δεν επικαλύπτονται, τότε η διαφορά μεταξύ των δύο τιμών είναι πιο σημαντική από αυτές που υποδεικνύονται από τις επιμέρους τιμές του α.[18] Έτσι, αυτός ο "έλεγχος" είναι πολύ συντηρητικός και μπορεί να οδηγήσει σε ένα αποτέλεσμα που είναι πιο σημαντικό από την ένδειξη των επιμέρους τιμών του α . Αν δύο διαστήματα εμπιστοσύνης επικαλύπτονται,οι δύο μέσες τιμές μπορει να εξακολουθούν να διαφέρουν σημαντικά.[19][20][21] Κατά συνέπεια, και σύμφωνα με το Mantel-Haenszel Chi-squared test, μια προτεινόμενη διόρθωση με την οποία μπορεί να μειωθεί το σφάλμα των ορίων για τα δύο μέσα είναι ο πολλαπλασιασμό τους με την τετραγωνική ρίζα του ½ (0.707107) πριν γίνει η σύγκριση.[22]

Ενώ οι συνθέσεις των εννοιών των διαστημάτων εμπιστοσύνης και των ελέγχων στατιστικών υποθέσεων διαφέρουν, κατά κάποιο τρόπο σχετίζονται και σε κάποιο βαθμό είναι συμπληρωματικές. Ενώ δεν είναι όλα τα διαστήματα εμπιστοσύνης κατασκευασμένα με αυτόν τον τρόπο, μια γενικού σκοπού προσέγγιση για την κατασκευή διαστημάτων εμπιστοσύνης είναι να οριστεί ένα 100(1 − α)% διάστημα εμπιστοσύνης για να περιλαμβάνει όλες αυτές τις τιμές θ0 για τις οποίες ένας έλεγχος της υπόθεσης θ = θ0 επαληθεύεται σε επίπεδο σημαντικότητας 100α%. Μια τέτοια προσέγγιση μπορεί να μην είναι πάντα διαθέσιμη, δεδομένου ότι προϋποθέτει την πρακτική διαθεσιμότητα ενός κατάλληλου ελέγχου σημασίας. Φυσικά, όλες οι παραδοχές που απαιτούνται για τον έλεγχο σημασίας θα μεταφερθούν στα διαστήματα εμπιστοσύνης.

Θα ήταν βολικό να γίνει η γενική συσχέτιση ότι οι τιμές των παραμέτρων μέσα σε ένα διάστημα εμπιστοσύνης είναι ισοδύναμες με αυτές τις τιμές που επαληθεύονται από τον έλεγχο μιας υπόθεσης, αλλά αυτό θα ήταν επικίνδυνο. Σε πολλές περιπτώσεις τα διαστήματα εμπιστοσύνης που εξετάζονται είναι μόνο κατά προσέγγιση έγκυρα, ίσως προέρχεται από το "συν ή μείον δύο φορές το τυπικό σφάλμα", και οι συνέπειες αυτού για τους υποθετικούς ελέγχους της αντίστοιχης υπόθεσης είναι συνήθως άγνωστες.

Αξίζει να σημειωθεί ότι το διάστημα εμπιστοσύνης για μια παράμετρο δεν είναι το ίδιο με την περιοχή αποδοχή ενός ελέγχου της παραμέτρου, όπως συχνά θεωρείται. Το διάστημα εμπιστοσύνης είναι μέρος του παραμετρικού χώρου, ενώ η περιοχή αποδοχής είναι μέρος του δειγματικού χώρου. Για τον ίδιο λόγο, το επίπεδο εμπιστοσύνης δεν είναι το ίδιο με τη συμπληρωματική πιθανότητα του επιπέδου σημαντικότητας.[απαιτείται περαιτέρω εξήγηση]

Περιοχή Εμπιστοσύνης[Επεξεργασία | επεξεργασία κώδικα]

Οι περιοχές εμπιστοσύνης γενικεύουν την ιδέα των διαστημάτων εμπιστοσύνης για την ενασχόλιση με πολλαπλές ποσότητες. Τέτοιες περιοχές μπορούν να δείξουν όχι μόνο την έκταση των πιθανών σφαλμάτων δειγματοληψίας , αλλά μπορούν επίσης να αποκαλύψουν αν (για παράδειγμα) είναι η υπόθεση ότι αν η εκτίμηση για μια ποσότητα είναι αναξιόπιστη, τότε η άλλη ποσότητα είναι, επίσης, πιθανό να είναι αναξιόπιστη.

Ζώνη Εμπιστοσύνης[Επεξεργασία | επεξεργασία κώδικα]

Μια ζώνη εμπιστοσύνης χρησιμοποιείται στη στατιστική ανάλυση, για να αναπαραστήσει την αβεβαιότητα στην εκτίμηση μιας καμπύλης ή μιας συνάρτησης βασισμένες σε περιορισμένα ή θορυβώδη δεδομένα. Ομοίως, μια ζώνη πρόβλεψης χρησιμοποιείται για να αναπαραστήσει την αβεβαιότητα σχετικά με την τιμή ενός νέου δεδομένου στη καμπύλη, αλλά το θέμα είναι στον θορύβο.Οι ζώνες εμπιστοσύνης και πρόβλεψης χρησιμοποιούνται συχνά ως μέρος της γραφικής παρουσίασης των αποτελεσμάτων της παλινδρομικής ανάλυσης.

Οι ζώνες εμπιστοσύνης είναι στενά συνδεδεμένες με τα διαστήματα εμπιστοσύνης, τα οποία αντιπροσωπεύουν την αβεβαιότητα στην εκτίμηση μιας ενιαίας αριθμητικής τιμής. "Καθώς τα διαστήματα εμπιστοσύνης, από την κατασκευή τους, αναφέρονται σε ένα μόνο σημείο, είναι πιο μικρά (στο σημείο αυτό) από μια ζώνη εμπιστοσύνης που πρέπει να στηρίζεται ταυτόχρονα σε πολλά σημεία."[23]

Βασικά Βήματα[Επεξεργασία | επεξεργασία κώδικα]

Η βασική διαδικασία για το πώς υπολογίζεται ένα διάστημα εμπιστοσύνης για έναν μέσο πληθυσμό, είναι η εξής:

1. Προσδιορίζεται η μέση τιμή του δείγματος, .Ενώ διαφέρει από , τον μέσο πληθυσμό, εξακολουθούν να υπολογίζονται με τον ίδιο τρόπο: .
2. Προσδιορίζεται αν η τυπική απόκλιση είναι γνωστή, ή άγνωστη, s.
  • Αν η τυπική απόκλιση είναι γνωστή τότε z* χρησιμοποιείται ως κρίσιμη τιμή. Αυτή η τιμή εξαρτάται μόνο από το επίπεδο εμπιστοσύνης για τον έλεγχο. Τυπικά επίπεδα εμπιστοσύνης είναι:[24]
99% 2.576
98% 2.326
95% 1.96
Το 90% 1.645
  • Αν η τυπική απόκλιση είναι άγνωστη, τότε t* χρησιμοποιείται ως κρίσιμη τιμή. Αυτή η τιμή εξαρτάται από το επίπεδο εμπιστοσύνης (C) για τον έλεγχο και τους βαθμούς ελευθερίας. Οι βαθμοί ελευθερίας βρίσκονται αφαιρώντας ένα από τον αριθμό των παρατηρήσεων, n-1. Η κρίσιμη τιμή βρίσκεται από την t-κατανομή πίνακα. Στον πίνακα αυτό η κρίσιμη τιμή είναι γραμμένη ως tα(r), όπου r είναι ο αριθμός των βαθμών ελευθερίας και = .
3. Συνδέονται οι τιμές που βρέθηκαν στις κατάλληλες εξισώσεις:
  • Για μια γνωστή τυπική απόκλιση:
  • Για μια άγνωστη τυπική απόκλιση:
4. Το τελικό βήμα είναι να ερμηνευθεί η απάντηση. Από τη στιγμή που η απάντηση που βρέθηκε είναι ένα διάστημα με ανώτερο και κατώτερο όριο είναι σκόπιμο να αναφερθεί ότι με βάση τα δεδομένα που έχουμε είμαστε __ % (ανάλογα με το επίπεδο εμπιστοσύνης) σίγουροι ότι ο πραγματικός μέσος του πληθυσμού είναι μεταξύ __ (κάτω όριο) και __ (άνω όριο).[25]

Στατιστική θεωρία[Επεξεργασία | επεξεργασία κώδικα]

Ορισμός[Επεξεργασία | επεξεργασία κώδικα]

Ας είναι Χ ένα τυχαίο δείγμα από μια κατανομή πιθανότητας με στατιστικές παραμέτρους θ, η οποία είναι μια ποσότητα που πρέπει να εκτιμηθεί, και ϕ, που αντιπροσωπεύει τις ποσότητες που δεν είναι του άμεσου ενδιαφέροντος. Ένα διάστημα εμπιστοσύνης για την παράμετρο θ, με επίπεδο εμπιστοσύνης ή την εμπιστοσύνη του συντελεστή γ, είναι ένα διάστημα με τυχαία άκρα (u(X), v(X)), που καθορίζονται από το ζεύγος των τυχαίων μεταβλητών u(X) και v(X), με την ιδιότητα:

για όλα τα

Οι ποσότητες ϕ για τις οποίες δεν υπάρχει άμεσο ενδιαφέρον ονομάζονται ενοχλητικές παράμετροι, καθώς η στατιστική θεωρία δεν έχει βρει ακόμα τρόπο να τις αντιμετωπίσει. Ο αριθμός γ, με τυπικές τιμές κοντά αλλά όχι μεγαλύτερες από 1, μερικές φορές δίνεται με τη μορφή 1 − α (ή ως ποσοστό 100%·(1 − α)), όπου α είναι ένας μικρός μη αρνητικός αριθμός, κοντά στο 0.

Εδώ το Pr,θ,ϕ δείχνει την κατανομή πιθανότητας του X που χαρακτηρίζεται από το (θ, ϕ). Ένα σημαντικό μέρος αυτής της ειδίκευσης είναι ότι το τυχαίο διάστημα (u(X), v(X)) δίνει στην άγνωστη τιμή θ μια μεγάλη πιθανότητα, ανεξάρτητα το ποια είναι η αληθινή τιμή του θ στην πραγματικότητα.

Ας σημειωθεί εδώ ότι Pr,θ,ϕ δεν αναφέρεται ρητά σε δοθείσα παραμετροποιημένη οικογένεια κατανομών, αν και συχνά συμβαίνει. Όπως και η τυχαία μεταβλητή X θεωρητικά αντιστοιχεί άλλες πιθανές αντιλήψεις του x από τον ίδιο πληθυσμό ή από την ίδια έκδοση της πραγματικότητας, οι παράμετροι (θ, ϕ), δείχνουν ότι θα πρέπει να εξετάσουμε άλλες εκδοχές της πραγματικότητας, στην οποία η κατανομή του X μπορεί να έχει διαφορετικά χαρακτηριστικά.

Σε μια συγκεκριμένη περίπτωση, όταν το x είναι το αποτέλεσμα του δείγματος, X, το διάστημα (u(x), v(x)) είναι αναφέρεται επίσης ως ένα διάστηκα εκπιστοσύνης για το θ. Σημειώστε ότι δεν είναι πλέον δυνατόν να πούμε ότι το (παρατηρήθεν) διάστημα (u(x), v(x)) έχει πιθανότητα γ να περιέχει την παράμετρο θ. Αυτό το διάστημα που παρατηρήθηκε είναι μόνο μια συνειδητοποίηση όλων των πιθανών διαστημάτων για τα οποία ισχύει το επιχείρημα για την πιθανότητα.

Διαστήματα εμπιστοσύνης κατά προσέγγιση[Επεξεργασία | επεξεργασία κώδικα]

Σε πολλές εφαρμογές, τα διαστήματα εμπιστοσύνης που έχουν ακριβώς το απαιτούμενο επίπεδο εμπιστοσύνης είναι δύσκολο να κατασκευαστούν. Αλλά πρακτικά, χρήσιμα διαστήματα μπορούν ακόμα να βρεθούν: ο κανόνας για την κατασκευή του διαστήματος μπορεί να γίνει αποδεκτός ως η παροχή διάστηματος εμπιστοσύνης με επίπεδο γ αν

για όλα τα

σε ένα αποδεκτό επίπεδο προσέγγισης. Εναλλακτικά, ορισμένοι συγγραφείς[26] απλά απαιτούν

για όλα τα

το οποίο είναι χρήσιμο αν οι πιθανότητες είναι μόνο εν μέρει προσδιορισμένες, ή ανακριβείς.

Επιθυμητές ιδιότητες[Επεξεργασία | επεξεργασία κώδικα]

Όταν εφαρμόζονται οι συνήθεις στατιστικές διαδικασίες, συχνά θα υπάρχουν συγκεκριμένοι τρόποι για την κατασκευή διαστημάτων εμπιστοσύνης. Αυτοί έχουν σχεδιαστεί ώστε να πληρούν ορισμένες επιθυμητές ιδιότητες, οι οποίες θα ισχύουν δεδομένου ότι οι υποθέσεις στις οποίες η διαδικασία βασίζεται είναι σωστές. Οι επιθυμητές ιδιότητες μπορούν να περιγραφούν ως: εγκυρότητα, βελτιστοποίηση και σταθερότητα.Από αυτά η "εγκυρότητα" είναι η πιο σημαντική, που ακολουθείται στενά από τη "βελτιστοποίηση". Η "σταθερότητα" μπορεί να θεωρηθεί ως μια ιδιότητα της μεθόδου υπολογισμού του διαστήματος εμπιστοσύνης αντί του κανόνα για την κατασκευή του διαστήματος. Στις μη τυποποιημένες εφαρμογές, οι ίδιες επιθυμητές ιδιότητες επιδιώκονται.

  • Εγκυρότητα. Σημαίνει ότι η ονομαστική πιθανότητα κάλυψης (επίπεδο εμπιστοσύνης) του διαστήματος εμπιστοσύνης θα πρέπει να ισχύει, είτε ακριβώς ή με μια καλή προσέγγιση.
  • Βελτιστοποίηση. Σημαίνει ότι ο κανόνας για την κατασκευή του διαστήματος εμπιστοσύνης θα πρέπει να κάνει όσο το δυνατόν καλύτερη χρήση των πληροφοριών στο σύνολο δεδομένων . Υπενθυμίζεται ότι κάποιος θα μπορούσε να πετάξει το ήμισυ του συνόλου δεδομένων και να εξακολουθεί να είναι σε θέση να αντλήσει ένα έγκυρο διάστημα εμπιστοσύνης. Ένας τρόπος αξιολόγησης της βελτιστοποίησης είναι από το μήκος του διαστήματος, οπότε ο κανόνας για την κατασκευή του διαστήματος εμπιστοσύνης κρίνεται καλύτερα από ένα άλλο, αν αυτό οδηγεί σε διαστήματα των οποίων τα μήκη είναι τυπικά μικρότερα.
  • Σταθερότητα. Σε πολλές εφαρμογές η ποσότητα που υπολογίζεται μπορεί να μην είναι αυστηρά καθορισμένη. Για παράδειγμα, μια έρευνα θα μπορούσε να οδηγήσει σε μια εκτίμηση της διάμεσου του εισοδήματος του πληθυσμού, αλλά μπορεί εξίσου να θεωρηθεί ότι παρέχει μια εκτίμηση του λογαρίθμου της διάμεσου του εισοδήματος, δεδομένου ότι αυτή είναι μια κοινή κλίμακα για την παρουσίαση των γραφικών αποτελεσμάτων. Θα ήταν επιθυμητό η μέθοδος που χρησιμοποιείται για την κατασκευή του διαστήματος εμπιστοσύνης για τη διάμεσο του εισοδήματος θα δώσει ισοδύναμα αποτελέσματα, όταν εφαρμόζεται για την κατασκευή διαστήματος εμπιστοσύνης για το λογάριθμο της διάμεσου του εισοδήματος: ειδικά οι τιμές στα άκρα του τελευταίου διαστήματος είναι οι λογάριθμοι των τιμών στα άκρα του πρώτου διαστήματος.

Μέθοδοι παραγωγής[Επεξεργασία | επεξεργασία κώδικα]

Για μη τυποποιημένες εφαρμογές, υπάρχουν πολλές διαδρομές που μπορούν να ληφθούν για να παραχθεί ένας κανόνας για την κατασκευή διαστημάτων εμπιστοσύνης. Οι καθιερωμένοι κανόνες για τις τυποποιημένες διαδικασίες μπορούν να δικαιολογηθούν ή να εξηγηθούν από αρκετές από αυτές τις διαδρομές. Συνήθως ο κανόνας για την κατασκευή διαστημάτων εμπιστοσύνης είναι στενά συνδεδεμένος με το να βρεθεί ένα σημείο εκτίμησης της ποσότητας.

Περιγραφική στατιστική
Αυτή είναι στενά συνδεδεμένη με την μέθοδο των ροπών για την εκτίμηση. Ένα απλό παράδειγμα προκύπτει στην περίπτωση που η ποσότητα που πρέπει να εκτιμηθεί είναι η μέση τιμή, δηλαδή στην οποία η φυσική εκτίμηση είναι η μέση τιμή δείγματος. Τα συνήθη επιχειρήματα δείχνουν ότι η διακύμανση του δείγματος μπορεί να χρησιμοποιηθεί για να εκτιμηθεί η διακύμανση από τη μέση τιμή του δείγματος. Ένα αφελές διάστημα εμπιστοσύνης για τον πραγματικό μέσο μπορεί να κατασκευαστεί με επίκεντρο τον μέσο του δείγματος και με πλάτος που είναι πολλαπλάσιο από της τετραγωνικής ρίζας της διακύμανσης του δείγματος.
Θεωρία πιθανοτήτων
Όπου οι εκτιμήσεις έχουν κατασκευαστεί σύμφωνα με την αρχή της μέγιστης πιθανοφάνειας, κατά την θεωρία αυτή παρέχονται δύο τρόποι για την κατασκευή διαστημάτων εμπιστοσύνης ή περιοχών εμπιστοσύνης για τις εκτιμήσεις.[απαιτείται αποσαφήνιση ] Ένας τρόπος είναι με τη χρήση του θεωρήματος Wilks για να βρεθούν όλες οι δυνατές τιμές του που πληρούν τους παρακάτω περιορισμούς:[27]
Εκτιμώμενες εξισώσεις
Η προσεγγιστική εκτίμηση μπορεί να θεωρηθεί ταυτόχρονα ως μια γενίκευση της μεθόδου των ροπών και μια γενίκευση της προσέγγισης της μέγιστης πιθανοφάνειας. Υπάρχουν αντίστοιχες γενικεύσεις των αποτελεσμάτων της θεωρίας της μέγιστης πιθανοφάνειας που επιτρέπουν την κατασκευή των διαστημάτων εμπιστοσύνης με βάση τις εκτιμήσεις που προέρχονται από τις εκτιμώμενες εξισώσεις.[αποσαφήνιση που απαιτείται]
Μέσω Ελέγχου Σημασίας
Εάν οι έλεγχοι σημασίας είναι διαθέσιμοι για τις γενικές τιμές μιας παραμέτρου, τότε τα διαστήματα/περιοχές εμπιστοσύνης μπορούν να κατασκευαστούν με τη συμπερίληψη όλων αυτών των σημείων της 100% περιοχής εμπιστοσύνης, για τα οποία ο έλεγχος σημασίας από την μηδενική υπόθεση όπου η πραγματική τιμή είναι η δοθείσα τιμή επαληθεύεται σε επίπεδο σημαντικότητας της τάξεως του (1-p).[17]
Bootstrapping
Σε περιπτώσεις όπου οι διανεμητικές παραδοχές για τις παραπάνω μεθόδους είναι αβέβαιες ή παραβιάζονται, οι μέθοδοι επαναπροσδιορισμού του δείγματος επιτρέπουν την κατασκευή διαστημάτων εμπιστοσύνης ή διαστημάτων πρόβλεψης. Η παρατηρούμενη κατανομή των δεδομένων και των εσωτερικών συσχετισμών χρησιμοποιούνται ως υποκατάστατο για τις συσχετίσεις στον ευρύτερο πληθυσμό.

Παραδείγματα[Επεξεργασία | επεξεργασία κώδικα]

Πρακτικό παράδειγμα[Επεξεργασία | επεξεργασία κώδικα]

Margarinefilling.png

Μια μηχανή γεμίζει ποτήρια με ένα υγρό, και υποτίθεται ότι πρέπει να ρυθμιστεί έτσι ώστε το περιεχόμενο των κυπέλλων είναι 250 g με υγρό. Καθώς το μηχάνημα δεν μπορεί να γεμίσει κάθε φλιτζάνι ακριβώς με 250.0 g, το περιεχόμενο που έχει προστεθεί για τα επιμέρους κύπελλα δείχνει κάποια παραλλαγή, και θεωρείται ως μια τυχαία μεταβλητή X. Η διακύμανση αυτή θεωρείται ότι κατανέμεται κανονικά (αν και η παραδοχή αυτή δεν είναι απαραίτητη για να δουλέψει η θεωρία) γύρω από το επιθυμητό μέσο όρο των 250 g, με μια τυπική απόκλιση, σ, 2.5 g. Για να προσδιορίσετε αν το μηχάνημα είναι κατάλληλα βαθμονομημένο, ένα δείγμα από n = 25 φλιτζάνια υγρό επιλέγονται τυχαία και τα κύπελλα ζυγίζονται. Οι μετρούμενες μάζες του υγρού που προκύπτουν είναι X1, ..., X25, ένα τυχαίο δείγμα από το X.

Για να πάρετε μια εικόνα από την προσδοκία μ, είναι αρκετή για να δώσει μια εκτίμηση. Ο κατάλληλος εκτιμητής είναι το δείγμα:

Το δείγμα δείχνει τα πραγματικά βάρη x1, ..., x25, με μέση τιμή:

Αν πάρουμε ένα άλλο δείγμα από 25 κύπελλα, θα μπορούσαμε εύκολα να περιμένουμε να βρούμε μέσες τιμές όπως 250.4 ή 251.1 γραμμάρια. Ένα δείγμα με μέση τιμή 280 γραμμάρια, ωστόσο, θα ήταν εξαιρετικά σπάνιο, εάν η μέση περιεκτικότητα των κυπέλλων είναι στην πραγματικότητα κοντά στα 250 γραμμάρια. Υπάρχει ένα ολόκληρο διάστημα γύρω από την παρατηρούμενη τιμή 250.2 γραμμάρια από το δείγμα μέσα στο οποίο, εάν η συνολική μέση τιμή στην πραγματικότητα παίρνει μια τιμή σε αυτό το εύρος, τα παρατηρούμενα δεδομένα, δε θα θεωρούνταν ιδιαίτερα ασυνήθιστα. Ένα τέτοιο διάστημα ονομάζεται διάστημα εμπιστοσύνης για την παράμετρο μ. Πώς μπορούμε να υπολογίσουμε ένα τέτοιο διάστημα; Τα ακραία σημεία του διαστήματος πρέπει να υπολογίζονται από το δείγμα, έτσι ώστε να είναι στατιστικά στοιχεία, συναρτησεις του δείγματος X1, ..., X25 και ως εκ τούτου, τυχαίες μεταβλητές και οι ίδιες.

Στην περίπτωσή μας μπορεί να καθορίσει τις παραμέτρους λαμβάνοντας υπόψη ότι η μέση τιμή δείγματος X από έναν κανονικά κατανεμημένο δείγμα είναι επίσης κανονικά κατανεμημένη, με την ίδια προσδοκία μ, αλλά με ένα τυπικό σφάλμα :

Σταθεροποιώντας, παίρνουμε μια τυχαία μεταβλητή:

που εξαρτάται από την παράμετρο μ να εκτιμηθεί, αλλά με μια τυπική κανονική κατανομή ανεξάρτητη από την παράμετρο μ. Ως εκ τούτου, είναι δυνατόν να βρούμε τους αριθμούς −z και z, ανεξάρτητα από το μ, μεταξύ των οποίων το Z βρίσκεται με πιθανότητα 1 − α, ένα μέτρο του πόσο σίγουροι θέλουμε να είμαστε.

Παίρνουμε 1 − α = 0.95, για παράδειγμα. Έτσι έχουμε:

Ο αριθμός z προκύπτει από την αθροιστική συνάρτηση κατανομής, σε αυτή την περίπτωση η σωρευτική συνάρτηση κανονικής κατανομής:

και έχουμε:

Με άλλα λόγια, το χαμηλότερο άκρο του 95% του διαστήματος εμπιστοσύνης είναι:

και το ανώτερο άκρο του 95% του διαστήματος εμπιστοσύνης είναι:

Με τις τιμές σε αυτό το παράδειγμα, το διάστημα εμπιστοσύνης είναι:

Καθώς η τυπική απόκλιση του πληθυσμού σ είναι γνωστή σε αυτή την περίπτωση, η κατανομή της μέσης τιμής του δείγματος είναι μια κανονική κατανομή με η μόνη άγνωστη παράμετρος. Στο θεωρητικό παράδειγμα που ακολουθεί, η παράμετρος σ είναι επίσης άγνωστη, το οποίο απαιτεί τη χρήση του Κατανομή-t του μαθητή.

Ερμηνεία[Επεξεργασία | επεξεργασία κώδικα]

Αυτό μπορεί να ερμηνευθεί ως: με πιθανότητα 0.95 θα βρούμε ένα διάστημα εμπιστοσύνης κατά το οποίο η τιμή της παραμέτρου μ θα είναι μεταξύ των στοχαστικών παραμέτρων

και

Αυτό δεν σημαίνει ότι υπάρχει 0.95 πιθανότητα ότι η τιμή της παραμέτρου μ είναι στο διάστημα που προκύπτει χρησιμοποιώντας την παρούσα υπολογιζόμενη αξία του δείγματος,

Αντ' αυτού, κάθε φορά που οι μετρήσεις επαναλαμβάνονται, θα υπάρχει μια άλλη τιμή για το X από το δείγμα. Στο 95% των περιπτώσεων, το μ θα είναι μεταξύ των τελικών σημείων που υπολογίζονται από αυτή τη μέση τιμή, αλλά στο 5% των περιπτώσεων δεν θα είναι. Το πραγματικό διάστημα εμπιστοσύνης υπολογίζεται εισάγοντας τις μετρούμενες μάζες στον τύπο. Το 0.95 διάστημα εμπιστοσύνης γίνεται:

Τα μπλε κάθετα ευθύγραμμα τμήματα αντιπροσωπεύουν 50 αντιλήψεις ενός διαστήματος εμπιστοσύνης για τη μέση τιμή του πληθυσμού μ, που αναπαριστάται από μια κόκκινη οριζόντια διακεκομμένη γραμμή. Σημειώστε ότι ορισμένα διαστήματα εμπιστοσύνης δεν περιέχουν τη μέση τιμή του πληθυσμού, όπως αναμένεται.

Με άλλα λόγια, το 95% του διαστήματος εμπιστοσύνης είναι μεταξύ του κάτω άκρου 249.22 g και του άνω άκρου 251.18 g.

Όσο η επιθυμητή τιμή 250 του μ είναι εντός του διαστήματος εμπιστοσύνης που προέκυψε, δεν υπάρχει λόγος να πιστεύουμε ότι η μηχανή δεν είναι σωστά βαθμονομημένη.

Το υπολογιζόμενο διάστημα έχει σταθερές παραμέτρους, στο οποίο το μ μπορεί να είναι (ή και όχι). Έτσι, αυτό το γεγονός έχει πιθανότητα 0 ή 1. Κανείς δεν μπορεί να πει: "με πιθανότητα (1 − α) η παράμετρος μ βρίσκεται στο διάστημα εμπιστοσύνης." Κάποιος μόνο μπορεί να ξέρει ότι από την επανάληψη στο 100(1 − α) % των περιπτώσεων, το μ θα είναι στο υπολογιζόμενο διάστημα. Στο 100α% των περιπτώσεων, ωστόσο, δε θα είναι. Και, δυστυχώς, κανείς δεν μπορεί να ξέρει σε ποια από τις περιπτώσεις συμβαίνει αυτό. Αυτό γίνεται (αντί της χρήσης του όρου "πιθανότητα"), γιατί κάποιος μπορεί να πει: "με το επίπεδο εμπιστοσύνης 100(1 − α) %, το μ βρίσκεται στο διάστημα εμπιστοσύνης."

Το μέγιστο σφάλμα υπολογίζεται στο 0.98, δεδομένου ότι είναι η διαφορά μεταξύ της αξίας που είμαστε βέβαιοι για τα άνω ή κάτω άκρα.

Η εικόνα στα δεξιά δείχνει 50 αντιλήψεις του διαστήματος εμπιστοσύνης για μια συγκεκριμένη πληθυσμιακή μέση τιμή μ. Αν επιλέξουμε τυχαία μία αντίληψη, η πιθανότητα είναι 95% να καταλήξουμε έχοντας επιλέξει ένα διάστημα που περιέχει την παράμετρο, ωστόσο μπορεί να είμαστε άτυχοι και να έχουμε επιλέξει λάθος. Δεν θα μάθουμε ποτέ, είμαστε κολλημένοι με το διάστημά μας.

Θεωρητικό παράδειγμα[Επεξεργασία | επεξεργασία κώδικα]

Ας υποθέσουμε ότι {X1, ..., Xn} είναι ένα ανεξάρτητο δείγμα από κανονική κατανομή πληθυσμού με άγνωστη μέση τιμή (παραμέτρων) μ και διακύμανση σ2. Έστω:

Όπου X είναι η μέση τιμή δείγματος, και S2 είναι η διακύμανση του δείγματος. Στη συνέχεια

έχει Κατανομή-t του μαθητή με n − 1 βαθμούς ελευθερίας.[28] Να σημειωθεί ότι η κατανομή της T δεν εξαρτάται από τις τιμές των μη παρατηρήσιμων παράμετρων μ και σ2, δηλαδή, είναι μια βασική ποσότητα. Ας υποθέσουμε ότι θέλουμε να υπολογίσουμε το 95% ενός διαστήματος εμπιστοσύνης για το μ. Στη συνέχεια, δηλώνει c ως το 97.5το εκατοστημόριο της κατανομής,

("97.5το" και "0.95" είναι σωστές κατά τις προηγούμενες εκφράσεις. Υπάρχει ένα 2.5% πιθανότητα ότι το T θα είναι λιγότερο από −c και ένα 2.5% πιθανότητα ότι θα είναι μεγαλύτερο από +c. Έτσι, η πιθανότητα ότι T θα είναι μεταξύ −c και +c είναι 95%.)

Κατά συνέπεια,

και έχουμε ένα θεωρητικό (στοχαστικό) 95% διάστημα εμπιστοσύνης για το μ.

Μετά την παρατήρηση του δείγματος θα βρείτε τις τιμές x για X και s για S, από την οποία θα υπολογιστεί το διάστημα εμπιστοσύνης

ένα διάστημα με σταθερούς αριθμούς ως άκρα, από το οποίο μπορούμε πλέον να πούμε ότι υπάρχει μια κάποια πιθανότητα να περιέχει την παράμετρο μ, είτε το μ είναι σε αυτό το διάστημα, είτε δεν είναι.

Εναλλακτικές και κριτικές[Επεξεργασία | επεξεργασία κώδικα]

Τα διαστήματα εμπιστοσύνης είναι μια μέθοδος εκτίμησης διαστημάτων, και το πιο ευρέως χρησιμοποιούμενο σε frequentist στατιστικά στοιχεία. Μια ανάλογη αντίληψη στην στατιστική κατά Bayes είναι τα διαστήματα αξιοπιστίας, ενώ μια εναλλακτική frequentist μέθοδος είναι αυτή των διαστημάτων πρόβλεψης που, παρά την εκτίμηση παραμέτρων, εκτιμούν την έκβαση των μελλοντικών δειγμάτων. Για άλλες προσεγγίσεις για την έκφραση της αβεβαιότητας, χρησιμοποιώντας διαστήματα, δείτε εκτίμηση διαστήματος.

Σύγκριση με τα διαστήματα πρόβλεψης[Επεξεργασία | επεξεργασία κώδικα]

Ένα διάστημα πρόβλεψης για μια τυχαία μεταβλητή ορίζεται όμοια με ένα διάστημα εμπιστοσύνης για μια στατιστική παράμετρο. Έστω επιπλέον μια τυχαία μεταβλητή Y η οποία μπορεί να είναι ή να μην είναι στατιστικά εξαρτώμενη από το τυχαίο δείγμα X. Τότε το (u(X), v(X)) παρέχει ένα διάστημα πρόβλεψης για την παρατηρούμενη τιμή y του Y αν

Εδώ το Pr,θ,φ υποδεικνύει την κοινή κατανομή πιθανότητας των τυχαίων μεταβλητών (X, Y), όπου η κατανομή αυτή εξαρτάται από τις στατιστικές παραμέτρους (θ, φ).

Σύγκριση με τα χρονικά διαστήματα ανοχής[Επεξεργασία | επεξεργασία κώδικα]

Κύριο λήμμα: Tolerance interval

Πρότυπο:Expand section

Σύγκριση με Μπεϋζινές εκτιμήσεις διαστημάτων[Επεξεργασία | επεξεργασία κώδικα]

Ένα Μπεϋζινό διάστημα εκτίμησης ονομάζεται διάστημα αξιοπιστίας. Χρησιμοποιώντας πολλά από τα ίδια σύμβολα όπως παραπάνω, ο ορισμός ενός αξιόπιστου διαστήματος για την άγνωστη πραγματική τιμή του θ , για ένα συγκεκριμένο γ,[29] είναι

Εδώ το Θ χρησιμοποιείται για να τονίσει ότι η άγνωστη τιμή του θ αντιμετωπίζεται ως μια τυχαία μεταβλητή. Οι ορισμοί των δύο τύπων διαστημάτων μπορεί να συγκριθεί ως εξής.

  • Ο ορισμός του διαστήματος εμπιστοσύνης περιλαμβάνει πιθανότητες που υπολογίζονται από την κατανομή του X για δεδομένη (θ, φ) (ή υπό όρους σε αυτές τις τιμές) και η συνθήκη πρέπει να ισχύει για όλες τις τιμές του (θ, φ).
  • Ο ορισμός ενός διαστήματος αξιοπιστίας περιλαμβάνει πιθανότητες που υπολογίζονται από την κατανομή του Θ η οποία εξαρτάται από τις παρατηρούμενες τιμές των X = x και περιθωριοποιείται (ή μετριοποιείται) πάνω από τις τιμές της Φ, όπου αυτή η τελευταία ποσότητα είναι η τυχαία μεταβλητή που αντιστοιχεί στην αβεβαιότητα για τις ενοχλητικές παραμέτρους στο φ.

Να σημειωθεί ότι η αντιμετώπιση των ενοχλητικών παραμέτρων παραπάνω συχνά παραλείπεται από τις συζητήσεις συγκρίνοντας τα διαστήματα εμπιστοσύνης και αξιοπιστίας αλλά είναι σημαντικά διαφορετική μεταξύ των δύο περιπτώσεων.

Σε μερικές απλές τυπικές περιπτώσεις, τα διαστήματα που παράγονται καθώς τα διαστήματα εμπιστοσύνης και αξιοπιστίας από το ίδιο σύνολο δεδομένων μπορεί να είναι ταυτόσημα. Είναι πολύ διαφορετικά αν οι ενημερωτικές πρότερες πληροφορίες περιλαμβάνονται στην Μπεϋζιανή ανάλυση, και μπορεί να είναι πολύ διαφορετική για κάποια μέρη του χώρου των πιθανών δεδομένων, ακόμη και αν η πρότερη Μπεϋζιανή είναι σχετικά μη κατατοπιστική.

Οι χρήστες των Μπεϋζιανών μεθόδων, αν παρήγαγαν ένα διάστημα εκτίμησης, σε αντίθεση με τα διαστήματα εμπιστοσύνης, θα έλεγαν "Ο βαθμός της πεποίθησής μου ότι η παράμετρος είναι στην πραγματικότητα, σε αυτό το διάστημα είναι 90%,"[30] , ενώ οι χρήστες των διαστημάτων πρόβλεψης αντίθετα θα έλεγαν " Προβλέπω ότι το επόμενο δείγμα θα πέσει σε αυτό το διάστημα κατά 90% του χρόνου."

Υπάρχει διαφωνία σχετικά με το ποια από αυτές τις μεθόδους παράγει τα πιο χρήσιμα αποτελέσματα: τα μαθηματικά των υπολογισμών είναι σπάνια υπό αμφισβήτηση – τα διαστήματα εμπιστοσύνης που βασίζονται στις κατανομές δειγματοληψίας, τα διαστήματα αξιοπιστίας που βασίζονται στο Θεώρημα Μπέυζ – αλλά η εφαρμογή αυτών των μεθόδων, η χρησιμότητα και ερμηνεία των παραγόμενων στατιστικών, συζητείται.

Διαστήματα εμπιστοσύνης για ποσοστά και τις σχετικές ποσότητες[Επεξεργασία | επεξεργασία κώδικα]

Ένα κατά προσέγγιση διάστημα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού μπορεί να κατασκευαστεί για τυχαίες μεταβλητές που δεν είναι κανονικά κατανεμημένες στον πληθυσμό, επικαλούμενη το κεντρικό οριακό θεώρημα, αν τα μεγέθη των δειγμάτων και οι μετρήσεις τους είναι αρκετά μεγάλα. Οι τύποι είναι ταυτόσημοι με την παραπάνω περίπτωση (όπου η μέση τιμή δείγματος είναι κανονικά κατανεμημένα σε σχέση με τη μέση τιμή του πληθυσμού). Η προσέγγιση θα είναι αρκετά καλή με μόνο μερικές δεκάδες παρατηρήσεις του δείγματος, αν η κατανομή πιθανότητας της τυχαίας μεταβλητής δεν είναι πολύ διαφορετική από την κανονική κατανομή (π. χ. η αθροιστική συνάρτηση κατανομής δεν έχει ασυνέχειες και οι ασυμμετρίες της είναι μέτριες).

Ένα είδος μέσης τιμής δείγματος είναι η μέση τιμή του δείκτη μεταβλητής, η οποία παίρνει την τιμή 1, αν είναι αλήθεια, και την τιμή 0, αν είναι ψέμα. Η μέση μιας τέτοιας μεταβλητής είναι ίση με το ποσοστό που έχει τη μεταβλητή ίση με ένα (και στον πληθυσμό και σε κάθε δείγμα). Αυτή είναι μια χρήσιμη ιδιότητα του δείκτη μεταβλητής, ειδικά για τον έλεγχο υποθέσεων. Για να ισχύει το κεντρικό οριακό θεώρημα, πρέπει να χρησιμοποιηθεί ένα αρκετά μεγάλο δείγμα. Ένας δύσκολος κανόνας είναι ότι πρέπει να δούμε τουλάχιστον 5 περιπτώσεις κατά τις οποίες ο δείκτης είναι 1, και τουλάχιστον 5 στις οποίες είναι 0. Διαστήματα εμπιστοσύνης που κατασκευάζονται χρησιμοποιώντας τους παραπάνω τύπους μπορεί να περιλαμβάνουν αρνητικούς αριθμούς ή αριθμούς μεγαλύτερους του 1, αλλά τα ποσοστά προφανώς δεν μπορεί να είναι αρνητικά ή να υπερβαίνουν το 1. Επιπλέον, τα ποσοστά του δείγματος μπορούν να πάρουν μόνο ένα πεπερασμένο αριθμό τιμών, έτσι ώστε το κεντρικό οριακό θεώρημα και η κανονική κατανομή να μην είναι τα καλύτερα εργαλεία για την οικοδόμηση ενός διαστήματος εμπιστοσύνης. Δείτε "Διάστημα εμπιστοσύνης για τη διωνυμική κατανομή" για καλύτερες μεθόδους που είναι ειδικές για αυτή την περίπτωση.

Δείτε επίσης[Επεξεργασία | επεξεργασία κώδικα]

  • Αθροιστική συνάρτηση κατανομής που βασίζεται σε μη-παραμετρικά διαστήματα εμπιστοσύνης
  • CLs ανώτερα όρια (σωματιδιακή φυσική)
  • Κατανομή εμπιστοσύνης
  • Αξιοπιστία (στατιστικά στοιχεία)
  • Μπάρα σφάλματος
  • Στατιστικά εκτίμησης
  • Τιμή-P
  • Ισχυρά διαστήματα εμπιστοσύνης
  • Περιοχή εμπιστοσύνης

Διαστήματα εμπιστοσύνης για συγκεκριμένες κατανομές[Επεξεργασία | επεξεργασία κώδικα]

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. 1,0 1,1 Cox D.R., Hinkley D.V. (1974) Theoretical Statistics, Chapman & Hall, p49, p209
  2. 2,0 2,1 Kendall, M.G. and Stuart, D.G. (1973) The Advanced Theory of Statistics. Vol 2: Inference and Relationship, Griffin, London. Section 20.4
  3. 3,0 3,1 3,2 3,3 Neyman, J. (1937). «Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability». Philosophical Transactions of the Royal Society A 236: 333–380. doi:10.1098/rsta.1937.0005. http://links.jstor.org/sici?sici=0080-4614%2819370830%29236%3A767%3C333%3AOOATOS%3E2.0.CO%3B2-6. 
  4. Field, Andy (2013). Discovering statistics using SPSS. London: SAGE. 
  5. Zar, J.H. (1984) Biostatistical Analysis. Prentice Hall International, New Jersey. pp 43–45
  6. Cox D.R., Hinkley D.V. (1974) Theoretical Statistics, Chapman & Hall, p214, 225, 233
  7. [1]
  8. [2]
  9. Hoekstra, R., R. D. Morey, J. N. Rouder, and E-J. Wagenmakers, 2014. Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review, in press. [3]
  10. Scientists’ grasp of confidence intervals doesn’t inspire confidence, Science News, July 3, 2014
  11. Morey, R.D., Hoekstra, R., Lee, M.D., Rouder, J.N., Wagenmakers, E-J. (2015) The Fallacy of Placing Confidence in Confidence Intervals. in press. [4]
  12. «1.3.5.2. Confidence Limits for the Mean». nist.gov. 
  13. Mayo, D. G. (1981) "In defence of the Neyman-Pearson theory of confidence intervals", Philosophy of Science, 48 (2), 269–280. JSTOR 187185
  14. Pav Kalinowski. Understanding Confidence Intervals (CIs) and Effect Size Estimation. Association for Psychological Science Observer April 10, 2010. http://www.psychologicalscience.org/index.php/publications/observer/2010/april-10/understanding-confidence-intervals-cis-and-effect-size-estimation.html
  15. T. Seidenfeld, Philosophical Problems of Statistical Inference: Learning from R.A. Fisher, Springer-Verlag, 1979
  16. «Statistical significance defined using the five sigma standard». 
  17. 17,0 17,1 Cox D.R., Hinkley D.V. (1974) Theoretical Statistics, Chapman & Hall, Section 7.2(iii)
  18. Pav Kalinowski, "Understanding Confidence Intervals (CIs) and Effect Size Estimation", Observer Vol.23, No.4 April 2010.
  19. Andrea Knezevic, "Overlapping Confidence Intervals and Statistical Significance", StatNews # 73: Cornell Statistical Consulting Unit, October 2008.
  20. Goldstein, H.; Healey, M.J.R. (1995). «The graphical presentation of a collection of means». Journal of the Royal Statistical Society 158: 175–77. doi:10.2307/2983411. http://www.jstor.org/stable/view/2983411. 
  21. «If we're so different, why do we keep overlapping? When 1 plus 1 doesn't make 2». CMAJ 166 (1): 65–6. Jan 2002. PMID 11800251. PMC 99228. http://www.cmaj.ca/cgi/pmidlookup?view=long&pmid=11800251. 
  22. Daniel Smith, "Overlapping confidence intervals are not a statistical test", California Dept of Health Services, 26th Annual Institute on Research and Statistics, Sacramento, CA, March, 2005.
  23. p.65 in W. Härdle, M. Müller, S. Sperlich, A. Werwatz (2004), Nonparametric and Semiparametric Models, Springer, ISBN 3540207228
  24. «Checking Out Statistical Confidence Interval Critical Values - For Dummies». www.dummies.com. Ανακτήθηκε στις 2016-02-11. 
  25. «Confidence Intervals». www.stat.yale.edu. Ανακτήθηκε στις 2016-02-11. 
  26. George G. Roussas (1997) A Course in Mathematical Statistics, 2nd Edition, Academic Press, p397
  27. Abramovich, Felix, and Ya'acov Ritov.
  28. Rees.
  29. Bernardo JE, Smith, Adrian (2000). Bayesian theory. New York: Wiley, σελ. 259. ISBN 0-471-49464-X. 
  30. Cox D.R., Hinkley D.V. (1974) Theoretical Statistics, Chapman & Hall, p390

Βιβλιογραφία[Επεξεργασία | επεξεργασία κώδικα]

Εξωτερικοί Σύνδεσμοι[Επεξεργασία | επεξεργασία κώδικα]

Ηλεκτρονικές αριθμομηχανές[Επεξεργασία | επεξεργασία κώδικα]

Πρότυπο:Statistics