Σφάλματα τύπου Α και Β

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Πήδηση στην πλοήγηση Πήδηση στην αναζήτηση

Στον στατιστικό έλεγχο υποθέσεων, σφάλμα τύπου Α είναι η εσφαλμένη απόρριψη μιας πραγματικής μηδενικής υπόθεσης ("ψευδές θετικό", δηλαδή, η απόρριψη μιας αληθινής υπόθεσης θεωρώντας την λάθος), ενώ σφάλμα τύπου Β , είναι η αδυναμία να απορριφθεί μια ψευδής μηδενική υπόθεση ("ψευδές αρνητικό", δηλαδή, η αποδοχή λανθασμένης υπόθεσης, θεωρώντας την σωστή).[1] Με πιο απλά λόγια, σφάλμα τύπου Α είναι η ανίχνευση ένός αποτελέσματος που δεν εμφανίζεται, ενώ σφάλμα τύπου Β είναι η αποτύχία να ανιχνευτεί ένα αποτέλεσμα που είναι παρόν. Οι όροι "σφάλμα τύπου Α" και "σφάλμα τύπου Β" συχνά χρησιμοποιούνται εναλλακτικά με την γενική έννοια του ψευδώς θετικά και ψευδώς αρνητικά σε δυαδική ταξινόμηση, όπως ιατρικές εξετάσεις, αλλά αναφέρονται συγκεκριμένα στον στατιστικό έλεγχο υποθέσεων στο πλαίσιο Neyman–Pearson, όπως περιγράφεται σε αυτό το άρθρο.

Ορισμός[Επεξεργασία | επεξεργασία κώδικα]

Στη στατιστική, μια μηδενική υπόθεση είναι μια δήλωση που επιδιώκουμε να ακυρώσουμε με αποδείξεις υπέρ του αντίθετου. Πιο συχνά είναι μια δήλωση ότι το φαινόμενο που μελετάται δεν παράγει κανένα αποτέλεσμα ή δεν κάνει καμία διαφορά. Ένα παράδειγμα της μηδενικής υπόθεσης είναι η δήλωση "Αυτή η δίαιτα δεν έχει καμία επίδραση στο βάρος των ανθρώπων." Συνήθως, ένας ερευνητής πλαίσιώνει μια μηδενική υπόθεση, με την πρόθεση να την απορρίψει: προσπαθεί δηλαδή να εκτελέσει ένα πείραμα που παράγει δεδομένα που δείχνουν οτι το φαινόμενο της μελέτης διαφέρει.[2] Σε ορισμένες περιπτώσεις, υπάρχει μια συγκεκριμένη εναλλακτική υπόθεση που είναι αντίθετη με τη μηδενική υπόθεση, σε άλλες περιπτώσεις η εναλλακτική υπόθεση είναι ό,τι δεν αναφέρεται ρητά, ή είναι απλά "η μηδενική υπόθεση είναι ψευδής" – σε κάθε περίπτωση, είναι μια δυαδική κρίση, αλλά η ερμηνεία διαφέρει και είναι ζήτημα σημαντικής διαφοράς στη στατιστική.

Ένα σφάλμα τύπου Ασφάλμα του πρώτου είδους) είναι η εσφαλμένη απόρριψη μιας πραγματικής μηδενικής υπόθεσης. Συνήθως ένα σφάλμα τύπου Α οδηγεί στο συμπέρασμα μια υποτιθέμενη επίδραση ή σχέση υπάρχει όταν στην πραγματικότητα δεν υπάρχει. Παραδείγματα σφαλμάτων τύπου Α περιλαμβάνουν ένα τεστ που δείχνει έναν ασθενή να έχει μια ασθένεια, ενώ στην πραγματικότητα ο ασθενής δεν έχει την ασθένεια, έναν συναγερμό για φωτιά να έχει ένδειξη για φωτιά όταν στην πραγματικότητα δεν υπάρχει φωτιά, ή ένα πείραμα που δείχνει ότι μια ιατρική θεραπεία θα θεραπεύσει μια ασθένεια, όταν στην πραγματικότητα δεν το κάνει.

Ένα σφάλμα τύπου Βσφάλμα του δεύτερου είδους) είναι η αποτυχία να απορρίψουμε μια ψευδή μηδενική υπόθεση. Παραδείγματα με τα σφάλματα τύπου Β θα είναι ένα τεστ αίματος που αποτυγχάνει να ανιχνεύσει την ασθένεια που είναι σχεδιασμένο για να ανιχνεύει σε έναν ασθενή που έχει πραγματικά την ασθένεια, να ξεσπάσει φωτιά και ο συναγερμός πυρκαγιάς να μην παράγει ήχο ή μια κλινική δοκιμή μιας ιατρική θεραπεία αποτυγχάνει να δείξει ότι η θεραπεία δεν λειτουργεί όταν πραγματικά λειτουργεί.[3]

Όσον αφορά ψευδώς θετικά και ψευδώς αρνητικά αποτελέσματα, ένα θετικό αποτέλεσμα αντιστοιχεί σε απόρριψη της μηδενικής υπόθεσης, ενώ ένα αρνητικό αποτέλεσμα αντιστοιχεί στην αποτυχία απόρριψης της μηδενικής υπόθεσης. Σε αυτούς τους όρους, ένα σφάλμα τύπου Α είναι ένα ψευδές θετικό, και το σφάλμα τύπου Β είναι ψευδές αρνητικό.

Κατά τη σύγκριση των δύο εννοιών, συμπεραίνοντας οτι τα πράγματα είναι διαφορετικά ενώ δεν είναι θα είχαμε ένα σφάλμα Τύπου Α. Συμπεραίνοντας οτι τα πράγματα δεν είναι διαφορετικά ενώ είναι θα είχαμε ένα σφάλμα Τύπου Β. Διάφορες επεκτάσεις έχουν προταθεί ως "σφάλματα τύπου Γ", όμως δεν έχουν ευρεία χρήση.

Όλοι οι στατιστικοί έλεγχοι υποθέσεων έχουν μια πιθανότητα να κάνουν σφάλματα τύπου Α και τύπου Β. Για παράδειγμα, όλες οι εξετάσεις αίματος για μια ασθένεια θα ανιχνεύσουν λανθασμένα την νόσο σε κάποιο ποσοστό των ατόμων που δεν την έχουν, και θα αποτύχουν να ανιχνεύσουν την ασθένεια σε κάποιο ποσοστό των ατόμων που την έχουν. Η πιθανότητα ενός τέστ να κάνει ένα σφάλμα τύπου Α συμβολίζεται με α. Η πιθανότητα ενός τέστ να κάνει ένα σφάλμα τύπου Β συμβολίζεται με β. Αυτά τα ποσοστά σφάλματος είναι αντιστρόφως ανάλογα μεταξύ τους: για κάθε δεδομένο σύνολο δείγματος, η προσπάθεια να μειωθεί η πιθανότητα ενός τύπου σφάλματος γενικά αυξάνει την πιθανότητα να γίνει ένα σφάλμα του άλλου τύπου. Για μια συγκεκριμένη δοκιμή, ο μόνος τρόπος για να μειωθεί το ποσοστό σφάλματος και των δύο ειδών είναι να αυξηθεί το μέγεθος του δείγματος, και αυτό μπορεί να μην είναι εφικτό.

Οι όροι αυτοί χρησιμοποιούνται επίσης σε ένα πιο γενικό τρόπο από τους κοινωνικούς επιστήμονες και άλλους για να αναφερθούν σε ελλείψεις στην αιτιολογία.[4] Αυτό το άρθρο είναι ειδικά αφιερωμένο στις στατιστικές έννοιες των όρων αυτών και τα τεχνικά ζητήματα των στατιστικών σφαλμάτων που οι όροι αυτοί περιγράφουν.

Στατιστική δοκιμή θεωρία[Επεξεργασία | επεξεργασία κώδικα]

Στην θεωρία στατιστικών δοκιμών , η έννοια του στατιστικού λάθους είναι αναπόσπαστο μέρος του ελέγχου της υπόθεσης. Η δοκιμή απαιτεί μια σαφή δήλωση της μηδενικής υπόθεσης, η οποία συνήθως αντιστοιχεί σε μια προκαθορισμένη "κατάσταση της φύσης", για παράδειγμα "αυτό το άτομο είναι υγιές", "αυτός ο κατηγορούμενος δεν είναι ένοχος" ή "αυτό το προϊόν δεν έχει σπάσει". Μια εναλλακτική υπόθεση είναι η άρνηση της μηδενικής υπόθεσης, για παράδειγμα, "αυτός ο άνθρωπος δεν είναι υγιής", "ο κατηγορούμενος είναι ένοχος" ή "αυτό το προϊόν είναι σπασμένο". Το αποτέλεσμα της δοκιμής μπορεί να είναι αρνητικό, σε σχέση με τη μηδενική υπόθεση (δεν είναι υγιές, ένοχος, σπασμένα) ή θετική (υγιές, δεν είναι ένοχος, όχι σπασμένα). Αν το αποτέλεσμα της δοκιμής αντιστοιχεί με την πραγματικότητα, τότε μια σωστή απόφαση. Ωστόσο, εάν το αποτέλεσμα της δοκιμής δεν αντιστοιχεί με την πραγματικότητα, στη συνέχεια λέμε οτι παρουσιάστηκε ένα σφάλμα. Λόγω της στατιστικής φύσης μιας δοκιμής, το αποτέλεσμα δεν είναι ποτέ, εκτός από πολύ σπάνιες περιπτώσεις, χωρίς σφάλμα. Δύο τύποι σφάλματος διακρίνονται: σφάλμα τύπου Α και σφάλμα τύπου Β.

Σφάλμα τύπου Α[Επεξεργασία | επεξεργασία κώδικα]

Ένα σφάλμα τύπου Α, επίσης γνωστό ως σφάλμα του πρώτου είδους, συμβαίνει όταν η μηδενική υπόθεση (H0) είναι αληθής, αλλά απορρίφθηκε. Είναι εντοπισμός για κάτι που απουσιάζει, ένα λάθος αποτέλεσμα. Τύπου Α σφάλμα μπορεί να συγκριθεί με το αποκαλούμενο ψευδές θετικό (ένα αποτέλεσμα που δείχνει ότι μια δεδομένη κατάσταση είναι παρούσα, όταν στην πραγματικότητα δεν είναι του παρόντος) σε δοκιμές όπου μία και μοναδική προϋπόθεση είναι να δοκιμαστεί.

Το ποσοστό σφάλματος σφαλμάτων τύπου Α ή το επίπεδο σημαντικότητας είναι η πιθανότητα να απορρίψουμε την μηδενική υπόθεση, δεδομένου ότι είναι αλήθεια.[5][6] Συμβολίζεται με το ελληνικό γράμμα α και επίσης ονομάζεται επίπεδο άλφα. Συχνά, το επίπεδο σημαντικότητας ορίζεται σε 0,05 (5%), υπονοώντας ότι είναι αποδεκτό να υπάρχει 5% πιθανότητα να γίνει εσφαλμένη απόρριψη της μηδενικής υπόθεσης.[5]

Τα σφάλματα τύπου Α είναι φιλοσοφικό επίκεντρο του σκεπτικισμού και του ξυραφιού του Όκαμ. Ένα σφάλμα Τύπου Α συμβαίνει όταν πιστεύουμε σε ένα λάθος ("πίστεύουμε ένα ψέμα").[7] όσον αφορά λαϊκά παραμύθια, ένας ερευνητής μπορεί να είναι "ο ψεύτης βοσκός" χωρίς λύκους στην όραση (ενεργοποιόντας λάνθασμένα τον συναγερμό) (H0: δεν υπάρχουν λύκοι).

Σφάλμα τύπου Β[Επεξεργασία | επεξεργασία κώδικα]

Ένα σφάλμα τύπου Β, επίσης γνωστό ως σφάλμα του δεύτερου είδους, προκύπτει όταν η μηδενική υπόθεση είναι ψευδής, αλλά αποτυγχάνει να απορριφθεί. Είναι η αποτυχία να παρατηρηθεί ο,τι είναι παρόν, μια αστοχία. Τύπου Β σφάλματα μπορούν να συγκριθούν με τα αποκαλούμενα ψευδή αρνητικά (όπου ένα πραγματικό "χτύπημα" δεν ελήφθη υπόψη από τη δοκιμή και θεωρήθηκε ως μια "αστοχία") σε ένα τεστ ελέγχου για μια ενιαία κατάσταση με ένα οριστικό αποτέλεσμα αλήθειας ή ψεματος. Σφάλμα τύπου Β διαπράττεται όταν αποτύχουμε να πιστέψουμε την αλήθεια.[7] Όσον αφορά λαϊκά παραμύθια, στο παραμύθι του "ψεύτη βοσκού", ένας ερευνητής μπορεί να αποτύχει να δεί τον λύκο ("αποτυχγάνει να ενεργοποιήσει ένα συναγερμό"). Και πάλι, H0: δεν υπάρχουν λύκοι.

Το ποσοστό του σφάλματος τύπου Β συμβολίζεται με το ελληνικό γράμμα β και σχετίζεται με τη δύναμη του τεστ (το οποίο ισούται με 1−β).

Αυτό που ουσιαστικά αποκαλούμε τύπου Α ή τύπου Β σφάλμα εξαρτάται άμεσα από την μηδενική υπόθεση. Άρνηση της μηδενικής υπόθεσης προκαλεί τύπου Α και τύπου Β λάθη να αλλάξουν ρόλους.

Ο στόχος της δοκιμής είναι να καθορίσει αν η μηδενική υπόθεση μπορεί να απορριφθεί. Μια στατιστική δοκιμή, μπορεί είτε να απορρίψει ή να αποτύχει να απορρίψει την μηδενική υπόθεση, αλλά ποτέ να αποδείξει ότι είναι αλήθεια.

Πίνακας τύπων σφαλμάτων[Επεξεργασία | επεξεργασία κώδικα]

Πινακοποιημένες σχέσεις ανάμεσα στην αλήθεια/ψέμα από την μηδενική υπόθεση και τα αποτελέσματα της δοκιμής:[2]

 Πίνακας τύπων σφάλματος Γραφήματος

David .2004

Η Μηδενική Υπόθεση (H0) είναι
Ισχύει/Αλήθεια Άκυρο/Ψέμα
Απόφαση της Μηδενικής Υπόθεσης (H0) Απόρριψη Τύπου Α σφάλμα

(Ψευδώς Θετικό)

Σωστό συμπέρασμα

(Αληθώς Θετικό)

Αποτυχία να απορριφθεί Σωστό συμπέρασμα

(Αληθώς Αρνητικό)

Τύπου Β σφάλμα

(Ψευδώς Αρνητικό)

<<Φόρμουλες Μνήμης>>

Τύπος-Α = Αληθής H0 αλλά απορρίφθηκε (Ψευδώς Θετικό)

Τύπος-Β = Ψευδής H0 αλλά έγινε δεκτή (Ψευδώς Αρνητικό)

Παραδείγματα[Επεξεργασία | επεξεργασία κώδικα]

Παράδειγμα 1[Επεξεργασία | επεξεργασία κώδικα]

Υπόθεση: "η προσθήκη νερού στην οδοντόκρεμα ενισχύει την προστασία κατά της τερηδόνας."

Μηδενική υπόθεση: "η προσθήκη νερού στην οδοντόκρεμα δεν έχει καμία επίδραση επί της τερηδόνας."

Αυτή η μηδενική υπόθεση εξετάζεται έναντι των πειραματικών δεδομένων, με σκοπό να τα ακυρώσει, με αποδείξεις για το αντίθετο.

Τύπου Α σφάλμα, συμβαίνει όταν ανιχνευτεί μια επίδραση (προσθήκη νερού στην οδοντόκρεμα ενισχύει την προστασία κατά της τερηδόνας), που δεν είναι παρούσα. Η μηδενική υπόθεση είναι αληθής (δηλαδή, είναι αλήθεια ότι η προσθήκη νερού στην οδοντόκρεμα δεν έχει καμία επίδραση επι της τερηδόνας), αλλά αυτή η μηδενική υπόθεση απορρίπτεται εξαιτίας κακών πειραματικών δεδομένων.

Παράδειγμα 2[Επεξεργασία | επεξεργασία κώδικα]

Υπόθεση: "η προσθήκη φθορίου στην οδοντόκρεμα ενισχύει την προστασία κατά της τερηδόνας."

Μηδενική υπόθεση: "η προσθήκη φθορίου στην οδοντόκρεμα δεν έχει καμία επίδραση επί της τερηδόνας."

Αυτή η μηδενική υπόθεση εξετάζεται έναντι των πειραματικών δεδομένων, με σκοπό να τα ακυρώσει, με αποδείξεις για το αντίθετο.

Ένα τύπου Β σφάλμα παρουσιάζεται όταν αποτυγχάνεται να ανιχνευτεί μια παρούσα επίδραση (η προσθήκη φθορίου στην οδοντόκρεμα ενισχύει την προστασία κατά της τερηδόνας). Η μηδενική υπόθεση είναι ψευδής (δηλαδή, η προσθήκη φθορίου είναι πραγματικά αποτελεσματική ενάντια της τερηδόνας), αλλά τα πειραματικά δεδομένα είναι τέτοια που η μηδενική υπόθεση δεν μπορεί να απορριφθεί.

Παράδειγμα 3[Επεξεργασία | επεξεργασία κώδικα]

Υπόθεση: "Τα αποδεικτικά στοιχεία που παρουσιάστηκαν ενώπιον του δικαστηρίου αποδεικνύουν ότι αυτός ο άνθρωπος είναι ένοχος."

Μηδενική υπόθεση (H0): "Αυτός ο άνθρωπος είναι αθώος."

Ένα σφάλμα τύπου Α παρουσιάζεται εάν καταδικαστεί ένας αθώος (αδυναμία επικράτησης δικαιοσύνης). Ένα σφάλμα τύπου Β παρουσιάζεται εάν αφεθεί ένας ένοχος ελεύθερος (ατιμωρησία).

Ένα θετικό ορθό αποτέλεσμα προκύπτει στην περίπτωση που ένας ένοχος τιμωρηθεί. Ένα αρνητικό ορθό αποτέλεσμα προκύπτει στην περίπτωση που ένας αθώος αφεθεί ελύθερος.

Μηδενική υπόθεση (H0): Είναι Αθώος Η μηδενική υπόθεση (H0) είναι έγκυρη: Αθώος Η μηδενική υπόθεση (H0) δεν είναι έγκυρη: Ένοχος
Απορρίπτουμε την H0.

Νομίζω ότι είναι ένοχος!

Τύπου Α σφάλμα

Ψευδώς θετικό
"Καταδικάστηκε!"

Σωστό αποτέλεσμα

Αληθές θετικό
"Καταδικάστηκε!"

Δεν απορρίπτω την H0

Νομίζω ότι είναι αθώος!

Σωστό αποτέλεσμα

Αληθές αρνητικό
"Ελευθερώθηκε!"

Τύπου Β σφάλμα

Ψευδώς αρνητικό
"Ελευθερώθηκε!"

Παράδειγμα 4[Επεξεργασία | επεξεργασία κώδικα]

Υπόθεση: "τα συμπτώματα του ασθενούς βλετιώνονται ταχύτερα με την θεραπεία Α απ'ότι με ψευδοφάρμακα."

Μηδενική υπόθεση (H0): "τα συμπτώματα του ασθενούς μετά τη θεραπεία Α δεν διαφέρουν από αυτά του ψευδοφάρμακου."

Αυτού του είδους η λανθασμένη υπόθεση μπορεί να προκύψει επειδή το προσωπικό δεν κατάφερε να κρατήσει κρυφό απο τους ασθενείς ποια θεραπεία λαμβάνουν, λόγω αδύνατων ως προς τον έλεγχο μεταβλητών, λόγω δυσκολίας να ερμηνεύσουν σωστά συμπτώματα των ασθενών όπως ο πόνος και για  πολλούς ακόμα λόγους. 

Ένα σφάλμα τύπου Α θα έδειχνε, λανθασμένα, πως η θεραπεία Α είναι αρκετά πιο αποτελεσματική από το ψευδοφάρμακο, ενώ ένα τύπου Β θα έδειχνε λανθασμένα ότι η θεραπεία Α είναι αναποτελεσματική.

Θεωρία[Επεξεργασία | επεξεργασία κώδικα]

Από την Bayesian άποψη, ένα σφάλμα τύπου Α είναι αυτό που ασχολείται με τις πληροφορίες που δεν θα πρέπει να αλλάξουν σημαντικά τις πιθανολογικές εκτιμήσεις κάποιου, αλλά το κάνουν. Ένα σφάλμα τύπου Β είναι αυτό που ασχολείται με τις πληροφορίες που πρέπει να αλλάξουν τις πιθανολογικές εκτιμήσεις κάποιου, αλλά δεν το κάνουν. (Παρότι η μηδενική υπόθεση δεν είναι ακριβώς το ίδιο πράγμα με την πρώτη εκτίμηση, είναι, μάλλον, η pro forma μορφής της.)

Ο έλεγχος υποθέσεων είναι η τέχνη της δοκιμής,εάν μια παραλλαγή μεταξύ των δύο δειγμάτικών διανομών μπορεί να εξηγηθεί από την τύχη ή όχι. Σε πολλές πρακτικές εφαρμογές τύπου Α σφάλματα είναι πιο "λεπτεπίλεπτα" από ότι τα  τύπου Β . Σε αυτές τις περιπτώσεις, η φροντίδα επικεντρώνεται στην ελαχιστοποίηση της εμφάνισης αυτού του στατιστικού λάθους. Ας υποθέσουμε ότι η αποδεκτή πιθανότητα για ένα τύπου Α σφάλμα είναι 1%. Αυτό ονομάζεται επίπεδο σημαντικότητας, που συμβολίζεται με το ελληνικό γράμμα α (άλφα). Ενώ το 1% μπορεί να είναι ένα αποδεκτό επίπεδο σημαντικότητας για μια εφαρμογή, μια άλλη εφαρμογή μπορεί να απαιτεί ένα πολύ διαφορετικό επίπεδο. Για παράδειγμα, ο πρότυπος στόχος της six sigma είναι να επιτύχει ακρίβεια 4.5 τυπικών αποκλίσεων πάνω ή κάτω από τη μέση. Αυτό σημαίνει ότι μόνο  3,4 μέρη ανά εκατομμύριο επιτρέπονται να είναι ανεπαρκή σε μία διαδικασία κανονικής κατανομής.

Ετυμολογία[Επεξεργασία | επεξεργασία κώδικα]

Το 1928, ο Jerzy Neyman (1894-1981) και ο Egon Pearson (1895-1980), και οι δύο επιφανείς στατιστικολόγοι, συζήτησαν τα προβλήματα που συνδέονται με το " πότε μπορεί, και πότε όχι, ένα συγκεκριμένο δείγμα να κριθεί ώς "τυχαία επιλεγμένο" από ένα συγκεκριμένο πληθυσμό"[8]σελ. 1: και, όπως ο Florence Nightingale David παρατήρησε, "είναι απαραίτητο να θυμόμαστε ότι το επίθετο "τυχαία" [ο όρος "τυχαίο δείγμα"] θα πρέπει να αναφέρεται στη μέθοδο για την κατάρτιση του δείγματος και όχι το ίδιο το δείγμα".[9]

Όρισαν "δύο πηγές σφάλματος", και συγκεκριμένα:

(α) το σφάλμα να απορρίφθεί μια υπόθεση που θα έπρεπε να γίνει αποδεκτή, και
(β) το σφάλμα της αποδοχής μια υπόθεση που θα έπρεπε να έχει απορριφθεί.[8]σ.31

Το 1930, που επεξήγησαν αυτές τις δύο πηγές σφάλματος, τονίζοντας ότι:

...όταν δοκιμάζουμε υποθέσεις, θα πρέπει να προσπαθούμε να επιτύχουμε δυο στόχους,(1) πρέπει να ήμαστε σε θέση να μειώσουμε την πιθανότητα απόρριψης μιας αληθής υποθέσεως, όσο γίνεται περισσότερο και (2) η διαδικασία ελέγχου πρέπει να είναι στημένη με τέτοιο τρόπο ώστε να απορρίψει μια υπόθεση όταν αυτή είναι πιθανότατα ψευδή.[10]

Το 1933, παρατήρησαν ότι αυτά τα "προβλήματα παροσιάζονται σπάνια σε τέτοια μορφή ώστε να μπορούμε να διακρίνουμε με βεβαιότητα την αληθή και την ψευδή υπόθεση " (σελ. 187). Υποσημείωσαν, επίσης, ότι, προσπαθώντας να αποφασίσει καποιος εάν ή όχι θα πρέπει να δεχτεί ή να απορρίψει μια υπόθεση από ένα "σύνολο εναλλακτικών υποθέσεων" (σελ. 201), H1, H2, . . ., ήταν εύκολο να κάνει ένα από δύο συγκεκριμένα σφάλματα:

...[και] τα σφάλματα αυτά θα είναι δύο ειδών:
(Α) απορρίπτουμε την H0 [δηλ., η υπόθεση έχει εξεταστεί], όταν είναι αληθινή,
(Β) αποδεχόμαστε την H0 όταν κάποια εναλλακτική υπόθεση HA ή H1 είναι αλήθης.[11]σ.187 

Σε όλα τα χαρτιά ομογραμμένα από τους  Neyman και Pearson η έκφραση H0 σημαίνει "η εξεταζόμενη υπόθεση (υπόθεση προς εξέταση)".

Στο ίδιο έγγραφο[11]σ. 190 αποκάλεσαν αυτές τις  δύο πηγές σφάλματος, ως σφάλματα τύπου Α και σφάλματα τύπου Β , αντίστοιχα.

Σχετικοί Όροι[Επεξεργασία | επεξεργασία κώδικα]

Μηδενική υπόθεση[Επεξεργασία | επεξεργασία κώδικα]

Είναι μια συνήθης πρακτική για τους στατιστικολόγους να διεξάγουν δοκιμές για να καθοριστεί εάν ή όχι μια "θεωρητική υπόθεση" σχετικά με τα παρατηρούμενα φαινόμενα του κόσμου (ή τους κατοίκους του) μπορεί να υποστηριχθεί. Τα αποτελέσματα των εν λόγω δοκιμών καθορίζουν κατά πόσον ένα συγκεκριμένο σύνολο των αποτελεσμάτων συμφωνεί εύλογα (ή διαφωνεί) με τη θεωρητική υπόθεση.

Με βάση ότι είναι πάντα δεδομένο, από στατιστικής σύμβασης, ότι η θεωρητική υπόθεση είναι λάθος, και η λεγόμενη "μηδενική υπόθεση" είναι ότι τα παρατηρούμενα φαινόμενα απλά προκύπτουν τυχαία και κατά συνέπεια, ο πιθανολογικός παράγοντας δεν έχει καμία επίδραση – η δοκιμή θα καθορίσει αν αυτή η υπόθεση είναι σωστή ή λάθος. Αυτός είναι ο λόγος που η υπόθεση υπό δοκιμή συχνά αποκαλείται μηδενική υπόθεση (το πιο πιθανό, επινοήθηκε από τον Fisher (1935, σελ. 19)), διότι είναι αυτή η υπόθεση που είτε ακυρώνεται είτε δεν ακυρώνεται από τη δοκιμή. Όταν η μηδενική υπόθεση έχει ακυρωθεί, είναι δυνατόν να εξαχθεί το συμπέρασμα ότι τα δεδομένα υποστηρίζουν την "εναλλακτική υπόθεση" (η οποία είναι η αρχική που εξετάζαμε).

Η συνεχής εφαρμογή απο τους στατιστικολόγους της σύμβασης των Neyman και Pearson που αντιπροσωπεύει "την υπόθεση που θα δοκιμαστεί" (ή "η υπόθεση που θέλουμε να ακυρώσουμε"), με την έκφραση H0 έχει οδηγήσει σε περιπτώσεις όπου πολλοί κατανοούν τον όρο "μηδενική υπόθεση" υπό την έννοια "η υπόθεση του τίποτα " – μια δήλωση ότι τα αποτελέσματα που έχουν προκύψει απο την υπόθεση είναι εξ ολοκλήρου τυχαία. Αυτό δεν είναι απαραιτήτος το θέμα – ο περιορισμός-κλειδί , σύμφωνα με τον Fisher (1966), είναι ότι "η μηδενική υπόθεση πρέπει να είναι ακριβής, ότι είναι απαλλαγμένη από αοριστία και ασάφεια, επειδή πρέπει να παρέχει τη βάση για το 'πρόβλημα της διανομής', του οποίου προβλήματος η σημασιολογική δοκιμή είναι λύση."[12] Ως συνέπεια αυτού, στην πειραματική επιστήμη, η μηδενική υπόθεση είναι γενικά μια δήλωση ότι ένας συγκεκριμένος χειρισμός δεν έχει καμία επίδραση, στην επιστήμη της παρατήρησης, είναι ότι δεν υπάρχει καμία διαφορά μεταξύ της τιμής μιας συγκεκριμένης μετρούμενης μεταβλητής, με αυτήν μιας πειραματικής πρόβλεψης.

Στατιστική σημαντικότητα[Επεξεργασία | επεξεργασία κώδικα]

Ο βαθμός στον οποίο η δοκιμή δείχνει ότι η "θεωρητική υπόθεση" έχει (ή δεν έχει) ακυρωθεί ονομάζεται επίπεδο σημαντικότηταςκαι όσο υψηλότερο είναι το επίπεδο σημαντικότητας, τόσο πιο απίθανο είναι ότι τα φαινόμενα θα μπορούσαν να έχουν παραχθεί από τύχη και μόνο. Η Βρετανίδα στατιστικολόγος Σερ Ρόναλντ Έιλμερ Fisher (1890-1962) αυτό το ονόμασε "μηδενική υπόθεση":

Τομείς εφαρμογής[Επεξεργασία | επεξεργασία κώδικα]

Η στατιστική δοκιμή περιλαμβάνει πάντα ένα trade-off μεταξύ:

  1. του αποδεκτού επιπέδου ψευδώς θετικών (στην οποία ένα μη-ταίρι αναγνωρίζεται ως ταίρι) και
  2. το αποδεκτό επίπεδο ψευδώς αρνητικών αποτελεσμάτων (στην οποία ένα πραγματικό ταίρι δεν ανιχνεύεται).

Μια οριακή τιμή μπορεί να ποικίλει ώστε να κάνει τη δοκιμή πιο περιοριστική ή πιο ευαίσθητη, με τις πιο περιοριστικές δοκιμές να αυξάνουν τον κίνδυνο της απόρριψης των αληθώς θετικών, και τα πιο ευαίσθητα τεστ να αυξάνουν τον κίνδυνο της αποδοχής ψευδώς θετικών.

Τον έλεγχο απογραφής[Επεξεργασία | επεξεργασία κώδικα]

Ένα αυτοματοποιημένο σύστημα ελέγχου απογραφής που απορρίπτει υψηλής ποιότητας προϊόντα της παρτίδας διαπράττει σφάλμα τύπου Α, ενώ ένα σύστημα που δέχεται εμπορεύματα χαμηλής ποιότητας, διαπράττει σφάλμα τύπου Β.

Υπολογιστές[Επεξεργασία | επεξεργασία κώδικα]

Οι έννοιες των ψευδώς θετικών και ψευδώς αρνητικών αποτελεσμάτων έχουν μια ευρεία χρήση στον κόσμο των υπολογιστών και τις εφαρμογές, ως εξής.

Την ασφάλεια του υπολογιστή[Επεξεργασία | επεξεργασία κώδικα]

Τα ευαίσθητα σημεία της ασφάλειας είναι ένα σημαντικό στοιχείο στο έργο της διατήρησης των δεδομένων του υπολογιστή ασφαλή, διατηρώντας παράλληλα την πρόσβαση σε αυτά τα δεδομένα για κατάλληλους χρήστες. Ο Moulton (1983), τονίζει τη σημασία των παρακάτω:

  • αποφυγή των σφαλμάτων τύπου Α (ή ψευδώς αρνητικών) που κατατάσσει εξουσιοδοτημένους χρήστες στους απατεώνες.
  • αποφυγή των σφαλμάτων τύπου Β (ή ψευδώς θετικών) που κατατάσσει απατεώνες στους εξουσιοδοτημένους χρήστες.

Spam filtering[Επεξεργασία | επεξεργασία κώδικα]

Ένα ψευδώς θετικό παρουσιάζεται όταν το φιλτράρισμα ανεπιθύμητων μηνυμάτων ή μπλοκ ανεπιθύμητων μηνυμάτων λανθασμένα χαρακτηρίζει ένα κανονικό μήνυμα email ως spam και, ως αποτέλεσμα, παρεμβαίνει στην παράδοση. Ενώ οι περισσότερες anti-spam τακτικές μπορούν να μπλοκάρουν ή να φιλτράρουν ένα υψηλό ποσοστό των ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου, το να το κάνουν αυτό χωρίς τη δημιουργία σημαντικών ψευδώς θετικών αποτελεσμάτων είναι ένα πολύ πιο απαιτητικό έργο.

Ένα ψευδώς αρνητικό συμβαίνει όταν ένα spam e-mail δεν αναγνωρίζεται ως spam, και έχει ταξινομηθεί ως μη-spam. Ένας χαμηλός αριθμός ψευδώς αρνητικών αποτελεσμάτων είναι ένας δείκτης για την αποδοτικότητα του φιλτραρίσματος ανεπιθύμητων μηνυμάτων.

Κακόβουλο λογισμικό[Επεξεργασία | επεξεργασία κώδικα]

Ο όρος "ψευδώς θετικό" επίσης, χρησιμοποιείται όταν το antivirus λογισμικό λανθασμένα κατατάσσει ένα απλό αρχείο ως ιό. Η εσφαλμένη ανίχνευση μπορεί να οφείλεται σε ιδιοκατασκευές ή σε εσφαλμένη αναγνώριση ιού σε μια βάση δεδομένων. Παρόμοια προβλήματα μπορούν να συμβούν με antitrojan ή antispyware λογισμικό.

Οπτική αναγνώριση χαρακτήρων[Επεξεργασία | επεξεργασία κώδικα]

Αλγόριθμοι ανίσχευσης όλων των ειδών δημιουργούν συχνά ψευδώς θετικά αποτελέσματα. Λογισμικό οπτικής αναγνώρισης χαρακτήρων (OCR), μπορεί να εντοπίσει ένα "a" όπου υπάρχουν μόνο ορισμένες τελείες που μοιάζουν να είναι ενα "a" στον αλγόριθμο που χρησιμοποιείται.

Φιλτράρισμα ασφαλείας[Επεξεργασία | επεξεργασία κώδικα]

Ψευδώς θετικά αποτελέσματα βρίσκονται καθημερινά στον έλεγχο ασφαλείας του αεροδρομίου, το οποίο είναι, εν τέλει, οπτική επιθεώρηση συστημάτων. Οι εγκατεστημένοι συναγερμοί ασφαλειας προορίζονται για την πρόληψη όπλων που φέρονται σε αεροσκάφη, ωστόσο είναι συχνά σε τέτοια υψηλή ευαισθησία που χτυπούν πολλές φορές την ημέρα για μικρής σημασίας αντικείμενα, όπως κλειδιά, ζώνες, ψιλά, κινητά τηλέφωνα, και τα καρφιά στα παπούτσια.

Ο λόγος των ψευδώς θετικών (αναγνωρίζοντας έναν αθώο ταξιδιώτη ως τρομοκράτη) προς των αληθώς θετικών (ανίχνευση ενός επίδοξου τρομοκράτη) είναι επομένως, πολύ υψηλός, και επειδή σχεδόν κάθε συναγερμός είναι ένα ψευδώς θετικό, η θετική προγνωστική αξία αυτών των τεστ ανίχνευσης είναι πολύ χαμηλή.

Το σχετικό κόστος ψευδών αποτελεσμάτων καθορίζει την πιθανότητα οι δημιουργοί των δοκιμών να επιτρέψουν σε αυτά τα γεγονότα να συμβούν. Καθώς το κόστος των ψευδώς αρνητικών σε αυτό το σενάριο είναι εξαιρετικά υψηλό (αν δεν ανιχνευτεί μια βόμβα που κάποιος έφερε επάνω σε ένα αεροπλάνο αυτό θα μπορούσε να προκαλέσει εκατοντάδες θανάτους), ενώ το κόστος των ψευδώς θετικών είναι συγκρητικά χαμηλό (μια αρκετά απλή περαιτέρω επιθεώρηση) το πιο κατάλληλο τεστ είναι ένα με χαμηλή στατιστική ιδιαιτερότητα αλλά υψηλή στατιστική ευαισθησία (που επιτρέπει ένα υψηλό ποσοστό ψευδώς θετικών αποτελεσμάτων σε αντάλλαγμα για τον ελάχιστο αριθμό ψευδώς αρνητικών).

Τα βιομετρικά στοιχεία[Επεξεργασία | επεξεργασία κώδικα]

Βιομετρικά ταίρια, όπως για αναγνώριση δακτυλικών αποτυπωμάτων, αναγνώριση προσώπου ή αναγνώριση της ίριδας, είναι ευπαθή σε τύπου Α και τύπου Β σφάλματα. Η μηδενική υπόθεση είναι ότι η εισαγωγή έχει ταυτιστεί με κάποιον στην κατάλληλη λίστα με τους ανθρώπους, έτσι ώστε:

  • η πιθανότητα των σφαλμάτων τύπου Β ονομάζεται "πιθανότητα ψευδούς ακύρωσης" (FRR) ή ποσοστό false non-match (FNMR),
  • ενώ η πιθανότητα σφαλμάτων τύπου Β ονομάζεται "πιθανότητα ψευδούς αποδοχής" (FAR) ή ποσοστό false match (FMR).[13]

Αν το σύστημα είναι σχεδιασμένο για να ταιριάζει σπάνια με τους υπόπτους[αποσαφήνιση που απαιτείται] στη συνέχεια, η πιθανότητα για σφάλματα τύπου Β μπορεί να ονομάζεται "false alarm rate". Από την άλλη πλευρά, εάν το σύστημα χρησιμοποιείται για την επικύρωση (και η αποδοχή είναι ο κανόνας), τότε το FAR είναι ένα μέτρο της ασφάλειας του συστήματος, ενώ η FRR μετρά το επίπεδο ταλαιπωρίας του χρήστη.

Ιατρική[Επεξεργασία | επεξεργασία κώδικα]

Ιατρικές εξετάσεις[Επεξεργασία | επεξεργασία κώδικα]

Στην ιατρική, υπάρχει μια σημαντική διαφορά μεταξύ  προσυμπτωματικού ελέγχου και εξέτασης.

  • Το screening περιλαμβάνει σχετικά φθηνές εξετάσεις που δίνονται σε μεγάλο μέρος του πληθυσμού, άτομα τα οποία δεν εχουν επιδείξει καμία κλινική ένδειξη της νόσου (π. χ. Τεστ παπ).
  • Η εξέταση (testing) περιλαμβάνει πολύ πιο ακριβά, συχνά επεμβατικές διαδικασίες που δίνονται μόνο σε όσους έχουν εκδηλωσεί κάποια κλινική ένδειξη της νόσου, και  πιο συχνά εφαρμόζεται για να επιβεβαιώσει την υποποπτευόμενη διάγνωση.

Για παράδειγμα, οι περισσότερες πολιτείες των ΗΠΑ απαιτούν τα νεογνά να ελέγχονται με screening για τη φαινυλκετονουρία και τον υποθυρεοειδισμό, μεταξύ άλλων συγγενών διαταραχών. Αν και επιδεικνύουν ένα υψηλό ποσοστό  ψευδών θετικών αποτελεσμάτων, το screen θεωρείται πολύτιμο, διότι αυξάνει σημαντικά την πιθανότητα ανίχνευσης των διαταραχών αυτών σε ένα πολύ πρώιμο στάδιο.[Note 1]

Οι απλές εξετάσεις αίματος χρησιμοποιούνται για να screenάρουν πιθανούς αιμοδοτες για τον ιό HIV και την ηπατίτιδα έχουν σημαντικό ποσοστό των ψευδών θετικών * ωστόσο, οι γιατροί χρησιμοποιούν πολύ πιο ακριβές και πολύ πιο ακριβείς εξετάσεις για να καθοριστεί αν ένα άτομο έχει πραγματικά μολυνθεί με κανέναν από αυτούς τους ιούς.

Ίσως τα πιο ευρέως συζητίσιμα ψευδή θετικά αποτελέσματα σε ιατρικές εξετάσεις δίνονται από την διαδικασία εξέτασης του καρκίνου του μαστού,τη μαστογραφία. Το ποσοστό των ΗΠΑ ψευδών θετικών μαστογραφίες είναι έως και 15%, το υψηλότερο στον κόσμο. Ως συνέπεια αυτού του υψηλού ποσοστού ψευδών θετικών στις ΗΠΑ είναι ότι, σε  περίοδο 10 ετών, το ήμισυ των Αμερικανικών γυναικών που συμμετείχαν σε εξετάσεις μαστογραφίας θα λάβουν ψευδώς θετική μαστογραφία. Ψευδώς θετικές μαστογραφίες αποδεικνύονται δαπανηρές, καθώς πάνω από $100 εκατ. ευρώ  δαπανώνται ετησίως στις ΗΠΑ για την, εν συνέχεια, παρακολούθηση εξετάσεων και σε θεραπεία. Προκαλούν επίσης στις γυναίκες αχρείαστο άγχος. Ως αποτέλεσμα του υψηλού ποσοστού ψευδών θετικών στις ΗΠΑ, σχεδόν το 90-95% των γυναικών που παίρνουν μια θετική μαστογραφία δεν έχουν την πάθηση. Το χαμηλότερο ποσοστό στον κόσμο είναι στην Ολλανδία, το 1%. Τα χαμηλότερα ποσοστά είναι γενικά στη Βόρεια Ευρώπη, όπου τα αποτελέσματα της μαστογραφίας διαβάζονται δύο φορές και υπάρχει υψηλό όριο για εξτρά έλεγχο (το υψηλό όριο μειώνεται η δύναμη της δοκιμής, δλδ την πιθανότητα να απορριφθεί η μηδενική υπόθεση ενώ είναι σωστή).

Το ειδανικό screening θα ήταν φθηνό, εύκολο να διαχειριστεί, και θα παρήγαγε μηδέν ψευδή αρνητικά, αν φυσικά κατι τέτοι είναι δυνατόν. Οι δοκιμές αυτές συνήθως παράγουν περισσότερα ψευδή θετικά αποτελέσματα, τα οποία μπορούν στη συνέχεια να ταξινομηθούν από πιο εξελιγμένες (και ακριβά) δοκιμές.

Ιατρική δοκιμή[Επεξεργασία | επεξεργασία κώδικα]

Ψευδώς αρνητικά και ψευδώς θετικά αποτελέσματα είναι σημαντικά ζητήματα στις ιατρικές δοκιμές. Ψευδώς αρνητικά αποτελέσματα μπορεί να δώσουν ένα ψευδώς καθησυχαστικό μήνυμα προς τους ασθενείς και τους γιατρούς ότι η ασθένεια είναι απούσα, όταν στην πραγματικότητα είναι παρούσα. Αυτό μερικές φορές οδηγεί σε ακατάλληλη ή ανεπαρκή θεραπεία του ασθενή και της νόσου . Ένα κοινό παράδειγμα είναι η χρήση του cardiac stress tests για την ανίχνευση της στεφανιαίας αθηροσκλήρωσης, αν και το cardiac stress tests  είναι ικανό να ανιχνεύσει μόνο περιορισμούς της στεφανιαίας ροής του αίματος λόγω της προηγμένης στένωση.

Ψευδώς αρνητικά αποτελέσματα παράγουν σοβαρό και αντι-διαισθητικά προβλήματα, ειδικά όταν η κατάσταση που αναζητείται, είναι κοινή. Αν μια δοκιμή με ένα ψευδώς αρνητικό ποσοστό μόνο 10%, χρησιμοποιείται για τον έλεγχο ενός πληθυσμού με ένα αληθές περιστατικό, ποσοστό του 70%, πολλά από τα αρνητικά που ανιχνεύονται από το τεστ θα είναι ψευδή.

Ψευδώς θετικά αποτελέσματα μπορούν να παράγουν, επίσης, σοβαρά και αντι-διαισθητικά προβλήματα όταν η κατάσταση που αναζητείται, είναι σπάνια, όπως  στο screening. Αν το τεστ έχει ένα ψευδώς θετικό ποσοστό της κλασης του ένας στους δέκα χιλιάδες, αλλά μόνο ένα στο εκατομμύριο δείγματα  είναι μια αληθής θετική, τα περισσότερα από τα θετικά που ανιχνεύεται από αυτό το τεστ θα είναι ψευδής. Η πιθανότητα ότι ένα  θετικό αποτέλεσμα που παρατηρήθηκε είναι ψευδές θετικό μπορεί να υπολογιστεί χρησιμοποιώντας το Bayes θεώρημα.

Παραφυσική έρευνα[Επεξεργασία | επεξεργασία κώδικα]

Η έννοια του ψεύδές θετικό είναι κοινή σε περιπτώσεις παραφυσικών φαινόμενων ή  φαινόμενα περι φαντασμάτων ορατά σε εικόνες και τέτοια, όταν δεν υπάρχει άλλη λογική εξήγηση. Παρατηρώντας μια φωτογραφία, ηχογράφηση, ή κάποια άλλα στοιχεία που φαίνεται να έχουν μεταφυσική προέλευση – σε αυτή τη χρήση, ψευδή θετικά είναι μη ακριβή αποδεικτικά στοιχεία, παρμένα από αναξιόπιστα μέσα (εικόνα, video, εγγραφή ήχου, κ. λπ.) που στην πραγματικότητα έχουν μια φυσική εξήγηση.[Note 2]

Σημειώσεις[Επεξεργασία | επεξεργασία κώδικα]

  1. In relation to this newborn screening, recent studies have shown that there are more than 12 times more false positives than correct screens (Gambrill, 2006. [1]) [dead link]
  2. Several sites provide examples of false positives, including The Atlantic Paranormal Society (TAPS) and Moorestown Ghost Research.

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. «Type I Error and Type II Error - Experimental Errors». explorable.com. Ανακτήθηκε στις 2016-05-30. 
  2. 2,0 2,1 Sheskin, David (2004). Handbook of Parametric and Nonparametric Statistical Procedures. CRC Press, σελ. 54. ISBN 1584884401. 
  3. Peck, Roxy and Jay L. Devore (2011). Statistics: The Exploration and Analysis of Data. Cengage Learning, σελ. 464–465. ISBN 0840058012. 
  4. Cisco Secure IPS – Excluding False Positive Alarms http://www.cisco.com/en/US/products/hw/vpndevc/ps4077/products_tech_note09186a008009404e.shtml
  5. 5,0 5,1 Lindenmayer, David. Burgman, Mark A. (2005). «Monitoring, assessment and indicators». Practical Conservation Biology (PAP/CDR έκδοση). Collingwood, Victoria, Australia: CSIRO Publishing, σελ. 401–424. ISBN 0-643-09089-4. 
  6. Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) (1 έκδοση). Cary, NC: SAS Institute, σελ. 166–423. ISBN 1-599-94375-1. 
  7. 7,0 7,1 Shermer, Michael (2002). The Skeptic Encyclopedia of Pseudoscience 2 volume set. ABC-CLIO, σελ. 455. ISBN 1-57607-653-9. https://books.google.com/books?id=Gr4snwg7iaEC&pg=PA455&lpg=PA455&dq=type+ii+error+skepticism&source=bl&ots=bCBz8JJBTo&sig=FpB-13Igea9cS40ZZkP8CiAwxm8&hl=en&ei=3M4rTfq1EsWblgeK8oj_Cw&sa=X&oi=book_result&ct=result&resnum=5&ved=0CDQQ6AEwBA#v=onepage&q=type%20ii%20error%20skepticism&f=false. Ανακτήθηκε στις 10 January 2011. 
  8. 8,0 8,1 Neyman, J.. Pearson, E.S. (1967) [1928]. «On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I». Joint Statistical Papers. Cambridge University Press, σελ. 1–66. 
  9. David, F.N. (1949). Probability Theory for Statistical Methods. Cambridge University Press, σελ. 28. https://archive.org/details/probabilitytheor033214mbp. 
  10. Pearson, E.S.. Neyman, J. (1967) [1930]. «On the Problem of Two Samples». Joint Statistical Papers. Cambridge University Press, σελ. 100. 
  11. 11,0 11,1 Neyman, J.. Pearson, E.S. (1967) [1933]. «The testing of statistical hypotheses in relation to probabilities a priori». Joint Statistical Papers. Cambridge University Press, σελ. 186–202. 
  12. Fisher, R.A. (1966).
  13. Williams, G.O. (1996). «Iris Recognition Technology» (PDF). debut.cis.nctu.edu.tw. σελ. 56. Ανακτήθηκε στις 2010-05-23. crossover error rate (that point where the probabilities of False Reject (Type I error) and False Accept (Type II error) are approximately equal) is .00076%