Έλεγχος υπόθεσης (Στατιστική)
Στη στατιστική, η εξέταση ή ο έλεγχος υποθέσεων είναι μια διαδικασία για τη λήψη απόφασης μεταξύ δύο υποθέσεων. Συνίσταται στην απόρριψη ή μη απόρριψη μιας στατιστικής υπόθεσης, που ονομάζεται μηδενική υπόθεση, με βάση ένα δείγμα δεδομένων.[1]
Πρόκειται για επαγωγική στατιστική: με βάση υπολογισμούς που πραγματοποιούνται σε παρατηρούμενα δεδομένα, εξάγονται συμπεράσματα για τον πληθυσμό, τα οποία συνοδεύονται από ενδεχόμενα σφάλματα.
Υποθέσεις ελέγχου
[Επεξεργασία | επεξεργασία κώδικα]Ορισμοί
[Επεξεργασία | επεξεργασία κώδικα]Η μηδενική υπόθεση είναι αυτή που θεωρείται εκ των προτέρων αληθής. Συνεπώς, προτιμάται η υπόθεση και για την απόρριψή της απαιτούνται παρατηρήσεις που απέχουν πολύ από την υπόθεση αυτή. Ο στόχος του ελέγχου είναι να κριθεί κατά πόσον αυτή η υπόθεση είναι εκ των προτέρων αξιόπιστη. Η εναλλακτική υπόθεση, , είναι η συμπληρωματική υπόθεση της μηδενικής υπόθεσης.
Ωστόσο, οι δύο αυτές υποθέσεις δεν είναι συμμετρικές. Η επιλέγεται εξ ορισμού μόνο εάν η δεν θεωρείται αξιόπιστη, ενώ η είναι η υπόθεση της οποίας η εσφαλμένη απόρριψη είναι η πιο επιζήμια. Η επιλογή των και επιβάλλεται γενικά από τη δοκιμή που χρησιμοποιείται και επομένως δεν είναι θέμα του χρήστη.[2]
Διατύπωση υποθέσεων: παράδειγμα
[Επεξεργασία | επεξεργασία κώδικα]Έστω και η μέση αρτηριακή πίεση δύο πληθυσμών, εκ των οποίων ο ένας λαμβάνει το φάρμακο και ο άλλος το εικονικό φάρμακο. Ένας τρόπος για να αποδείξουμε ότι ένα φάρμακο μεταβάλλει την αρτηριακή πίεση είναι να δείξουμε ότι το είναι διαφορετικό από το . Οι υποθέσεις του ελέγχου γίνονται τότε
: οι μέσοι όροι των δύο πληθυσμών είναι ίσοι και : οι μέσοι όροι των δύο πληθυσμών είναι διαφορετικοί.
Αυτό γράφεται συνοπτικά ως εξής:
Ωστόσο, τα σύμβολα =, ≠, ≤ και ≥ στη συνοπτική γραφή των υποθέσεων δεν αντιστοιχούν σε ισότητες ή ανισότητες με τη μαθηματική έννοια. Πρόκειται για έναν τρόπο γραφής:
- : Είναι αξιόπιστο να πιστεύουμε ότι =
- : Το διαφέρει σημαντικά από το
Εντούτοις, θα πρέπει επίσης να δοθεί προσοχή στις διακυμάνσεις της δειγματοληψίας. Όταν διεξάγεται μια δοκιμή, τις περισσότερες φορές χρησιμοποιούνται δείγματα για την εκτέλεση των υπολογισμών. Επομένως, θα χρησιμοποιήσουμε τους μέσους όρους και που υπολογίζονται από τα δείγματα και οι οποίοι επομένως είναι μόνο εκτιμήσεις των και (βλ. μέγεθος επίδρασης).
Στατιστικά στοιχεία δοκιμών
[Επεξεργασία | επεξεργασία κώδικα]Στη στατιστική, μια στατιστική δοκιμής - γνωστή και ως μεταβλητή απόφασης - είναι μια τυχαία μεταβλητή που προκύπτει από ένα στατιστικό δείγμα, καθιστώντας δυνατή τη διατύπωση ενός κανόνα απόφασης για μια στατιστική δοκιμή[3],[4].
Αυτή η στατιστική δεν είναι μοναδική, πράγμα που σημαίνει ότι διαφορετικοί κανόνες απόφασης μπορούν να κατασκευαστούν και να συγκριθούν χρησιμοποιώντας την έννοια της στατιστικής ισχύος.
Είναι σημαντικό να γνωρίζουμε το νόμο πιθανοτήτων του όταν η μηδενική υπόθεση είναι αληθής. Ο νόμος της υπό την εναλλακτική υπόθεση είναι συχνά άγνωστος.
Παραδείγματα
- Στατιστικά στοιχεία του "test du χ²" :
- .
- Στατιστικά στοιχεία του "test de Student" :
Δημιουργία δοκιμής
[Επεξεργασία | επεξεργασία κώδικα]Η μαθηματική κατασκευή μιας δοκιμής βασίζεται στο λήμμα Neyman-Pearson και μας δίνει το σχήμα της περιοχής απόρριψης.
Όταν πρόκειται να διεξαχθεί ένας έλεγχος υποθέσεων μεταξύ δύο υποθέσεων H0 : θ = θ0 και H1 : θ = θ1, για ένα δείγμα, , τότε το τεστ αναλογίας πιθανοτήτων, το οποίο απορρίπτει H0 προς όφελος της H1 όταν
- , όπου είναι έτσι ώστε
- , είναι το ισχυρότερο .
Περιοχή απόρριψης και πλευρικότητα
[Επεξεργασία | επεξεργασία κώδικα]Η περιοχή απόρριψης είναι το υποσύνολο I του τέτοιο ώστε να απορρίπτουμε το εάν η Sobs ανήκει στο I. Το σχήμα της περιοχής απόρριψης ορίζει την πλευρικότητα της δοκιμής:
- Διμερή δοκιμή : Απόρριψη της αν η Sobs είναι πολύ μεγάλη ή πολύ μικρή, χωρίς να υπάρχει κάποιο εκ των προτέρων κριτήριο. Η περιοχή απόρριψης είναι τότε της μορφής .
- Μονόπλευρος έλεγχος στα δεξιά: Η πρέπει να απορριφθεί μόνο αν το Sobs είναι πολύ μεγάλο. Η περιοχή απόρριψης είναι τότε της μορφής .
- Μονόπλευρος έλεγχος στα αριστερά: Απόρριψη της μόνο αν η Sobs είναι πολύ μικρή. Η περιοχή απόρριψης είναι τότε της μορφής .
Κρίσιμη πιθανότητα
[Επεξεργασία | επεξεργασία κώδικα]Αναλυτικό άρθρο: p-value.
Η κρίσιμη πιθανότητα ή Τιμή σημαντικότητας (p-value) είναι η πιθανότητα, υπό την , όπου η στατιστική απέχει τουλάχιστον τόσο από την προσδοκία της όσο και από την παρατηρούμενη τιμή. Επομένως, είναι η πιθανότητα να παρατηρήσουμε κάτι που είναι τουλάχιστον εξίσου εκπληκτικό με αυτό που παρατηρούμε.
Σφάλματα τύπου Ι και ΙΙ
[Επεξεργασία | επεξεργασία κώδικα]Κίνδυνος πρώτης περίπτωσης και εμπιστοσύνη
[Επεξεργασία | επεξεργασία κώδικα]Ο κίνδυνος πρώτης κατηγορίας α είναι η πιθανότητα της περιοχής απόρριψης υπό την . Με άλλα λόγια, είναι η πιθανότητα να αποφασιστεί η αν η αλήθεια είναι η .
Η ποσότητα 1 - α είναι η εμπιστοσύνη της δοκιμής. Με άλλα λόγια, ένα ποσοστό α των καταστάσεων στις οποίες η αλήθεια είναι θα δει μια απόφαση του τεστ υπέρ της . α είναι η πιθανότητα με την οποία κάποιος αποδέχεται να κάνει λάθος όταν η αλήθεια είναι .
Μπορούμε να συγκρίνουμε την τιμή p-value με το α και όχι με το Sobs και την περιοχή απόρριψης.
- Αν η p-value είναι μεγαλύτερη από το α, δεν είναι εξαιρετικό σύμφωνα με την να παρατηρείται η τιμή που πραγματικά παρατηρείται. Κατά συνέπεια, η δεν απορρίπτεται.
- Αν η p-value είναι μικρότερη του α, η παρατηρούμενη τιμή θεωρείται εξαιρετική σύμφωνα με την . Τότε αποφασίζουμε να απορρίψουμε την και να επικυρώσουμε την .
Το πλεονέκτημα αυτής της μεθόδου είναι ότι μπορεί κανείς να δει πόσο σίγουρη είναι η απόφαση του ελέγχου: η θέση της τιμής p σε σχέση με το α δεν εξαρτάται από την κλίμακα των δεδομένων, σε αντίθεση με το Sobs και το(α) κατώφλι(α) της περιοχής απόρριψης.
Οι τιμές του κινδύνου α που χρησιμοποιούνται συνήθως κυμαίνονται γενικά μεταξύ 0,01 και 0,05. Στην περίπτωση συνεχών μεταβλητών, μπορούμε να επιλέξουμε μια αυθαίρετη τιμή του α και να λάβουμε μια περιοχή απόρριψης με ακριβώς τον ίδιο κίνδυνο α. Στην περίπτωση των διακριτών μεταβλητών, ο αριθμός των περιοχών απόρριψης, και επομένως των πιθανών κινδύνων, είναι πεπερασμένος και μετρήσιμος. Στην περίπτωση αυτή, ορίζουμε έναν κίνδυνο, γνωστό ως ονομαστικό κίνδυνο, της τάξης του 5% για παράδειγμα. Στη συνέχεια αναζητούμε τη μεγαλύτερη περιοχή που δεν υπερβαίνει αυτόν τον κίνδυνο, η οποία γίνεται η περιοχή απόρριψης. Ο πραγματικός κίνδυνος μπορεί στη συνέχεια να υπολογιστεί εκ νέου.
Κίνδυνος δεύτερης τάξης και ισχύς
[Επεξεργασία | επεξεργασία κώδικα]Ο κίνδυνος δεύτερης τάξης β είναι η πιθανότητα να μην απορριφθεί το όταν η αλήθεια είναι το . Αυτός ο κίνδυνος δεν καθορίζεται εκ των προτέρων από τη δοκιμή και είναι συχνά δύσκολο να εκτιμηθεί. Αναλαμβάνουμε αυτόν τον κίνδυνο όταν αποδεχόμαστε την υπόθεση .
Η ποσότητα 1 - β είναι η ισχύς του ελέγχου[5]..
Επιλογή των α και β
[Επεξεργασία | επεξεργασία κώδικα]Αυτές οι διαφορετικές έννοιες μπορούν να αναπαρασταθούν στον ακόλουθο πίνακα:
Η Υπόθεση H0 είναι αληθινή |
Η Υπόθεση H1 είναι αληθινή | |
---|---|---|
Υπόθεση H0 αποδέκτη |
Σωστή απόφαση (1-α) | Λάθος απόφαση β |
Υπόθεση H1 αποδέκτη |
Λάθος απόφαση α |
Σωστή απόφαση (1-β) |
Η επιλογή των α και β είναι αρκετά αυθαίρετη, διότι αν προσπαθήσουμε να μειώσουμε ένα από αυτά, το άλλο θα αυξηθεί αυτομάτως. Ο κίνδυνος α ορίζεται γενικά αυθαίρετα και η τιμή του κινδύνου β προσαρμόζεται αυτόματα. Η επιλογή αυτή καθορίζει στη συνέχεια μια τιμή κατωφλίου (σημειωμένο S στο διάγραμμα) που αποτελεί το σημείο καμπής για το στατιστικό ελέγχου μεταξύ των δύο αποφάσεων (απόρριψη ή μη απόρριψη της ). Η μαύρη καμπύλη αντιπροσωπεύει την κανονική κατανομή του στατιστικού ελέγχου υπό την υπόθεση και η μπλε καμπύλη αντιπροσωπεύει την κανονική κατανομή του στατιστικού ελέγχου υπό την υπόθεση .
Εάν το δείγμα παραμένει αμετάβλητο, η μείωση της α οδηγεί σε αύξηση της β και αντίστροφα. Με άλλα λόγια, αν αποφασίσουμε να μειώσουμε τον αριθμό των ψευδό-θετικών αποτελεσμάτων, αυξάνουμε τον αριθμό των ψευδό-αρνητικών αποτελεσμάτων. Ο μόνος τρόπος να βελτιώσουμε και τα δύο κριτήρια είναι να αυξήσουμε το μέγεθος του δείγματος.
Καμπύλη ισχύος
[Επεξεργασία | επεξεργασία κώδικα]Για να προσδιορίσετε την ισχύ του στατιστικού ελέγχου, πρέπει να γνωρίζετε την κατανομή του στατιστικού S υπό , κάτι που γενικά δεν ισχύει. Επομένως, χρησιμοποιούμε καμπύλες ισχύος, οι οποίες είναι καμπύλες για τις οποίες υπολογίζεται η ισχύς για δεδομένες τιμές των παραμέτρων του προβλήματος ή του μεγέθους του δείγματος. Δεν γνωρίζουμε πού βρίσκεται η πραγματική κατάσταση σε αυτή την καμπύλη, αλλά μπορούμε να διαβάσουμε την πιθανότητα ανίχνευσης του ως συνάρτηση της "απόστασης" του από το .
Συμβατικά τεστ και τεστ Bayesian
[Επεξεργασία | επεξεργασία κώδικα]Στις συμβατικές δοκιμές, οι οποίες αποτελούσαν για μεγάλο χρονικό διάστημα τον κύριο όγκο των στατιστικών ελέγχων, τα δύο αυτά σφάλματα παίζουν ασύμμετρο ρόλο. Ελέγχουμε μόνο τον κίνδυνο του πρώτου είδους σε ένα επίπεδο α (αρχή του Neyman)- αυτό ισοδυναμεί με το να θεωρήσουμε ότι ο κίνδυνος απόρριψης της μηδενικής υπόθεσης όταν αυτή είναι αληθής είναι πολύ πιο δαπανηρός από τον κίνδυνο λανθασμένης διατήρησής της (ο δεύτερος κίνδυνος δεν ελέγχεται).[6][7]
Οι δοκιμές Bayesian, οι οποίες άρχισαν να συμπληρώνουν τις παραδοσιακές μεθόδους τη δεκαετία του 1970, καθώς οι υπολογιστές έγιναν πιο διαδεδομένοι, σταθμίζουν αυτούς τους δύο κινδύνους απεικονίζοντας την αβέβαιη γνώση αυτής της πιθανότητας με έναν νόμο. Εάν, για παράδειγμα, θέλουμε να ελέγξουμε το γεγονός ότι μια συγκεκριμένη παράμετρος θ αξίζει μια συγκεκριμένη τιμή 0, αυτή η εκ των προτέρων πιθανότητα θα είναι ένας νόμος της θ στο πεδίο της αληθοφάνειας. Αυτός ο εκ των προτέρων νόμος διαμορφώνει την αποδεκτή αβεβαιότητα σχετικά με την τιμή της. Οι αντίστοιχοι έλεγχοι χρησιμοποιούν πιο πολύπλοκους υπολογισμούς στο παρασκήνιο, αλλά χωρίς πρόσθετες δυσκολίες υλοποίησης όταν εκτελούνται από υπορουτίνες. Περιλαμβάνουν την επιλογή ενός εκ των προτέρων νόμου που ικανοποιεί γνωστούς περιορισμούς, μεταξύ εκείνων της μέγιστης εντροπίας, και στη συνέχεια τη βελτίωσή του καθώς γίνονται παρατηρήσεις με την ενημέρωσή του χρησιμοποιώντας τον κανόνα του Bayes (βλέπε θεώρημα Cox-Jaynes). Το κύριο πλεονέκτημά τους είναι ότι επιτρέπουν την ενοποίηση των μικροσκοπικών πληροφοριών που παρέχονται από μεγάλο αριθμό ετερογενών δειγμάτων, καθένα από τα οποία θα θεωρούνταν ασήμαντο με τις συμβατικές μεθόδους. Η ενοποίηση αυτή καθιστά δυνατή την εξαγωγή χρήσιμων αποτελεσμάτων από πολύ αδύναμες παρατηρήσεις. Χρησιμοποιείται, για παράδειγμα, στην αποκωδικοποίηση, την ανάλυση εικόνας και την αναγνώριση ομιλίας, καθώς και στη βαθιά μάθηση.
Παραμετρικά και μη παραμετρικά τεστ
[Επεξεργασία | επεξεργασία κώδικα]Ορισµοί
[Επεξεργασία | επεξεργασία κώδικα]Οι παραμετρικές δοκιμές είναι τεστ για τα οποία διατυπώνεται μια παραμετρική υπόθεση σχετικά με την κατανομή των δεδομένων υπό την (κανονική κατανομή, κατανομή Poisson κ.λπ.)- οι υποθέσεις του τεστ αφορούν στη συνέχεια τις παραμέτρους αυτής της κατανομής.
Ένα μη παραμετρικό τεστ είναι μια δοκιμή που δεν απαιτεί να γίνει μια υπόθεση σχετικά με την κατανομή των δεδομένων. Τα δεδομένα στη συνέχεια αντικαθίστανται από στατιστικές που δεν εξαρτώνται από τους μέσους όρους/διακυμάνσεις των αρχικών δεδομένων (πίνακας ενδεχομένων, στατιστικές τάξης όπως οι τάξεις, κ.λπ.)
Τρόπος Επιλογής
[Επεξεργασία | επεξεργασία κώδικα]Τα παραμετρικά τεστ, όταν δικαιολογείται η χρήση τους, είναι γενικά πιο ισχυρά από τα μη παραμετρικά τεστ. Ωστόσο, οι παραμετρικές δοκιμές βασίζονται στην ισχυρή υπόθεση ότι το υπό εξέταση δείγμα προέρχεται από έναν πληθυσμό που ακολουθεί μια κατανομή που ανήκει σε μια δεδομένη οικογένεια. Αυτό μπορεί να ξεπεραστεί για επαρκώς μεγάλα δείγματα με τη χρήση ασυμπτωτικών θεωρημάτων, όπως το κεντρικό οριακό θεώρημα. Ωστόσο, οι μη παραμετρικές δοκιμές πρέπει να προτιμώνται σε πολλές πρακτικές περιπτώσεις όπου οι παραμετρικές δοκιμές δεν μπορούν να χρησιμοποιηθούν χωρίς να παραβιαστούν τα αξιώματα από τα οποία εξαρτώνται (ιδίως στην περίπτωση πολύ μικρών δειγμάτων, δηλαδή, κατά σύμβαση, όταν το μέγεθος του δείγματος είναι μικρότερο από 30). Τα δεδομένα ανακτώνται επίσης μερικές φορές με τη μορφή τάξεων αντί για ακατέργαστα δεδομένα. Τότε εφαρμόζονται μόνο οι μη παραμετρικοί έλεγχοι.
Όταν τα δεδομένα είναι ποσοτικά, οι μη παραμετρικοί έλεγχοι μετατρέπουν τις τιμές σε τάξεις. Συχνά χρησιμοποιείται ο όρος "δοκιμές κατάταξης". Όταν τα δεδομένα είναι ποιοτικά, μπορούν να χρησιμοποιηθούν μόνο μη παραμετρικές δοκιμές. Η διάκριση παραμετρικών/μη παραμετρικών είναι ουσιαστική. Τονίζεται συστηματικά στη βιβλιογραφία. Με το να μην κάνουν υποθέσεις σχετικά με τους νόμους των δεδομένων, οι μη παραμετρικοί έλεγχοι διευρύνουν το πεδίο εφαρμογής των στατιστικών διαδικασιών. Από την άλλη πλευρά, είναι λιγότερο ισχυρές όταν οι υποθέσεις αυτές είναι συμβατές με τα δεδομένα.
Ασυμπτωτική σχετική αποδοτικότητα
[Επεξεργασία | επεξεργασία κώδικα]Καθορίζουμε μια εμπιστοσύνη 1 – α, μια ισχύ 1 – β. Έστω, μια ακολουθία εναλλακτικών υποθέσεων (που προσεγγίζουν την H0) και n1k και n2k τα μεγέθη δείγματος για T1 et T2 (δύο στατιστικές δοκιμές) ώστε να έχουν την ίδια ισχύ 1 – β πό την υπόθεση H ‖. Υπό ορισμένες συνθήκες, το πηλίκο n τείνει προς μια σταθερά, που ονομάζεται ασυμπτωτική σχετική αποτελεσματικότητα (ή ARE), όταν το k τείνει στο άπειρο.
Μια ERA 2 σημαίνει ότι για να ανιχνευθεί η ίδια διαφορά, απαιτούνται ασυμπτωτικά διπλάσια δείγματα για το T2 από ό,τι για το T1 για να επιτευχθεί η ίδια ισχύς, πράγμα που σημαίνει ότι το T1 είναι πιο "αποτελεσματικό". Αυτό το μέτρο είναι ασυμπτωτικό, αλλά στην πράξη, η αποτελεσματικότητα για μικρά δείγματα είναι συχνά κοντά στην ασυμπτωτική αποτελεσματικότητα.
Ας θεωρήσουμε το παράδειγμα όπου το T1 είναι ο δείκτης πρόσημου για την H0 : m = 0 et T2 και το t για H0 : μ = 0, στην περίπτωση συμμετρικών κατανομών. Είναι δυνατόν να αποδειχθεί ότι η ERA είναι ίση με 2π (δηλαδή μικρότερη από 1) για κανονικές κατανομές και μεγαλύτερη από 1 για άλλες κατανομές όπως οι διπλές εκθετικές ή οι κατανομές Λαπλάς. Ακόμα και αν οι παραμετρικές δοκιμές είναι έγκυρες, οι μη παραμετρικές δοκιμές μπορούν να είναι ανταγωνιστικές, ιδίως επειδή η υπολογιστική ισχύς των σημερινών υπολογιστών σημαίνει ότι μπορούν πλέον να χρησιμοποιηθούν σε μεγάλα δείγματα.
Έννοιες της ευαισθησίας και της ειδικότητας
[Επεξεργασία | επεξεργασία κώδικα]Προκαταρκτικές διακρίσεις
[Επεξεργασία | επεξεργασία κώδικα]Υπάρχουν τέσσερις τύποι δεδομένων: ψευδόθετικά, ψευδόαρνητικά, αληθοθετικά και αληθοαρνητικά. Αυτοί οι τέσσερις τύποι επικαλύπτονται με τις έννοιες που περιγράφονται παραπάνω, δηλαδή α-κινδύνου, β-κινδύνου, ισχύος και εμπιστοσύνης.
Ένα αληθώς θετικό είναι μια δοκιμή που οδήγησε στην απόφαση να γίνει αποδεκτή η υπόθεση , ενώ η τελευταία ήταν στην πραγματικότητα αληθής. Μια αληθώς αρνητική είναι μια δοκιμή που οδήγησε στην απόφαση να μην γίνει δεκτή η υπόθεση , όταν η τελευταία ήταν στην πραγματικότητα ψευδής. Αντίστροφα, ψευδώς θετική είναι μια δοκιμή που οδήγησε στην απόφαση να γίνει αποδεκτή η υπόθεση Η0 όταν ήταν ψευδής, και ψευδώς αρνητική είναι μια δοκιμή που οδήγησε στην απόφαση να μην γίνει αποδεκτή η υπόθεση όταν ήταν αληθής. Οι έννοιες αυτές χρησιμοποιούνται ευρέως στις επιδημιολογικές μελέτες.
Ένα αληθoθετικό είναι ένα τεστ που οδήγησε στην απόφαση αποδοχής της υπόθεσης , ενώ η τελευταία ήταν πράγματι αληθής. Ένα αληθοαρνητικό είναι ένα τεστ που οδήγησε στην απόφαση να μην γίνει δεκτή η υπόθεση , όταν η τελευταία ήταν στην πραγματικότητα ψευδής. Αντίστροφα, το ψευδοθετικό είναι ένα τεστ που οδήγησε στην απόφαση να γίνει αποδεκτή η υπόθεση , ενώ ήταν ψευδής, και το ψευδόαρνητικό είναι ένα τεστ που οδήγησε στην απόφαση να μην γίνει αποδεκτή η υπόθεση , ενώ ήταν αληθής. Οι έννοιες αυτές χρησιμοποιούνται ευρέως στις επιδημιολογικές μελέτες,
Ευαισθησία και εξειδίκευση
[Επεξεργασία | επεξεργασία κώδικα]Η ευπάθεια ενός τεστ προσδιορίζει την πιθανότητα το τεστ να καταλήξει σε αποδοχή της , εάν η τελευταία είναι αληθής. Δίνεται από τη σχέση . Στην επιδημιολογία, η ευαισθησία ενός τεστ είναι η ικανότητά του να αναγνωρίζει ένα άτομο ως άρρωστο εάν η ασθένεια είναι πράγματι παρούσα.
Η ειδικότητα μιας εξέτασης προσδιορίζει την πιθανότητα η εξέταση να καταλήξει σε απόρριψη της , εάν η τελευταία είναι ψευδής. Δίνεται από τη σχέση: . Στην επιδημιολογία, η ειδικότητα ενός τεστ είναι η ικανότητά του να αναγνωρίζει ένα άτομο ως μη άρρωστο, εάν η ασθένεια δεν είναι πραγματικά παρούσα.
Μαζί, αυτές οι δύο τιμές δίνουν μια εκτίμηση εγκυρότητας της εξέτασης. Η ξεχωριστή ανάλυσή τους δεν έχει νόημα, διότι ένα τεστ με ευαισθησία 95% δεν είναι πολύ καλό αν η ειδικότητά του είναι μόνο 5%. Εάν το άθροισμα της ευαισθησίας και της ειδικότητας είναι 100%, τότε το τεστ είναι άχρηστο. Επιπλέον, η ευαισθησία και η ειδικότητα ενός τεστ εξαρτώνται σε μεγάλο βαθμό από την τιμή κατωφλίου που επιλέγεται. Όπως συμβαίνει και με τους κινδύνους α και β, η ευαισθησία ενός τεστ μειώνεται όσο αυξάνεται η ειδικότητά του και το αντίστροφο. Συνεπώς, η τιμή κατωφλίου πρέπει να επιλέγεται ανάλογα με την προβλεπόμενη χρήση της εξέτασης. Μια δοκιμή υψηλής ευαισθησίας θα είναι χρήσιμη για τον έλεγχο ότι η είναι αληθής, για παράδειγμα.[8]
Θετική προγνωστική αξία και αρνητική προγνωστική αξία
[Επεξεργασία | επεξεργασία κώδικα]Η θετική προγνωστική αξία είναι η πιθανότητα να είναι αληθής η όταν η δοκιμή καταλήγει στο συμπέρασμα ότι είναι αποδεκτή. Δίνεται από τη σχέση .
Η αρνητική προγνωστική αξία είναι η πιθανότητα η να είναι ψευδής όταν το τεστ την απορρίπτει. Δίνεται από τη σχέση .
Ωστόσο, οι υπολογισμοί αυτοί είναι έγκυροι μόνο εάν το δείγμα στο οποίο διενεργείται η δοκιμή είναι αντιπροσωπευτικό του πληθυσμού (βλ. Δειγματοληψία). Συνεπώς, για την ίδια ευαισθησία και ειδικότητα, η αρνητική προγνωστική αξία μιας δεδομένης εξέτασης θα βελτιώνεται όσο μικρότερη είναι η πιθανότητα να ισχύει η , και η θετική προγνωστική αξία της ίδιας εξέτασης θα βελτιώνεται όσο μεγαλύτερη είναι η πιθανότητα να ισχύει η . Για τον υπολογισμό των προγνωστικών τιμών μιας εξέτασης όταν η αντιπροσωπευτικότητα του δείγματος δεν είναι βέβαιη, χρησιμοποιούμε διατυπώσεις που βασίζονται στο θεώρημα του Bayes, χρησιμοποιώντας την ευαισθησία και την ειδικότητα που υπολογίζονται στο δείγμα και τον επιπολασμό της προς διάγνωση πάθησης. Όταν ένα τεστ έχει καλή θετική προγνωστική αξία, είναι αξιόπιστο κυρίως όταν το αποτέλεσμά του είναι θετικό. Ομοίως, μια εξέταση με καλή αρνητική προγνωστική αξία είναι αξιόπιστη όταν το αποτέλεσμά της είναι αρνητικό. Για παράδειγμα, ένα τεστ με καλή αρνητική προγνωστική αξία και κακή θετική προγνωστική αξία δίνει έγκυρες πληροφορίες εάν είναι αρνητικό, αλλά είναι δύσκολο να ερμηνευθεί εάν το αποτέλεσμά του είναι θετικό.
Συνοπτικός πίνακας
[Επεξεργασία | επεξεργασία κώδικα]Η Υπόθεση H0 είναι αληθινή |
Η Υπόθεση H1 είναι αληθινή | |
---|---|---|
Υπόθεση H0 αποδέκτη |
αληθoθετικά | ψευδόθετικά |
Υπόθεση H1 αποδέκτη |
ψευδόαρνητικά |
αληθοαρνητικά |
Δημοσιεύσεις
[Επεξεργασία | επεξεργασία κώδικα]- Lehmann E.L. (1992) "Introduction to Neyman and Pearson (1933) On the Problem of the Most Efficient Tests of Statistical Hypotheses". In: Breakthroughs in Statistics, Volume 1, (Eds Kotz, S., Johnson, N.L.), Springer-Verlag. ISBN 0-387-94037-5 (followed by reprinting of the paper)
- Neyman, J.; Pearson, E.S. (1933). «On the Problem of the Most Efficient Tests of Statistical Hypotheses». Philosophical Transactions of the Royal Society A 231 (694–706): 289–337. doi: . Bibcode: 1933RSPTA.231..289N.
Παραπομπές
[Επεξεργασία | επεξεργασία κώδικα]- ↑ «Statistical hypotheses, verification of - Encyclopedia of Mathematics». encyclopediaofmath.org. Ανακτήθηκε στις 12 Ιουλίου 2023.
- ↑ «SPSS à l'UdeS - Analyse de variance». archive.wikiwix.com. Ανακτήθηκε στις 13 Ιουλίου 2023.
- ↑ «Tests statistiques - B. Ycart» (PDF).
- ↑ Casella, George· Berger, Roger L. (26 Ιανουαρίου 2021). Statistical Inference. Cengage Learning. ISBN 978-0-357-75313-2.
- ↑ Saporta, page 320.
- ↑ «Des specificites de l'approche bayesienne» (PDF).
- ↑ «Εισαγωγή στα Bayesian Δίκτυα - ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ».
- ↑ «Les performances d'un test de dépistage - ADECA 68». www.adeca68.fr. Ανακτήθηκε στις 13 Ιουλίου 2023.