Μαθηματική στατιστική

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Απεικόνιση της γραμμικής παλινδρόμησης σε ένα σύνολο δεδομένων. Η ανάλυση παλινδρόμησης αποτελεί σημαντικό μέρος της μαθηματικής στατιστικής.

Η Mαθηματική στατιστική είναι η εφαρμογή της θεωρίας πιθανοτήτων, ενός κλάδου των μαθηματικών, στη στατιστική, σε αντίθεση με τις τεχνικές συλλογής στατιστικών δεδομένων. Οι συγκεκριμένες μαθηματικές τεχνικές που χρησιμοποιούνται για τον σκοπό αυτό περιλαμβάνουν τη μαθηματική ανάλυση, τη γραμμική άλγεβρα, τη στοχαστική ανάλυση, τις διαφορικές εξισώσεις και τη θεωρία μετρήσεων[1][2].

Εισαγωγή[Επεξεργασία | επεξεργασία κώδικα]

Η συλλογή στατιστικών δεδομένων αφορά το σχεδιασμό μελετών, ιδίως το σχεδιασμό δειγματοληπτικών πειραμάτων και το σχεδιασμό ερευνών με τυχαία δειγματοληψία. Η αρχική ανάλυση των δεδομένων ακολουθεί συχνά το πρωτόκολλο μελέτης που καθορίστηκε πριν από τη διεξαγωγή της μελέτης. Τα δεδομένα μιας μελέτης μπορούν επίσης να αναλυθούν για να εξεταστούν δευτερεύουσες υποθέσεις που εμπνέονται από τα αρχικά αποτελέσματα ή για να προταθούν νέες μελέτες. Η δευτερογενής ανάλυση των δεδομένων από μια προγραμματισμένη μελέτη χρησιμοποιεί εργαλεία ανάλυσης δεδομένων και η διαδικασία αυτής της ανάλυσης βασίζεται στη μαθηματική στατιστική.

Η ανάλυση δεδομένων χωρίζεται σε

  • Περιγραφική στατιστική - το τμήμα της στατιστικής που περιγράφει τα δεδομένα, δηλαδή συνοψίζει τα δεδομένα και τις τυπικές ιδιότητές τους.
  • Συμπερασματική στατιστική - το μέρος της στατιστικής που εξάγει συμπεράσματα από τα δεδομένα (χρησιμοποιώντας ένα πρότυπο για τα δεδομένα): Παραδείγματος χάριν, η επαγωγική στατιστική περιλαμβάνει την επιλογή ενός μοντέλου για τα δεδομένα, τον έλεγχο του κατά πόσον τα δεδομένα πληρούν τις προϋποθέσεις ενός συγκεκριμένου μοντέλου και την ποσοτικοποίηση της αβεβαιότητας που ενέχεται ((παραδείγματος χάριν με τη χρήση διαστημάτων εμπιστοσύνης).

Ενώ τα εργαλεία ανάλυσης δεδομένων λειτουργούν καλύτερα σε δεδομένα από δειγματοληπτικές μελέτες, εφαρμόζονται και σε άλλους τύπους δεδομένων. Για παράδειγμα, σε φυσικά πειράματα και μελέτες παρατήρησης, όπου η εξαγωγή συμπερασμάτων εξαρτάται από το μοντέλο που επιλέγει ο στατιστικολόγος και ούτω καθεξής[3][4].

Διαδικασία[Επεξεργασία | επεξεργασία κώδικα]

Ακολουθούν μερικά από τα σημαντικά θέματα της μαθηματικής στατιστικής:[5][6].

Κατανομές πιθανοτήτων[Επεξεργασία | επεξεργασία κώδικα]

Μια κατανομή πιθανότητας είναι μια συνάρτηση που αποδίδει μια πιθανότητα σε κάθε μετρήσιμο υποσύνολο των πιθανών αποτελεσμάτων ενός τυχαίου πειράματος, μιας έρευνας ή μιας διαδικασίας στατιστικής συμπερασματολογίας. Παραδείγματα μπορούν να βρεθούν σε πειράματα όπου ο δειγματικός χώρος είναι μη αριθμητικός, όπου η κατανομή θα ήταν μια κατηγορική κατανομή- σε πειράματα όπου ο δειγματικός χώρος κωδικοποιείται από διακριτές τυχαίες μεταβλητές, όπου η κατανομή μπορεί να καθοριστεί από μια συνάρτηση μάζας πιθανότητας- και σε πειράματα όπου ο δειγματικός χώρος κωδικοποιείται από συνεχείς τυχαίες μεταβλητές, όπου η κατανομή μπορεί να καθοριστεί από μια συνάρτηση πυκνότητας πιθανότητας. Πιο σύνθετα πειράματα, όπως εκείνα που περιλαμβάνουν στοχαστικές διαδικασίες που ορίζονται σε συνεχή χρόνο, μπορεί να απαιτούν τη χρήση πιο γενικών μέτρων πιθανότητας.

Μια κατανομή πιθανότητας μπορεί να είναι μονομεταβλητή ή πολυμεταβλητή. Μια μονομεταβλητή κατανομή δίνει τις πιθανότητες μιας μεμονωμένης τυχαίας μεταβλητής να πάρει διάφορες εναλλακτικές τιμές- μια πολυμεταβλητή κατανομή (μια κοινή κατανομή πιθανότητας) δίνει τις πιθανότητες ενός τυχαίου διανύσματος - ένα σύνολο δύο ή περισσότερων τυχαίων μεταβλητών - να πάρει διάφορους συνδυασμούς τιμών. Σημαντικές και συχνά απαντώμενες μονομεταβλητές κατανομές πιθανότητας είναι η διωνυμική κατανομή, η υπεργεωμετρική κατανομή και η κανονική κατανομή. Μια συχνά συναντώμενη πολυμεταβλητή κατανομή είναι η πολυμεταβλητή κανονική κατανομή.

Ειδικές διανομές[Επεξεργασία | επεξεργασία κώδικα]

  • Κανονική κατανομή, η πιο κοινή συνεχής κατανομή
  • Κατανομή Μπερνούλι, για το αποτέλεσμα μιας μεμονωμένης δοκιμής Μπερνούλι (π.χ. επιτυχία/αποτυχία, ναι/όχι).
  • Διωνυμική κατανομή, για τον αριθμό των "θετικών περιστατικών" (π.χ. επιτυχίες, θετικές ψήφοι κ.λπ.) δεδομένου ενός σταθερού συνολικού αριθμού ανεξάρτητων περιστατικών.
  • Αρνητική διωνυμική κατανομή, για παρατηρήσεις διωνυμικού τύπου, αλλά όπου η ποσότητα ενδιαφέροντος είναι ο αριθμός των αποτυχιών πριν από την εμφάνιση ενός συγκεκριμένου αριθμού επιτυχιών.
  • Γεωμετρική κατανομή, για παρατηρήσεις διωνυμικού τύπου, αλλά όπου η ποσότητα ενδιαφέροντος είναι ο αριθμός των αποτυχιών πριν από την πρώτη επιτυχία- ειδική περίπτωση της αρνητικής διωνυμικής κατανομής, όπου ο αριθμός των επιτυχιών είναι ένα.
  • Διακριτή ομοιόμορφη κατανομή, για ένα πεπερασμένο σύνολο τιμών (για παράδειγμα, το αποτέλεσμα ενός δίκαιου ζαριού).
  • Συνεχής ομοιόμορφη κατανομή, για συνεχώς κατανεμημένες τιμές.
  • Κατανομή Πουασόν (Poisson), για τον αριθμό εμφάνισης ενός γεγονότος τύπου Poisson κατά τη διάρκεια μιας δεδομένης περιόδου.
  • Εκθετική κατανομή, για το χρόνο που μεσολαβεί μέχρι να συμβεί το επόμενο γεγονός τύπου Πουασόν.
  • Κατανομή Γάμμα, για το χρόνο που μεσολαβεί μέχρι τα επόμενα k γεγονότα Πουασόν (Poisson)
  • Κατανομή chi-squared, κατανομή ενός αθροίσματος τετραγώνων τυπικών κανονικών μεταβλητών- χρήσιμη, για παράδειγμα, για την εξαγωγή της διακύμανσης των κανονικά κατανεμημένων δειγμάτων (βλέπε τεστ chi-squared).
  • Κατανομή t-Student, κατανομή του λόγου μιας τυπικής κανονικής μεταβλητής και της τετραγωνικής ρίζας μιας κλιμακωτής μεταβλητής chi-squared- χρήσιμη για την εξαγωγή του μέσου όρου κανονικά κατανεμημένων δειγμάτων με άγνωστη διακύμανση (βλέπε Student's t test).
  • Κατανομή βήτα, για μια απλή πιθανότητα (πραγματικός αριθμός μεταξύ 0 και 1)- συνδυάζεται με την κατανομή Μπερνούλι και τη διωνυμική κατανομή.

Παλινδρόμηση[Επεξεργασία | επεξεργασία κώδικα]

Στη στατιστική, η ανάλυση παλινδρόμησης είναι μια στατιστική διαδικασία που χρησιμοποιείται για την εκτίμηση των σχέσεων μεταξύ μεταβλητών[7]. Περιλαμβάνει πολλές μεθόδους πολυμεταβλητής μοντελοποίησης και ανάλυσης, όπου η εστίαση είναι στη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Πιο συγκεκριμένα, η ανάλυση παλινδρόμησης χρησιμοποιείται για να κατανοηθεί πώς μεταβάλλεται η τυπική τιμή της εξαρτημένης μεταβλητής (ή "μεταβλητής κριτηρίου") όταν μεταβάλλεται μία από τις ανεξάρτητες μεταβλητές, ενώ οι άλλες ανεξάρτητες μεταβλητές παραμένουν σταθερές. Τις περισσότερες φορές, η ανάλυση παλινδρόμησης εκτιμά την υπό όρους προσδοκία της εξαρτημένης μεταβλητής ως συνάρτηση των ανεξάρτητων μεταβλητών, δηλαδή τη μέση τιμή της εξαρτημένης μεταβλητής όταν οι ανεξάρτητες μεταβλητές είναι σταθερές. Σπανιότερα, η έμφαση δίνεται σε ένα κβάντιο ή άλλη παράμετρο που εντοπίζει την υπό όρους κατανομή της εξαρτημένης μεταβλητής ως συνάρτηση των ανεξάρτητων μεταβλητών. Σε όλες τις περιπτώσεις, ο στόχος της εκτίμησης είναι μια συνάρτηση των ανεξάρτητων μεταβλητών που ονομάζεται συνάρτηση παλινδρόμησης. Στην ανάλυση παλινδρόμησης, ενδιαφέρει επίσης να χαρακτηριστεί η διακύμανση της εξαρτημένης μεταβλητής γύρω από τη συνάρτηση παλινδρόμησης, η οποία μπορεί να περιγραφεί από μια κατανομή πιθανότητας.

Έχουν αναπτυχθεί πολυάριθμες τεχνικές ανάλυσης παλινδρόμησης. Οι γνωστές μέθοδοι, όπως η γραμμική παλινδρόμηση, είναι παραμετρικές, με την έννοια ότι η συνάρτηση παλινδρόμησης ορίζεται ως συνάρτηση ενός πεπερασμένου αριθμού άγνωστων παραμέτρων που εκτιμώνται από τα δεδομένα (με τη μέθοδο των ελαχίστων τετραγώνων, για παράδειγμα). Η μη παραμετρική παλινδρόμηση αναφέρεται σε τεχνικές που επιτρέπουν στη συνάρτηση παλινδρόμησης να βρίσκεται εντός ενός καθορισμένου συνόλου συναρτήσεων, το οποίο μπορεί να είναι απείρως διαστασιοποιημένο.

Μη παραμετρική στατιστική[Επεξεργασία | επεξεργασία κώδικα]

Οι μη παραμετρικές στατιστικές είναι τιμές που υπολογίζονται από δεδομένα με τρόπο που δεν βασίζεται σε παραμετρικές οικογένειες κατανομών πιθανότητας. Περιλαμβάνουν τόσο περιγραφικές όσο και επαγωγικές στατιστικές. Τυπικές παράμετροι είναι ο μέσος όρος, η διακύμανση κ.λπ. Σε αντίθεση με τις παραμετρικές στατιστικές, οι μη παραμετρικές στατιστικές δεν κάνουν υποθέσεις σχετικά με τις κατανομές πιθανότητας των μεταβλητών που αξιολογούνται[8].

Οι μη παραμετρικές μέθοδοι χρησιμοποιούνται ευρέως για τη μελέτη πληθυσμών που κατατάσσονται κατά σειρά (όπως οι κριτικοί ταινιών που λαμβάνουν από ένα έως τέσσερα αστέρια). Η χρήση μη παραμετρικών μεθόδων μπορεί να είναι απαραίτητη όταν τα δεδομένα περιέχουν μια κατάταξη αλλά δεν έχουν σαφή αριθμητική ερμηνεία, όπως στην περίπτωση της αξιολόγησης των προτιμήσεων. Όσον αφορά τα επίπεδα μέτρησης, οι μη παραμετρικές μέθοδοι παράγουν "ταξινομημένα" δεδομένα.

Δεδομένου ότι οι μη παραμετρικές μέθοδοι βασίζονται σε λιγότερες υποθέσεις, το πεδίο εφαρμογής τους είναι πολύ ευρύτερο από εκείνο των αντίστοιχων παραμετρικών μεθόδων. Ειδικότερα, μπορούν να εφαρμοστούν σε καταστάσεις όπου είναι λιγότερο γνωστές για την εν λόγω εφαρμογή. Επιπλέον, επειδή βασίζονται σε λιγότερες υποθέσεις, οι μη παραμετρικές μέθοδοι είναι πιο αξιόπιστες.

Ένα από τα μειονεκτήματα των μη παραμετρικών μεθόδων είναι ότι, καθώς δεν βασίζονται σε υποθέσεις, είναι γενικά λιγότερο ισχυρές από τις αντίστοιχες παραμετρικές μεθόδους[9]. Οι μη παραμετρικοί έλεγχοι χαμηλής ισχύος είναι προβληματικοί επειδή οι μέθοδοι αυτές χρησιμοποιούνται συχνά όταν το μέγεθος του δείγματος είναι μικρό[9]. Πολλές παραμετρικές μέθοδοι έχουν αποδειχθεί ότι είναι οι πιο ισχυροί έλεγχοι μέσω μεθόδων όπως το λήμμα Neyman-Pearson και ο έλεγχος αναλογίας πιθανοτήτων.

Η απλότητα είναι μια άλλη αιτιολόγηση για τη χρήση μη παραμετρικών μεθόδων. Σε ορισμένες περιπτώσεις, ακόμη και όταν δικαιολογούνται παραμετρικές μέθοδοι, οι μη παραμετρικές μέθοδοι μπορεί να είναι ευκολότερες στη χρήση. Λόγω αυτής της απλότητας και της μεγαλύτερης ευρωστίας τους, οι μη παραμετρικές μέθοδοι θεωρούνται από ορισμένους στατιστικολόγους ότι αφήνουν λιγότερα περιθώρια για κακή χρήση και παρεξήγηση.

Στατιστική, μαθηματικά και μαθηματική στατιστική[Επεξεργασία | επεξεργασία κώδικα]

Η μαθηματική στατιστική είναι ένα βασικό υποσύνολο του κλάδου της στατιστικής. Οι θεωρητικοί της στατιστικής μελετούν και βελτιώνουν τις στατιστικές διαδικασίες με τη χρήση μαθηματικών και η στατιστική έρευνα συχνά θέτει μαθηματικά ερωτήματα.

Μαθηματικοί και στατιστικολόγοι όπως οι Γκάους, Λαπλάς και C. S. Peirce χρησιμοποίησαν τη θεωρία αποφάσεων με κατανομές πιθανοτήτων και συναρτήσεις απώλειας (ή συναρτήσεις χρησιμότητας). Η θεωρητική προσέγγιση της απόφασης στη στατιστική συμπερασματολογία αναζωογονήθηκε από τον Αβραάμ Βαλντ και τους διαδόχους του[10][11][12][13][14][15][16] και κάνει εκτεταμένη χρήση επιστημονικών υπολογισμών, αναλύσεων και βελτιστοποίησης- για το σχεδιασμό των πειραμάτων, οι στατιστικολόγοι χρησιμοποιούν την άλγεβρα και τη συνδυαστική. Ωστόσο, αν και η στατιστική πρακτική βασίζεται συχνά στη θεωρία πιθανοτήτων και αποφάσεων, η εφαρμογή τους μπορεί να είναι αμφιλεγόμενη [4].

Δημοσιεύσεις[Επεξεργασία | επεξεργασία κώδικα]

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]

  1. Lakshmikantham, ed. by D. Kannan,... V. (2002). Handbook of stochastic analysis and applications. New York: M. Dekker. ISBN 0824706609. CS1 maint: Extra text: authors list (link)
  2. Schervish, Mark J. (1995). Theory of statistics (Corr. 2nd print. έκδοση). New York: Springer. ISBN 0387945466. 
  3. Freedman, D.A. (2005) Statistical Models: Theory and Practice, Cambridge University Press. ISBN 978-0-521-67105-7
  4. 4,0 4,1 Freedman, David A. (2010). Collier, David· Sekhon, Jasjeet S.· Stark, Philp B., επιμ. Statistical Models and Causal Inference: A Dialogue with the Social Sciences. Cambridge University Press. ISBN 978-0-521-12390-7. 
  5. Hogg, R. V., A. Craig, and J. W. McKean. "Intro to Mathematical Statistics." (2005).
  6. Larsen, Richard J. and Marx, Morris L. "An Introduction to Mathematical Statistics and Its Applications" (2012). Prentice Hall.
  7. Upton, G., Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4
  8. «Research Nonparametric Methods». Carnegie Mellon University. Ανακτήθηκε στις 30 Αυγούστου 2022. [νεκρός σύνδεσμος]
  9. 9,0 9,1 «Nonparametric Tests». sphweb.bumc.bu.edu. Ανακτήθηκε στις 31 Αυγούστου 2022. 
  10. Wald, Abraham (1947). Sequential analysis. New York: John Wiley and Sons. ISBN 0-471-91806-7. See Dover reprint, 2004: ISBN 0-486-43912-7 
  11. Wald, Abraham (1950). Statistical Decision Functions. John Wiley and Sons, New York. 
  12. Lehmann, Erich (1997). Testing Statistical Hypotheses (2nd έκδοση). ISBN 0-387-94919-4. 
  13. Lehmann, Erich· Cassella, George (1998). Theory of Point Estimation (2nd έκδοση). ISBN 0-387-98502-6. 
  14. Bickel, Peter J.· Doksum, Kjell A. (2001). Mathematical Statistics: Basic and Selected Topics. 1 (Second (updated printing 2007) έκδοση). Pearson Prentice-Hall. 
  15. Le Cam, Lucien (1986). Asymptotic Methods in Statistical Decision Theory. Springer-Verlag. ISBN 0-387-96307-3. 
  16. Liese, Friedrich· Miescke, Klaus-J. (2008). Statistical Decision Theory: Estimation, Testing, and Selection. Springer.