Κανονική κατανομή

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Μετάβαση σε: πλοήγηση, αναζήτηση
Συνάρτηση πυκνότητας πιθανότητας για διάφορες παραμέτρους
Συνάρτηση κατανομής για διάφορες παραμέτρους

Η κανονική κατανομή (γνωστή και ως Γκαουσιανή κατανομή) αναφέρεται σε συνεχείς μεταβλητές αποτελώντας μία συνεχή συνάρτηση πυκνότητας πιθανότητας. Χρησιμοποιείται ως μία πρώτη προσέγγιση για να περιγραφούν τυχαίες μεταβλητές πραγματικών τιμών, οι οποίες τείνουν να συγκεντρώνονται γύρω από μια μέση τιμή. Η κανονική κατανομή αποτελεί την πιο σημαντική κατανομή της στατιστικής μεθοδολογίας για τους εξής βασικούς λόγους:[1]

  • Την κανονική κατανομή ακολουθούν είτε με ακρίβεια είτε με μεγάλη προσέγγιση τα περισσότερα συνεχή φαινόμενα.
  • Πολλές ασυνεχείς κατανομές πιθανοτήτων μπορούν να προσεγγιστούν μέσω της κανονικής κατανομής. Για παράδειγμα πολλά πληθυσμιακά χαρακτηριστικά, όπως το ύψος, το βάρος η βαθμολογία σε διαγώνισμα, κ.λπ.
  • Η κανονική κατανομή αποτελεί σύμφωνα με το κεντρικό οριακό θεώρημα (το άθροισμα ενός ικανοποιητικά μεγάλου αριθμού ανεξάρτητων και ισόνομων τυχαίων μεταβλητών προσεγγίζεται από την κανονική κατανομή) τη βάση της στατιστικής συμπερασματολογίας ή επαγωγικής στατιστικής.
  • Τυχαία σφάλματα που εμφανίζονται σε διάφορες μετρήσεις έχουν κανονική κατανομή. Γι' αυτό το λόγο η Κανονική κατανομή αναφέρεται πολλές φορές και ως κατανομή σφαλμάτων.

Η γραφική παράσταση της σχετιζόμενης συνάρτησης πυκνότητας πιθανότητας έχει σχήμα "καμπάνας", και είναι γνωστή ως Γκαουσιανή συνάρτηση ή κωδωνοειδής καμπύλη:[2]


    f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x-\mu)^2}{2\sigma^2} }

Ορισμός[Επεξεργασία | επεξεργασία κώδικα]

Μια πραγματική τυχαία μεταβλητή Χ με συνάρτηση πυκνότητας πιθανότητας:


    f(x) = \tfrac{1}{\sqrt{2\pi\sigma^2}}\, e^{-(x-\mu)^2/(2\sigma^2)}

όπου e=η βάση των νεπέρειων λογαρίθμων (≡2,71828), π=η γνωστή μαθηματική σταθερά (≡3,14159), μ=ο μέσος του πληθυσμού, σ=η τυπική απόκλιση του πληθυσμού και Χ=μια τιμή της συνεχούς τυχαίας μεταβλητής στο διάστημα -∞ έως +∞,

ονομάζεται κανονικά κατανεμημένη με μέση τιμή μ και διακύμανση σ2. Συμβολίζεται με  X\ \sim\ \mathcal{N}(\mu,\,\sigma^2) .

Για μια τυχαία μεταβλητή  Z \sim \mathcal{N}(0,\,1) η συνάρτηση πυκνότητας πιθανότητας συμβολίζεται με \phi(z) και η συνάρτηση κατανομής με \Phi(z).

Ιδιότητες[Επεξεργασία | επεξεργασία κώδικα]

Γραμμικοί μετασχηματισμοί[Επεξεργασία | επεξεργασία κώδικα]

Η οικογένεια των κανονικών κατανομών είναι κλειστή ως προς τους γραμμικούς μετασχηματισμούς. Αν  X \sim \mathcal{N}(\mu,\sigma^2) και a, b \in \R, a>0, η τυχαία μεταβλητή aX + b ακολουθεί επίσης την κανονική κατανομή με

  aX + b\ \sim\ \mathcal{N}(a\mu+b,\, a^2\sigma^2).

Συγκεκριμένα για  Z  \sim \mathcal{N}(0,\,1) προκύπτει   \sigma Z + \mu\ \sim\ \mathcal{N}(\mu,\,\sigma^2) και αντιστρόφως \frac{X - \mu}{\sigma}\sim \mathcal{N}(0,\,1).

Για τη συνάρτηση κατανομής της Χ ισχύει  F(x) = \Phi\Big(\frac{x-\mu}{\sigma}\Big) και για τη συνάρτηση πυκνότητας πιθανότητας  f(x) = \tfrac{1}{\sigma}\, \phi\big(\tfrac{x-\mu}{\sigma}\big)  .

Συμμετρία[Επεξεργασία | επεξεργασία κώδικα]

Η συνάρτηση πυκνότητας πιθανότητας είναι συμμετρική ως προς τη μέση τιμή. Συγκεκριμένα ισχύει \phi(-z)=\phi(z) και

\Phi(-z)=P[Z\le-z]=1-P[Z\ge -z]=1-P[Z\le z]=1-\Phi(z)

Διαστήματα εμπιστοσύνης[Επεξεργασία | επεξεργασία κώδικα]

Σε μια δειγματοληψία από κανονική κατανομή το 68,3% των τιμών απέχει το πολύ κατά σ από τη μέση τιμή, βρίσκεται δηλαδή στο διάστημα  [\mu-\sigma,\mu+\sigma] . Το 95,5% των τιμών βρίσκεται στο  [\mu-2\sigma,\mu+2\sigma] και το 99,7% στο  [\mu-3\sigma,\mu+3\sigma] .

Στη γενική περίπτωση ενός διαστήματος [x_1, x_2] ισχυεί

P[x_1\le X\le x_2]=\Phi\Big(\frac{x_2-\mu}{\sigma}\Big) - \Phi\Big(\frac{x_1-\mu}{\sigma}\Big).

Αν το διαστημα είναι συμμετρικό ως προς τη μέση τιμή

P[-x+\mu\le X\le x+\mu]=\Phi\Big(\frac{x}{\sigma}\Big) - \Phi\Big(\frac{-x}{\sigma}\Big)=2\Phi\Big(\frac{x}{\sigma}\Big)-1.

Τυποποιημένη κανονική κατανομή[Επεξεργασία | επεξεργασία κώδικα]

Το σκούρο μπλε είναι λιγότερο από μία τυπική απόκλιση από το μέσο. Στην κανονική κατανομή, αυτό αφορά στο 68% των παρατηρήσεων, ενώ δύο τυπικές αποκλίσεις από τον μέσο (μπλε και σκούρο μπλε) αφορούν στο 95%, και τρεις τυπικές αποκλίσεις (ανοιχτό μπλε, μπλε και σκούρο μπλε) αφορούν το 99,7%.

Η κανονική κατανομή που έχει μέση τιμή 0 (μ=0) και τυπική απόκλιση 1 (σ=1, άρα και διασπορά 1), συμβολίζεται με N(0,1) και ονομάζεται τυποποιημένη κανονική κατανομή. Μια τυχαία μεταβλητή που ακολουθεί την τυποποιημένη κανονική κατανομή, έχει επικρατήσει να συμβολίζεται με Ζ και η συνάρτηση πυκνότητάς της με φ(z).

\phi(z) = \frac{1}{\sqrt{2\pi}} e^{ -\frac{z^2}{2}}, -∞<z<+∞

Η τυποποίηση των δεδομένων βασίζεται στην απόκλισή τους από το μέσο όρο σε όρους της σ, σύμφωνα με τον τύπο Z = \frac{X - \mu}{\sigma}. Με τον τύπο αυτό μπορούν να μετατραπούν τα δεδομένα μιας μεταβλητής που κατανέμεται κανονικά σε τυποποιημένη μορφή και να υπολογισθούν οι πιθανότητες χρησιμοποιώντας τους πίνακες της τυποποιημένης κανονικής κατανομής. Οι πίνακες της τυποποιημένης κανονικής κατανομής δίνουν τις αθροιστικές πιθανότητες της κατανομής της Ζ, δηλαδή τα εμβαδά της κατανομής από -∞ έως και μία συγκεκριμένη τιμή της Ζ (π.χ. z). Έτσι, οι πίνακες δίνουν τις πιθανότητες P(Z ≤ z) για όλα τα z από -3,99 έως +3,99 με βήμα 0,01.

Σχέσεις με άλλες κατανομές[Επεξεργασία | επεξεργασία κώδικα]

  • Έστω ανεξάρτητες τυχαίες μεταβλητές Z_1,Z_2,\dots ,Z_n που ακολουθούν την κανονική κατανομή με μέση τιμή 0 και διακύμανση 1. Το άθροισμα των τετραγώνων τους ακολουθεί την κατανομή \chi^2 με n βαθμούς ελευθερίας.
\sum_i Z_i^2\sim\chi_n^2
  • Έστω ανεξάρτητες τυχαίες μεταβλητές X_1,X_2,\dots ,X_n που ακολουθούν την κανονική κατανομή με μέση τιμή μ και διακύμανση σ2. Η κάτωθι τυχαία μεταβλητή ακολουθεί την κατανομή Student-t με n−1 βαθμούς ελευθερίας.
 \frac{\overline X - \mu}{S} = \frac{\tfrac{1}{n}(X_1+\cdots+X_n) - \mu}{\sqrt{\tfrac{1}{n-1}\big[(X_1-\overline X)^2+\cdots+(X_n-\overline X)^2\big]}} \ \sim\ t_{n-1}

Προσέγγιση ασυνεχών κατανομών με την κανονική κατανομή[Επεξεργασία | επεξεργασία κώδικα]

Η προσέγγιση ασυνεχών κατανομών με μεγάλη ακρίβεια απ' την κανονική κατανομή, παρά το γεγονός ότι σαν συνεχής κατανομή περιγράφει μόνο συνεχείς μεταβλητές, αποτελεί βασικό της πλεονέκτημα. Η προσέγγιση αυτή ισχύει για εκείνες τις περιπτώσεις που και οι ασυνεχείς κατανομές τείνουν να πάρουν το σχήμα της "κωδωνοειδούς" καμπύλης.

Διωνυμική Κατανομή[Επεξεργασία | επεξεργασία κώδικα]

Η διωνυμική κατανομή τείνει προς την κανονική για μέγεθος δείγματος (n) μεγαλύτερο από 20. Για μικρότερα δείγματα η πιθανότητα p πρέπει να είναι κοντά στο 0,5.
 X \sim \mathcal{B}(n,p)

\mu = np\,
\sigma = {[np(1-p)]}^{\frac{1}{2}}\,

Κατανομή Poisson[Επεξεργασία | επεξεργασία κώδικα]

Η κατανομή Poisson τείνει προς την κανονική όσο αυξάνει ο μέσος λ.
X \sim \mathrm{Pois}(\lambda)\,

\mu = \lambda\,
\sigma = \lambda^{\frac{1}{2}}\,

Εφαρμογή[Επεξεργασία | επεξεργασία κώδικα]

Κατηγοριοποίηση εφαρμογών κανονικής κατανομής σε πρακτικά προβλήματα:

  1. Φαινόμενα που ακολουθούν την κανονική κατανομή
  2. Φαινόμενα που προσεγγίζονται από την κανονική κατανομή, όπως αυτά που η προσέγγισή τους δικαιολογείται από το κεντρικό οριακό θεώρημα
  3. Φαινόμενα των οποίων κατανομές που μοντελοποιούνται ως κανονική

Φαινόμενα που ακολουθούν την κανονική κατανομή[Επεξεργασία | επεξεργασία κώδικα]

Η βασική ενεργειακή κατάσταση ενός κβαντικού αρμονικού ταλαντωτή παρουσιάζει κανονική κατανομή.

Ορισμένα μεγέθη στην φυσική κατανέμονται κανονικά, όπως έδειξε πρώτος ο James Clerk Maxwell. Παραδείγματα τέτοιων μεγεθών είναι:

  • Ταχύτητες μορίων σε ιδανικά αέρια.
  • Η συνάρτηση πυκνότητας πιθανότητας της βασικής ενεργειακής κατάστασης ενός κβαντικού αρμονικού ταλαντωτή.
  • H θέση ενός σωματιδίου το οποίο διαχέεται.

Φαινόμενα που προσεγγίζονται από την κανονική κατανομή[Επεξεργασία | επεξεργασία κώδικα]

Προσεγγιστικές κανονικές κατανομές παρατηρούνται σε διάφορες καταστάσεις, όπως εξηγείται από το κεντρικό οριακό θεώρημα. Δηλαδή, όταν το άθροισμα ενός ικανοποιητικά μεγάλου αριθμού ανεξάρτητων και ισόνομων τυχαίων μεταβλητών προκαλεί ένα φαινόμενο, αυτό προσεγγίζεται από την κανονική κατανομή.

  • Σε αριθμητικά προβλήματα, όπου το κεντρικό οριακό θεώρημα περιλαμβάνει μία προσέγγιση διακριτού σε συνεχές, όπως:
  • Το θερμικό φως ακολουθεί την κατανομή Bose–Einstein για πολύ μικρά χρονικά διαστήματα, και κανονική κατανομή σε μεγαλύτερα χρονικά διαστήματα εξαιτίας του κεντρικού οριακού θεωρήματος.

Φαινόμενα των οποίων κατανομές που μοντελοποιούνται ως κανονική[Επεξεργασία | επεξεργασία κώδικα]

Fisher iris versicolor sepalwidth.svg
  • Στη βιολογία, ο λογάριθμος διαφόρων μεταβλητών τείνει να ακολουθεί την κανονική κατανομή, δηλαδή, τείνουν να ακολουθούν μία λογαριθμική κανονική κατανομή, με παραδείγματα όπως:
    • Μέτρα μεγέθους ζωντανού ιστού (μήκος, ύψος, επιφάνεια δέρματος, βάρος).[3]
    • Το μήκος αδρανών προσαρτημάτων (μαλλιά, νύχια, δόντια) βιολογικών δειγμάτων, στην κατεύθυνση της μεγέθυνσης.
    • Ορισμένα φυσιολογικά μεγέθη, όπως η πίεση του αίματος των ενηλίκων.
  • Στα οικονομικά, και συγκεκριμένα το μοντέλο Black–Scholes, αλλαγές στο λογάριθμο των συναλλαγματικών ισοτιμιών, των δεικτών τιμών, και των χρηματιστηριακών δεικτών υποτίθενται ως κανονικές. Ορισμένοι μαθηματικοί αντιτίθενται σε αυτή την περίπτωση χρήσης της κανονικής κατανομής.
  • Τα υπολογιστικά λάθη σε φυσικά πειράματα μοντελοποιούνται συχνά μέσω της κανονικής κατανομής.
  • Σε τυποποιημένα τεστ, τα αποτελέσματα αναλύονται βάσει της κανονικής κατανομής.
  • Στην υδρολογία η κατανομή της μακροχρόνιας βροχόπτωσης (π.χ. μηνιαία ή ετήσια σύνολα, αποτελούμενα από το άθροισμα 30 και 360 ημερησίων τιμών αντίστοιχα) θεωρείται συχνά ότι ακολουθεί πρακτικά την κανονική κατανομή σύμφωνα με το κεντρικό οριακό θεώρημα.

Ονομασία[Επεξεργασία | επεξεργασία κώδικα]

Από την εμφάνισή της, η κανονική κατανομή έχει ονομαστεί με διαφορετικούς τρόπους: ο νόμος του σφάλματος, δεύτερος νόμος του Laplace, νόμος του Gauss,κ.λπ. Από το τέλος του 18ου αιώνα ορισμένοι συγγραφείς [4] είχαν αρχίσει να χρησιμοποιούν την ονομασία κανονική κατανομή, όπου η λέξη "κανονική" χρησιμοποιείτο ως επίθετο — ο όρος προερχόταν απ' το γεγονός ότι η κατανομή αυτή θεωρείτο ως τυπική, συνήθης, κανονική. Ο Peirce (ένας από τους συγγραφείς αυτούς) κάποτε όρισε τον όρο "κανονική" ως: "...το 'κανονική' δεν είναι ο μέσος όρος (ή κάποιο άλλο είδος μέσου) αυτού που συμβαίνει πραγματικά, αλλά αυτού που θα συνέβαινε, μακροπρόθεσμα, υπό ορισμένες συνθήκες."[5] Στην αρχή του 20ου αιώνα o Καρλ Πίρσον (Karl Pearson) έκανε δημοφιλή τον όρο κανονική σαν προσδιορισμό για την κατανομή αυτή.[6]

Πολλά χρόνια πριν, ονόμασα την καμπύλη Gauss-Laplace ως κανονική κατανομή, το οποίο όνομα, παρόλο που αποφεύγει ένα διεθνές ερώτημα προτεραιότητας, έχει το μειονέκτημα να οδηγεί τους ανθρώπους στην άποψη ότι οι υπόλοιπες κατανομές συχνότητας είναι με τον έναν τρόπο ή τον άλλο 'αντικανονικές'. — Pearson, 1920

Επιπλέον, ο Πίρσον (Pearson) ήταν αυτός που πρώτος έγραψε την κατανομή σε όρους τυπικής απόκλισης σ όπως στη σύγχρονη σημειογραφία. Σύντομα μετά από αυτό, το έτος 1915, ο Ρόναλντ Φίσερ (Ronald Fisher) προσέθεσε την παράμετρο της τοποθεσίας στην εξίσωση για την κανονική κατανομή, εκφράζοντάς την με τον τρόπο που γράφεται ακόμα και σήμερα:

 df = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-m)^2}{2\sigma^2}}dx

Ο όρος "τυποποιημένη κανονική" ο οποίος υποδηλώνει την κανονική κατανομή με μέσο μηδέν και μοναδιαία διακύμανση ήρθε σε γενική χρήση στη δεκαετία του '50, εμφανιζόμενος στα δημοφιλή εγχειρίδια του P.G. Hoel (1947) "Introduction to mathematical statistics" και A.M. Mood (1950) "Introduction to the theory of statistics".[7]

Η ονομασία "κατανομή του Gauss" προήλθε από τον Καρλ Φρίντριχ Γκάους (Carl Friedrich Gauss), ο οποίος εισήγαγε την κατανομή το 1809 ως έναν τρόπο εκλογίκευσης της μεθόδου ελαχίστων τετραγώνων. Η σχετική δουλειά του Λαπλάς (Laplace), οδήγησε την κανονική κατανομή στο να ονομάζεται μερικές φορές Λαπλασιανή, ειδικά σε χώρες με επίσημη γλώσσα τα Γαλλικά. Μεταξύ των αγγλόφωνων λαών, τόσο η χρήση του όρου "κανονική κατανομή" όσο και του όρου "κατανομή Gauss" είναι συνήθης, με κάθε μία να προτιμάται από διαφορετική κοινότητα.

Αναφορές[Επεξεργασία | επεξεργασία κώδικα]

  1. Χαλικιάς Ι. 2003, σ.118
  2. Ο χαρακτηρισμός "κωδωνοειδής καμπύλη" είναι αμφιλεγόμενος: υπάρχουν πολλές κατανομές κωδωνοειδούς σχήματος (καμπάνα): η κατανομή Cauchy, η κατανομή t του Student, η γενικευμένη κανονική κατανομή, κ.λπ.
  3. Huxley,1932
  4. όπως σε έργα των Pierce, Galton, Lexis περί το 1875
  5. Peirce, C. S. (c. 1909 MS), Charles Sanders Peirce bibliography#CP|Collected Papers v. 6, paragraph 327.
  6. Kruskal & Stigler, 1997
  7. «Earliest uses… (entry STANDARD NORMAL CURVE. http://jeff560.tripod.com/s.html. 

Βιβλιογραφία[Επεξεργασία | επεξεργασία κώδικα]

  • Χαλικιάς, Ιωάννης, 2003. Στατιστική: Μέθοδοι Ανάλυσης για Επιχειρηματικές Αποφάσεις. 2η έκδοση. Γέρακας: Rosili. ISBN 9607745086
  • Spiegel, M & Stephens, L, 2000.Θεωρία και Προβλήματα Στατιστικής. 3η έκδοση. Αθήνα: ΕΚΔΟΣΕΙΣ ΤΖΙΟΛΑ. ISBN 960805012X
  • Παπαδόπουλος, Γεώργιος. Η Κανονική Κατανομή. Σημειώσεις μαθήματος Στατιστικής. Γεωπονικό Πανεπιστήμιο Αθηνών
  • Δαμιανός, Χ, Παπαδάτος, Ν. & Χαραλαμπίδης Χ.Α., 2003. Εισαγωγή στις Πιθανότητες και τη Στατιστική, Διδακτικές Σημειώσεις. Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών