Μετάβαση στο περιεχόμενο

Κοπούλα (θεωρία πιθανοτήτων): Διαφορά μεταξύ των αναθεωρήσεων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
Δημιουργήθηκε από μετάφραση της σελίδας "Copula (probability theory)"
Δημιουργήθηκε από μετάφραση της σελίδας "Copula (probability theory)"
Γραμμή 82: Γραμμή 82:


=== Eπίπεδο Αρχιμήδη ===
=== Eπίπεδο Αρχιμήδη ===
To επίπεδο του Αρχιμήδη είναι συνδυαστικό μάθημα των επιπέδων.Πιο κοινά αρχιμήδεια επίπεδα αποδέχονται έναν ειδικό τύπο,κάτι αδύνατον, για παράδειγμα στο επίπεδο του Gaussian.Στην πράξη το επίπεδα του Αρχιμήδη είναι δημοφιλή γιατί επιτρέπουν την μοντελοποιήση της εξάρτησης αυθαίρετα υψηλών διαστάσεων με μία μονο παράμετρο, που διέπουν τη δύναμη εξάρτησης.

<span>Ένα επίπεδο </span>'''C''' ονομάζεται αρχιμήδειο,αν μπορεί να αντικατασταθει από το<ref name="Nelsen 2006">{{Πρότυπο:Cite book|title=An Introduction to Copulas, Second Edition|last=Nelsen|first=R. B.|publisher=Springer Science+Business Media Inc.|year=2006|isbn=978-1-4419-2109-3|location=New York, NY 10013, USA}}</ref>
: <math> C(u_1,\dots,u_d;\theta) = \psi^{[-1]}\left(\psi(u_1;\theta)+\cdots+\psi(u_d;\theta);\theta\right) \,</math>
όπου<math>\psi\!:[0,1]\times\Theta \rightarrow [0,\infty)</math>  είναι συνεχής,γνησίως φθίνουσα και κυρτή συνάρτηση <math>\psi(1;\theta)=0</math>. <math>\theta</math> είναι μια παράμετρος μέσα σε κάποια παράμετρο χώρο  <math>\Theta</math>. <math>\psi</math> είναι η λεγόμενη γεννήτρια συνάρτηση και <math>\psi^{[-1]}</math> είναι η ψευδοαντίστροφη που ορίζεται από
: <math> \psi^{[-1]}(t;\theta) = \left\{\begin{array}{ll} \psi^{-1}(t;\theta) & \mbox{if }0 \leq t \leq \psi(0;\theta) \\ 0 & \mbox{if }\psi(0;\theta) \leq t \leq\infty. \end{array}\right. \,</math>
Επιπλέον ο παραπάνω τύπος για  '''C παράγει ένα επίπεδο για το '''<math>\psi^{-1}\,</math> αν και μόνο αν <math>\psi^{-1}\,</math> είναι d-μονότονη στο  <math>[0,\infty)</math>.<ref>{{Πρότυπο:Cite journal|title=Multivariate Archimedean copulas, ''d''-monotone functions and <math>\mathit{l}</math>1-norm symmetric distributions|last=McNeil|first=A. J.|last2=Nešlehová|first2=J.|journal=[[Annals of Statistics]]|issue=5b|doi=10.1214/07-AOS556|year=2009|volume=37|pages=3059–3097}}</ref> Αυτό ισχύει μόνο όταν είναι  <math>d-2</math> φορές διαφορίσιμες και τα παράγωγα πληρούν 
: <math> (-1)^k\psi^{-1,(k)}(t;\theta) \geq 0 \,</math>
για κάθε <math>t\geq 0</math> και<math>k=0,1,\dots,d-2</math> και<math>(-1)^{d-2}\psi^{-1,(d-2)}(t;\theta)</math> είναι μη αύξουσα και κυρτή.

==== Το πιο σημαντικό αρχημήδειο επίπεδο ====
Οι παρακάτω πίνακες έχουν αναδείξει τα πιο σημαντικά αρχημήδεια επίπεδα με την αντίστοιχη γεννήτρια.Σημειώστε οτι δεν είναι εντελώς μονότονα,δηλαδή d-μονότονα για κάθε <math>d\in\mathbb{N}</math> ή d-μονότονα για ορισμένες  <math>\theta \in \Theta</math> μόνο.
{| class="wikitable" style="margin-bottom: 10px;"
|+ Table with the most important Archimedean copulas<ref name="Nelsen 2006">{{Πρότυπο:Cite book|title=An Introduction to Copulas, Second Edition|last=Nelsen|first=R. B.|publisher=Springer Science+Business Media Inc.|year=2006|isbn=978-1-4419-2109-3|location=New York, NY 10013, USA}}</ref>

! Name of Copula
! Bivariate Copula <math>\;C_\theta(u,v)</math>
! parameter <math>\,\theta</math>
|-
| Ali-Mikhail-Haq<ref name="AMH">Ali, M.M., Mikhail, N.N. and Haq, M.S. (1978). </ref>
| &nbsp; <math>\frac{uv}{1-\theta (1-u)(1-v)}</math>
| &nbsp; <math>\theta\in[-1,1)</math>
|-
| Clayton<ref name="Clayton1978">{{Πρότυπο:Cite journal|title=A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence|last=Clayton|first=David G.|authorlink=David Clayton|journal=Biometrika|issue=1|doi=10.1093/biomet/65.1.141|year=1978|volume=65|pages=141–151|jstor=2335289}}</ref>
| &nbsp; <math>\left[ \max\left\{ u^{-\theta} + v^{-\theta} -1 ; 0 \right\} \right]^{-1/\theta}</math>
| &nbsp; <math>\theta\in[-1,\infty)\backslash\{0\}</math>
|-
| Frank
| &nbsp; <math>-\frac{1}{\theta} \log\!\left[ 1+\frac{(\exp(-\theta u)-1)(\exp(-\theta v)-1)}{\exp(-\theta)-1} \right]</math> &nbsp;
| &nbsp; <math>\theta\in \mathbb{R}\backslash\{0\} </math> &nbsp;
|-
| Gumbel
| &nbsp; <math display="inline">\exp\!\left[ -\left( (-\log(u))^\theta + (-\log(v))^\theta \right)^{1/\theta} \right]</math>
| &nbsp; <math>\theta\in[1,\infty)</math>
|-
| Independence
| &nbsp; <math display="inline">uv</math>
|-
| Joe
| &nbsp; <math display="inline">{1-\left[ (1-u)^\theta + (1-v)^\theta - (1-u)^\theta(1-v)^\theta \right]^{1/\theta}}</math> &nbsp;
| &nbsp; <math>\theta\in[1,\infty)</math>
|}
{| class="wikitable" style="margin-bottom: 10px;"
|+ Table of correspondingly most important generators<ref name="Nelsen 2006">{{Πρότυπο:Cite book|title=An Introduction to Copulas, Second Edition|last=Nelsen|first=R. B.|publisher=Springer Science+Business Media Inc.|year=2006|isbn=978-1-4419-2109-3|location=New York, NY 10013, USA}}</ref>

! name
! generator <math>\,\psi_{\theta}(t)</math>
! generator inverse <math>\,\psi_{\theta}^{-1}(t)</math>
|-
| Ali-Mikhail-Haq<ref name="AMH">Ali, M.M., Mikhail, N.N. and Haq, M.S. (1978). </ref>
| &nbsp; &nbsp;<math>\log\!\left[\frac{1-\theta (1-t)}{t}\right]</math>
| &nbsp; &nbsp; <math>\frac{1-\theta}{\exp(t)-\theta}</math>
|-
| Clayton<ref name="Clayton1978">{{Πρότυπο:Cite journal|title=A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence|last=Clayton|first=David G.|authorlink=David Clayton|journal=Biometrika|issue=1|doi=10.1093/biomet/65.1.141|year=1978|volume=65|pages=141–151|jstor=2335289}}</ref>
| &nbsp; &nbsp; <math>\frac{1}{\theta}\,(t^{-\theta}-1)\,</math>
| &nbsp; &nbsp; <math>\left(1+\theta t\right)^{-1/\theta}</math> &nbsp; &nbsp;
|-
| Frank
| &nbsp; &nbsp;<math display="inline">-\log\!\left(\frac{\exp(-\theta t)-1}{\exp(-\theta)-1}\right)</math>
| &nbsp; &nbsp; <math>-\frac{1}{\theta}\,\log(1+\exp(-t)(\exp(-\theta)-1))</math> &nbsp; &nbsp;

|-
| Gumbel
| &nbsp; &nbsp;<math>\left(-\log(t)\right)^\theta</math> &nbsp; &nbsp;
| &nbsp; &nbsp;<math>\exp\!\left(-t^{1/\theta}\right)</math>
|-
| Independence
| &nbsp; &nbsp; <math>-\log(t)\,</math> &nbsp; &nbsp;
| &nbsp; &nbsp;<math>\exp(-t)\,</math>
|-
| Joe
| &nbsp; &nbsp; <math>-\log\!\left(1-(1-t)^\theta\right)</math> &nbsp; &nbsp;
| &nbsp; &nbsp;<math>1-\left(1-\exp(-t)\right)^{1/\theta}</math>
|}

== Expectation for copula models and Monte Carlo integration ==
In statistical applications, many problems can be formulated in the following way. One is interested in the expectation of a response function <math>g:\mathbb{R}^d\rightarrow\mathbb{R}</math> applied to some random vector <math>(X_1,\dots,X_d)</math>.<ref>Alexander J. McNeil, Rudiger Frey and Paul Embrechts (2005) "Quantitative Risk Management: Concepts, Techniques, and Tools", Princeton Series in Finance</ref> If we denote the cdf of this random vector with <math>H</math>, the quantity of interest can thus be written as
: <math> \mathbb{E} \left[ g(X_1,\dots,X_d) \right] = \int_{\mathbb{R}^d} g(x_1,\dots,x_d) \, dH(x_1,\dots,x_d).</math>
If <math>H</math> is given by a copula model, i.e.,
: <math>H(x_1,\dots,x_d)=C(F_1(x_1),\dots,F_d(x_d))</math>
this expectation can be rewritten as
: <math>\mathbb{E}\left[g(X_1,\dots,X_d)\right]=\int_{[0,1]^d}g(F_1^{-1}(u_1),\dots,F_d^{-1}(u_d)) \, dC(u_1,\dots,u_d).</math>
In case the copula '''C''' is absolutely continuous, i.e. '''C''' has a density '''c''', this equation can be written as
: <math>\mathbb{E}\left[g(X_1,\dots,X_d)\right]=\int_{[0,1]^d}g(F_1^{-1}(u_1),\dots,F_d^{-1}(u_d))\cdot c(u_1,\dots,u_d) \, du_1\dots du_d,</math>
and if each marginal distribution has the density <math>f_i</math> it holds further that
: <math>\mathbb{E}\left[g(X_1,\dots,X_d)\right]=\int_{\mathbb{R}^d}g(x_1,\dots x_d)\cdot c(F_1(x_1),\dots,F_d(x_d))\cdot f_1(x_1)\cdot ... \cdot f_d(x_d) \, dx_1\dots dx_d.</math>
If copula and margins are known (or if they have been estimated), this expectation can be approximated through the following Monte Carlo algorithm:
# Draw a sample <math>(U_1^k,\dots,U_d^k)\sim C\;\;(k=1,\dots,n)</math> of size '''n''' from the copula '''C'''
# By applying the inverse marginal cdf's, produce a sample of <math>(X_1,\dots,X_d)</math> by setting <math>(X_1^k,\dots,X_d^k)=(F_1^{-1}(U_1^k),\dots,F_d^{-1}(U_d^k))\sim H\;\;(k=1,\dots,n)</math>
# Approximate <math>\mathbb{E}\left[g(X_1,\dots,X_d)\right]</math> by its empirical value:
::: <math>\mathbb{E}\left[g(X_1,\dots,X_d)\right]\approx \frac{1}{n}\sum_{k=1}^n g(X_1^k,\dots,X_d^k)</math>


== References ==
== References ==

Έκδοση από την 16:57, 1 Ιουνίου 2016

Στην θεωρία των πιθανοτήτων και στατιστική, ένα επίπεδο είναι μια πολυμεταβλητή κατανομή πιθανότητας για την οποία η οριακή πιθανότητα κατανομής ειναι ομοιόμορφη.Copulas χρησιμοποιείται για να περιγράψει την εξάρτηση μεταξύ τυχαίων μεταβλητών.Το όνομα του προέρχεται απο το λατινικό 'link' ή ΄tie' αλλά είναι άσχετο με τη γραμματική copulas στη γλωσσολογία.



Το θεώρημα του Sklar ορίζει ότι κάθε πολυμεταβλητή κοινής διανομής μπορεί να γραφεί σε όρους μονοδιάστατης οριακής κατανομής λειτουργιών και ένα copula το οποίο περιγράφει τη δομή εξάρτησης μεταξύ των μεταβλητών.

Copulas είναι δημοφιλής στην υψηλές διαστατικές στατιστικές εφαρμογές καθώς επιτρέπουν την εύκολη μοντελοποιήση και εκτίμηση της κατανομής των τυχαίων διανυσμάτων με εκτίμηση περιθωριακή και copula ξεχωριστά.Υπάρχουν πολλές παραμετρικές οικογένειες copula διαθέσιμες,οι οποίες έχουν συνήθως παραμέτρους που ελέγχουν τη δύναμη εξάρτησης.Μερικές δημοφιλείς copula περιγράφονται παρακάτω.

Μαθηματικός Ορισμός

Θεωρούμε ένα τυχαίο διάνυσμα.  Ας υποθέσουμε ότι οι περιθωριακοί είναι συνεχής,δηλαδή το οριακό CDFs  είναι συνεχής συνάρτηση.Εφαρμόζοντας την πιθανότητα για την μετατροπή του κάθε στοιχείου,το τυχαίο διάνυσμα

έχει ομοιόμορφα κατανεμημένες περιθωριακές.

Το επίπεδο της ορίζεται ως η από κοινού αθροιστική συνάρτηση κατανομής της :

Το επίπεδο C περιέχει όλες τις πληροφορίες σχετικά με τη δομή εξάρτησης μεταξύ των εξαρτημάτων του , ενώ το οριακό αθροιστικές συναρτήσεις κατανομής περιέχει όλες τις πληροφορίες σχετικά με τις περιθωριακές κατανομές.

Η σημασία των παραπάνω  είναι ότι η αντιστροφή αυτων των βημάτων μπορεί να χρησιμοποιηθεί για την παραγωγή ψευδοτυχαίων δειγμάτων από γενικές κατηγορίες πολυμεταβλητών κατανομής πιθανοτήτων.Δηλαδή,δωθείσας μιας διαδικασίας για τη δημιουργία δείγματος   από το επίπεδο διανομής,το απαιτούμενο δείγμα μπορεί να κατασκευαστεί ως

Οι αντίστροφες   είναι μη προβληματικές καθώς η θεωρήθηκε ότι είναι συνεχής.Ο παραπάνω τύπος για το επίπεδο λειτουργίας μπορεί να ξαναγραφεί έτσι ώστε να ανταποκρίνεται σε αυτό,όπως:

Ορισμός

Στην πιθανοτική όρους, είναι ένα d-διάστατο επίπεδο αν C είναι μια κοινή αθροιστική συνάρτηση κατανομής μιας d-διάστατο τυχαίο διάνυσμα του μοναδιαίου κύβου με στολή περιθωριακοί.[1]

Στην αναλυτική άποψη, είναι ένα d-διάστατο επίπεδο αν

  • το επίπεδο είναι μηδέν, εάν ένα από τα ορίσματα είναι μηδέν,
  • το επίπεδο είναι ίση με u αν ένα όρισμα είναι το u και όλους τους άλλους 1,
  • C είναι d-μη φθίνουσα, δηλαδή, για κάθε υπερορθογώνιο το Γ-ο όγκος του B είναι μη αρνητικός:
πού την .

Για παράδειγμα, στη διμεταβλητή περίπτωση, είναι μια διμεταβλητή επίπεδο, αν , και για όλους και .

Το θεώρημα του Sklar

Πυκνότητα και το περίγραμμα οικοπέδου μιας διμεταβλητής κατανομής Gaussian 
Πυκνότητα και το περίγραμμα οικοπέδου δύο κανονικών περιθωριακών κοινά με το επίπεδο Gumbel

To θεώρημα του Sklar,που πήρε το όνομα του από τον Abe Sklar,παρέχει το θεωρητικό υπόβαθρο για την εφαρμογή των copulas.To θεώρημα του Sklar αναφέρει ότι κάθε πολυμεταβλητή συνάρτηση αθροιστικής κατανομής 

από ένα τυχαίο διάνυσμα μπορεί να εκφραστεί σε όρους περιθωριακούς  και ένα επίπεδο .Πράγματι:

Σε περίπτωση που η πολυμεταβλητή κατανομή έχει μια πυκνότητα  , και αυτή είναι δεδομένη, έχουμε

όπου  είναι η πυκνότητα του επιπέδου.

Το θεώρημα επίσης αναφέρει οτι με δεδομένο , το επίπεδο είναι μοναδικό για, το οποίο είναι το καρτεσιανό γινόμενο που κυμαίνεται στο οριακό cdf's.Αυτό σημαίνει ότι το επίπεδο είναι μοναδικό αν οι  περιθωριακές  είναι συνεχείς.

Ισχύει επίσης και το αντίστροφο:με δεδομένο ένα επίπεδο και τα περιθωριακά  τότε η  ορίζει μια δ-διάστατη αθροιστική συνάρτηση κατανομής.

Το Fréchet–Hoeffding επίπεδο έχει όρια

Τα γραφήματα του διμεταβλητού Fréchet–Hoeffding επιπέδου ορίων και του ανεξάρτητου επιπέδου(στη μέση)

Το θεώρημα Fréchet–Hoeffding  (μετά των Maurice René Fréchet και Wassily Hoeffding [2]) αναφέρει ότι για κάθε επίπεδο  και κάθε  τα ακόλουθα όρια:

Η συνάρτηση W ονομάζεται κάτω φραγμένη Fréchet–Hoeffding και ορίζεται ως

Η συνάρτηση M ονομάζεται άνω φραγμένη Fréchet–Hoeffding και ορίζεται ως

Το ανώτερο όριο ειναι το σημείο αιχμής :M είναι πάντα ένα επίπεδο, που αντιστοιχεί σε τυχαίες μεταβλητές.

Το κατώτερο όριο ειναι το σημείο-σοφής τομής,με την έννοια ότι για σταθερό u, υπάρχει ένα επίπεδο C τέτοιο ώστε . Ωστόσο,W είναι ένα επίπεδο μόνο σε δύο διαστάσεις, που σε κάθε περίπτωση αντιστοιχούν τυχαίες μεταβλητές.

Σε δύο διαστάσεις, δηλαδή τη διμεταβλητή περίπτωση,το θεώρημα Fréchet–Hoeffding αναφέρει 

Οι οικογένειες copulas

Αρκετές οικογένειες των copulas έχουν περιγραφεί.

Επίπεδο Gaussian

Aθροιστική και πυκνότητα κατανομής του επιπέδου Gaussian με ρ=0.4

Το επίπεδο Gaussian είναι μια διανομή μέσω του μοναδιαίου κύβου . Είναι κατασκευασμένο από μια πολυμεταβλητή κανονικής κατανομής στο   χρησιμοποιώντας την πιθανότητα ολοκληρωτικού μετασχηματισμού.

Για ένα δεδομένο πίνακα συσχετισης , το Gaussian επίπεδο με την σχετική παράμετρο   μπορεί να γραφεί ως

όπου   είναι η αντίστροφη συνάρτηση κατανομής μιας τυποποιημένης κανονικής κατανομής και  είναι η από κοινού αθροιστική συνάρτηση κατανομής μιας πολυμεταβλητής κανονικής κατανομής με μέση διανυσματική 0 και πίνακα συνδιασποράς ίσο με τον πίνακα συσχέτισης .  Ενώ δεν υπάρχει καμία απλή αναλυτική φόρμουλα για το επίπεδο λειτουργίας,, μπορεί να είναι άνω ή κάτω όρια, και να προσεγγιστεί χρησιμοποιώντας αριθμητική ολοκλήρωση.Η πυκνότητα μπορεί να φραφεί ως

όπου  είναι  o ταυτοτικός πίνακας.

Eπίπεδο Αρχιμήδη

To επίπεδο του Αρχιμήδη είναι συνδυαστικό μάθημα των επιπέδων.Πιο κοινά αρχιμήδεια επίπεδα αποδέχονται έναν ειδικό τύπο,κάτι αδύνατον, για παράδειγμα στο επίπεδο του Gaussian.Στην πράξη το επίπεδα του Αρχιμήδη είναι δημοφιλή γιατί επιτρέπουν την μοντελοποιήση της εξάρτησης αυθαίρετα υψηλών διαστάσεων με μία μονο παράμετρο, που διέπουν τη δύναμη εξάρτησης.

Ένα επίπεδο C ονομάζεται αρχιμήδειο,αν μπορεί να αντικατασταθει από το[3]

όπου  είναι συνεχής,γνησίως φθίνουσα και κυρτή συνάρτηση . είναι μια παράμετρος μέσα σε κάποια παράμετρο χώρο  .  είναι η λεγόμενη γεννήτρια συνάρτηση και  είναι η ψευδοαντίστροφη που ορίζεται από

Επιπλέον ο παραπάνω τύπος για  C παράγει ένα επίπεδο για το  αν και μόνο αν  είναι d-μονότονη στο  .[4] Αυτό ισχύει μόνο όταν είναι   φορές διαφορίσιμες και τα παράγωγα πληρούν 

για κάθε  και και είναι μη αύξουσα και κυρτή.

Το πιο σημαντικό αρχημήδειο επίπεδο

Οι παρακάτω πίνακες έχουν αναδείξει τα πιο σημαντικά αρχημήδεια επίπεδα με την αντίστοιχη γεννήτρια.Σημειώστε οτι δεν είναι εντελώς μονότονα,δηλαδή d-μονότονα για κάθε  ή d-μονότονα για ορισμένες   μόνο.

Table with the most important Archimedean copulas[3]
Name of Copula Bivariate Copula parameter
Ali-Mikhail-Haq[5]    
Clayton[6]    
Frank        
Gumbel    
Independence  
Joe      
Table of correspondingly most important generators[3]
name generator generator inverse
Ali-Mikhail-Haq[5]        
Clayton[6]            
Frank            
Gumbel            
Independence            
Joe            

Expectation for copula models and Monte Carlo integration

In statistical applications, many problems can be formulated in the following way. One is interested in the expectation of a response function applied to some random vector .[7] If we denote the cdf of this random vector with , the quantity of interest can thus be written as

If is given by a copula model, i.e.,

this expectation can be rewritten as

In case the copula C is absolutely continuous, i.e. C has a density c, this equation can be written as

and if each marginal distribution has the density it holds further that

If copula and margins are known (or if they have been estimated), this expectation can be approximated through the following Monte Carlo algorithm:

  1. Draw a sample of size n from the copula C
  2. By applying the inverse marginal cdf's, produce a sample of by setting
  3. Approximate by its empirical value:

References

  1. Nelsen, Roger B. (1999), An Introduction to Copulas, New York: Springer, ISBN 0-387-98623-5 
  2. "J J O'Connor and E F Robertson" (Μαρτίου 2011). «Biography of Wassily Hoeffding». School of Mathematics and Statistics, University of St Andrews, Scotland. Ανακτήθηκε στις 8 Νοεμβρίου 2011. 
  3. 3,0 3,1 3,2 Nelsen, R. B. (2006). An Introduction to Copulas, Second Edition. New York, NY 10013, USA: Springer Science+Business Media Inc. ISBN 978-1-4419-2109-3. 
  4. McNeil, A. J.; Nešlehová, J. (2009). «Multivariate Archimedean copulas, d-monotone functions and 1-norm symmetric distributions». Annals of Statistics 37 (5b): 3059–3097. doi:10.1214/07-AOS556. 
  5. 5,0 5,1 Ali, M.M., Mikhail, N.N. and Haq, M.S. (1978).
  6. 6,0 6,1 Clayton, David G. (1978). «A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence». Biometrika 65 (1): 141–151. doi:10.1093/biomet/65.1.141. 
  7. Alexander J. McNeil, Rudiger Frey and Paul Embrechts (2005) "Quantitative Risk Management: Concepts, Techniques, and Tools", Princeton Series in Finance