Παράδειγμα δείγματος από την υπεργεωμετρική κατανομή με
N
=
22
{\displaystyle N=22}
,
K
=
11
{\displaystyle K=11}
και
n
=
3
{\displaystyle n=3}
. Παρατηρήστε ότι η δειγματοληψία γίνεται χωρίς επανατοποθέτηση.
Συνάρτηση μάζας πιθανότητας για τηυ υπεργεωμετρική κατανομή με
N
=
100
{\displaystyle N=100}
,
n
=
25
{\displaystyle n=25}
και
K
=
10
,
30
,
60
{\displaystyle K=10,30,60}
.
Αθροιστική συνάρτηση κατανομής για τη υπεργεωμετρική κατανομή με
N
=
100
{\displaystyle N=100}
,
n
=
25
{\displaystyle n=25}
και
K
=
10
,
30
,
60
{\displaystyle K=10,30,60}
..
Υπεργεωμετρική Κατανομή
Συμβολισμός
H
(
N
,
K
,
n
)
{\displaystyle {\mathsf {H}}(N,K,n)}
Παράμετροι
N
∈
N
{\displaystyle N\in \mathbb {N} }
(το μέγεθος του πληθυσμού)
K
∈
{
0
,
1
,
…
,
N
}
{\displaystyle K\in \{0,1,\ldots ,N\}}
(το πλήθος των επιτυχιών)
n
∈
{
0
,
1
,
…
,
N
}
{\displaystyle n\in \{0,1,\ldots ,N\}}
(το πλήθος των δειγμάτων)
Φορέας
k
∈
{
max
(
0
,
n
+
K
−
N
)
,
…
,
min
(
n
,
k
)
}
{\displaystyle k\in \{\max(0,n+K-N),\ldots ,\min(n,k)\}}
Συνάρτηση Μάζας Πιθανότητας
(
K
k
)
⋅
(
N
−
K
n
−
k
)
(
N
n
)
{\displaystyle {\frac {{\tbinom {K}{k}}\cdot {\tbinom {N-K}{n-k}}}{\tbinom {N}{n}}}}
Μέσος
n
⋅
K
N
{\displaystyle n\cdot {\frac {K}{N}}}
Επικρατούσα τιμή
⌈
(
n
+
1
)
⋅
(
K
+
1
)
N
+
2
⌉
−
1
{\displaystyle \left\lceil {\frac {(n+1)\cdot (K+1)}{N+2}}\right\rceil -1}
,
⌊
(
n
+
1
)
⋅
(
K
+
1
)
N
+
2
⌋
{\displaystyle \left\lfloor {\frac {(n+1)\cdot (K+1)}{N+2}}\right\rfloor }
Διακύμανση
n
⋅
K
N
⋅
N
−
K
N
⋅
N
−
n
N
−
1
{\displaystyle n\cdot {\frac {K}{N}}\cdot {\frac {N-K}{N}}\cdot {\frac {N-n}{N-1}}}
Η υπεργεωμετρική κατανομή είναι μια διακριτή συνάρτηση κατανομής τυχαίας μεταβλητής που δίνει το πλήθος των επιτυχιών σε
n
{\displaystyle n}
δείγματα (χωρίς επανάληψη) σε έναν πεπερασμένο πληθυσμό μεγέθους
N
{\displaystyle N}
, εκ των οποίων τα
K
{\displaystyle K}
είναι επιτυχίες.
Η κατανομή γίνεται εύκολα κατανοητή με την περιγραφή της μέσω ενός μοντέλου με κάλπες.
Θεωρούμε μια κάλπη με
K
{\displaystyle K}
πράσινες μπάλες (επιτυχίες) και
N
−
K
{\displaystyle N-K}
κόκκινες (αποτυχίες). Από την κάλπη παίρνουμε χωρίς επανατοποθέτηση
n
{\displaystyle n}
μπάλες. Η υπεργεωμετρική κατανομή μας δίνει την πιθανότητα
k
{\displaystyle k}
από αυτές να είναι πράσινες.
Η πιθανότητα να υπάρχουν
k
∈
{
max
(
0
,
n
+
K
−
N
)
,
…
,
min
(
n
,
k
)
}
{\displaystyle k\in \{\max(0,n+K-N),\ldots ,\min(n,k)\}}
επιτυχίες είναι:[ 1] [ 2] [ 3] [ 4]
P
(
X
=
k
)
=
(
K
k
)
⋅
(
N
−
K
n
−
k
)
(
N
n
)
,
{\displaystyle \operatorname {P} (X=k)={\frac {{\binom {K}{k}}\cdot {\binom {N-K}{n-k}}}{\binom {N}{n}}},}
όπου
(
x
y
)
{\displaystyle {\tbinom {x}{y}}}
είναι ο διωνυμικός συντελεστής .
Από την ταυτότητα Βαντερμόντ προκύπτει ότι ο παραπάνω ορισμός δίνει μία έγκυρη συνάρτηση πιθανότητας.
Αν έχουμε
N
=
6
{\displaystyle N=6}
μπάλες εκ των οποίων οι
K
=
2
{\displaystyle K=2}
είναι πράσινες, τότε οι πιθανότητες να διαλέξουμε
k
=
0
,
1
,
2
{\displaystyle k=0,1,2}
πράσινες σε δύο δείγματα δίνονται ως εξής:
Για
X
∼
H
(
22
,
11
,
3
)
{\displaystyle X\sim {\mathsf {H}}(22,11,3)}
έχουμε ότι
P
(
X
=
2
)
=
(
11
2
)
⋅
(
11
1
)
(
22
2
)
=
11
84
.
{\displaystyle \operatorname {P} (X=2)={\frac {{\binom {11}{2}}\cdot {\binom {11}{1}}}{\binom {22}{2}}}={\frac {11}{84}}.}
Έστω
X
∼
H
(
N
,
K
,
n
)
{\displaystyle X\sim {\mathsf {H}}(N,K,n)}
, τότε μπορούμε να γράψουμε
X
=
∑
i
=
1
n
X
i
{\textstyle X=\sum _{i=1}^{n}X_{i}}
, όπου
X
i
{\displaystyle X_{i}}
είναι η δείκτρια τυχαία μεταβλητή για το γεγονός
E
i
=
{
{\displaystyle {\mathcal {E}}_{i}=\{}
Το
i
{\displaystyle i}
-οστό δείγμα ήταν επιτυχία
}
{\displaystyle \}}
.
Αφού υπάρχουν
K
{\displaystyle K}
επιτυχίες συνολικά, έχουμε ότι
P
(
E
i
)
=
K
N
.
{\displaystyle \operatorname {P} ({\mathcal {E}}_{i})={\frac {K}{N}}.}
Από την γραμμικότητα της αναμενόμενης τιμής, έχουμε ότι
E
[
X
]
=
E
[
∑
i
=
1
n
X
i
]
=
∑
i
=
1
n
E
[
X
i
]
=
n
⋅
K
N
.
{\displaystyle \operatorname {E} [X]=\operatorname {E} \left[\sum _{i=1}^{n}X_{i}\right]=\sum _{i=1}^{n}\operatorname {E} [X_{i}]=n\cdot {\frac {K}{N}}.}
Όπως και για την μέση τιμή, γράφουμε
X
=
∑
i
=
1
n
X
i
{\textstyle X=\sum _{i=1}^{n}X_{i}}
. Τότε από την ταυτότητα Bienaymé , έχουμε για την διακύμανση ότι
Για την διακύμανση, από την κατανομή Μπερνούλλι , έχουμε ότι
Var
[
X
i
]
=
K
N
⋅
(
1
−
K
N
)
.
{\displaystyle \operatorname {Var} [X_{i}]={\frac {K}{N}}\cdot \left(1-{\frac {K}{N}}\right).}
(1 )
Για την συνδιακύμανση , έχουμε ότι
Cov
[
X
i
,
X
j
]
=
E
[
X
i
X
j
]
−
E
[
X
i
]
⋅
E
[
X
j
]
.
{\displaystyle \operatorname {Cov} [X_{i},X_{j}]=\operatorname {E} [X_{i}X_{j}]-\operatorname {E} [X_{i}]\cdot \operatorname {E} [X_{j}].}
Για τον πρώτο όρο, έχουμε
E
[
X
i
X
j
]
=
E
[
X
i
|
X
j
=
1
]
⋅
P
(
X
j
=
1
)
=
K
−
1
N
−
1
⋅
k
N
.
{\displaystyle \operatorname {E} [X_{i}X_{j}]=\operatorname {E} [X_{i}|X_{j}=1]\cdot \operatorname {P} (X_{j}=1)={\frac {K-1}{N-1}}\cdot {\frac {k}{N}}.}
Επομένως,
Cov
[
X
i
,
X
j
]
=
K
N
⋅
K
N
−
K
−
1
N
−
1
⋅
K
N
=
K
N
⋅
(
K
N
−
K
−
1
N
−
1
)
=
K
⋅
(
N
−
K
)
N
2
⋅
(
N
−
1
)
.
{\displaystyle \operatorname {Cov} [X_{i},X_{j}]={\frac {K}{N}}\cdot {\frac {K}{N}}-{\frac {K-1}{N-1}}\cdot {\frac {K}{N}}={\frac {K}{N}}\cdot \left({\frac {K}{N}}-{\frac {K-1}{N-1}}\right)={\frac {K\cdot (N-K)}{N^{2}\cdot (N-1)}}.}
Επιστρέφοντας στην (1 ), λαμβάνουμε ότι
Var
[
X
]
=
n
⋅
K
N
⋅
(
1
−
K
N
)
+
n
⋅
(
n
−
1
)
⋅
K
⋅
(
N
−
K
)
N
2
⋅
(
N
−
1
)
=
n
⋅
K
N
⋅
N
−
K
N
⋅
N
−
n
N
−
1
.
{\displaystyle {\begin{aligned}\operatorname {Var} [X]&=n\cdot {\frac {K}{N}}\cdot \left(1-{\frac {K}{N}}\right)+n\cdot (n-1)\cdot {\frac {K\cdot (N-K)}{N^{2}\cdot (N-1)}}\\&=n\cdot {\frac {K}{N}}\cdot {\frac {N-K}{N}}\cdot {\frac {N-n}{N-1}}.\end{aligned}}}
Η επικρατούσα τιμή της κατανομής δίνεται από το
⌊
v
⌋
{\displaystyle \lfloor v\rfloor }
ή
⌈
v
⌉
−
1
{\displaystyle \lceil v\rceil -1}
, όπου
v
=
(
n
+
1
)
⋅
(
K
+
1
)
N
+
2
.
{\displaystyle v={\frac {(n+1)\cdot (K+1)}{N+2}}.}
Ο λόγος είναι ότι
P
(
X
=
k
)
>
P
(
X
=
k
−
1
)
{\displaystyle \operatorname {P} (X=k)>\operatorname {P} (X=k-1)}
αν και μόνο αν
k
<
v
{\displaystyle k<v}
, καθώς
P
(
X
=
k
)
P
(
X
=
k
−
1
)
>
1
⇔
K
!
k
!
(
K
−
k
)
!
⋅
(
N
−
K
)
!
(
N
−
k
)
!
(
N
−
K
−
n
+
k
)
!
K
!
(
k
−
1
)
!
(
K
−
k
+
1
)
!
⋅
(
N
−
K
)
!
(
n
−
k
+
1
)
!
⋅
(
N
−
K
−
n
+
k
−
1
)
!
>
1
⇔
K
−
k
+
1
k
⋅
n
−
k
+
1
N
−
K
−
n
+
k
>
1
⇔
k
<
(
n
+
1
)
⋅
(
K
+
1
)
N
+
2
{\displaystyle {\begin{aligned}{\frac {\operatorname {P} (X=k)}{\operatorname {P} (X=k-1)}}>1&\Leftrightarrow {\frac {{\frac {K!}{k!(K-k)!}}\cdot {\frac {(N-K)!}{(N-k)!(N-K-n+k)!}}}{{\frac {K!}{(k-1)!(K-k+1)!}}\cdot {\frac {(N-K)!}{(n-k+1)!\cdot (N-K-n+k-1)!}}}}>1\\&\Leftrightarrow {\frac {K-k+1}{k}}\cdot {\frac {n-k+1}{N-K-n+k}}>1\\&\Leftrightarrow k<{\frac {(n+1)\cdot (K+1)}{N+2}}\end{aligned}}}
Για
X
∼
H
(
N
,
K
,
n
)
{\displaystyle X\sim {\mathsf {H}}(N,K,n)}
έχουμε ότι για
p
=
K
N
{\displaystyle p={\frac {K}{N}}}
και κάθε
t
≥
0
{\displaystyle t\geq 0}
,[ 5]
P
(
X
≥
(
p
+
t
)
⋅
n
)
≤
(
(
p
p
+
t
)
⋅
(
1
−
p
1
−
p
−
t
)
1
−
p
−
t
)
n
≤
e
−
2
t
2
n
.
{\displaystyle \operatorname {P} \left(X\geq (p+t)\cdot n\right)\leq \left(\left({\frac {p}{p+t}}\right)\cdot \left({\frac {1-p}{1-p-t}}\right)^{1-p-t}\right)^{n}\leq e^{-2t^{2}n}.}