statystyka aArkadiusz Kasprzyk 18 listopada 2010 1 Zmienne losowe 1.1 Dystrybuanta i gesto´s´c jednowymiarowej zmiennej losowej Niech B oznacza σ-cial...
7 downloads
29 Views
375KB Size
Statystyka A Arkadiusz Kasprzyk 18 listopada 2010
1 1.1
Zmienne losowe Dystrybuanta i gesto´ s´ c jednowymiarowej zmiennej losowej ,
Niech B oznacza σ-cialo zbior´ ow borelowskich na prostej R, natomiast przez F oznaczmy pewne σ-cialo na zbiorze zdarze´ n elementarnych Ω. Je´sli na F zadana jest miara probabilistyczna P (tj. F jest σ-cialem zbior´ow mierzalnych w mierze P), to tr´ ojke, (Ω, F , P) nazywamy przestrzenia, probabilistyczna. Zmienna, , losowa, (rzeczywista) slona, na przestrzeni probabilistycznej (Ω, F , P) nazywamy dowolne przeksztalce, okre´ nie X : Ω → R, takie z˙ e ∀B ∈ B
(1.1)
X −1 (B) ∈ F ,
gdzie X −1 (B) := {ω : X(ω) ∈ B}. Funkcje, spelniajac , a, warunek (1.1) nazywamy przeksztalceniem F /Bmierzalnym. Bedziemy te˙ z pisa´ c X : (Ω, F , P) → (R, B) na oznaczenie faktu, z˙ e X jest rzeczywista, zmienna, , losowa, okre´slona, na (Ω, F , P), tj. funkcja, o argumentach ze zbioru Ω, warto´sciach w zbiorze R i F /Bmierzalna,, przy czym na F zadana jest miara probabilistyczna P. Rozkladem zmiennej losowej X nazywamy funkcje, zbior´ow PX , lub po prostu P , zdefiniowana, naste, pujaco: , (1.2)
PX (B) := P(X −1 (B)) = P {ω ∈ Ω : X(ω) ∈ B} ,
B ∈ B.
Oczywi´scie PX jest miara, probabilistyczna, na B. Dystrybuanta, zmiennej losowej X nazywamy funkcje, (1.3)
FX (x) := PX (−∞, x] = P {ω ∈ Ω : X(ω) 6 x} ,
x ∈ R.
Wzory (1.2) oraz (1.3) zapisujemy te˙z kr´ ocej: (1.4)
PX (B) := P(X ∈ B),
B ∈ B,
(1.5)
FX (x) := P(X 6 x),
x ∈ R.
Dystrybuanta zmiennej losowej wyznacza w pelni jej rozklad, zachodzi bowiem nastepujacy zwiazek , , Z Z PX (B) = (1.6) dFX (x) = 1B (x)dFX (x), B ∈ B, B
R
R gdzie przez h(x)dF (x) rozumiemy calke, Stieltjesa z h wzgledem F . Gesto´ scia, zmiennej losowej X nazy, , wamy pochodna, dystrybuandy FX , o ile istnieje, tj. funkcje, (1.7)
fX (x) :=
d FX (x), dx
x ∈ R.
Stosujac oz˙ niczkowa, powy˙zsza, zale˙zno´s´c mo˙zna zapisa´c jako , notacje, r´ (1.8)
fX (x) dx = d FX (x),
x ∈ R, 1
A. Kasprzyk, STATYSTYKA A
2
i zgodnie z tym, na mocy (1.6) mamy Z (1.9)
PX (B) =
Z fX (x)dx =
B
1B (x)fX (x)dx,
B ∈ B.
R
Og´olniej, gesto´ scia, z.l. X nazywamy dowolna, funkcje, fX (x) spelniajac , , a, warunek (1.9). Funkcja ta jest wyznaczona z dokladno´scia, do zbior´ ow miary Lebesgue’a zero. Aby taka funkcja istniala dystrybuanta FX musi by´c ciag c w ka˙zdym punkcie r´oz˙ niczkowalna. Je´sli FX jest nieciag s´c nie , la ale nie musi by´ , la to gesto´ , istnieje. Dzieje sie, tak zawsze, gdy istnieja, x ∈ R dla kt´orych P(X = x) = PX {x} > 0. Punkty takie nazywamy atomami miary PX . Zwr´ o´cmy uwage, na fakt, z˙ e wz´or (1.6) jest prawdziwy zawsze, niezale˙znie od tego czy z.l. X jest ciag ow) czy nie. W szczeg´olno´sci dla dyskretnych z.l. tj. przybierajacych , la (nie ma atom´ , warto´sci w przeliczalnym zbiorze {xj , j ∈ Z} ⊂ R wz´or (1.6) przybiera posta´c X X (1.10) PX (B) := dFX (xj ) = P(X = xj ). xj ∈B
xj ∈B
Na zako´ nczenie zauwa˙zmy, z˙ e wprost z definicji dystrybuanty wynika, i˙z jest ona funkcja, niemalejac , a, i prawostronnie ciag , la, oraz lim FX (x) = 0,
lim FX (x) = 1.
x→∞
x→−∞
Dla zaznaczenia faktu, z˙ e zmienna losowa X ma dystrybuante, F bedziemy pisa´c X ∼ F , a je´sli istnieje , gesto´ s´c f , bedziemy pisa´c X ∼ f . , ,
1.2
Charakterystyki liczbowe zmiennych losowych
Pelna informacja o rozkladzie zmiennej losowej zawarta jest w jej dystrybuancie, zob. wz´or (1.6). W praktyce do opisu z.l. czesto wygodniej jest poslugiwa´c sie, pewnymi charakterystykami o warto´sciach liczbowych, kt´ ore , informuja, nas o takich wlasno´sciach z.l. jak jej ´srednia warto´s´c, rozrzut czy te˙z koncentracja wok´ol ´sredniej, umiejscowienie na prostej, stopie´ n asymetrii itd. Formalnie przez charakterystyke, liczbowa, zmiennej losowej rozumiemy dowolna, funkcje, m przyjmujac , a, warto´sci rzeczywiste, a kt´ orej argumentami sa, dystrybuanty, tj. m : D → R, gdzie D oznacza zbi´ or wszystkich dystrybuant na prostej (tj. funkcji niemalejacych, prawostronnie ciag , , lych, dla kt´orych granica w −∞ wynosi 0 natomiast w +∞ wynosi 1). Charakterystyki liczbowe zmiennych losowych mo˙zna podzieli´c na dwa podstawowe typy: 1. miary polo˙zenia, spelniajace m(FX+a ) = m(FX ) + a, dla ka˙zdego a ∈ R, , 2. miary rozrzutu, spelniajace m(FX+a ) = m(FX ), dla ka˙zdego a ∈ R. , Najwa˙zniejszymi charakterystykami liczbowymi zmiennych losowych sa, momenty, do kt´orych zalicza sie, r´ownie˙z warto´s´c oczekiwana., W zale˙zno´sci rodzaju momentu mamy do czynienia z miara, polo˙zenia lub rozrzutu. 1. Niech X ∼ F . Warto´ scia, oczekiwana, lub ´ srednia, zmiennej losowej X (rozkladu F ) nazywamy wielko´s´c: Z Z ∞ E[X] := X(ω)P(dω) = xdF (x), −∞
Ω
lub r´ownowa˙znie, je´sli istnieje gesto´ s´c f , , Z
∞
E[X] :=
xf (x)dx. −∞
A. Kasprzyk, STATYSTYKA A
3
przy czym powy˙zsza calka ma sens wtedy i tylko wtedy gdy Z Z ∞ (1.11) xdF (x) < ∞ lub E[X− ] = − E[X+ ] =
0
xdF (x) < ∞,
−∞
0
gdzie X+ := X1[0,∞) (X), X− := −X1(−∞,0] (X). Zatem E[X] istniejeR wtedy i tylko wtedy gdy spelniony ∞ jest warunek (1.11), kt´ ory gwarantuje, z˙ e warto´s´c calki niewla´sciwej −∞ xdF (x) nie zale˙zy od kolejno´sci calkowania. Zauwa˙zmy, z˙ e (1.12)
E[X] = E[X+ ] − E[X− ]
i je´sli jeden ze skladnik´ ow tej sumy jest niesko´ nczony to w´owczas warto´s´c oczekiwana z.l. X jest niesko´ nczona. Je´sli oba skladniki sa, niesko´ nczone, tj. warunek (1.11) nie jest spelniony, to suma (1.12) nie ma sensu. Je´sli jednak oba skladniki sa, sko´ nczone to w´ owczas Z ∞ E|X| = |x|dF (x) = E[X+ ] + E[X− ] < ∞ −∞
i m´owimy wtedy, z˙ e z.l. X jest calkowalna. Z powy˙zszych rozwa˙za´ n wynika wiec s´c oczekiwana z.l. , z˙ e warto´ X istnieje i jest sko´ nczona wtedy i tylko wtedy gdy X jest calkowalna. 2.
Momentem rzedu r wzgledem stalej c nazywamy wielko´s´c , , Z ∞ (1.13) E(X − c)r = (x − c)r dF (x), −∞
przy czym zakladamy, z˙ e r ∈ Z\{0} lub, je´sli r ∈ / Z, to P(X − c < 0) = 0. Oczywi´scie E(X − c)r = E[Y ] r gdzie Y := (X − c) (dystrybuanta z.l. Y dana jest wzorem (1.20) lub (1.21)). Je´sli c = 0 to m´ owimy o momencie zwyklym rzedu r, kt´ory oznaczamy µr , tzn. , µr := E[X r ]. Oczywi´scie µ1 to po prostu warto´s´c oczekiwana z.l. X, natomiast µ0 = 1. Je´sli c = E[X] to m´ owimy o momencie centralnym rzedu r i b edziemy go oznacza´ c κ , zatem r , , κr := E(X − EX)r . Wielko´s´c (1.14)
r
Z
∞
E|X − c| =
|x − c|r dF (x),
−∞
nazywamy momentem absolutnym rzedu r wzgledem stalej c. Je´sli c = 0 to m´owimy o momentach absolut, , nych zwyklych, a je´sli c = E[X] to m´ owimy o momentach absolutnych centralnych. Zauwa˙zmy, z˙ e aby warto´s´c calki w (1.13) byla sko´ nczona i nie zale˙zala od kolejno´sci calkowania to musi by´c sko´ nczona calka w (1.14). Zatem momenty zwykle istnieja, i sa, sko´ nczone je´sli sa, sko´ nczone momenty r absolutne tj. gdy z.l. Y = (X − c) jest calkowalna. Prawdziwa jest nastepuj aca nier´ owno´s´c , , (1.15)
E|X − c|r 6 E|X − c|s
r/s
,
0 < r < s.
Z nier´owno´sci tej wynika, z˙ e je´sli istnieje (tzn. jest sko´ nczony) moment absolutny rzedu s to istnieja, wszystkie , momenty (absolutne) rzedu r gdzie 0 < r < s. Odwrotnie, je´ s li moment absolutny rz edu r jest niesko´ nczony , , to niesko´ nczone sa, wszystkie momenty wy˙zszego rzedu. ,
A. Kasprzyk, STATYSTYKA A
4
3. Miary polo˙zenia. W´sr´ od miar polo˙zenia najwa˙zniejsze to warto´s´c oczekiwana i kwantyle. 1. Warto´ s´ c oczekiwana zostala ju˙z om´ owiona. 2. Kwantylem rzedu p zmiennej losowej X (lub dystrybuanty F ), gdzie p ∈ (0, 1), nazywamy liczbe, , ξp := F −1 (p), gdzie (1.16)
F −1 (p) := inf {x : F (x) > p} ,
p ∈ (0, 1),
i funkcje, ta, nazywamy uog´ olniona, dystrybuante, odwrotna, lub funkcja, kwantylowa. Je´sli F , jest funkcja, ciag l a i ´ s ci´ s le rosn ac a to w´ o wczas F (ξ ) = p, natomiast w og´ o lnym przypadku p , , , , F (ξp −) 6 p 6 F (ξp ). Kwantyl rzedu 1/2 nazywamy mediana. Kwantyl rzedu k/4, gdzie k = 1, 2, 3 nazywamy k-tym , , , kwartylem. Drugi kwartyl to oczywi´scie mediana. Podobnie, kwantyl rzedu k/5 nazywamy k-tym , kwintylem, kwantyl rzedu k/10 nazywamy k-tym decylem a kwantyl rz edu k/100 nazywamy k-tym , , percentylem. 3. Je´sli dla zmiennej losowej X istnieje gesto´ s´c f = F 0 to moda, lub dominanta, rozkladu F nazywamy , liczbe, x0 taka,, z˙ e f (x0 ) = max f (x). x∈R
Je´sli istnieje jedna moda, to m´ owimy o rozkladzie jednomodalnym. 4. Miary rozrzutu. Latwo pokaza´c, z˙ e momenty centralne (zar´owno zwykle jak i absolutne) sa, miarami rozrzutu. 1. W szczeg´olno´sci miara, rozrzutu jest drugi moment centralny, kt´ory nazywamy wariancja, zmiennej losowej X i oznaczamy: Var(X) := E(X − EX)2 = κ2 . Pierwiastek z wariancji nazywamy dyspersja, lub odchyleniem standardowym zmiennej losowej X i oznaczamy przez σ lub D. Zatem σ 2 = D2 = Var(X) = κ2 oraz σ = (κ2 )1/2 . 2. Moment centralny absolutny rzedu 1 nazywamy odchyleniem przecietnym zmiennej losowej X , , i oznaczamy β := E|X − EX|. 3. Inne miary rozrzutu to κ3 (a) wsp´ olczynnik asymetrii z.l. X: γ := 3 , σ κ4 (b) wsp´ olczynnik kurtozy z.l. X: k := 4 , lub wsp´ olczynnik ekscesu: g := k − 3, σ (c) odleglo´ s´ c miedzykwartylowa z.l. X: Q := ξ3/4 − ξ1/4 . , Wielko´sci k oraz g nazywamy te˙z miarami skupienia lub splaszczenia. W przypadku rozkladu normalnego 2 √ 2 tj. o gesto´ sci φ(x) = exp − (x − m) 2σ 2πσ, eksces jest r´owny zero, g = 0.. Wszystkie rozklady dla , kt´orych istnieje czwarty moment dzielimy na: mezokurtyczne, gdy g = 0 — rozklad o podobnej koncentracji jak rozklad normalny; leptokurtyczne, gdy g > 0 — rozklad jest bardziej splaszczony ni˙z rozklad normalny; platokurtyczne, gdy g < 0 — rozklad bardziej skoncentrowany od normalnego. Wielko´s´c γ nale˙zy do wiekszego zbioru miar asymetrii. Do tych ostatnich zaliczamy jeszcze wska´ znik , sko´ sno´ sci W := µ1 − β oraz wsp´ olczynnik sko´ sno´ sci W/σ. Wielko´sci te nie sa, ani miarami polo˙zenia ani rozrzutu, podobnie jak wsp´ olczynnik zmienno´ sci V := σ/µ1 , kt´ory rozrzut z.l. X wyra˙za w jednostkach zadanych przez ´srednia, tej zmiennej. Wielko´s´c ta ma sens jedynie dla z.l. przybierajacych warto´sci , nieujemne.
A. Kasprzyk, STATYSTYKA A
1.3
5
Podstawowe przeksztalcenia zmiennych losowych
Je´sli X ∼ FX i a ∈ R to przez FaX rozumiemy dystrybuante, zmiennej losowej Y = aX, tj. przeskalowanej zmiennej losowej X. Latwo pokaza´c, z˙ e zachodzi nastepuj aca zale˙zno´s´c , , FX ( xa ), a > 0, FaX (x) = (1.17) 1 − FX ( xa ) + PX xa , a < 0. Je´sli dystrybuanta jest ciag scie PX xa = 0. Wtedy te˙z istnieje gesto´ s´c fX z.l. X, dla kt´ orej, na , la to oczywi´ , mocy (1.7), zachodzi: x 1 (1.18) faX (x) = fX . |a| a Dla 0 < p < 1 mamy r´ ownie˙z: −1 FaX (p)
(1.19)
=
aFX−1 (p) −1 |a|F−X (p)
a > 0, a < 0.
gdzie FX−1 oznacza uog´ olnion e, odwrotna, dla zmiennej losowej X, zob. (1.16), natomiast a, dystrybuant F−X (x) = 1 − FX (−x) + PX − x na mocy (1.17). Standardyzacja, lub unormowaniem z.l. X nazywamy przeksztalcenie U=
X − E[X] , D(X)
o ile wariancja z.l. X istnieje. Tak otrzymana z.l. U ma ´srednia, 0 i wariancje, 1. Rozwa˙zmy z.l. Y = (X − c)r , gdzie r ∈ Z, r 6= 0. Dla r parzystych P(Y < 0) = 0, w przeciwnym przypadku s´c rzeczywista., Je´sli dla r nieparzystych i y < 0 przyjmiemy, z˙ e ,c dowolna, warto´ p Y mo˙ze przyja´ y 1/r = − r |y|, to w´ owczas FX y 1/r + c, r nieparzyste, FY (y) = (1.20) FX y 1/r + c − FX − y 1/r + c + PX {−y 1/r + c}, r parzyste. Je´sli r ∈ / Z to musimy zalo˙zy´c, z˙ e P(X − c < 0) = 0 i wtedy (1.21) FY (y) = FX y 1/r + c . Twierdzenie 1.1 (Nier´ owno´s´c Jensena.) warto´s´c oczekiwana, to
Je´sli g : R → R jest funkcja, wypukla, a X z.l. dla kt´ orej istnieje
g(E[X]) 6 E[g(X)]. Podobnie, je´sli h jest funkcja, wkles , la, to h(E[X]) > E[h(X)].
1.4
Zadania
Zadanie 1.1 M´owimy, z˙ e zmienna losowa X ma rozklad Cauchy’ego z parametrami λ i µ, je´sli jej gesto´ s´c , λ , gdzie λ > 0, µ ∈ R. Piszemy w skr´ocie X ∼ C(λ, µ). Dla uproszczenia jest postaci f (x) = 2 2 π λ +(x−µ)
rachunk´ow przyjmijmy λ = 1, µ = 0. (a) Poka˙z, z˙ e zar´owno E[X− ] jak i E[X+ ] sa, niesko´ nczone, zatem warto´s´c oczekiwana nie istnieje. (b) Poka˙z, z˙ e Z a Z a2 lim xf (x)dx = 0 ale lim xf (x)dx = ∞, a→∞ −a
a→∞ −a
co oznacza, z˙ e warto´s´c E[X] zale˙zy od kolejno´sci calkowania, a wiec s´c oczekiwana z.l. o rozkladzie , warto´ Cauchy’ego nie mo˙ze by´c dobrze zdefiniowana.
A. Kasprzyk, STATYSTYKA A
6
Zadanie 1.2 Rozklad prawdopodobie´ nstwa na p´olprostej [c, ∞), c > 0, o dystrybuancie c λ F (x) = 1 − , x > c, λ > 0, x nazywamy rozkladem Pareto z parametrami λ, c, w skr´ocie P ar(λ, c). Je´sli X ∼ P ar(λ, c) to dla jakich warto´sci λ z.l. X ma sko´ nczony moment rzedu r > 0? W szczeg´olno´sci, dla jakich warto´sci λ z.l. X posiada , sko´ nczona, ´srednia, i wariancje? Sporz ad´ z odpowiedni a, tabele. , , , Zadanie 1.3 Poka˙z, z˙ e µ0 = κ0 = 1 oraz κ1 = 0. Zadanie 1.4 Poka˙z, z˙ e momenty (absolutne) centralne, sa, miarami rozrzutu, natomiast nie sa, nimi momenty wzgledem pewnej stalej c. W szczeg´ olno´sci nie sa, miarami rozrzutu momenty zwykle. , Zadanie 1.5 Udowodnij, z˙ e miarami rozrzutu sa, wielko´sci γ, k, g oraz Q, natomiast nie sa, miarami rozrzutu wielko´sci W i V . Zadanie 1.6 Niech X bedzie zmienna, losowa, majac nczony k-ty moment, tj. µj = E X j < ∞, , , a, sko´ j = 0, 1, . . . , k, gdzie µ0 = 1. (a) Poka˙z, z˙ e P κk = E(X − EX)k = ks=0 ks (−1)s µs1 µk−s . (b) Uog´olnij ten wz´ or na momenty rzedu k wzgledem dowolnej stalej c i wywnioskuj stad, z˙ e je´sli istnieje , , , moment zwykly rzedu k to istnieje te˙ z moment rz edu k wzgl edem sta lej c, dla ka˙ z dego c ∈ R. , , , Zadanie 1.7 Korzystajac owno´sci Jensena udowodnij, z˙ e dla rzeczywistej z.l. X zachodzi , z nier´ 2 E[X] 6 E X oraz E[X] 6 E X 2 . Z drugiej z tych nier´ owno´sci wywnioskuj, z˙ e wariancja z.l. nie mo˙ze by´c ujemna. Zadanie 1.8 Korzystajac owno´sci Jensena udowodnij nier´owno´s´c (1.15). , z nier´ Zadanie 1.9 Niech z.l. X ma rozklad b(n, p) t.j. n pr´ob Bernoulli’ego z prawdopodobie´ nstwem sukcesu p. Naszkicuj wykres dystrybuanty tej z.l. X dla n = 4, p = 1/2. Znajd´z jej wszystkie kwartyle i kwintyle. Oblicz warto´sci wielko´sci γ, k, g, W oraz V dla tej z.l. gdy p = 1/2, 1/4, 3/4. Dla jakiego p rozklad jest mezo-, lepto- lub plato-kurtyczny? Zadanie 1.10 Niech X1 ∼ F1 , X2 ∼ F2 oraz U bedzie pojedyncza, pr´oba, Bernoulli’ego z prawdopodo, bie´ nstwem sukcesu p, co oznaczamy U ∼ b(1, p). Zakladamy, z˙ e z.l. U jest niezale˙zna od X1 i X2 , tj. dla dowolnych A, B ∈ B mamy P(Xj ∈ A|U ∈ B) = P(Xj = A), j = 1, 2. Poka˙z, z˙ e z.l. Y = U X1 + (1 − U )X2 ma dystrybuante, F = pF1 + (1 − p)F2 . ´ wka: Skorzystaj ze wzoru na prawdopodobie´ Wskazo nstwo calkowite. Zadanie 1.11 Uog´ olnij wynik z poprzedniego zadania, dla ciagu zmiennych losowych {Xj }j∈N , Xj ∼ Fj , , oraz dla zmiennej losowej dyskretnej U takiej, z˙ e P(U = j) = pj , j ∈ N. Zadanie 1.12 W zadaniu 1.10 zal´ oz˙ my, z˙ e X1 ma gesto´ s´c f1 (x) = 1[0,1] (x) tzn. ma rozklad jednostajny na , odcinku [0, 1], co zapisujemy X1 ∼ U (0, 1). Co do z.l. X2 zal´oz˙ my z˙ e X2 ∼ 21 b(2, 0.5), tzn. ma rozklad taki jak dwie pr´oby Bernoulli’ego z prawdopodobie´ nstwem sukcesu 0.5 przy czym liczbe, sukces´ow dzielimy przez 2. Ponadto niech U ∼ b(1, 1/4). (a) Naszkicuj wykres z.l. Y = U X1 + (1 − U )X2 . (b) Podaj warto´sci wszystkich kwartyli i kwintyli z.l. Y . (c) Oblicz E[Y ] oraz Var(Y ). (d) Naszkicuj wykres funkcji kwantylowej dla dystrybuanty z.l. Y .
A. Kasprzyk, STATYSTYKA A
7
Zadanie 1.13 Niech X ∼ F gdzie 1 x 5e , 2/5, x+1 F (x) = 5 , 3/5, 1 − 15 , e−(x−3)
x ∈ (−∞, 0), x ∈ [0, 1), x ∈ [1, 2), x ∈ [2, 3), x ∈ [3, ∞).
Naszkicuj te, dystrybuante. sci wszystkich kwartyli i kwintyli. Podaj wz´or na funkcje, kwantylowa., , Podaj warto´ Zadanie 1.14 Udowodnij wzory (1.17) – (1.19). Zadanie 1.15 Z.l. X ma gesto´ s´c fX i dystrybuante, FX . Wyznacz gesto´ s´c i dystrybuante, zmiennych loso, , wych: √ (a) aX + b, a 6= 0, (b) |X|, (c) X 2 , (d) X, je´sli P(X > 0) = 1, (e) 1/X, je´sli P(X = 0) = 0, (f) sin(X). Zadanie 1.16 Udowodnij wzory (1.20) – (1.21).
A. Kasprzyk, STATYSTYKA A
2 2.1
8
Wektory losowe Gesto´ s´ c i dystrybuanta wektor´ ow losowych ,
Przeksztalcenie X : (Ω, F , P) → (Rn , Bn ) nazywamy n-wymiarowym wektorem losowym (w.l.). Jego rozklad w Rn definiujemy jako (2.1) PX (D) := P X−1 (D) = P{ω : X(ω) ∈ D}, D ∈ Bn , co skr´otowo zapisujemy PX (D) := P X ∈ D . Wektor losowy X mo˙zna zapisa´c jako wektor n zmiennych losowych, tj. X = (X1 , . . . , Xn )T . Niech A ∈ B, oraz A(j) := R · · × R} ×A × R · · × R} . | × ·{z | × ·{z j−1
n−j
Zbi´or A(j) nazywamy zbiorem cylindrycznym o podstawie A na j-tej wsp´olrzednej. Oczywi´scie A(j) ∈ Bn , (mo˙zna pokaza´c, z˙ e zbiory cylindryczne generuja, σ-cialo Bn ). Rozklad z.l. Xj dany jest przez (2.2)
PXj (A) := P X−1 (A(j) ) = P{ω : X(ω) ∈ A(j) },
A ∈ B.
Tak zdefiniowane rozklady Pj ≡ PXj nazywamy rozkladami brzegowymi rozkladu PX (wektora losowego X, zmiennych losowych Xj ). Dystrybuanta w.l. X dana jest przez (2.3)
F (x) = P(X 6 x) = P(Xj 6 xj , j = 1, . . . , n),
Je´sli istnieje funkcja f : Rn → R dla kt´ orej zachodzi Z x Z xn Z (2.4) F (x) = f (t)dt = ··· −∞
−∞
x1
f (t1 , . . . , tn )dt1 · · · dtn ,
−∞
to m´owimy, z˙ e w.l. X ma gesto´ s´c f . Oczywi´scie , Z Z PX (D) = dF (t) = f (t)dt, D
x = (x1 , . . . , xn )T ∈ Rn .
D ∈ Bn ,
D
gdzie pierwsza r´owno´s´c jest zawsze prawdziwa, natomiast druga zachodzi jedynie w przypadku gdy gesto´ s´c , w.l. X istnieje. Ponadto, je´sli F jest r´ oz˙ niczkowalna, to f (t) =
∂ d F (x) = F (x1 , . . . , xn ). dx ∂x1 · · · ∂xn
Ka˙zdej wsp´olrzednej w.l. X, tj. z.l. Xj , odpowiada dystrybuanta brzegowa Fj : , (2.5)
Fj (x) = P(Xj 6 x) =
lim
lim
x1 → ∞ . . . xj−1 → ∞
xj+1 → ∞ . . . xn → ∞
F (x1 , . . . , xj−1 , x, xj+1 , . . . , xn ).
Je´sli istnieje gesto´ s´c f to okre´slamy gesto´ s´ c brzegowa, fj : , , Z Z Z Z (2.6) fj (t) = ··· ··· f (t1 , . . . , tj−1 , t, tj+1 , . . . , tn )dt1 · · · dtj−1 dtj+1 · · · dtn . | R {z R} | R {z R} n−j
j−1
d Dystrybuanty i gesto´ sci brzegowe skladowych w.l. X zwiazane sa, zale˙zno´scia, (1.7), tj. fj (t) = dt Fj (t). , , Odwrotnie: majac dane n zmiennych losowych X , j = 1, . . . , n, okre´ s lonych na tej samej przestrzeni j , probabilistycznej (Ω, F , P) mo˙zemy zdefiniowa´c wektor losowy X := (X1 , . . . , Xn )T . W´owczas rozklad z.l.
A. Kasprzyk, STATYSTYKA A
9
Xj mo˙zna opisa´c zar´ owno przez (1.2) jak i wzorem (2.2). Dystrybuanta wektora X dana jest wzorem (2.3) i nazywana jest dystrybuanta, laczn a, zmiennych losowych Xj . Ponadto, je˙zeli istnieje funkcja f : Rn → R , dla kt´orej prawdziwy jest wz´ or (2.4) to funkcje, ta, nazywamy laczn a, gesto´ scia, zmiennych losowych Xj . , , M´owimy, z˙ e zmienne losowe Xj , j = 1, . . . , n, sa, niezale˙zne je˙zeli dla wszystkich A1 , . . . An ∈ B,
PX (A1 × · · · × An ) = PX1 (A1 ) · · · PXn (An ), co jest r´ownowa˙zne warunkowi
F (t) = F1 (t1 ) · · · Fn (t1 ), oraz (je´sli gesto´ s´c istnieje) ,
f (t) = f1 (t1 ) · · · fn (tn ).
Y Niech X : (Ω, F , P) → bedzie n-wymiarowym wektorem losowym, oraz X = , gdzie Y , Z jest p-wymiarowym oraz Z jest q-wymiarowym w.l., p+q = n. Dystrybuante, brzegowa, F1 w.l. Y definiujemy analogicznie do (2.5): (Rn , Bn ),
F1 (y) = lim F (y, z), z→∞
y ∈ Rp , z ∈ Rq ,
gdzie przez z → ∞ rozumiemy, z˙ e ka˙zda skladowa wektora z da˙ nczono´sci. Podobnie, gesto´ s´c ,zy do niesko´ , brzegowa, f1 wektora Y definiujemy analogicznie do (2.6): Z f1 (u) = f (u, v)dv, u ∈ Rp , v ∈ Rq . Rq
Wektory losowe Y i Z sa, niezale˙zne, je´sli F (t) = F1 (u)F2 (v),
gdzie t = (u ; v),
oraz (je´sli gesto´ s´c istnieje) , f (t) = f1 (u)f2 (v). Oczywi´scie niezale˙zno´s´c w.l. Y i Z jest r´ ownowa˙zna warunkowi P(Y ∈ A|Z ∈ B) = P(Y ∈ A),
dla dowolnych A ∈ Bp , B ∈ Bq .
Powy˙zsze definicje dla podzialu wektora X na dwa podwektory, mo˙zna powt´orzy´c dla podzialu na m podwektor´ow, tj. X1 X = ... , gdzie Xj : (Ω, F , P) → (Rnj , Bnj ), n1 + · · · + nm = n. Xm Uzyskamy w´owczas wzory analogiczne do (2.5) i (2.6) z tym z˙ e wszystkie wielko´sci skalarne ulegna, zamianie na wielko´sci wektorowe. M´ owimy, z˙ e wektory losowe X1 , . . . , Xm sa, niezale˙zne je´sli F (t) = F1 (t1 ) · · · Fm (tm ),
gdzie t = (t1 ; . . . ; tm ),
lub r´ownowa˙znie (je´sli gesto´ s´c istnieje) , f (t) = f1 (t1 ) · · · fm (tm ). Warto´ s´ c oczekiwana wektor´ ow losowych Niech X bedzie n-wymiarowym wektorem losowym. Jego warto´s´c oczekiwana, definiujemy jako wektor war, to´sci oczekiwanych jego skladowych, bowiem Z Z Z T T E X = X(ω)P(dω) = X1 (ω)P(dω), . . . , Xn (ω)P(dω) = E[X1 ], . . . , E[Xn ] . Ω
Ω
Ω
Na oznaczenie warto´sci oczekiwanej zmiennej losowej X bedziemy czesto u˙zywali skr´otowej notacji mX . , ,
A. Kasprzyk, STATYSTYKA A
2.2
10
Przeksztalcenia wektor´ ow losowych
Niech X = (X1 , . . . , Xn )T bedzie n-wymiarowym w.l. majacym gesto´ s´c f (x), natomiast g : Rn → Rn niech , , , bedzie funkcja, borelowska., Kladziemy , T Y = g(X) = g1 (X), . . . , gn (X) . Zakladamy ponadto, z˙ e je´sli A ∈ Bn jest zbiorem otwartym takim, z˙ e P(X ∈ A) = 1, to funkcje gj : Rn → R, j = 1, . . . , n spelniaja, nastepuj ace warunki: , , n n (i) g jest przeksztalceniem wzajemnie jednoznacznym na−1zbiorze A, tzn. istnieje h : R → R t.˙ze dla ka˙zdego y ∈ g(A) zachodzi h(y) = h1 (y), . . . , hn (y) = g (y); ∂gj (x) (ii) dla wszystkich j, k = 1, . . . , n pochodna czastkowa jest ciag , , la; ∂xk ∂gj (x) (iii) Jg (x) = det 6= 0 dla wszystkich x ∈ A. 1 ∂xk j,k=1,...,n Z powy˙zszych zalo˙ze´ n wynika, z˙ e w obszarze g(A) funkcje h1 , . . . , hn maja, ciag , le pochodne czastkowe, , natomiast jakobian Jh (y) przeksztalcenia h jest w tym obszarze sko´ nczony i ciag ly. Mamy nast epuj ace , , , Twierdzenie 2.1 Je´sli w.l. X ma gesto´ s´c fX natomiast funkcja g : Rn → Rn spelnia warunki (i) – (iii) to , w.l. Y = g(X) ma gesto´ s´c postaci , fY (y) = fX h(y) Jh (y) , gdzie h(y) = g−1 (y), oraz dystrybuante, FY (y) = FX h(y) . ´ d. Dowo (2.7)
Z twierdzenia o zamianie wsp´ olrzednych mamy , Z Z P Y ∈ g(C) = P(X ∈ C) = fX (x) dx = C
fX h(y) Jh (y) dy,
g(C)
dla ka˙zdego mierzalnego C ⊂ A. Przeksztalcenia liniowe. Niech X bedzie n-wymiarowym w.l. o gesto´ sci fX oraz A : Rn → Rn niech , , bedzie nieosobliwym przeksztalceniem liniowym postaci Ax = Ax + b, gdzie A ∈ Rn×n , b ∈ Rn . , W´owczas gesto´ s´c w.l. Y = AX = AX + b jest postaci , fY (y) = fX A−1 (y − b) det(A−1 ) .
2.3
Zadania
Zadanie 2.1 (a) Znajd´z gesto´ s´c z.l. Y1 = X1 + X2 je´sli w.l. X = (X1 , X2 )T ma laczn a, gesto´ s´c fX (x1 , x2 ). , , , ´ wka: Znajd´z gesto´ Wskazo s ´ c brzegow a z.l. Y b ed ac a sk ladow a w.l. 2 , , , , , , Y1 1 1 X1 Y= = , Y2 1 0 X2 tzn. przecalkuj wzgledem y2 laczn a, gesto´ s´c wektora Y. , , , (b) Jaka, posta´c przyjmuje wz´ or na gesto´ s ´c sumy niezale˙znych z.l.? , Zadanie 2.2 Udowodnij, z˙ e dla dowolnych z.l. X1 i X2 (a wiec , nie tylko niezale˙znych) zachodzi: E X1 + X2 = E X1 + E X2 . 1
Przypomnienie: wyznacznik Jg (x) nazywamy jakobianem przeksztalcenia g i oznaczamy te˙z przez
∂(g1 , . . . , gn ) . ∂(x1 , . . . , xn )
A. Kasprzyk, STATYSTYKA A
2.4
11
Korelacja i kowariancja zmiennych i wektor´ ow losowych
Je´sli zmienne losowe X, Y o warto´sciach w R, okre´slone na tej samej przestrzeni probabilistycznej (Ω, F , P), maja, laczn a, dystrybuante, F (x, y) i laczn a, gesto´ s´c f (x, y) (je´sli istnieje) to ich korelacja, nazywamy , , , Z Z Z Z Z x y f (x, y) dx dy. x y dF (x, y) = X(ω)Y (ω)P(dω) = E XY = Ω
R
R
R
R
M´owimy, z˙ e z.l. X, Y sa, (a) nieskorelowane je´sli E[XY ] = E[X] E[Y ], (b) ortogonalne je´sli E[XY ] = 0, co oznaczamy X⊥Y . W przestrzeni zmiennych losowych o ´sredniej zero oba pojecia sa, oczywi´scie r´ownowa˙zne. Zachodzi nier´ ow, no´s´c Cauchy’ego-Schwarza: E[XY ] 2 6 E X 2 E Y 2 . Kowariancja, z.l. X, Y nazywamy korelacje, z.l. X◦ := X − E[X] oraz Y◦ := Y − E[Y ], tj. Cov(X, Y ) = E X◦ Y◦ = E X − E[X] Y − E[Y ] = E[XY ] − E[X] E[Y ]. Oczywi´scie Var(X) = Cov(X, X) = E X 2 − E[X]2 . Z kolei wielko´s´c Cov(X, Y ) ρX,Y ≡ Corr(X, Y ) := p Var(X)Var(Y ) nazywamy wsp´ olczynnikiem korelacji zmiennych losowych X, Y (skr´otowo: korelacja, z.l. X, Y , co jak wida´c, mo˙ze by´c mylace i w ´swietle wcze´sniejszych definicji jest niewla´sciwe). , Je´sli Y jest m-wymiarowym w.l. to korelacja, wektor´ ow X i Y nazywamy macierz h i RX,Y := E XYT = E[Xj Yk ] j=1,...,n . k=1,...,m
Analogicznie jak w przypadku zmiennych losowych T m´owimy, z˙ e w.l. X i Y sa, T (a) nieskorelowane je´sli E XY =E X E Y , (b) ortogonalne je´sli E XYT = On,m , co oznaczamy X⊥Y (On,m oznacza macierz zer rozmiaru n × m). Je´sli oznaczymy X◦ := X − E[X] oraz Y◦ := Y − E[Y], to kowariancja, wektor´ ow X i Y nazywamy ◦ ◦ korelacje, wektor´ow X , Y , tj. i h Cov X, Y := RX◦ ,Y◦ = E X◦ (Y◦ )T = Cov(Xj , Yk ) j=1,...,n , k=1,...,m
zatem Cov X, Y = Cov X◦ , Y . Kowariancja, w.l. X nazywamy macierz
◦
Cov(X) := Cov(X, X) = σjk j,k=1,...,n , gdzie σjk := Cov(Xj , Xk ). W´ owczas, je´sli σj2 := Var(Xj ), to σj2 = σjj . Bedziemy u˙zywa´c r´ownie˙z skr´ oconej , notacji na oznaczenie macierzy kowariancji, mianowicie: CX,Y := Cov(X, Y), oraz CX := Cov(X).
2.5
Zadania
Zadanie 2.3 Je´sli X i Y sa, wektorami losowymi to CX,Y = RX,Y − mX mTY , lub r´ownowa˙znie RX,Y = RX◦ ,Y◦ + mX mTY . Ponadto, je´sli X i Y sa tego samego rozmiaru to CX±Y = CX ± CX,Y ± CY,X + CY . Zadanie 2.4 Niech X i Y bed , a, wektorami losowymi odpowiednio n i m wymiarowymi. (a) Je´sli m = n to E[X + Y] = E[X] + E[Y]. (b) Cov(Y, X) = Cov(X, Y)T . Niech U = AX + a, V = BY + b, gdzie A ∈ Rp×n , B ∈ Rq×m , a ∈ Rp , b ∈ Rq . (c) E[U] = A E[X] + a. (d) Cov(U, V) = ACov(X, Y)BT , skad olno´sci wynika, z˙ e Cov(U) = ACov(X)AT . , w szczeg´
A. Kasprzyk, STATYSTYKA A
12
Zadanie 2.5 Niech X i Y bed owczas X, Y , a, wektorami losowymi odpowiednio n i m wymiarowymi. W´ sa, nieskorelowane wtedy i tylko wtedy gdy dla wszystkich j = 1, . . . , n, k = 1, . . . , m nieskorelowane sa, skladowe Xj , Yk . Zadanie 2.6 Nastepuj ace warunki sa, r´ ownowa˙zne: , , (i) wektory losowe X, Y sa, nieskorelowane, (ii) X◦ ⊥Y◦ , (iii) Cov(X, Y) = O. Zadanie 2.7 Macierz kowariancji wektora losowego jest symetryczna nieujemnie okre´ slona, tzn. je´sli Σ = Cov(X) (X jest n-wymiarowy) to aT Σa > 0
dla wszystkich a ∈ Rn .
Zadanie 2.8 Je´sli skladowe w.l. X sa, nieskorelowane to Cov(X) = diag(σ12 , . . . , σn2 ), gdzie σj2 = Var(Xj ). Zadanie 2.9 Je´sli skladowe w.l. X sa, niezale˙zne to sa, nieskorelowane. Twierdzenie odwrotne jest nieprawT dziwe. Kontrprzyk lad: wektor losowy X = (X1 , X2 ) z rozkladem jednostajnym na kole, np. fX (x1 , x2 ) = 1 2 2 π 1[0,1] x1 + x2 . Zadanie 2.10 Niech ρX,Y bedzie wsp´ olczynnikiem korelacji miedzy zmiennymi losowymi X i Y . Wielko´s´c , , Cov(Y, X) ρ(Y |X) := Var(X) nazywamy wsp´ olczynnikiem regresji zmiennej Y na zmienna, X (wzgledem X). , Poka˙z, z˙ e ρ(X|Y ) = ρ(Y |X)−1 wtedy i tylko wtedy gdy |ρ(X, Y )| = 1. Zadanie 2.11 Prosta, regresji zmiennej losowej Y wzgledem zmiennej losowej X nazywamy funkcje, y = , b b β0 + β1 x taka,, z˙ e 2 2 E Y − βb0 − βb1 X = min E Y − β0 − β1 X . β0 ,β1 ∈R
Poka˙z, z˙ e βb1 = ρ(Y |X),
βb0 = E[Y ] − βb1 E[X].
Ponadto, z.l. ε := Y − βb0 − βb1 X jest nieskorelowana ze z.l. X oraz E[ε] = 0. Oblicz wariancje, z.l. ε jako funkcje, wariancji i kowariancji z.l. X i Y . Wniosek: Dla dowolnej pary z.l. X, Y majacych sko´ nczony drugi moment mo˙zliwe jest przedstawienie , Y = aX + b + ε, gdzie X i ε sa, nieskorelowane oraz E[ε] = 0. Zadanie 2.12 Korzystajac , z poprzedniego zadania poka˙z, z˙ e |ρ(X, Y )| = 1 wtedy i tylko wtedy gdy Y = aX + b p.w.. Zadanie 2.13 Niech ρX,Y bedzie wsp´ olczynnikiem korelacji miedzy zmiennymi losowymi X i Y . Wyprowad´z , , wz´or na kat mi edzy prost a regresji zmiennej Y wzgl edem zmiennej X a prosta, regresji zmiennej X wzgledem , , , , , zmiennej Y w zale˙zno´sci od warto´sci ρX,Y . Zadanie 2.14 Niech w.l. X i ε bed owczas macierz kowariancji , a, nieskorelowane, oraz Y = BX + b + ε. W´ CY,X spelnia r´ownanie B = CY,X C−1 . Czy bez utraty og´ o lno´ s ci mo˙ z na za lo˙ z y´ c E[ε] = 0, E[X] = 0? X Zadanie 2.15 Niech X oraz Y bed owczas wektor losowy ε = Y − R(Y|X)X, , a, wektorami losowymi. W´ −1 gdzie R(Y|X) = CY,X CX jest (a) nieskorelowany z wektorem losowym X; (b) ortogonalny do X wtedy i tylko wtedy gdy EX = 0. (c) Ponadto Cε = CY − CY,X C−1 X CX,Y . ´ wka: Poka˙z, z˙ e ε◦ := ε − E[ε] = Y◦ − R(Y|X)X◦ . Wskazo Zadanie 2.16 Niech Y = b + XT β + ε, gdzie X jest n-wymiarowym wektorem losowym, ε jest zmienna, losowa, nieskorelowana, z X oraz β ∈ Rn . Pokaza´c, z˙ e zachodzi r´owno´s´c β = C−1 X CX,Y . Czy bez utraty og´olno´sci mo˙zna zalo˙zy´c E[ε] = 0, E[X] = 0?
A. Kasprzyk, STATYSTYKA A
2.6
13
Przestrze´ n Hilberta zmiennych losowych
Niech L2 (Ω, F , P) oznacza zbi´ or wszystkich zmiennych losowych okre´slonych na przestrzeni probabilistycz2 < ∞ (zmiennych losowych nej (Ω, F , P) o warto´sciach w R i majacych sko´ n czony drugi moment, tj. E X , calkowalnych z kwadratem). Latwo sprawdzi´c, z˙ e zbi´or ten jest przestrzenia, liniowa, nad cialem liczb rzeczywistych i z˙ e korelacja zmiennych losowych jest w tej przestrzeni iloczynem skalarnym. Dokladniej, je´sli hX, Y i := E[XY ] to spelnione sa, nastepuj ace warunki: , , (i) hX, Y i = hY, Xi; (ii) hαX + βZ, Y i = αhX, Y i + βhZ, Y i, α, β ∈ R; (iii) hX, Xi > 0 przy czym hX, Xi = 0 ⇔ X = 0 (p.w.). Warunki (i) oraz (ii) implikuja, kolejny: (iv) hX, αY + βZi = αhX, Y i + βhX, Zi, α, β ∈ R. Zauwa˙zmy, z˙ e w warunku (iii) ostatnia r´ owno´s´c zachodzi ”jedynie” prawie wszedzie, co jest pewnym odstep, , stwem od definicji iloczynu skalarnego. Latwo sprawdzi´c, z˙ e wystarczy uto˙zsami´c ze soba, zmienne losowe r´owne prawie wszedzie aby to odstepstwo omina´ z˙ adnego wplywu , , ,c. Jest to zabieg nie majacy , 2 na tre´s´c teorii. 2 Iloczyn skalarny wyznacza norme, w tej przestrzeni, mianowicie kXk := hX, Xi = E X , tzn. spelnione sa, warunki: (i) kXk > 0 przy czym kXk = 0 ⇔ X = 0 (p.w.); (ii) kαXk = |α|kXk; (iii) kX + Y k 6 kXk + kY k. Zatem drugi moment zmiennej losowej mo˙zna interpretowa´c jako kwadrat dlugo´sci wektora (elementu przestrzeni liniowej) i zgodnie z tym przestrze´ n L2 jest przestrzenia, zmiennych losowych (wektor´ow) o sko´ nczonej 2 1/2 , tzn. spelnione sa, dlugo´sci”. Z kolei norma indukuje metryke: d(X, Y ) := kX − Y k = E X − Y , ” warunki: (i) d(X, Y ) = d(Y, X), (ii) d(X, Y ) > 0 przy czym d(X, Y ) = 0 ⇔ X = Y (p.w.), (iii) d(X, Y ) 6 d(X, Z) + d(Z, Y ). Metryka ta nazywana jest odleglo´ scia, ´ sredniokwadratowa, zmiennych losowych, a zbie˙zno´s´c w tej metryce nazywana jest zbie˙zno´scia, ´sredniokwadratowa., Ciag normy k·k (tzn. w metryce d), co zapisujemy , zmiennych losowych {Xn } jest zbie˙zny do X wzgledem , 2 k·k 2 Xn −→ X, je´sli kXn − Xk = E Xn − X → 0. M´owimy w´owczas, z˙ e zmienna losowa X jest granica, ´sredniokwadratowa, ciagu Xn , co zapisujemy X = l.i.m.n Xn (rzadko spotykane). Mo˙zna pokaza´c, z˙ e zbie˙zno´s´c , ´sredniokwadratowa implikuje zbie˙zno´s´c prawie wszedzie”, ale odwrotna implikacja nie zachodzi. , ” Przestrze´ n L2 z metryka, indukowana, przez iloczyn skalarny hX, Y i = E[XY ] jest przestrzenia, zupelna,, zatem jest to przestrze´ n Hilberta. Latwo sprawdzi´c, z˙ e przestrze´ n ta zawiera zbi´or liczb rzeczywistych, tj. R ⊂ L2 . Je´sli przez L◦2 oznaczymy podprzestrze´ n przestrzeni L2 zmiennych losowych o ´sredniej 0 (latwo sprawdzi´c, z˙ e jest to podprzestrze´ n liniowa), to w´owczas L2 = L◦2 ⊕ R, tzn. ka˙zda, zmienna, losowa, X o sko´ nczonym drugim momencie mo˙zna jednoznacznie przedstawi´c jako sume, X = X ◦ + m, gdzie m = E[X] ∈ R oraz X ◦ = X − m ∈ L◦2 . Zadanie 2.17 Sprawdzi´c z˙ e: (a) hX, Y i := E[XY ] jest iloczynem skalarnym; p 1/2 (b) kXk := hX, Xi = E X 2 jest norma;, 2 1/2 (c) d(X, Y ) := kX − Y k = E X − Y jest metryka. ,
Zadanie 2.18 Podprzestrze´ n L◦2 jest ortogonalna do R. Stad, X ∈ L zachodzi , dla ka˙zdej zmiennej losowej 2 2 2 2 ◦ 2 2 ◦ 2 2 2 kXk = kX k + kmk , gdzie m = E[X]. Ponadto Var(X) = kX k = kXk − kmk = E X − E[X] . Zadanie 2.19 (a) Poka˙z, z˙ e Cov(X, Y ) = hX ◦ , Y ◦ i = hX, Y i − E[X] E[Y ]. i X jest ortogonalna do X. (b) Dla z.l. X, Y , poka˙z, z˙ e z.l. ε := Y − hX,Y kXk2
A. Kasprzyk, STATYSTYKA A
3
14
Rozklady warunkowe i warunkowe warto´ sci oczekiwane
W niniejszym rozdziale zakladamy, dla uproszczenia wywodu, z˙ e rozpatrywane zmienne losowe maja, gesto´ s´c. , Niech X, Y bed slonymi na tej samej przestrzeni probabilistycznej (Ω, F , P). , a, zmiennymi losowymi okre´ Sigma cialem generowanym przez z.l. X nazywamy klase, σ(X) zbior´ow z F takich, z˙ e ∀A ∈ σ(X) ∃B ∈ B
A = X −1 (B) = {ω : X(ω) ∈ B}.
Latwo pokaza´c, z˙ e σ(X) jest σ-cialem, i jest to najmniejsze σ-cialo zbior´ow z F wzgledem kt´orego z.l. X , jet mierzalna. Warunkowa, warto´ scia, oczekiwana, z.l. Y wzgledem z.l. X nazywamy dowolna, z.l. W spelniajac , , a, warunki: (W1) W jest σ(X) mierzalna, tj. σ(W ) ⊂ σ(X), (W2) E[W 1A ] = E[Y 1A ] dla wszystkich A ∈ σ(X). Drugi warunek zapisany w bardziej jawny spos´ob wyglada nastepuj aco , , , Z Z ∀A ∈ σ(X) W (ω)P(dω) = Y (ω)P(dω). A
A
Warunkowa warto´s´c oczekiwana z.l. Y wzgledem z.l. X jest okre´slona z dokladno´scia, do zbioru miary zero, , tzn. wszystkie funkcje spelniajace owne prawie wszedzie wzgledem miary P (z P1). , warunki (W1) i (W2) sa, r´ , , Warunkowa, warto´s´c oczekiwana, oznaczamy najcze´ s ciej przez E[Y |X]. Jej istnienia dowodzi sie, korzystajac , , z twierdzenia Radona-Nikodyma. Oto najwa˙zniejsze wlasno´sci warunkowej warto´sci oczekiwanej: 1. E[aY + bZ|X] = aE[Y |X] + bE[Z|X], a, b ∈ R; 2. E E[Y |X] = E[Y ]; 3. E[Y Z|X] = E[Y |X] Z je´sli Z jest σ(X)-mierzalny (zatem E[Y |X] = Y je´sli Y jest σ(X)-mierzalny); 4. E[Y |X] = E[Y ] je´sli X i Y sa, niezale˙zne. Ponadto, je´sli X1 jest mierzalny X2 , tzn. σ(X1 ) ⊂ σ(X2 ), to 5. E E[Y |X1 ] |X2 = E[Y |X1 ]; 6. E E[Y |X2 ] |X1 = E[Y |X1 ]. Je˙zeli z.l. X i Y maja, laczn a, gesto´ s´c f (x, y) i gesto´ sci brzegowe fX (x) i fY (y) odpowiednio, to pokazuje , , , sie, z ˙ e dla ka˙ z dego x funkcja , (3.1)
f (y|X = x) =
f (x, y) fX (x)
zmiennej y, jest r´ ownie˙z gesto´ scia, pewnej z.l., kt´ora, bedziemy oznacza´c (Y |X = x) i nazywa´c zmienna, , , losowa, Y pod warunkiem X = x. Jest to z.l. σ(Y )-mierzalna. Warto´s´c oczekiwana, tej z.l. bedziemy oznacza´c , przez E[Y |X = x], tzn. Z E[Y |X = x] ≡ E (Y |X = x) = y f (y|X = x) dy. Przy ustalonym x warto´s´c oczekiwana E[Y |X = x] jest funkcja, deterministyczna, zmiennej x zwana, funkcja, regresji z.l. Y na z.l. X (wzgledem z.l. X). Nie nale˙zy myli´c tej funkcji z regresja, liniowa,, tj. prosta, regresji ) , z.l. Y na z.l. X (por. zadanie 2.11). Funkcje, regresji nazywa sie, te˙z regresja, I-go rodzaju, w odr´oz˙ nieniu od prostej regresji, kt´ ora, nazywa sie, te˙z regresja, II-go rodzaju.
A. Kasprzyk, STATYSTYKA A
15
R Zauwa˙ z my z ˙ e E[Y |X = x] = g(x), gdzie g(x) = yf (y|X = x)dy jest przeksztalceniem borelowskim, tzn. g : R, B → R, B . Wynika stad, sli warto´s´c jaka, przyjmie w.l. X jest a priori nie znana, to funkcja , z˙ e je´ W (ω) = g X(ω) zmiennej ω ∈ Ω jest z.l. σ(X)-mierzalna,, tzn. W −1 (B) ∈ σ(X) dla ka˙zdego B ∈ B. Zatem z.l. W spelnia (W1). ´ ly dow´od pomijamy. Co wiecej, z.l. W spelnia r´ ownie˙z warunek (W2) zatem W = E[Y |X] z P1. Scis , Ograniczymy sie, jedynie do spostrze˙zenia, z˙ e je´sli A ∈ σ(X) to Z Z Z E 1A W = g(X(ω)) P(dω) = g(x) dFX (x) = E[Y |X = x] dFX (x) A X(A) X(A) Z Z Z Z y f (x, y) dy dx y f (y|X = x) dy fX (x) dx = = X(A) R X(A) R Z = Y (ω) P(dω) = E 1A Y . A
Bezpo´srednio z (3.1) mo˙zna r´ ownie˙z pokaza´c, z˙ e je´sli C ∈ B i D ∈ B to Z Z (3.2) f (y|X = x) dy fX (x) dx. P(X ∈ C, Y ∈ D) = C
D
Je´sli C = R to dostajemy nastepuj acy wz´ or na prawdopodobie´ nstwo calkowite: , , Z Z P(Y ∈ D) = f (y|X = x) dy fX (x) dx. R
D
Wz´or ten ma zastosowanie w sytuacji gdy rozklad w.l. Y zale˙zy od parametru, kt´orego warto´s´c nie jest znana. Parametr ten traktujemy w´ owczas jako wektor losowy, powiedzmy X. Nie znamy jego dokladnej warto´sci ale mo˙zemy na podstawie wcze´ s´c fX . ,c, z˙ e ma on gesto´ , sTniejszej wiedzy przyja´ Zauwa˙zmy te˙z, z˙ e kladac Z = X, Y i uog´ o lniaj ac wz´ o r (3.2) na dowolny zbi´ or E ∈ B2 mamy , , Z Z (3.3) P Z ∈ E) = f (y|X = x) dy fX (x) dx. E
Wynika stad, a, gesto´ s´c z.l. X i Y mo˙zna przedstawi´c jako iloczyn gesto´ sci warunkowej z.l. Y pod , z˙ e laczn , , , warunkiem z.l. X i gesto´ s ci brzegowej z.l. X, tzn. , f (x, y) = f (y|X = x) fX (x). Przedstawienie to nazywamy faktoryzacja, gesto´ sci w.l. Z. ,
A. Kasprzyk, STATYSTYKA A
4
16
Przeglad najwa˙zniejszych rozklad´ ow prawdopodobie´ nstwa ,
4.1
Wstep ,
W niniejszym rozdziale przedstawimy przeglad ow prawdopodobie´ nstwa na , najwa˙zniejszych ciag , lych rozklad´ prostej rzeczywistej. Podamy te˙z posta´c i najwa˙zniejsze informacje o wielowymiarowym rozkladzie normalnym. Przez i rozumiemy jednostke, urojona,, tj. i2 = −1. Funkcje charakterystyczne Dla dowolnego wektora losowego X : (Ω, F , P) → (Rn , Bn ) definiujemy jego funkcje, charakterystyczna: , h i Z (4.1) φX (t) := E eiht,Xi = eiht,xi dFX (x), t ∈ Rn . Rn
Latwo pokaza´c, z˙ e: (4.2) (4.3)
φX+Y (t) = φX (t)φY (t)
gdy X, Y niezale˙zne,
φAX+b (t) = eiht,bi φX (AT t)
gdzie A ∈ Rm×n , b, t ∈ Rm .
Zachodzi r´ownie˙z nastepuj acy wz´ or na k-ty moment mieszany wektora losowego X = (X1 , . . . Xn )T : , , h i P ∂ k φX (t) k1 kn −k (4.4) E X1 · · · Xn = i gdzie k = i ki . ∂ k1 t1 · · · ∂ kn tn t=0 Funkcja Gamma Eulera Γ(z) :=
Γ(z + 1) = z Γ(z), z ∈ R,
4.2 4.2.1
Z
∞
tz−1 e−t dt, z > 0,
0
∞, Γ(z + 1)/z,
z = 0, z < 0.
wiec Γ(n) = (n − 1)!, n = 1, 2, . . . ; ,
Γ(1/2) =
√
π;
Rozklady jednowymiarowe Rozklad Gamma G(λ, α)
∼
gλ,α (x) =
λα xα−1 e−λx , Γ(α)
x > 0,
λ, α > 0.
λ nazywamy parametrem skali, natomiast α > 0αnazywamy parametrem ksztaltu. λ Funkcja charakterystyczna: φλ,α (t) = ; λ − it α(α + 1) · · · (α + k − 1) k-ty moment: E Gk (λ, α) = ; λk α α E G(λ, α) = , Var G(λ, α) = 2 . λ λ Zwiazki z innymi rozkladami , 1. Rozklad wykladniczy: E(λ) := G(λ, 1); 2. Rozklad chi kwadrat: χ2 (ν) := G 12 , ν2 .
Γ(3/2) =
√ π/2.
A. Kasprzyk, STATYSTYKA A
17
Wlasno´ sci n n X X 1. Gj (λ, αj ) = G λ, αj ; j=1
j=1 n X
stad: ,
Ej (λ) = G(λ, n)
n X
oraz
j=1
2. a G(λ, α) = G
χ2j (νj )
2
=χ
n X
j=1 λ a,α
νj .
j=1
.
Przyklad 4.1 (Kwantyle rozkladu Gamma.) Niech Gλ,α (x) oznacza dystrybuante, rozkladu G(λ, α), tj. Gλ,α (x) = FG(λ,α) (x). W´ owczas na mocy (1.17), (1.19) oraz z wlasno´sci rozkladu gamma otrzymujemy: (4.5)
Gλ,α (x) = FG(λ,α) (x) = F 1 G(1,α) (x) = FG(1,α) (λx) = G1,α (λx), λ
−1 −1 G−1 λ,α (p) = FG(λ,α) (p) = F 1 G(1,α) (p) =
(4.6)
λ
1 −1 1 FG(1,α) (p) = G−1 (p). λ λ 1,α
Je´sli przez χ2ν (x) oznaczymy dystrybuante, rozkladu χ2 (ν), to w szczeg´olno´sci, korzystajac miedzy , ze zwiazku , , 2 rozkladem gamma i rozkladem χ , mamy: Gθ,α (x) = G1/2,2α/2 (2θx) = χ22α (2θx), 1 2 −1 1 −1 G−1 θ,α (p) = 2θ G1/2,2α/2 (p) = 2θ (χ2α ) (p).
(4.7) (4.8)
co pozwala na korzystanie z tablic dla rozkladu χ2 przy szukaniu kwantyli dla dowolnego rozkladu z rodziny gamma. J 4.2.2
Rozklad normalny N m, σ
2
(x − m)2 1 ϕm,σ2 (x) = √ exp − , 2σ 2 2πσ
∼
1
x ∈ R,
m ∈ R, σ > 0.
2 2
Funkcja charakterystyczna: φm,σ2 (t) = eitm− 2 σ t ; k-ty moment: E N 2k (0, σ 2 ) = (2k − 1)!!σ 2k , E N 2k+1 (0, σ 2 ) = 0, = 1 · 3 · · · · · (2k − 1); gdzie (2k − 1)!! = (2k)! 2k k! E N m, σ 2 = m,
Var N m, σ 2
= σ2.
Zwiazki z innymi rozkladami , 1. N
2.
2
n X
0, σ
2
1 1 =G , ; 2σ 2 2
stad ,
n X
Nj2
0, σ
j=1
2
1 n =G , ; 2σ 2 2
Nj2 (0, 1) = χ2 (n).
j=1
Wlasno´ sci 1. a N m, σ
2
2 2
+ b = N am + b, a σ ;
stad ,
N m, σ 2 − m = N (0, 1); σ
2. (Centralne Twierdzenie Graniczne Lindeberga–L´evy’ego.)
Xj
j∈N
∼ IID(m, σ 2 )
⇒
T Niech Xn = X1 , . . . , Xn .
√ Xn − m d n −→ N (0, 1), σ
n → ∞.
A. Kasprzyk, STATYSTYKA A 4.2.3
18
Rozklad t-Studenta (centralny)
∼
T (ν)
− ν+1 2 Γ ν+1 x2 2 1+ tν (x) = √ , ν ν νπ Γ 2
Funkcja charakterystyczna: skomplikowana; (2k − 1)!! ν k k-ty moment: E T 2k (ν) = , 2k < ν; (ν − 2)(ν − 4) · · · (ν − 2k) E T (ν) = 0, ν > 1, Var T (ν) =
x ∈ R,
ν > 0.
E T 2k+1 (ν) = 0 , ν , ν−2
2k + 1 < ν;
ν > 2.
Zwiazki z innymi rozkladami , N (0, 1) 1. T (n) = q ; 1 2 χ (n) n 2. T (1) = C(0, 1) — rozklad Cauchy’ego z parametrami 0,1. Wlasno´ sci d
1. T (n) −→ N (0, 1); z przybli˙zenia rozkladem normalnym mo˙zna korzysta´c dla n > 30; 2.
n X
Tj (νj ) = T
j=1
4.2.4
n X
νj .
j=1
Rozklad F
(Rozklad Fishera-Snedecora, F-Snedecora, F-Fishera) α/2 α+β Γ α+β α α − 2 α/2−1 2 1 + , F (α, β) ∼ fα,β (x) = x x β β Γ α2 Γ β2
x > 0,
Funkcja charakterystyczna: skomplikowana; k Γ α2 + k Γ β2 − k β k k-ty moment: E F (α, β) = , k < β/2 ; Γ α2 Γ β2 αk 2β 2 (α + β − 2) β E F (α, β) = , β > 2, Var F (α, β) = , β−2 α(β − 4)(β − 2)2 Zwiazki z innymi rozkladami , χ2 (α)/α = F (α, β). χ2 (β)/β p 2. F (1, n) = T (n). 1.
3.
1 ln F (α, β) = Z(α, β) — rozklad Z-Fishera. 2
Wlasno´ sci 1 1. = F (β, α); F (α, β) 2.
F (α, β) − α+β 2αβ
α−β 2αβ
d
−→ N (0, 1),
α, β → ∞;
z przybli˙zenia rozkladem normalnym mo˙zna korzysta´c dla α, β > 30;
α, β > 0.
β > 4.
A. Kasprzyk, STATYSTYKA A
4.3
19
Rozklad normalny n-wymiarowy N m, Σ
∼
ϕm,Σ (x) =
1 (2π)n/2 |Σ|1/2 m ∈ Rn ,
1 T −1 exp − (x − m) Σ (x − m) , 2 Σ ∈ Rn×n ,
x ∈ Rn ,
Σ > 0,
gdzie przez Σ > 0 rozumiemy, z˙ e macierz jest symetryczna nieujemnie okre´ slona. Je´sli Σ jest nieosobliwa to m´ owimy, z˙ e rozklad normalny N m, Σ jest nieosobliwy, w przeciwnym wypadku m´owimy o rozkladzie normalnym osobliwym. Funkcja charakterystyczna
ϕm,Σ (t) = exp iht, mi − 21 tT Σt .
E N m, Σ = m,
Cov N m, Σ = Σ.
Zwiazki z innymi rozkladami , 1. X ∼ N m, Σ ⇒ (X − m)T Σ−1 (X − m) ∼ χ2 (n). Wlasno´ sci 1. AN m, Σ + b = N Am + b, AΣAT , gdzie A ∈ Rn×n , b ∈ Rn . 2. (Twierdzenie Fishera.) X ∼ N m1, σ 2 I ⇒ S 2 (X), X — niezale˙zne.
⇒
n 2 S (X) ∼ χ2 (n − 1), σ2
4. X ∼ N (m1, σ 2 I)
⇒
X−m √ p n − 1 ∼ T (n − 1). S 2 (X)
3. X ∼ N m1, σ 2 I
4.4
X ∼ N m, σ 2 /n .
Zadania
Zadanie 4.1 W.l. X = (X1 , X2 )T ma gesto´ s´c fX i dystrybuante, FX . Wyznacz gesto´ sci i dystrybuanty laczne , , , i brzegowe zmiennych losowych Y1 = X1 X2 , Y2 = X1 /X2 . Zadanie 4.2 Niech U1 i U2 bed , a, niezale˙znymi zmiennymi losowymi o rozkladzie jednostajnym na odcinku [0, 1], tj. U1 , U2 ∼ U (0, 1). (a) Wyznacz gesto´ sci i dystrybuanty laczne i brzegowe zmiennych losowych V1 = U1 + U2 , V2 = U1 − U2 . , , (b) Wyznacz gesto´ s ci i dystrybuanty l aczne i brzegowe zmiennych losowych V1 = U1 U2 , V2 = U1 /U2 . , , Zadanie 4.3 Podaj przyklad gesto´ sci na kwadracie [0, 1]2 takiej, z˙ e gesto´ sci brzegowe maja, rozklad jedno, , stajny na odcinku [0, 1], ale odpowiadajace im zmienne losowe nie sa, niezale˙zne. Przeprowad´z faktoryzacje, , tej gesto´ s ci. , Zadanie 4.4 Udowodnij wzory na ´srednia,, wariancje, i og´olnie, na k-ty moment rozkladu Gamma. Zadanie 4.5 Podaj wz´ or na gesto´ s´c i dystrybuante, rozkladu wykladniczego. , Wyprowad´z wz´or na k-ty moment tego rozkladu bezpo´srednio z definicji (nie korzystajac , ze wzoru na k-ty moment rozkladu Gamma). Udowodnij wlasno´s´c braku pamieci rozkladu wykladniczego, tj. poka˙z, z˙ e je´sli X ma rozklad wykladniczy to , P(X > a + b|X > b) = P(X > a). Zadanie 4.6 Wyprowad´z wz´ or na gesto´ s´c rozkladu χ2 . ,
A. Kasprzyk, STATYSTYKA A
20
Zadanie 4.7 (a) Udowodnij wlasno´s´c 1. rozkladu Gamma. (b) Udowodnij wlasno´s´c 2. rozkladu Gamma. Zadanie 4.8 Bezpo´srednio z definicji poka˙z, z˙ e E N m, σ 2 = m oraz Var N m, σ 2 = σ 2 . Wyprowad´z wz´or na k-ty moment rozkladu normalnego ze ´srednia, 0. Zadanie 4.9 (a) Udowodnij zwiazek 1. rozkladu normalnego z rozkladem Gamma. , (b) Udowodnij zwiazek 2. rozkladu normalnego z rozkladem χ2 . , Zadanie 4.10 Udowodnij wlasno´s´c 1. rozkladu normalnego. Zadanie 4.11 Poka˙z, z˙ e je´sli X1 i X2 sa, niezale˙zne o rozkladzie N 0, σ 2 to X12 + X22 ∼ E 1/2σ 2 . Zadanie 4.12 Wyprowad´z wz´ or na ´srednia, i wariancje, centralnego rozkladu t-Studenta. Zadanie 4.13 (a) Udowodnij zwiazek 1. rozkladu t-Studenta z rozkladem normalnym. , (b) Podaj gesto´ s ´ c i dystrybuant e, rozkladu Cauchy’ego z parametrami 0 i 1. Czy rozklad ten posiada ´srednia, , i wariancje? , Zadanie 4.14 (a) Udowodnij wlasno´s´c 1. rozkladu t-Studenta. (b) Udowodnij wlasno´s´c 2. rozkladu t-Studenta. Zadanie 4.15 Uzasadnij wzory na ´srednia, i kowariancje, rozkladu F-Fishera. Zadanie 4.16 (a) Udowodnij zwiazek 1. rozkladu F-Fishera z rozkladem χ2 . , (b) Udowodnij zwiazek 2. rozkladu F-Fishera z rozkladem t-Studenta. , Zadanie 4.17 Uzasadnij wlasno´s´c 1. rozkladu F-Fishera. Rozklad normalny 2 Zadanie 4.18 Zmienna losowa X ma rozklad logarytmicznie normalny z parametrami m, σ je´sli ln X ∼ 2 2 2 N m, σ , lub r´ownowa˙znie, je´sli X = exp{N m, σ }. Piszemy w´owczas X ∼ LN m, σ . Znajd´z gesto´ s´c , i dystrybuante, tego rozkladu oraz wzory na jego ´srednia, i wariancje. ,
T Zadanie 4.19 Poka˙z, z˙ e je´sli wektor losowy X = (X1 , X2 ) ma nieosobliwy rozklad normalny N m, Σ , gdzie Σ = σij i,j=1,2 , to jego gesto´ s´c jest postaci , 1 1 (x1 − m1 )2 (x1 − m1 )(x2 − m2 ) (x2 − m2 )2 f (x1 , x2 ) = p exp − − 2ρ + , √ 2(1 − ρ2 ) σ11 σ11 σ22 σ22 2π σ11 σ22 (1 − ρ2 ) gdzie mj = E[Xj ], ρ jest wsp´ olczynnikiem korelacji miedzy zmiennymi X1 i X2 oraz σjj = Var(Xj ), j = 1, 2. , Zadanie 4.20 Dla w.l. Z = (X, Y )T o nieosobliwym rozkladzie normalnym przeprowad´z faktoryzacje, jego gesto´ sci, tzn. laczn a, gesto´ s´c f (x, y) w.l. Z przedstaw w postaci f (x, y) = f (y|X = x) fX (x) gdzie f (y|X = x) , , , jest gesto´ s ci a z.l. (Y |X = x), natomiast fX (x) jest gesto´ s´c brzegowa, z.l. X. , , , Zadanie 4.21 Poka˙z, z˙ e w przypadku dwuwymiarowego w.l. o rozkladzie normalnym funkcja regresji I-go rodzaju jest r´owna funkcji regresji II-go rodzaju.
A. Kasprzyk, STATYSTYKA A
21
Zadanie 4.22 Dla wektora losowego X = (X1 , X2 )T o nieosobliwym rozkladzie normalnym N m, Σ znajd´z takie przeksztalcenie liniowe B : R2 → R2 postaci BX = BX + b, gdzie B ∈ R2×2 , b ∈ R2 , aby wektor losowy Y = BX mial rozklad N 0, I . ´ wka: macierz Σ jest symetryczna dodatnio okre´slona zatem istnieje jej reprezentacja spektralna Wskazo Σ = HΛHT . Λ jest macierza, diagonalna, majac warto´sci wlasne macierzy Σ, natomiast , a, na przekatnej , kolumny macierzy H sa, odpowiadajacymi im prawostronnymi wektorami wlasnymi macierzy Σ. Ponadto , T −1 H =H . Zadanie 4.23 Niech wektor losowy (X, Y )T ma rozklad normalny N 0, Σ gdzie Σ = σij i,j=1,2 , σjj = 1, σ12 = ρ, |ρ| < 1. Poka˙z, z˙ e gesto´ s´c tego rozkladu jest stala na elipsach , x2 − 2ρxy + y 2 = C. Udowodnij, z˙ e je´sli ρ > 0, to du˙za o´s elipsy tworzy z osia, 0x kat sli ρ < 0, to kat , π/4, a je´ , ten wynosi 3π/4. Znajd´z w obu przypadkach dlugo´s´c osi elipsy. √ √ ´ wka: dokonaj zamiany zmiennych x = (u − v)/ 2, y = (u + v)/ 2. Wskazo Zadanie 4.24 Niech Xj ∼ N mj , σj2 , j = 1, . . . , n, gdzie z.l. Xj sa, niezale˙zne. Poka˙z, ze laczna gesto´ s´c , , T w.l. X = (X1 , . . . , Xn ) jest postaci n n −1/2 o n 1X Y ϕ(x) = (2π)n σj2 (xj − mj )2 /σj2 exp − 2 j=1 j=1 −1/2 n 1 T o exp − x − m D−1 x − m , = (2π)n D 2 T T 2 gdzie x = (x1 , . . . , xn ) , m = (m1 , . . . , mn ) , D = diag σ1 , . . . , σn2 .
Zadanie 4.25 Uzupelnij poni˙zsza, tabelke, sci kwantyli rzedu p dla odpowiednich , wypisujac , z tablic warto´ , rozklad´ow. p 0.01 0.05 0.1 0.9 0.95 0.99 N (0, 1) N (2, 4) T (5) T (30) χ2 (7) G(2, 6) E(5) F (5, 8) Zadanie 4.26 Niech X ∼ N m, σ 2 . 2 (a) Znajd´z z wiedzac, , z˙ e P(|X| > z) = 0.71 oraz m = 0, σ = 1. 2 (b) Znajd´z m wiedzac, , z˙ e P(X < 31) = 0.65 oraz σ = 25. Zadanie 4.27 Niech X1 , . . . , Xn bedzie ciagiem niezale˙znych zmiennych losowych o jednakowych rozkla, , dach, o ´sredniej m i wariancji σ 2 , tj. {Xj } ∼ IID m, σ 2 . Dla wektora losowego X = (X1 , . . . , Xn )T niech 2 P P P X := n1 j Xj , X2 := n1 j Xj2 oraz S 2 (X) := n1 j Xj − X . Poka˙z, z˙ e (a) EX = m, VarX = σ 2 /n; 2 (b) S 2 (X) = X2 − X ; 2 (c) ES 2 (X) = n−1 n σ . (d) Znajd´z macierz B dla kt´ orej S 2 (X) = XT BX. Zadanie 4.28 Udowodnij zwiazek 1. wielowymiarowego rozkladu normalnego N m, Σ z rozkladem χ2 . , ´ wka: Je´sli Σ jest macierza, symetryczna, nieujemnie okre´slona, to istnieje macierz kwadratowa S Wskazo −1 (istnieje, je´ taka, z˙ e rzad owny rzedowi macierzy Σ oraz Σ = S ST . Oznaczajac sli , macierzy S jest r´ , , Z=S −1 − T −1 T Σ jest pelnego rzedu) dostajemy Σ = S S oraz ZΣZ = I. (Por. zadanie 4.22) ,
A. Kasprzyk, STATYSTYKA A
5
22
Twierdzenia graniczne
5.1
Typy zbie˙zno´ sci zmiennych losowych
Definicja 5.1 Rozwa˙zmy ciag orych ka˙zda ma dystrybuante, Fn , oraz z.l. Z o dystrybu, ciag , z.l. {Zn }, z kt´ ancie F . M´owimy z˙ e ciag z.l. {Z } jest zbie˙ z ny wed lug rozkladu do z.l. Z je´sli n , lim Fn (x) = F (x)
n→∞
dla wszystkich x ∈ DF ,
gdzie DF jest zbiorem punkt´ ow, w kt´ orych dystrybuanta F jest ciag s´c wg. rozkladu nazywamy , la. Zbie˙zno´ te˙z slaba, zbie˙zno´scia, i oznaczamy F
Zn −→ Z
d
lub Zn −→ Z
L
lub Zn −→ Z.
Zauwa˙zmy, z˙ e zbi´or punkt´ ow nieciag sci dowolnej dystrybuanty F t.j. zbi´or R \ DF mo˙ze by´c zbiorem co , lo´ najwy˙zej przeliczalnym zatem je´sli zachodzi slaba zbie˙zno´s´c {Zn } do Z to limn→∞ Fn (x) = F (x) dla prawie wszystkich x ∈ R (wszystkich z wyjatkiem zbioru miary 0 w mierze Lebesgue’a). , Zwr´o´cmy jeszcze uwage, na fakt, z˙ e w powy˙zszej definicji nie musimy zaklada´c z˙ e wszystkie z.l. Zn oraz Z sa, okre´slone na tej samej przestrzeni probabilistycznej, badamy bowiem jedynie zachowanie ich dystrybuant. Inaczej jest w przypadku kolejnych dw´ och typ´ow zbie˙zno´sci wymagajacych zalo˙zenia z˙ e ciag , , z.l. {Zn } oraz z.l. Z sa, okre´slone na tej samej przestrzeni probabilistycznej (Ω, F , P). Definicja 5.2 M´owimy, z˙ e ciag nstwa do z.l. Z je´sli , z.l. {Zn } jest zbie˙zny wedlug prawdopodobie´ n ∀ε > 0 P Zn − Z > ε ≡ P ω : Zn (ω) − Z(ω) > ε −→ 0. (5.1) Zbie˙zno´s´c wg. prawdopodobie´ nstwa ( wg. P”) nazywamy te˙z zbie˙zno´scia, stochastyczna, i oznaczmy ja, sym” bolicznie P Zn −→ Z. Latwo pokaza´c, z˙ e zbie˙zno´s´c wg. P implikuje zbie˙zno´s´c wg. rozkladu natomiast odwrotna implikacja zachodzi jedynie wtedy gdy wszystkie Zn oraz Z sa, okre´slone na tej samej przestrzeni probabilistycznej oraz P Zn −→ Z = c = const, tj. gdy Z jest zdegenerowana, z.l. przyjmujac s´c c z prawdopodobie´ n, a, stala, warto´ stwem 1. Definicja 5.3 M´owimy, z˙ e ciag nstwem 1 do z.l. Z je´sli , z.l. {Zn } jest zbie˙zny z prawdopodobie´ (5.2) P Zn → Z ≡ P ω : Zn (ω) → Z(ω) = 1, tzn. zbi´or punkt´ow ω dla kt´ orych Zn (ω) jest zbie˙zny do Z(ω) ma miare, 1 (w mierze P) sa, to wiec , prawie wszystkie punkty przestrzeni Ω (tj. wszystkie za wyjatkiem pewnego ich podzbioru miary 0). Innymi slowy , prawie wszedzie zachodzi zbie˙zno´s´c punktowa i stad sci nazywamy te˙z zbie˙zno´scia, prawie , , ten rodzaj zbie˙zno´ wszedzie (p.w.) lub prawie na pewno (ang. almost everywhere (a.e.), almost surely (a.s.)) i oznaczamy , P1
Zn −→ Z
p.w.
lub Zn −→ Z
a.s.
lub Zn −→ Z
a.e.
lub Zn −→ Z.
Zbie˙zno´s´c z P1 mo˙zna r´ ownowa˙znie zdefiniowa´c w nastepuj acy spos´ob: , , P ω : Zn (ω) 9 Z(ω) = 0. Oczywi´scie zbie˙zno´s´c z P1 implikuje zbie˙zno´s´c wg. P i jest to istotnie silniejszy typ zbie˙zno´sci, tzn. odwrotna implikacja nie zachodzi co ilustruje poni˙zszy kontrprzyklad.
A. Kasprzyk, STATYSTYKA A
23
Przyklad 5.1 Niech Ω = [0, 1], F = B[0,1] (zbiory borelowskie na odcinku [0, 1]), oraz P = U [0, 1] (rozklad jednostajny na odcinku [0, 1]). Zmienne losowe Zn definiujemy nastepuj aco , , 1 dla ω ∈ 21k (n − 2k , n − 2k + 1] gdy 2k 6 n < 2k+1 , k = 0, 1, . . . Zn = 0 poza. Je´sli Z := 0 (tj. Z(ω) := 0 dla ka˙zdego ω ∈ Ω) to dla 2k 6 n < 2k+1 , k = 0, 1, . . . , mamy P |Zn − Z| = 1 = P |Zn | = 1 = 2−k , P |Zn − Z| = 0 = P |Zn | = 0 = 1 − 2−k . P
Zatem dla ka˙zdego ε zachodzi warunek (5.1) co oznacza, z˙ e Zn → Z = 0. Jednak zbie˙zno´s´c z P1 nie zachodzi bowiem ∀ω ∃ε ∀N ∃n > N Zn (ω) − Z(ω) > ε, tzn. Zn nie jest zbie˙zny punktowo do 0 w z˙ adnym punkcie ω ∈ Ω. Dla ustalonego ε < 1 we´zmy dowolne ω ∈ (0, 1). W´owczas dla ka˙zdego N i k takiego, z˙ e N < 2k , istnieje takie n, z˙ e ω ∈ 2−k (n − 2k , n − 2k + 1]; z definicji Zn wynika, z˙ e Zn (ω) − Z(ω) = Zn (ω) = 1 > ε. J Na podstawie wcze´sniejszych obserwacji mo˙zemy sformulowa´c nastepuj ace: , , Twierdzenie 5.1 Miedzy wymienionymi typami zbie˙zno´sci zachodza, nastepuj ace zwiazki , , , , P1
Zn −→ Z
P
⇒
Zn −→ Z d
Zn −→ c = const Twierdzenie 5.2 (Twierdzenie Sluckiego.)
⇒ ⇒
d
Zn −→ Z, P
Zn −→ c.
d
P
Je˙zeli Xn −→ X oraz Yn −→ c = const to
d
(i) Xn + Yn −→ X + c, d
(ii) Xn Yn −→ cX, d
(iii) Xn /Yn −→ X/c, o ile c 6= 0.
5.2
Podstawowe nier´ owno´ sci
Je´sli z.l. X ma sko´ nczony r-ty moment to bedziemy pisa´c X ∈ Lr . W szczeg´olno´sci, je´sli istnieje sko´ nczony , drugi moment (X jest calkowalna z kwadratem), a wiec ownie˙z VarX < ∞, to piszemy X ∈ L2 . Podobnie, , r´ X ∈ L1 oznacza calkowalna, z.l. wiec E|X| < ∞. , Twierdzenie 5.3 (Nier´ owno´s´c Markowa.) (5.3)
Je´sli r, t ∈ R+ oraz Z ∈ Lr to
E|Z|r . P |Z| > t 6 tr
Niech Y := |Z|r , a := tr . Wtedy Y ∈ L1 jest nieujemna, z.l. oraz EY = E Y 1(Y >a) + E Y 1(Y 6a) > E Y 1(Y >a) > aP Y > a co oznacza, z˙ e P |Z|r > tr 6 E|Z|r /tr , ale P |Z|r > tr = P |Z| > t zatem twierdzenie jest udowodnione. ´ d. Dowo
Twierdzenie 5.4 (Nier´ owno´s´c Czebyszewa.) (5.4)
Je´sli X ∈ L2 to
VarX P X − EX 6 t > 1 − . t2
A. Kasprzyk, STATYSTYKA A ´ d. Dowo
24
W nier´ owno´sci Markowa, kladziemy Z := (X − EX) oraz r = 2 co daje VarX P X − EX > t 6 t2
(5.5)
Biorac owno´s´c Czebyszewa. Oczywi´scie (5.4) implikuje r´ownie˙z (5.5) , zdarzenie przeciwne dostajemy nier´ zatem wzory te sa, r´ ownowa˙zne. √ Wniosek 5.1 (Regula 3 sigm.) Kladac owno´sci Czebyszewa t = 3σ gdzie σ = VarX dostajemy , w nier´ P X − EX 6 3σ > 8/9, zatem dla dowolnej zmiennej losowej majacej sko´ nczony drugi moment 8/9 jej masy” znajduje sie, nie dalej , ” ni˙z 3σ od jej ´sredniej, tzn. z prawdopodobie´ nstwem co najmniej 8/9 z.l. X przyjmie warto´s´c z przedzialu [EX − 3σ, EX + 3σ]. W nier´owno´sci Czebyszewa jedynym zalo˙zeniem jest istnienie drugiego momentu z.l. jest to wiec ow, nier´ no´s´c bardzo uniwersalna, w zwiazku z czym nie mo˙ z na oczekiwa´ c od niej du˙ z ej dok ladno´ s ci w szacowaniu , prawdopodobie´ nstwa pewnych zdarze´ n. Niemniej jednak pojawia sie, ona w dowodach wielu twierdze´ n i jest podstawowym narzedziem slu˙zacym do badania zbie˙zno´sci wg. prawdopodobie´ nstwa. , ,
5.3
Prawa Wielkich Liczb
Niech ciag slone na tej samej przestrzeni probabilistycznej , z.l. {Xk }, k = 1, 2, . . . , oraz z.l. X b ed , a, okre´ (Ω, F , P). Bedziemy dalej u˙ z ywa´ c nast epuj acych oznacze´ n : , , , T Xn := X1 , . . . , Xk , n X Sn := Xk = 1Tn Xn , k=1
1 Xn := Sn . n Wektor Xn nazywamy pr´ oba, rozmiaru n natomiast z.l. Xn nazywamy ´ srednia, z pr´ oby (rozmiaru n) lub ´ srednia, pr´ obkowa. , Definicja 5.4 M´owimy, z˙ e dla ciagu z.l. {Xk } zachodzi slabe prawo wielkich liczb (SPWL) je´sli , P 1 Sn − ESn −→ 0, tzn. ∀ ε > 0 lim P n1 Sn − ESn < ε = 1, n → ∞. n n Je˙zeli EXk = EX = m, k = 1, 2, . . . , to powy˙zszy warunek jest r´ownowa˙zny P
X −→ m,
tzn. ∀ ε > 0
lim P Xn − m < ε = 1,
n → ∞.
n
Poni˙zej przedstawiamy twierdzenia, w kt´orych sa, podane warunki dostateczne na to aby dla ciagu z.l. , zachodzilo SPWL. Zauwa˙zmy, z˙ e nie zawsze wymagamy aby ciag z.l. {X } by l IID (ang. Independent Idenk , tically Distributed, tj. ciag niezale˙ z nych z.l. o identycznych rozk ladach). , Przyklad 5.2 Niech Xk , k = 1, 2, . . . , bedzie ciagiem niezale˙znych zmiennych losowych o jednakowym roz, , kladzie b(1, p). Dla p = 1/2 oraz n = 1000 oszacowa´c P Sn ∈ (450, 550) . Rozwiazanie: Wiemy, z˙ e Sn ∼ b(1000, 1/2) zatem ESn = 500, VarSn = np(1 − p) owno´sci , = 250. Z nier´ 250 Czebyszewa dostajemy P |Sn − 500| > 50 6 2500 = 1/10, zatem P Sn ∈ (450, 550) > 9/10. Zauwa˙zmy jeszcze, z˙ e stosujac , regule, 3 sigm dostajemy P Sn ∈ (452, 548) > 8/9. J Twierdzenie 5.5 (PWL Bernoulli’ego.) Bernoulli’ego zachodzi SPWL.
P
Je´sli {Xk } ∼ IID, b(1, p) to X −→ p. Innymi slowy, dla pr´ ob
A. Kasprzyk, STATYSTYKA A ´ d. Dowo
25
Korzystajac owno´sci Czebyszewa dostajemy , z nier´ p(1 − p) np(1 − p) =1− −→ 1. P Snn − p < ε = P Sn − np < nε > 1 − 2 2 n ε nε2 n→∞
Twierdzenie 5.6 (PWL Markowa.) Dla ciagu z.l. {Xk } spelniajacych warunki: , , (i) Xk ∈ L2 , (ii) VarXn = n12 VarSn → 0 (warunek Markowa), P zachodzi SPWL, tzn. n1 Sn − ESn −→ 0. ´ d. Dowo
Korzystajac owno´sci Czebyszewa dostajemy , z nier´ P Snn −
ESn n
VarSn 1 > ε = P Sn − ESn > nε 6 2 2 = 2 VarXn −→ 0. n→∞ n ε ε
Przyklad 5.3 Je´sli Sn ∼ b(n, p) to VarSn = np(1 − p) wiec , VarXn = Zatem z PWL Markowa wynika PWL Bernoulli’ego. J
1 VarSn n2
=
p(1−p) n
→ 0 gdy n → ∞.
Twierdzenie 5.7 (PWL Czebyszewa.) Dla ciagu z.l. {Xk } zachodzi SPWL je´sli spelnione sa, warunki , (i) Xk ∈ L2 , (ii) ∀k σk2 = VarXk 6 σ 2 (jednostajnie ograniczone wariancje), (iii) Xk sa, nieskorelowane, tj. Cov(Xj , Xk ) = 0 dla j 6= k. P ´ d. Je´sli z.l. Xk sa, nieskorelowane to VarSn = nk=1 σk2 6 nσ 2 . Stad Dowo , wynika, z˙ e VarXn = σ2 n → 0 zatem spelniony jest warunek Markowa i zachodzi SPWL.
1 VarSn n2
=
Twierdzenie 5.8 (PWL Bernsteina.) Dla ciagu z.l. {Xk } zachodzi SPWL je´sli spelnione sa, warunki , (i) Xk ∈ L2 , (ii) ∀k σk2 = VarXk 6 σ 2 , (iii) ρjk = Corr(Xj , Xk ) → 0, gdy |j − k| → ∞. ´ d pozostawiamy jako zadanie 5.1. Dowo Twierdzenie 5.9 (PWL Chinczyna.) (i) Xk ∈ L1 , (ii) {Xk } ∼ IID.
Dla ciagu z.l. {Xk } zachodzi SPWL je´sli spelnione sa, warunki ,
´ d pomijamy. Do jego przeprowadzenia potrzebna jest znajomo´s´c funkcji charakterystycznych. Dowo Zauwa˙zmy, z˙ e spo´sr´ od powy˙zszych twierdze´ n, wystarczy pamieta´ , c PWL Markowa i PWL Chinczyna. Twierdzenia Bernoulli’ego, Czebyszewa i Bernsteina sa, konsekwencja, PWL Markowa. Z kolei PWL Chinczyna r´oz˙ ni sie, zasadniczo od wcze´sniejszych bowiem z jednej strony oslabiamy zalo˙zenie i domagamy sie, istnienia jedynie ´sredniej zmiennych losowych (wariancja mo˙ze by´c niesko´ nczona), jednak z drugiej strony z˙ adamy aby z.l. byly niezale˙zne o identycznych rozkladach co jest istotnie silniejszym zalo˙zeniem ni˙z warunek , (ii) w PWL Markowa. Okazuje sie, jednak, z˙ e przy zalo˙zeniach twierdzenia Chinczyna ({Xk } sa, IID i calkowalne) mo˙zna udowodni´c mocniejsze twierdzenie, a mianowicie zbie˙zno´s´c z P1. Natomiast tezy twierdzenia Markowa nie da sie, wzmocni´c bez zmiany zalo˙ze´ n. Traktuja, o tym dwa twierdzenia Kolmogorowa zaliczane do mocnych praw wielkich liczb.
A. Kasprzyk, STATYSTYKA A
26
Definicja 5.5 M´owimy, z˙ e dla ciagu z.l. {Xk } zachodzi mocne prawo wielkich liczb (MPWL) (ang. Strong , Low of Large Numbers (SLLN)) je´sli P1 1 Sn − ESn −→ 0, tzn. P n
1 n
Sn − ESn → 0 = 1,
n → ∞.
Je˙zeli EXk = EX = m, k = 1, 2, . . . , to powy˙zszy warunek jest r´ownowa˙zny P1
X −→ m,
tzn. P Xn → m = 1,
n → ∞.
Dla ciagu z.l. {Xk } spelniajacych warunki: , ,
Twierdzenie 5.10 (I PWL Kolmogorowa.) (i) Xk ∈ L2 , (ii) {Xk } sa, niezale˙zne, P∞ σk2 (iii) k=1 k2 < ∞, P1 zachodzi MPWL, tzn. n1 Sn − ESn −→ 0.
Wniosek 5.2 Ciag , niezale˙znych z.l. o jednostajnie ograniczonych wariancjach spelnia MPWL (por. PWL Czebyszewa). Twierdzenie 5.11 (II PWL Kolmogorowa.) (i) Xk ∈ L1 , (ii) {Xk } sa, niezale˙zne, (iii) {Xk } maja, identyczne rozklady,
Dla ciagu z.l. {Xk } spelniajacych warunki: , ,
P1
zachodzi MPWL, tzn. Xn −→ m, gdzie m := EXk . Innymi slowy: dla ciagu {Xk } ∼ IID calkowalnych z.l. zachodzi MPWL. ,
P1
Ponadto, prawdziwe jest twierdzenie odwrotne: je´sli {Xk } ∼ IID i zachodzi zbie˙zno´s´c Xn −→ m, to Xk ∈ L1 , przy czym m = EXk .
5.4
Twierdzenia graniczne dla pr´ ob Bernoulli’ego
Twierdzenie 5.12 (Twierdzenie Graniczne de Moivre’a-Laplace’a.) p √ Niech {Xk } ∼ IID, b(1, p), 0 < p < 1; w´ owczas Sn ∼ b(n, p), µn := ESn = np, σn := VarSn = np(1 − p). 2/3 Lokalne TG (nieformalnie.) Dla du˙zych n, i k ∈ {0, 1, . . . , n} takich, z˙ e |k − µn | = o σn mamy (5.6)
n 1 (k − µ )2 o 1 n exp − 2 σn2 2πσn 1 k − µn = ϕ = ϕµn ,σn2 (k), σn σn
P(Sn = k) ≈ √
gdzie ϕm,σ2 (x) jest gesto´ scia, rozkladu normalnego ze ´srednia, m i wariancja, σ 2 , natomiast ϕ(x) ≡ ϕ0,1 (x) , jest gesto´ scia, standardowego rozkladu normalnego. , Centralne TG (5.7)
X −p Sn − µ n d p n = −→ N (0, 1), σn p(1 − p)/n
n → ∞.
Uwaga 5.1 W cze´ o zbie˙zno´sci funkcji praw, sci ”lokalnej” twierdzenia de Moivre’a-Laplace’a (tj. orzekajacej , 2/3 dopodobie´ nstwa dla pr´ ob Bernoulli’ego do gesto´ sci rozkladu normalnego) warunek |k−µn | = o σn nale˙zy , k−µn intuicyjnie rozumie´c w ten spos´ ob, z˙ e wielko´s´c σn nie powinna przybiera´c warto´sci ekstremalnych. W praktyce oznacza to, z˙ e TG de Moivre’a-Laplace’a mo˙ze dawa´c bledne szacowania je´sli p jest bardzo male tj. , bliskie 0 (lub bardzo du˙ze, tj. bliskie 1), lub gdy k przybiera skrajne warto´sci ze zbioru {0, 1, . . . , n}.
A. Kasprzyk, STATYSTYKA A
27
Przyklad 5.4 Tak jak w przykladzie (5.2) chcemy oszacowa´c P |Sn − ESn | < 50 = P Sn ∈ (450, 550) , gdy Sn ∼ b(n, p), n = 1000, p = 1/2. Zauwa˙zmy, z˙ e dokladna warto´s´c tej wielko´sci wynosi 549 X 1000 P Sn ∈ (450, 550) = 2−1000 , k k=451
co bez pomocy komputera jest praktycznie nie do obliczenia. W przykladzie (5.2) przy szacowaniu tego prawdopodobie´ nstwa poslu˙zyli´smy sie, nier´ owno´scia, Czebyszewa, kt´ora ze wzgledu na swa, uniwersalno´s´c daje , niezbyt dokladne szacowania. Korzystajac , z TG de Moivre’a-Laplace’a dostajemy znacznie dokladniejszy wynik: 450 − 500 Sn − 500 550 − 500 √ P Sn ∈ (450, 550) = P 450 < Sn < 550 = P < √ < √ 250 250 250 Sn − 500 ≈ P 3.16 < √ < 3.16 = Φ(3.16) − Φ(−3.16) = 2Φ(3.16) − 1 250 ≈ 2 · 0.999 − 1 = 0.998. Oznacza to, z˙ e przy tysiacu pr´ ob Bernoulli’ego z prawdopodobie´ nstwem sukcesu 1/2 mo˙zemy by´c niemal , pewni, z˙ e liczba sukces´ ow znajdzie sie, w przedziale (450, 550) — prawdopodobie´ nstwo z˙ e bedzie ich mniej , ni˙z 450 lub wiecej ni˙z 550 wynosi zaledwie 0.002 (korzystajac owno´sci Czebyszewa dostali´smy jedynie , , z nier´ g´orne ograniczenie tego prawdopodobie´ nstwa przez 1/10 a wiec wielko´ s´c 50 razy wieksz a!). J , , , Je´sli p jest bliskie 0, tj. prawdopodobie´ nstwo zaj´scia pewnego zdarzenia (sukcesu) jest bardzo male, lepsze przybli˙zenie uzyskujemy korzystajac z Twierdzenia Poissona. , Twierdzenie 5.13 (Twierdzenie Poissona.) (5.8)
Je´sli Sn ∼ b(n, pn ) oraz npn → λ, gdy n → ∞, to
P(Sn = k) −→
λk −λ e , k!
n → ∞.
Przyklad 5.5 (a) Niech Sn ∼ b(100, 1/10). W´ owczas ESn = 10, VarSn = 9. Korzystajac , z lokalnego twierdzenia granicznego (LTG) de Moivre’a-Laplace’a dostajemy szacowanie 1 10 − 10 1 P(Sn = 10) = ϕ = ϕ(0) ≈ 0.399/3 = 0.133. 3 3 3 1 Korzystajac , z kolei z twierdzenia Poissona kladziemy λ = npn = 100 10 = 10 skad ,
P(Sn = 10) =
1010 −10 70.937 e ≈ = 0.1251. 10! 567
Prawdziwa warto´s´c (obliczona w Matlabie) wynosi P(Sn = 10) = 0.1319, wiec , w tym przypadku uzyskujemy lepsze przybli˙zenie korzystajac z twierdzenia de Moivre’a-Laplace’a. , (b) Niech Sn ∼ b(100, 1/100). W´ owczas ESn = 1, VarSn = 0.99. Korzystajac , z LTG de Moivre’a-Laplace’a dostajemy szacowanie 3−1 1 ϕ √ ≈ ϕ(2 · 1.005)1.005 = 0.0529 · 1.005 = 0.0532. P(Sn = 3) = √ 0.99 0.99 1 Korzystajac , z kolei z twierdzenia Poissona kladziemy λ = npn = 100 100 = 1 skad ,
P(Sn = 3) =
13 −1 1 e = ≈ 0.0613. 3! 6e
Prawdziwa warto´s´c (obliczona w Matlabie) wynosi P(Sn = 3) = 0.0610, a wiec , szacowanie z u˙zyciem twierdzenia Poissona jest w tym przypadku znacznie dokladniejsze ni˙z za pomoca, LTG de Moivre’a-Laplace’a. J
A. Kasprzyk, STATYSTYKA A
5.5
28
Centralne Twierdzenie Graniczne
Twierdzenie de Moivre’a-Laplace’a jest historycznie pierwszym z twierdze´ n orzekajacych o zbie˙zno´sci rozkla, d´ow ´srednich pr´obkowych (ustandaryzowanych) do rozkladu normalnego. Zastepuj ac ci ag ob Bernoulli’ego , , , pr´ dowolnym ciagiem z.l. {X } interesuje nas odpowied´ z na pytanie, jakie s a warunki dostateczne na to aby k , , zachodzila zbie˙zno´s´c Sn − ESn d √ −→ N (0, 1), VarSn
(5.9)
n → ∞,
tzn. (5.10)
∀x
S − ES n n P √ 6 x −→ Φ(x), VarSn
n → ∞,
gdzie Φ(x) P oznacza dystrybuante, standardowego rozkladu normalnego (tzn. ze ´srednia, 0 i wariancja, 1), orych przedstawione sa, te warunki nazywamy centralnymi twierdzeniami Sn := nk=1 Xk . Twierdzenia, w kt´ granicznymi (CTG). Zauwa˙zmy, z˙ e je´sli EXk = m oraz VarXk = σ 2 , dla wszystkich k = 1, 2, . . . , to ESn = nm i VarSn = 2 nσ , lub r´ownowa˙znie EXn = m i VarXn = σ 2 /n. Warunek (5.9) jest w tym przypadku r´ownowa˙zny z nastepuj acym: , , (5.11)
Sn − nm Xn − m d √ √ −→ N (0, 1), = nσ σ/ n
n → ∞.
Definicja 5.6 M´owimy, z˙ e ciag , {Zn } jest asymptotycznie normalny z parametrami an , bn , i piszemy {Zn } ∼ 2 AN an , bn , je´sli (5.12)
Zn − an d −→ N (0, 1), bn
n → ∞.
Zgodnie z powy˙zsza, definicja, CTG orzekaja,, jakie warunki nalo˙zone na ciag , z.l. {Xk } implikuja, z˙ e 2 jest to r´ {Sn } ∼ AN ESn , VarSn . W przypadku sta lej ´ s redniej m i sta lej wariancji σ ownowa˙zne pytaniu, 2 kiedy {Xn } ∼ AN m, σ /n . Twierdzenie 5.14 (CTG Lindeberga–L´evy’ego.) Dla ciagu z.l. {Xk } spelniajacego warunki: , , (i) Xk ∈ L2 , (ii) {Xk } ∼ IID, zachodzi zbie˙zno´s´c (5.11). Innymi slowy, je´sli z.l. Xk ,k = 1, 2, . . . , sa, niezale˙zne i o jednakowym rozkladzie ze ´srednia, m i wariancja, σ 2 to {Xk } ∼ AN m, σ 2 /n . Historia Pierwsza wersja twierdzenia granicznego pojawila sie, w pracy Abrahama de Moivre’a z roku 1733, w kt´orej u˙zyl on rozkladu normalnego do szacowania rozkladu ilo´sci orl´ow w wielokrotnie powtarzanych rzutach symetryczna, moneta., Wynik ten zostal zapomniany na niemal 80 lat. Dopiero w 1812 roku PierreSimon Laplace udowodnil obecnie znana, wersje, twierdzenia granicznego dla pr´ob Bernoulli’ego (tj. rozkladu dwumianowego). CTG w wersji Lindeberga i L´evy’ego zostalo udowodnione dopiero w latach 20 XX wieku, cho´c niezale˙znie od nich i innymi metodami udowodnil je Aleksandr Lyapunov ju˙z w 1901 roku. Do dzi´s znanych jest wiele r´ oz˙ nych wersji CTG, w kt´ orych pokazuje sie, przy jakich zalo˙zeniach o ciagu {Xk } zachodzi , zbie˙zno´s´c rozkladu standaryzowanych sum Sn do rozkladu normalnego, a wiec zachodzi zbie˙ z no´ s´c (5.9). Jedna, , z bardziej znanych wersji CTG jest twierdzenie Lindeberga-Fellera. Sam rozklad normalny pojawil sie, na poczatku XIX wieku w pracach Carla Fridriecha Gaussa jako , rozklad bledu pomiar´ o w. Przy tym za lo˙ z eniu Gauss uzasadni l metode, najmniejszych kwadrat´ow. Od jego , nazwiska gesto´ s´c rozkladu normalnego nazywamy dzi´s r´ownie˙z krzywa, Gaussa (lub krzywa, dzwonowa). , , Okolo roku 1875 zaczeto stosowa´ c nazw e rozk lad normalny (niezale˙ z nie Peirce, Galton i Lexis). , ,
A. Kasprzyk, STATYSTYKA A
5.6
29
Twierdzenia graniczne dla wektor´ ow losowych
qP d 2 Niech kzk oznacza norme, euklidesowa, w Rd , tj. kzk := sli Z jest d-wymiarowym j=1 zj . Zauwa˙zmy, z˙ e je´ w.l. to jego norma euklidesowa kZk jest zmienna, losowa., Podamy teraz definicje zbie˙zno´sci wg. rozkladu, wg. P oraz z P1 dla wektor´ ow losowych. Definicja 5.7 M´owimy z˙ e ciag , w.l. {Zn } jest zbie˙zny do w.l. Z d (a) wg. rozkladu, piszemy Zn −→ Z, je´sli Fn (z) −→ F (z)
dla ka˙zdego z ∈ DF ,
n → ∞,
gdzie Fn jest dystrybuanta, w.l. Zn , F jest dystrybuanta, w.l. Z, natomiast DF jest zbiorem punkt´ow w Rd , w kt´orych dystrybuanta F jest ciag , la; P (b) wg. prawdopodobie´ nstwa, piszemy Zn −→ Z, je´sli P
kZn − Zk −→ 0,
n → ∞;
P1
(c) z prawdopodobie´ nstwem 1, piszemy Zn −→ Z, je´sli P1
kZn − Zk −→ 0,
n → ∞.
Twierdzenie 5.15 (Metoda Cramera-Walda, ang. Cramer-Wald Device.) d
Zn −→ Z
⇐⇒
∀a ∈ Rd
d
aT Zn −→ aT Z.
Twierdzenie 5.16 Niech {Zn } oraz Z bed slonymi na tej samej przestrzeni pro, a, d-wymiarowymi w.l. okre´ babilistycznej (Ω, F , P), natomiast g : Rd → R niech bedzie funkcj a ci ag ownej 1 (tj. , , , la, na zbiorze miary PZ r´ na takim zbiorze A ∈ Bd z˙ e P(Z ∈ A) = 1). W´ owczas prawdziwe sa, nastepuj ace implikacje: , , d
(i) Zn −→ Z P
(ii) Zn −→ Z P1
(iii) Zn −→ Z
⇒ ⇒ ⇒
d
g(Zn ) −→ g(Z); P
g(Zn ) −→ g(Z); P1
g(Zn ) −→ g(Z).
Twierdzenie 5.17 (CTG dla wektor´ ow losowych.) Je´sli {Xk } ∼ IID(m, Σ) to n √ 1 X d Xk − m −→ N (0, Σ), n n
n → ∞.
k=1
5.7
Zadania
Zadanie 5.1 Udowodnij PWL Bernsteina i poka˙z, z˙ e wynika z niego PWL Czebyszewa. ´ wka: Poka˙z z˙ e spelniony jest warunek Markowa. Wskazo Zadanie 5.2 Kt´ore z zalo˙ze´ n sa, mocniejsze: te w PWL Bernsteina czy te w I PWL Kolmogorowa? Zadanie 5.3 Rozklad prawdopodobie´ nstwa na p´olprostej [c, ∞), c > 0, o dystrybuancie c λ F (x) = 1 − , x > c, λ > 0, x nazywamy rozkladem Pareto z parametrami λ, c, w skr´ocie P ar(λ, c). Niech {Xn } bedzie ciagiem niezale˙znych z.l. o jednakowym rozkladzie P ar(λ, 1). Dla jakich warto´sci λ , , mo˙zna dla tego ciagu stosowa´c: , (a) slabe PWL (kt´ ore?); (b) mocne PWL; (c) CTG Lindeberga-L´evy’ego?
A. Kasprzyk, STATYSTYKA A
30
Zadanie 5.4 Niech {Xj , j = 1, . . . , n} bedzie ciagiem niezale˙znych z.l. o jednakowym rozkladzie U (0, 1). , , (a) Oszacuj P 0.2 < Xn < 0.4 , dla n = 10 oraz n = 100. (b) Jakie musi by´c n aby P Xn − E[X1 ] < 0.01 > 0.95 ? Skorzystaj z nier´owno´sci Czebyszewa oraz CTG. Por´ownaj wyniki. Zadanie 5.5 Powt´ orz punkt (b) poprzedniego zadania dla zmiennych losowych o rozkladzie: (a) U (−1, 1), (b) χ2 (k), (c) o wariancji σ 2 . Zadanie 5.6 Niech {Xj , j = 1, . . . , n} bedzie ciagiem niezale˙znych z.l. o jednakowym rozkladzie Poissona , , k e−λ /k!, k ∈ N. Oszacuj z parametrem λ, tj. P(Xj = k) = λ 0.5 (a) n je´sli wiadomo, z˙ e P Xn − E[X1 ] < > 0.9 oraz λ = 10; (b) λ je´sli wiadomo, z˙ e P X100 − E[X1 ] < 0.5 > 0.9; (c) n w zale˙zno´sci od λ je´sli wiadomo, z˙ e P Xn − E[X1 ] < 0.5 > 0.9. Zadanie 5.7 Niech {Xj } bedzie ciagiem z.l. takich, z˙ e: , , (i) E[Xj ] = m dla wszystkich j = 1, 2, . . . , (ii) Cov(Xj+h , Xj ) = ρ|h| , gdzie |ρ| < 1, dla wszystkich h ∈ Z (w szczeg´olno´sci Var(Xj ) = 1). Korzystajac zachodzi SPWL. , z odpowiedniego twierdzenia poka˙z, z˙ e dla tego ciagu , Zadanie 5.8 Udowodnij, z˙ e dla ciagu z poprzedniego zadania zachodzi SPWL korzystajac srednio , , bezpo´ z nier´owno´sci Czebyszewa. ´ wka: Poka˙z, z˙ e Wskazo ! n−j n−j n 1 1+ρ 1 X X k X k 1 1 − ρn = ··· = · ρ Var X = 2 ρ + + 2· . n n 1−ρ n 1−ρ j=1
k=0
k=1
Zadanie 5.9 Korzystajac udowodnij Centralne Twierdzenie Graniczne dla wek, z metody Cramera-Walda tor´ow losowych: je´sli {Xj } ∼ IID m, Σ to n √ 1 X d n Xj − m → N 0, Σ , n
przy n → ∞.
j=1
Zadanie 5.10 Udowodnij, z˙ e je´sli {Xn } ∼ AN an , b2n to {Xn } ∼ AN αn , βn2 wtedy i tylko wtedy gdy βn /bn → 1 oraz (αn − an )/bn → 0. 2 2 wtedy i tylko wtedy Zadanie 5.11 Udowodnij, z ˙ e je´ s li {X } ∼ AN a , b to {α X + β } ∼ AN a , b n n n n n n n n gdy αn → 1 oraz an (αn − 1) + βn bn → 0. Zadanie 5.12 Udowodnij, z˙ e je´sli {Xn } ∼ AN m, σn2 n → ∞.
P
to Xn → m wtedy i tylko wtedy, gdy σn → 0 przy
Zadanie 5.13 Udowodnij, z˙ e je´sli Xn ∼ χ2 (n) to {Xn } ∼ AN (n, 2n). Zadanie 5.14 Udowodnij, z˙ e je´sli Xn ∼ T (n) to {Xn } ∼ AN (0, 1). Zadanie 5.15 Znajd´z liczbe, k taka,, aby prawdopodobie´ nstwo, z˙ e w 1000 rzutach moneta, liczba orl´ow bedzie , zawarta miedzy 450 a k wynosi lo 0.3. , Zadanie 5.16 Oszacuj prawdopodobie´ nstwo tego, z˙ e w 30 rzutach moneta, liczba orl´ow: (a) przekroczy 20; (b) wynosi 15. Zadanie 5.17 Oszacuj prawdopodobie´ nstwo, z˙ e przy rzucie dziesiecioma kostkami do gry otrzymamy: , (a) dokladnie trzy czw´ orki; (b) dokladnie jedna, czw´ orke; , (c) parzysta, liczbe, oczek tylko na jednej kostce.
A. Kasprzyk, STATYSTYKA A
31
Zadanie 5.18 W hali znajduje sie, 100 maszyn. Ka˙zda z nich jest wlaczana i wylaczana niezale˙znie od , , pozostalych i pracuje przecietnie 0.8 dziennego czasu pracy. Oblicz prawdopodobie´ nstwo, z˙ e w dowolnie , wybranej chwili (czasu pracy) bedzie w l aczonych , , (a) ponad 70 maszyn; (b) wszystkie maszyny; (c) miedzy 70 a 80 maszyn. , Zadanie 5.19 Prawdopodobie´ nstwo pewnego zdarzenia wynosi p. Czesto´ scia, tego zdarzenia nazywamy , wielko´s´c k/n, gdzie k oznacza ilo´s´c obserwacji w kt´orych zaszlo interesujace nas zdarzenie (sukces), natomiast , n oznacza ilo´s´c wszystkich obserwacji. Ile do´swiadcze´ n nale˙zy wykona´c (tzn, jakie powinno by´c n), aby z prawdopodobie´ nstwem nie mniejszym ni˙z 0.9 obserwowana czesto´ s ´ c zdarzenia odchyla la si e od prawdopodobie´ n stwa jego wyst apienia o nie wiecej , , , , ni˙z 0.1? W jaki spos´ ob n zale˙zy w tym przypadku od p ? Podaj maksymalna, i minimalna, warto´s´c n je´sli wiadomo, z˙ e p ∈ (0.25, 0.75). Zadanie 5.20 Pewien towar ma wadliwo´s´c 10%. Jak wielka, partie, tego towaru nale˙zy zam´owi´c, aby mie´c co najmniej 95% pewno´sci, z˙ e w tej partii bedzie co najmniej 1000 sprawnych sztuk. Czy mo˙zna uzyska´c , 100% pewno´s´c? Powt´orz zadanie dla wadliwo´sci (a) 1%, (b) 30%. Definicja 5.8 Entropia, dyskretnej z.l. X o rozkladzie pj := P(X = xj ), j ∈ Z, nazywamy wielko´s´c X H(X) ≡ H({pj }) := − pj log pj . j
Je´sli X ∼ b(1, p) to entropie, z.l. X oznaczamy Hb (p). Zadanie 5.21 Naszkicuj wykres Hb (p) jako funkcji zmiennej p ∈ (0, 1). Por´ownaj ten wykres z wynikami z dw´och poprzednich zada´ n. Zadanie 5.22 Nie korzystajac , z twierdzenia Poissona poka˙z, z˙ e dla Sn ∼ b(n, p), gdy n du˙ze i p male, −λ P(Sn = 0) ≈ e , gdzie λ = np. Zadanie 5.23 Prawdopodobie´ nstwo znalezienia mutanta w hodowli dro˙zd˙zy wynosi 0.001. Codziennie wykonuje sie, 200 hodowli do´swiadczalnych. Oblicz prawdopodobie´ nstwo, z˙ e (a) w jednym dniu uda sie, zaobserwowa´c dwie mutacje; (b) w ciagu 50 dni nie znajdzie sie, ani jedna mutacja. , Zadanie 5.24 Wadliwo´s´c partii detali wynosi 0.02. Oblicz prawdopodobie´ nstwo, z˙ e w pudelku zawierajacym , 100 detali (a) nie bedzie detalu wadliwego; , (b) bed , a, najwy˙zej dwa wadliwe detale. Zadanie 5.25 Prawdopodobie´ nstwo wygranej w loterii, gdy kupuje sie, jeden los, wynosi 0.01. Ile los´ ow nale˙zy kupi´c, by wygra´c w tej loterii z prawdopodobie´ nstwem co najmniej 0.9 ? Zadanie 5.26 Grupa 1000 os´ ob ubezpiecza sie, (na rok) od wypadku na kwote, 100000 zl (wielko´s´c odszkodowania w razie wypadku). Prawdopodobie´ nstwo, z˙ e w ciagu roku osoba ulegnie wypadkowi wynosi 0.001. , (a) Jak wielka powinna by´c skladka roczna a by z prawdopodobie´ nstwem p wiekszym od 0.9 kwota uzyskana , ze skladek przekroczyla kwote, odszkodowa´ n? (b) Powt´orz poprzedni punkt dla p > 0.99. (c) Dla znalezionych powy˙zej minimalnych skladek rocznych oblicz prawdopodobie´ nstwo, z˙ e kwota uzyskana ze skladek, przewy˙zszy kwote, odszkodowa´ n o (i) 100 ty´s. zl., (ii) 200 ty´s. zl.
A. Kasprzyk, STATYSTYKA A
32
Literatura [1] Bartoszewicz, J. (1996). Wyklady ze statystyki matematycznej. PWN, Warszawa. [2] Durka, P. J. (2003). Wstep olczesnej statystyki. Adamantan, Warszawa. , do wsp´ [3] Fisz, M. (1969). Rachunek Prawdopodobie´ nstwa i Statystyka Matematyczna. PWN, Warszawa. [4] Gajek, L., Kaluszka, M. (2000) Wnioskowanie statystyczne. Modele i metody. WNT, Warszawa. [5] Majsnerowska, M. (2002) Elementarny wyklad z rachunku prawdopodobie´ nstwa z zadaniami. Wroclaw. [6] Pacut, A. (1985) Prawdopodobie´ nstwo. Teoria. Modelowanie probabilistyczne w technice. WNT, Warszawa. [7] Radhakrishna Rao, C. (1994) Statystyka i prawda. PWN, Warszawa. [8] Serfling, J. R. (1991) Twierdzenia graniczne statystyki matematycznej. PWN, Warszawa. ´ [9] Snarska, A. (2005) Statystyka Ekonometria Prognozowanie. Cwiczenia z Excelem. Placet, Warszawa. ˙ [10] Zakrzewski, M., Zak, T. (1993) Kombinatoryka, prawdopodobie´ nstwo i zdrowy rozsadek. Quadrivium, , Wroclaw. ´ ski, R. (2004) Siedem wyklad´ [11] Zielin ow wprowadzajacych do statystyki matematycznej. Warszawa. http//www.impan.pl/~rziel/7ALL.pdf