3 downloads
17 Views
975KB Size
1. Definicja przestrzeni probabilistycznej. Przykład miary probabilistycznej dla skooczonej przestrzeni zdarzeo elementarnych. Przestrzenią probabilistyczną zdarzenia losowego nazywamy trójkę (Ω,B,P) gdzie: Ω - zbiór zdarzeo elementarnych Zbiór wszystkich najprostszych wyników zdarzenia losowego B – zbiór zdarzeo losowych Rodzina podzbiorów zbioru Ω, która spełnia następujące aksjomaty: Ω∈Β Ai ∈ Β ⇒ Aci ∈ B A1 , A2 , … ∈ Β ⇒ A1 ∪ A2 ∪ … =
Ai ∈ B i
P – miara probabilistyczna Funkcja, która każdemu zdarzeniu A ∈ Β przyporządkowuje liczbę P(A) zwaną prawdopodobieostwem tego zdarzenia, w taki sposób że: 𝑃 Ω =1 𝐴 ∈ 𝐵 0 ≤ 𝑃(𝐴) ≤ 1 Jeżeli zdarzenie Ai ∈ Β, i ∈ J parami się wyłączają to 𝑃
𝐴𝑖 𝑖∈𝐽
=
𝑃(𝐴𝑖 ) 𝑖∈𝐽
Przykład: Jeśli założymy, że istnieje n zdarzeo elementarnych i są one jednakowo prawdopodobne, czyli 1 𝑚 = 𝑝𝑖 = 𝑛 , to prawdopodobieostwo dowolnego zdarzenia A wynosi 𝑃 𝐴 = 𝑚 1≤𝑖≤𝑛 𝑃 𝑒𝑖 𝑘=1 𝑝𝑖𝑘 = 𝑛 . 2. Definicja prawdopodobieostwa warunkowego i niezależności zdarzeo, twierdzenie o prawdopodobieostwie całkowitym, zagadnienie Bayes’a i Bernoullego. Prawdopodobieostwo warunkowe – mamy odczynienia ze zdarzeniem, którego prawdopodobieostwo zależy od zajścia innego zdarzenia (czyli są to zdarzenia zależne). Prawdopodobieostwo zajścia dowolnego zdarzenia Ai ∈ Β pod warunkiem zajścia zdarzenia A0 ∈ Β, P A0 > 0 określamy następująco: 𝑃(Ai ∩ A0 ) 𝑃 Ai A0 = 𝑃(A0 ) Niezależnośd zdarzeo – zdarzenia Ai , A0 ∈ Β są niezależne, jeżeli zachodzi 𝑃 Ai A0 = 𝑃 Ai , 𝑃 Ai > 0, a więc 𝑃 Ai ∩ A0 = 𝑃 Ai ∗ P(A0 ) Prawdopodobieostwo całkowite – Dana jest przestrzeo probabilistyczna (Ω,B,P) oraz zupełny układ zdarzeo A1 , A2 , … , An ∈ Β. Dla każdego zdarzenia 𝐴 ∈ 𝐵 zachodzi wzór: 𝑛
𝑃 𝐴 =
𝑃 𝐴 Ai ∗ 𝑃(Ai ) 𝑖=1
Wzór Bayes’a – dla przestrzeni probabilistycznej (Ω,B,P) oraz zupełnego układu zdarzeo A1 , A2 , … , An ∈ Β jeśli zdarzenie A zrealizowało się, to prawdopodobieostwo każdego ze zdarzeo Ai wynosi: 𝑃 𝐴 𝐴𝑘 ∗ 𝑃(𝐴𝑘 ) 𝑃 𝐴𝑘 𝐴 = 𝑛 𝑖=1 𝑃 𝐴 Ai ∗ 𝑃(Ai ) Wzór Bernoulliego – określa prawdopodobieostwo otrzymania k sukcesów w n niezależnych doświadczeniach losowych, gdzie prawdopodobieostwo sukcesu wynosi P(A): 𝑛 𝑃𝑛 𝑋 = 𝑘 = 𝑃(𝐴)𝑘 𝑃(𝐴𝑐 )𝑛−𝑘 𝑘 3. Definicja zmiennej losowej, jej dystrybuanty, wartości przeciętnej, wariancji, kwantyla rzędu p. Zmienna losowa – funkcja dla przestrzeni probabilistycznej (Ω,B,P), która odwzorowuje zbiór zdarzeo elementarnych Ω w zbiór liczb rzeczywistych i spełniająca warunek: {𝑒 ∈ Ω ∶ 𝑋 𝑒 < 𝑥} ∈ 𝐵 𝑥∈𝑅
Dystrybuanta – funkcja odwzorowująca zbiór liczb R na przedział *0,1+ 𝐹𝑋 𝑋 = 𝑃 𝑒 ∶ 𝑋 𝑒 < 𝑥 , 𝑥∈𝑅 Wartośd przeciętna (oczekiwana, średnia): 𝐸 𝑋 =
𝑥𝑖 𝑝𝑖 𝑖∈𝐽
1
+∞
𝐸 𝑋 =
𝑥𝑓 𝑥 𝑑𝑥 −∞
Wariancja: 𝐷2 𝑋 = 𝐸 𝑋 − 𝐸 𝑋 𝐷2 𝑋 =
2
𝑥𝑖 − 𝐸(𝑋) 2 𝑝𝑖 𝑖∈𝐽 +∞
𝐷2 𝑋 =
𝑥 − 𝐸(𝑋) 2 𝑓 𝑥 𝑑𝑥 −∞
Kwantyl rzędu p – liczba x(p) spełniająca następujące warunki: 0<𝑝<1 𝑃(𝑋 ≤ 𝑥 𝑝 ) ≥ 𝑝 𝑃 𝑋 ≥𝑥 𝑝 ≥1−𝑝 W przypadku zm. los. ciągłej jest to liczba x(p) spełniająca równośd: 𝐹 𝑥 𝑝
𝑥(𝑝)
= ∫−∞ 𝑓 𝑡 𝑑𝑡 = 𝑝
4. Definicja funkcji prawdopodobieostwa dla zmiennej losowej dyskretnej, przykłady rozkładów: Bernoullego, Poissona. Funkcja prawdopodobieostwa dla zmiennej losowej dyskretnej – funkcja przyporządkowująca realizacjom zmiennej losowej X odpowiadające im prawdopodobieostwa. 𝑃 𝑋 = 𝑥𝑖 = 𝑝𝑖
𝑝𝑖 = 1
Rozkład dwupunktowy: Zm. los. X ma rozkład dwupunktowy, jeżeli jej funkcja prawdopodobieostwa ma postad: 𝑃 𝑋 = 𝑥1 = 𝑝1 𝑃 𝑋 = 𝑥2 = 𝑝2 𝑝1 + 𝑝2 = 1, 0 < 𝑝1 , 𝑝2 < 1 Rozkład Bernoulliego: 𝑛 𝑘 𝑃 𝑋=𝑘 = 𝑝 (1 − 𝑝)𝑛−𝑘 𝑘 𝐸 𝑋 = 𝑛𝑝 𝐷 2 𝑋 = 𝑛𝑝(1 − 𝑝) Przykład: koszykarz rzuca 4 razy do kosza, prawdopodobieostwo, że trafi wynosi 0.8, znaleźd rozkład zmiennej X przyjmując wartośd celnych rzutów. Rozkład Poissona: Zm. los. X ma rozkład Poissona z parametrem λ>0 jeżeli jej funkcja prawdop. wyraża się wzorem: 𝜆𝑘 𝑃 𝑋 = 𝑘 = 𝑒 −𝜆 ∗ 𝑘! 𝐸 𝑋 =𝜆 𝐷2 𝑋 = 𝜆 Rozkład Poissona przedstawia liczbę wystąpieo zjawiska w pewnym przedziale czasu w określonej liczbie doświadczeo losowych, jeśli wystąpienia te są niezależne od siebie. Przykład: liczba wygranych w totolotka 5. Definicja gęstości dla zmiennej losowej ciągłej, przykłady rozkładów: jednostajny, normalny. Gęstośd dla zmiennej losowej ciągłej – pochodna dystrybuanty zmiennej losowej ciągłej 𝑑𝐹(𝑥) 𝑓 𝑥 = 𝑑𝑥 +∞ Funkcja f jest gęstością ciągłej zm. los. 𝑋 ∫−∞ 𝑓 𝑥 𝑑𝑥 = 1. Rozkład jednostajny: 1 , 𝑥 ∈ [𝑎, 𝑏] 𝑓 𝑥 = 𝑏−𝑎 0, 𝑥 ∉ [𝑎, 𝑏] 𝑑𝑙𝑎 𝑝𝑟𝑧𝑒𝑑𝑧𝑖𝑎ł𝑢 [𝑎, 𝑏] Rozkład normalny: 𝑁(𝜇, 𝜍 2 ) 1 (x − m)2 𝑓 𝑥 = ∗ exp − 2σ2 𝜍 2𝜋 𝑚 − 𝑤𝑎𝑟𝑡𝑜ść ś𝑟𝑒𝑑𝑛𝑖𝑎, σ2 − wariancja 2
Rozkład normalny standaryzowany: 𝑁(0,1) 1 x2 𝜙 𝑥 = ∗ exp − 2 2𝜋 6. Centralne twierdzenie graniczne Jeżeli mamy ciąg n niezależnych zmiennych losowych Xi o jednakowym rozkładzie oraz jednakowych parametrach: E(Xi)=m D2(Xi)=σ2>0 Tworzymy nową zmienną losową: Sn=X1+…+Xn E(Sn)=n*m D2(Sn)=n*σ2 𝑆 −𝑛∗𝑚 Tworzymy zestandaryzowaną zmienną losową: 𝑈𝑛 = 𝑛σ n (zatem: E(Un)=0, D2(Un)=1) i oznaczamy jej dystrybuantę przez 𝐹𝑈𝑛 (𝑥) CTG: x∈R lim𝑛→∞ 𝐹𝑈𝑛 (𝑥) = Φ 𝑥 Φ(x) – dystrybuanta rozkładu normalnego N(0,1) Ciąg zmiennych Un jest zbieżny według rozkładu do standardowego rozkładu normalnego.
7. Definicja wektora losowego, rozkładu łącznego zmiennych (X,Y) brzegowych i warunkowych, definicja kowariancji i w współczynnika korelacji zmiennych losowych X, Y. Wektor losowy – zmienna losowa wielowymiarowa, wektor, którego współrzędne są zmiennymi losowymi (X1, X2, … , Xn) Rozkład łączny zmiennych (X,Y) – Dyskr.: określa go funkcja podająca dla każdej pary wartości (xi, yj) wektora (X,Y) jej prawdopodobieostwo: 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 = 𝑝𝑖𝑗 , gdzie 𝑖 𝑗 𝑝𝑖𝑗 = 1 Ciągły: określa go łączna funkcja gęstości prawdopodobieostwa f(x,y) spełniająca warunki: f(x,y) ≥0 +∞ +∞
𝑓 𝑥, 𝑦 𝑑𝑥𝑑𝑦 = 1 −∞ −∞
Rozkład brzegowy zmiennej losowej X – prawdopodobieostwo przyjęcia wartości xi niezależnie od tego, jaką wartośd przyjmie zmienna losowa Y Dyskr: 𝑃 𝑋 = 𝑥𝑖 = 𝑝𝑖. = 𝑘𝑗=1 𝑝𝑖𝑗 Ciągły: Rozkład brzegowy zm. los. X określony jest brzegową funkcją gęstości prawdopodobieostwa: +∞
𝑓1 (𝑥) =
𝑓 𝑥, 𝑦 𝑑𝑦 −∞
Rozkład brzegowy zmiennej losowej Y – prawdopodobieostwo przyjęcia wartości yj niezależnie od tego, jaką wartośd przyjmie zmienna losowa X Dyskr: 𝑃 𝑌 = 𝑦𝑗 = 𝑝.𝑗 = 𝑟𝑖=1 𝑝𝑖𝑗 Ciągły: Rozkład brzegowy zm. los. Y określony jest brzegową funkcją gęstości prawdopodobieostwa: +∞
𝑓2 (𝑦) =
𝑓 𝑥, 𝑦 𝑑𝑥 −∞
Rozkład warunkowy – określa rozkład jednej zmiennej pod warunkiem, że ta druga przyjmuje pewną ustalona wartośd Dyskr: 𝑃({𝑋 = 𝑥𝑖 ∩ 𝑌 = 𝑦𝑗 }) 𝑝𝑖𝑗 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = = 𝑝.𝑗 𝑃( 𝑌 = 𝑦𝑗 ) 𝑃({𝑌 = 𝑦𝑗 ∩ 𝑋 = 𝑥𝑖 }) 𝑝𝑖𝑗 𝑃 𝑌 = 𝑦𝑗 𝑋 = 𝑥𝑖 = = 𝑃( 𝑋 = 𝑥𝑖 ) 𝑝𝑖. Ciągły: 3
𝑓(𝑥, 𝑦) 𝑓2 (𝑦) 𝑓(𝑥, 𝑦) 𝑓 𝑦𝑥 = 𝑓1 (𝑥) Kowariancja – miara zgodności rozkładów dwóch zmiennych losowych, jeżeli jej wartośd jest np. duża i dodatnia, to obie zmienne losowe mają tendencję do przyjmowania równocześnie dużych wartości i równocześnie wartości małych 𝑐𝑜𝑣 𝑋, 𝑌 = 𝐸 𝑋 − 𝐸 𝑋 𝑌 − 𝐸 𝑌 = 𝐸 𝑋 ∗ 𝑌 − 𝐸 𝑋 ∗ 𝐸(𝑌) Współczynnik korelacji – charakteryzuje siłę zależności miedzy zmiennymi X i Y 𝑐𝑜𝑣(𝑋, 𝑌) ρ= 𝐷 𝑋 ∗ 𝐷(𝑌) −1 ≤ ρ ≤ 1 ρ = 0 − zmienne nie skorelowane, ρ > 0 − 𝑠𝑘𝑜𝑟𝑒𝑙𝑜𝑤𝑎𝑛𝑒 𝑑𝑜𝑑𝑎𝑡𝑛𝑖𝑜, 𝜌 < 0 − 𝑠𝑘𝑜𝑟𝑒𝑙𝑜𝑤𝑎𝑛𝑒 𝑢𝑗𝑒𝑚𝑛𝑖𝑒 𝑓 𝑥𝑦 =
8. Definicja modelu statystycznego, statystyki z próby i przykłady: dystrybuanta empiryczna, wariancja z próby, definicja rozkładu empirycznego (szereg rozdzielczy) Model statystyczny – konstrukcja formalna, która za pomocą jednego równania lub układu równao przedstawia zasadnicze powiązania zachodzące między zmiennymi losowymi. Statystyka z próby – dowolna funkcja h elementów próby (X1,…,Xn) o wartościach rzeczywistych: 𝑇𝑛 = (𝑋1 , … , 𝑋𝑛 ), (czyli jest to zmienna losowa określona na przestrzeni prób Ω i posiada swój rozkład) Przykłady: średnia arytmetyczna, rozstęp, wariancja, odchylenie standardowe, współczynnik zmienności, skośnośd Dystrybuanta empiryczna rozkładu próby: 𝑛 𝑟 𝑖=1 𝑤𝑎𝑟𝑙(𝑋𝑖 < 𝑥) 𝐹𝑛 𝑥 = = 𝑛 𝑛 1, 𝑎𝑟𝑔 = 𝑇 𝑤𝑎𝑟𝑙 arg = 0, 𝑎𝑟𝑔 = 𝐹 Wariancja z próby: 1 𝑆 = 𝑛
𝑛
2
(𝑋𝑖 − 𝑋)2 𝑖=1
Rozkład empiryczny – opis wartości przyjmowanych przez cechę statystyczną w próbie przy pomocy częstości ich występowania na podstawie badania statystycznego Szereg rozdzielczy – statystyczny sposób prezentacji rozkładu empirycznego 9. Definicja rozkładów: chi-kwadrat, t-Studenta, F-Snedecora Chi-kwadrat – rozkład prawdopodobieostwa zmiennej losowej (Y), która jest sumą k kwadratów niezależnych zmiennych losowych(X1,…,Xk) o standardowym rozkładzie normalnym N(0,1) k – liczba stopni swobody 𝑘
𝑋𝑖 2
𝑌= 𝑖=1
𝑘
𝑥2
𝑥 2 −1 ∗ 𝑒 2 𝑓 𝑥 = 𝑘 𝑘 22 ∗ Γ 2 t-Studenta – rozkład prawdopodobieostwa zmiennej losowej T z k stopniami swobody 𝑈 𝑇= 𝑌 𝑘 U – zmienna losowa o standardowym rozkładzie normalnym N(0,1) Y – zmienna losowa o rozkładzie chi-kwadrat z k stopniami swobody F-Snedecora – rozkład prawdopodobieostwa zmiennej losowej F o n1 i n2 stopniach swobody 𝑈 𝑛1 𝐹= 𝑉 𝑛2 U – zmienna losowa o rozkładzie chi-kwadrat z n1 stopniami swobody 4
V – zmienna losowa o rozkładzie chi-kwadrat z n2 stopniami swobody U i V są niezależne 10. Definicja estymatora punktowego parametrycznego, definicja nieobciążonego, efektywności i zgodności estymatora, przykład estymatora nieobciążonego wariancji, estymatora nieobciążonego i efektywnego średniej rozkładu cechy Estymator punktowy parametryczny – statystyka próbkowa Tn=h(X1,…,Xn), której wartości przyjmujemy, jako oszacowania nieznanego parametru a Estymator nieobciążony – wartośd oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru 𝐸 𝑎 =𝑎 Estymator asymptotycznie nieobciążony – obciążenie estymatora dąży do zera przy rosnącej liczebności próby lim 𝑏𝑖𝑎𝑠 𝑎 = 0 𝑛→∞
Efektywnośd estymatora: 𝐷 2 (𝑇𝑛𝑒 ) 𝑒 𝑇𝑛 = 2 𝐷 (𝑇𝑛 ) 𝑇𝑛𝑒 − 𝑛𝑎𝑗𝑒𝑓𝑒𝑘𝑡𝑦𝑤𝑛𝑖𝑒𝑗𝑠𝑧𝑦 𝑒𝑠𝑡𝑦𝑚𝑎𝑡𝑜𝑟 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑢 𝑎 (ma on najmniejszą wariancję spośród wszystkich nieobciążonych estymatorów tego parametru) 0 < 𝑒 𝑇𝑛 ≤ 1 Zgodnośd estymatora – estymator jest stochastycznie zbieżny do oczekiwanego parametru lim 𝑃 𝑎 − 𝑎 < 𝜀 = 1
𝜀>0
𝑛→∞
Estymator nieobciążony wariancji: 𝑛 1 𝑆 ∗2 = (𝑋𝑖 − 𝑋)2 𝑛−1 𝑖=1
Estymator nieobciążony średniej rozkładu cechy: 𝑛 1 𝑋= 𝑋𝑖 𝑛 𝑖=1
Estymator efektywny średniej rozkładu cechy: 𝑛 1 𝑋= 𝑋𝑖 𝑛 𝑖=1
11. Definicja przedziału ufności, przedziału ufności dla średniej populacji normalnej N(m,σ2), σ – nieznane, definicja estymatora jądrowego funkcji gęstości Przedział ufności dla parametru a na poziomie ufności 1-α (0<α<1) to następujący przedział: 𝑎𝑑 𝑋1 , … , 𝑋𝑛 , 𝑎𝑔 𝑋1 , … , 𝑋𝑛 a) Kooce przedziału 𝑎𝑑 𝑋1 , … , 𝑋𝑛 , 𝑎𝑔 𝑋1 , … , 𝑋𝑛 są funkcjami próby losowej 𝑋1 , … , 𝑋𝑛 i nie zależą od szacowanego parametru a b) Dla każdego 𝑎 ∈ 𝐴 prawdopodobieostwo zawierania przez ten przedział nieznanej wartości parametru a jest równe 1-α Przedział ufności dla średniej populacji normalnej N(m,σ2), σ – nieznane: 𝛼 S 𝛼 S 𝑚 ∈ 𝑋 − 𝑡 1 − ,𝑛 −1 ∗ ,𝑋 +𝑡 1 − ,𝑛 −1 ∗ 2 2 𝑛−1 𝑛−1 Estymator jądrowy funkcji gęstości – funkcja postaci: 1 𝑓𝑛 𝑥 = 𝑛
𝑛
𝑖=1
𝑥 − 𝑋𝑖 1 𝐾 = 𝑛
𝑛
𝐾 𝑢 𝑖=1
h – szerokośd pasma (parametr wygładzania), h>0 𝑥 − 𝑋𝑖 𝑢= K – jądro (funkcja jądra) K : R →[0,+∞) +∞
𝐾 𝑢 𝑑𝑢 = 1 −∞
5
𝐾 −𝑢 = 𝐾(𝑢) 𝑢∈𝑅
12. Definicja testu statystycznego, obszaru krytycznego, błędu 1-go i 2-go rodzaju, funkcji mocy testu, testu na poziomie istotności α Test statystyczny – reguła przyporządkowująca każdej realizacji próby losowej jedną z dwóch decyzji, dotyczących weryfikowanej hipotezy: przyjąd ją lub odrzucid H0 – hipoteza zerowa H1 – hipoteza alternatywna Obszar krytyczny – zbiór wartości statystyki testowej, dla których dokonuje się odrzucenia sprawdzanej hipotezy H0 Błąd 1-go rodzaju – odrzucenie sprawdzanej hipotezy, gdy jest ona prawdziwa Błąd 2-go rodzaju – przyjęcie sprawdzanej hipotezy, gdy jest ona fałszywa Funkcja mocy testu: 𝑀 𝜃 = 𝑃 𝑋 ∈ 𝜔|θ𝜖Ω1 𝜔 - obszar krytyczny testu 𝜃 − 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟 𝑤𝑒𝑟𝑦𝑓𝑖𝑘𝑜𝑤𝑎𝑛𝑒𝑗 𝑖𝑝𝑜𝑡𝑒𝑧𝑦 Ω1 − 𝑤𝑎𝑟𝑡𝑜ść 𝑤𝑒𝑟𝑦𝑓𝑖𝑘𝑜𝑤𝑎𝑛𝑒𝑔𝑜 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑢 𝑤 𝑘𝑜𝑛𝑡𝑟𝑖𝑝𝑜𝑡𝑒𝑧𝑖𝑒 (zbiór hipotez alternatywnych) Test na poziomie istotności α – test statystyczny, w którym prawdopodobieostwo odrzucenia hipotezy zerowej H0, gdy jest ona prawdziwa, wynosi α. 13. Statystyka testowa, obszar krytyczny dla testu wartości średniej w populacji: N(m,σ2), σ – nieznane Statystyka testowa: 𝑋 − 𝑚0 𝑡= 𝑛−1 𝑆 Obszar krytyczny: ∝ ∝ −∞, −𝑡 1 − , 𝑛 − 1 ∪ 𝑡 1 − , 𝑛 − 1 , +∞ 𝑝 ≠ 𝑝0 2 2 𝐾0 = −∞, −𝑡 1−∝, 𝑛 − 1 𝑝 < 𝑝0 𝑡 1−∝, 𝑛 − 1 , +∞ 𝑝 > 𝑝0 14. Test zgodności chi-kwadrat, test niezależności chi-kwadrat Test zgodności chi-kwadrat – służy do weryfikacji hipotezy zgodności z rozkładu badanej zmiennej losowej z rozkładem hipotetycznym. Wartośd testu oceniana jest przy pomocy rozkładu chi-kwadrat, statystyka testowa ma postad 𝑘 2
𝜒 = 𝑖=1
𝑛𝑖 − 𝑛𝑝𝑖 𝑛𝑝𝑖
2
k – liczba klas ni – liczebnośd obserwacji w próbie dla i-tej klasy (liczebności empiryczne) pi – hipotetyczne prawdopodobieostwo znalezienia się w i-tej klasie dla każdego wariantu lub przedziału npi – liczebnośd hipotetyczna obszar krytyczny dla zadanego α: 𝜒 2 (1 − 𝛼 , 𝑘 − 𝑚 − 1), +∞) Test niezależności chi-kwadrat – umożliwia weryfikację hipotezy stochastycznej niezależności zmiennych losowych X i Y. Statystyka testowa ma postad: 𝑘
𝑟
2
𝜒 = 𝑖=1 𝑗 =1
𝑛𝑖𝑗 − 𝑛𝑖𝑗 𝑛𝑖𝑗
2
obszar krytyczny dla zadanego α: 𝜒 2 (1 − 𝛼 , (𝑟 − 1)( 𝑘 − 1)), +∞)
15. Ilościowe miary korelacji: współczynnik korelacji, korelacja rang Spearmana Współczynnik korelacji – liczba określająca w jakim stopniu zmienne losowe są współzależne 𝑐𝑜𝑣(𝑋, 𝑌) 𝑟= 𝑆𝑥 ∗ 𝑆𝑦 𝑟 = 0 𝑏𝑟𝑎𝑘 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑖, 𝑟 < 0 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 𝑢𝑗𝑒𝑚𝑛𝑎, 𝑟 > 0 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 𝑑𝑜𝑑𝑎𝑡𝑛𝑖𝑎, −1 ≤ 𝑟 ≤ 1 𝑐𝑜𝑣 𝑋, 𝑌 = 𝐸 𝑋 − 𝑋 ∗ 𝑌 − 𝑌 6
Korelacja rang Spearmana – nieparametryczna miara monotonicznej zależności statystycznej między zmiennymi losowymi, stosowana gdy: - cechy są mierzalne, a zbiorowośd jest nieliczna - cechy mają charakter jakościowy i istnieje możliwośd ich uporządkowania 6 ∗ 𝑛𝑖=1 𝑑𝑖 2 𝑟 =1− 𝑛(𝑛2 − 1) di = r1i – r2i, r1i – ranga i-tego obiektu w pierwszym uporządkowaniu, r2i – ranga i-tego obiektu w drugim uporządkowaniu, n – liczba badanych obiektów 𝑟 = 0 𝑏𝑟𝑎𝑘 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑖, 𝑟 < 0 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 𝑢𝑗𝑒𝑚𝑛𝑎, 𝑟 > 0 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑗𝑎 𝑑𝑜𝑑𝑎𝑡𝑛𝑖𝑎, −1 ≤ 𝑟 ≤ 1 16. Klasyczny model regresji liniowej i jego estymacja metodą najmniejszych kwadratów, współczynnik dopasowania, wariancja resztowa Model regresji liniowej – zakłada, że związek miedzy zmiennymi losowymi X i Y jest postaci: 𝑌𝑖 = 𝑎1 𝑥𝑖 + 𝑎0 + 𝜀𝑖 εi – zmienne losowe zwane błędami losowymi E(εi)=0 D2(εi)=σ2 cov(εi εj)=0 i≠j ai, a0, σ – parametry modelu Estymacja metodą najmniejszych kwadratów – stosowana do estymacji funkcji, wyrażających różne zależności miedzy zmiennymi losowymi 𝑔 𝑥, 𝑎1 , 𝑎0 = 𝑎1 𝑥 + 𝑎0 𝑛
𝑆=
𝑦𝑖 − 𝑎1 𝑥𝑖 − 𝑎0 𝑖=1
𝜕𝑆 =2 𝜕𝑎0 𝜕𝑆 =2 𝜕𝑎1 𝑎1 =
𝑛
𝑦𝑖 − 𝑎1 𝑥𝑖 − 𝑎0 −1 = 0 𝑖=1 𝑛
𝑦𝑖 − 𝑎1 𝑥𝑖 − 𝑎0 (−𝑥𝑖 ) = 0
𝑖=1 𝑛 𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑛 2 𝑖=1 𝑥𝑖 − 𝑥
𝑎0 = 𝑌 − 𝑎1 𝑋 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 ,
𝑛
𝑒𝑖 2 =
𝑆𝑆𝐸 = 𝑖=1
𝑆𝑆𝐸 , 𝑛−2
𝑌
𝑟𝑒𝑠𝑧𝑡𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑗𝑖
𝑛
𝑀𝑆𝐸 =
2
𝑦𝑖 − 𝑦𝑖
2
,
𝑠𝑢𝑚𝑎 𝑘𝑤𝑎𝑑𝑟𝑎𝑡ó𝑤 𝑟𝑒𝑠𝑧𝑡 𝑟𝑒𝑔𝑟𝑒𝑠𝑗𝑖
𝑖=1
ś𝑟𝑒𝑑𝑛𝑖 𝑘𝑤𝑎𝑑𝑟𝑎𝑡𝑜𝑤𝑦 𝑏łą𝑑 (𝑚𝑖𝑎𝑟𝑎 𝑟𝑜𝑧𝑝𝑟𝑜𝑠𝑧𝑒𝑛𝑖𝑎 𝑒𝑙𝑒𝑚𝑒𝑛𝑡ó𝑤 𝑤𝑜𝑘ół 𝑙𝑖𝑛𝑖𝑖 𝑟𝑒𝑔𝑟𝑒𝑠𝑗𝑖)
𝑛
𝑆𝑆𝑇 =
𝑦𝑖 − 𝑦
2
,
𝑠𝑢𝑚𝑎 𝑘𝑤𝑎𝑑𝑟𝑎𝑡ó𝑤 𝑜𝑑𝑐𝑦𝑙𝑒ń 𝑜𝑏𝑠𝑒𝑟𝑤𝑎𝑐𝑗𝑖 𝑜𝑑 𝑖𝑐 𝑤𝑎𝑟𝑡𝑜𝑠𝑐𝑖 ś𝑟𝑒𝑑𝑛𝑖𝑒𝑗
𝑦𝑖 − 𝑦
2
,
𝑠𝑢𝑚𝑎 𝑘𝑤𝑎𝑑𝑟𝑎𝑡ó𝑤 𝑜𝑑𝑐𝑦𝑙𝑒ń 𝑤𝑎𝑟𝑡𝑜ś𝑐𝑖 𝑝𝑟𝑧𝑒𝑤𝑖𝑑𝑦𝑤𝑎𝑛𝑦𝑐 𝑜𝑑 𝑖𝑐 𝑤𝑎𝑟𝑡𝑜𝑠𝑐𝑖 ś𝑟𝑒𝑑𝑛𝑖𝑒𝑗
𝑖=1 𝑛
𝑆𝑆𝑅 = 𝑖=1
Współczynnik dopasowania – określa tę cześd zmienności zmiennej Y, która została wyjaśniona przez zachodzenie liniowego związku między zmiennymi X i Y 𝑆𝑆𝑅 𝑆𝑆𝐸 𝑟2 = =1− 𝑆𝑆𝑇 𝑆𝑆𝑇 Wariancja resztowa – estymator parametru σ2 𝑆𝑆𝐸 𝑆𝑆𝐸 𝑀𝑆𝐸 = 𝑙𝑢𝑏 𝑀𝑆𝐸 = 𝑛−𝑘−1 𝑛−2 n – ilośd elementów próby k – liczba szacowanych parametrów (bez wyrazu wolnego) 7