Przekonaj się, że statystyka może być prosta!
Head First
Staty
E d y c j a ' ; Z d o b ąd ź
p
receptę na niedoskonałości
o
l s k a
w y k re s ó w
Popraw swtyą średnią punktów odchyleniem standardowym
Wprowadź k o n c e p c je
statystyczne wprost do swojego m ózgu
Zmierz się z losem w kasynie Dana
Dowiedz eię, jskufcryó pewne fakty za pomocą statystyk
Uchroń aię przed błędami w doborze próby
O REILLY8
Dawn Griffiths
Helion
O autorce
Autorka książki
Daw n G r if f in s
D aw n G riffiths rozpoczęła karierę jako m atem atyk w jednym z wiodących uniwersytetów brytyjskich. Ukończyła studia w zakresie matematyki, po których zaczęła przygotowania do obrony doktoratu. Cały swój wolny czas poświęcała zgłębianiu tajem nic równań różniczkowych, które innych ludzi niespecjalnie pasjonują — o czym miała się przekonać już niebawem, gdy na spotkaniach w gronie znajomych zaczęło jej brakować partnerów do rozmów. D latego zajęła się problem am i bardziej życiowymi, kierując swoje kroki w stronę branży IT, gdzie poświęca się pracom badawczym nad rozwojem oprogramowania. Jest również autorem publikacji z zakresu matematyki. W czasie wolnym od pracy doskonali swoje umiejętności w zakresie Tai Chi, tworzy koronki klockowe, a także gotuje. Niestety, nie potrafi jeszcze robić tych trzech rzeczy naraz, nad czym ubolewa. Bardzo lubi podróżować, zwłaszcza w towarzystwie swojego męża Davida. Jest przekonana, że gdyby wydać w tej serii książkę poświęconą koronkarstw u, okazałaby się ona wielkim hitem sprzedażowym, choć podejrzewa, że trudno byłoby jej do tego przekonać redaktorów serii.
8
Spis treści
Spis treści (skrócony) W prowadzenie
27
1
Wizualizacja danych: Pierwsze wrażenie
39
2 3
Miary tendencji centralnej: Droga Środka Miary zróżnicowania: Potęga zmienności
83 121
4 5
Prawdopodobieństwo zdarzeń: Natura ryzyka Dyskretne rozkłady prawdopodobieństwa: Zarządzamy oczekiwaniami
165 235
6 7
Podstawy kombinatoryki: Porządkujemy obiekty Poznajemy rozkłady: geometryczny, dwumianowy i Poissona: Stajemy się dyskretni
279
8
Poznajemy rozkład normalny: Wybieramy normalność
363
9 10
Poznajemy rozkład normalny (cd.): Więcej niż normalność Przeprowadzamy losowanie: Pobieramy próbkę
399 453
11 12
Szacujemy param etry populacji na podstawie próby: Dokonujemy ocen Konstruujemy przedziały ufności: Wyrażamy przekonania
479 525
13 14
Weryfikacja hipotez: Oceniamyfakty
559 605
15 A
Korelacja i regresja: Co z moją linią? D odatek uzupełniający: Dziesięć najważniejszych rzeczy, które pominęliśmy
643
B
Tablice statystyczne: Czasem trzeba coś sprawdzić
695
307
Rozkład %2- Gdy sprawy idą nie po naszej myśli
681
Spis treści (z prawdziwego zdarzenia)
W
Wprowadzenie Twój mózg a statystyka. Czytasz tę
książkę, ponieważ chcesz się czegoś nauczyć.
W tym czasie Twój m ózg będzie Ci w yświadczał przysługę, dbając o to, byś się za bardzo nie przemęczał. Będzie Ci podpow iadał: „Zajm ij się lepiej ważniejszymi sprawam i, na przykład tym , jakich dzikich zwierząt trzeba się wystrzegać albo czy jeżdżenie na snowboardzie nago to aby na pew no dobry pom ysł". Jak w tej sytuacji m ógłbyś przekonać swój m ózg, że Twoje życie zależy od znajomości statystyki?
D la kogo przeznaczona jest ta książka?
28
Wiemy, co sobie przed chwilą pomyślałeś
29
M etapoznanie — myślenie o myśleniu
31
O to, co TY możesz zrobić, by pobudzić swój mózg
33
Przeczytaj to
34
Recenzenci merytoryczni
36
Podziękowania
37
9
Spis treści Wizualizacja danych
Pierwsze wrażenie Czy masz problem ze zrozumieniem faktów zapisanych w danych? Statystyki opisowe pom ogą Ci zrozumieć znaczenie złożonych zb io ró w danych. Dzięki nim bardzo złożo ne kw estie staną się zu pełnie proste. Gdy juz je zrozumiesz i będziesz chciał podzielić się tą w ie d zą z innym i, z pewnością zainteresuje Cię potencjał licznych technik w izu a liza c ji danych, jakie oferuje statystyka. Jeśli chcesz więc dobrać optym alny wykres dla swoich danych, weź w rękę swój płaszcz, spakuj
Zysk
(w milionach
zło ty c h )
ulubiony suwak logarytm iczny I ruszaj z nami po przygodę do Statsvllle.
Z y s k firm y w u ję c iu m ie s ię c z n y m
Statystyki są wszędzie
40
Co Ci dadzą statystyki?
41
Jak to z wykresami było
42
Prosty, lecz bardzo użyteczny wykres kołowy
46
Wykres słupkowy jest bardziej precyzyjny
48
Wykres kolumnowy
48
Wykres wierszowy
49
Wszystko jest kwestią odpowiedniej skali
50
Wykorzystanie skali bezwzględnej
51
Praca z bardziej złożonymi zbiorami danych
52
Kategorie a liczby
56
Praca z danymi zgrupowanymi
57
Konstruujem y histogram
58
K rok 1: Określ szerokość słupków histogramu
64
K rok 2: Dostosuj wysokość słupków histogramu
65
K rok 3: Wykreśl swój histogram
66
Czym są częstości skumulowane
72
Jak wykreślić częstości skumulowane
73
Jak wybrać odpowiedni typ wykresu
77
M ie s ią c
10
Spis treści Miary tendencji centralnej
Droga Środka Niekiedy Irzeba po prostu dotrzeć do sedna sprawy. Czasami trud n o
ogarnąć
ogrom inform acji ukrytych w gąszczu danych. Pierwszym krokiem może być wówczas
2
wyznaczenie średnich. Statystycy nazywają je m iarami tendencji centralnej. Dzięki nim p otrafią szybko wskazać wartości reprezentatyw ne dla danego zbioru danych I na tej podstawie wyciągnąć ważne wnioski. W tym rozdziale nauczysz się wyznaczać wartości kilku najważniejszych I najpopularniejszych statystyk — średniej, m ediany I dominanty. Zobaczysz, jak ła tw o I efektyw nie m ożna za Ich pom ocą dokonać opisu danych.
TheW ealth Club s V Statsville's Premier Spa
20 lat
21 lat
Witamy w ośrodku odnowy
84
N ajpopularniejszą średnią jest średnia arytmetyczna
85
W świecie symboli
86
Jak sobie radzić z niewiadomymi
87
Wracamy do średniej
88
Wróćmy do naszego klubu
91
Każdy ćwiczył kiedyś kung-fu
92
W naszych danych są wartości nietypowe
95
Czym są dane asymetryczne
96
Rozmowa przy dystrybutorze
98
Z pom ocą przychodzi nam m ediana
99
Jak znaleźć m edianę w trzech prostych krokach
100
Nasz interes kwitnie
103
N auka pływania dla... najmłodszych
104
Dlaczego średnia i m ediana nie są m iarodajne?
107
Jak możemy sobie radzić z danymi tego typu?
107
Cała prawda o średniej arytmetycznej
109
Przedstawiamy dom inantę (modę)
111
Jak znaleźć dom inantę w trzech prostych krokach
112
20 lat 19 lat
11
Spis treści Miary zróżnicowania
Potęga zmienności Nie wszystkiemu można wierzyć, ale jak się o tym przekonać? Średnie pozwalają nam poznać typ o w ą w artość dla naszych danych, ale nie m ów ią nam w szystkiego. Um iemy juz znajdować wartości centralne zbioru danych, ale średnia arytm etyczna, m ediana czy dom inanta nie zawsze wystarczają do wyciągnięcia głębszych wniosków. W tym rozdziale poszerzym y naszą wiedzę o narzędzia, dzięki którym będziemy m ogli coś powiedzieć o zróżnicow aniu naszych danych.
12
W poszukiwaniu zawodnika
122
Musimy porównać wyniki kandydatów
123
O czym mówi rozstęp
124
Obserwacje nietypowe rodzą pewien problem
127
Musimy znaleźć sposób na pozbycie się obserwacji nietypowych
129
N a ratunek spieszą kwartyle
130
Rozstęp międzykwartylowy wyklucza obserwacje nietypowe
131
A natom ia kwartyli
132
N ie musimy ograniczać się tylko do kwartyli
136
Czym są percentyle?
137
Wykres pudełkowy dobrze prezentuje rozproszenie danych
138
Zm ienność to coś więcej niż tylko rozstęp
142
Jak obliczyć odchylenie od średniej
143
Zm ienność możemy zmierzyć za pom ocą w ariancji...
144
...ale odchylenie standardow e jest m iarą bardziej intuicyjną
145
Cała prawda o odchyleniu standardowym
146
Szybszy sposób na wariancję
151
A gdybyśmy potrzebowali punktu odniesienia dla porównań?
156
Standaryzacja danych sposobem na ich porównywanie
157
Jak interpretow ać dane wystandaryzowane
158
N asza drużyna mistrzem!
163
Spis treści Prawdopodobieństwo zdarzeń
Natura ryzyka Życie pełne jest niepewności. Czasami trud n o
jest naw et przewidzieć, co wydarzy
się w ciągu najbliższych paru m inut. Szanse zajścia pewnych zdarzeń są jednak większe niż innych, czego uczy nas rachunek p raw dopodobieństw a. Szacowanie praw dopodobieństw a zdarzeń ułatw ia p rze w id y w a n ie przyszłości, ponieważ pozwala ocenić, jak duze są szanse Ich wystąpienia. A to pozwala podejm ow ać bardziej św iadom e w ybory. W tym rozdziale dowiesz się, czym jest praw dopodobieństw o zdarzeń I jak może Cl ono pom óc zapanować nad przyszłością!
Wielki Szlem
166
Wejdź do gry!
167
Jakie są moje szanse?
170
Znajdujemy prawdopodobieństwo wygranej w ruletkę
173
Do czego przydają się diagramy V enna
174
Możesz także dodać prawdopodobieństwa
180
Zdarzenia rozłączne
185
Gdy część wspólna sprawia problem
186
Trochę notacji
187
Znowu nieudany o b rót...
193
Prawdopodobieństwo warunkowe
194
Obliczamy prawdopodobieństwa warunkowe
195
Prawdopodobieństwa warunkowe m ożna przedstawić na drzewie stochastycznym
196
Drzewa są pomocne w obliczaniu prawdopodobieństw
197
Krok 1: Znajdujemy P(czarnenparzyste)
205
Krok 2: Znajdujemy P(parzyste)
207
Krok 3: Znajdujemy P(czarne|parzyste)
208
Wykorzystaj prawdopodobieństwo całkowite, by znaleźć P(B)
210
Twierdzenie Bayesa
211
Gdy zdarzenia wpływają na siebie, są zdarzeniami zależnymi
219
Jeśli zdarzenia nie wpływają na siebie, są niezależne
220
Kilka słów o liczeniu prawdopodobieństw dla zdarzeń niezależnych
221
13
Spis treści Dyskretne rozkłady prawdopodobieństwa
Zarządzamy oczekiwaniami Zdarzenia mało prawdopodobne czasem się zdarzajq, ale jakie sq ich konsekwencje? W poprzednim rozdziale przekonaliśmy się, jak rachunek praw dopodobieństw a może pom óc nam ocenić szanse zajścia pewnych zdarzeń. Jednak nie powie nam on nic na te m a t w p ły w u tych zdarzeń na nasze życie. Choć przy stole ruletki czasem pada spora wygrana, to jednak — czy jest ona w a rta tych wszystkich pieniędzy, jakie przy okazji m ożna stracić? W tym rozdziale pokażem y Cl, jak m ożna posłużyć się rachunkiem praw dopodobieństw a do p rze w id y w a n ia skutków p ow tarzalnych zd arzeń w długich seriach, a także jak m ożna ocenić dokładność takich prognoz.
Wracamy do kasyna D ana
14
236
Tworzymy rozkład prawdopodobieństwa wygranej na automacie
239
W artość oczekiwana pozwala przewidzieć wynik...
242
...a wariancja mówi o tym, jak bardzo jest on zmienny
243
W ariancja a rozkład prawdopodobieństwa
244
Obliczamy wariancję dla naszego przykładu
245
Gdy ceny idą w górę
250
Między E(X ) i E(Y ) istnieje związek liniowy
255
Podsumujmy nasze rozważania
256
Ogólne wzory na przekształcenia liniowe
257
Każde pociągnięcie dźwigni jest niezależnym zdarzeniem
260
Przydatne skróty
261
Nowe autom aty wchodzą do gry!
267
Dodaj E(X ) do E(Y ), by uzyskać E (X + Y )...
268
...lub odejmij E(Y ) od E(X ), by uzyskać E (X -Y )
269
Podobne operacje możesz wykonywać na zmiennych przekształcanych liniowo
270
Rozbiłeś bank!
276
Spis treści Podstawy kombinatoryki
Porządkujemy obiekty Czasami kolejność ma znaczenie.
Policzenie w szystkich m ożliw ych
sposobów grupow ania czy porządkowania pewnego zbioru o b ie któ w może być niezwykle pracochłonne. Często jednak nie m am y wyjścia, bo takie inform acje są kluczow e dla rachunku praw dopodobieństw a. W tym rozdziale poznam y szybki i e fe k ty w n y sposób na zdobycie tego rodzaju inform acji, któ ry nie w ym aga od nas znajomości wszystkich m ożliwych w yn ikó w doświadczenia losowego. Zostań więc z nami, a przekonasz się, jak ła tw o m ożna zliczać w szystkie możliwości g ru po w an ia i porząd kow an ia o biektó w .
Derby Statsville
280
Wyścig trójki koni
281
N a ile sposobów konie mogą przekroczyć linię mety?
283
Zliczamy możliwe ustawienia zwycięzców
284
Ustawiamy obiekty w okrąg
285
Czas na wyścig nowicjuszy
289
Porządkowanie klas to coś innego niż porządkowanie ich elementów
290
Porządkujemy zwierzęta według gatunku
291
Ogólna form uła na liczbę uporządkowań w przypadku powtórzeń
292
Czas na wyścig dwudziestu koni
295
N a ile sposobów możemy zapełnić trzy miejsca medalowe?
296
Obliczamy wariacje
297
Gdy kolejność nie m a znaczenia
298
Liczymy kombinacje
299
Cała prawda o kombinacjach
300
To już koniec zawodów
306
v
y 15
Spis treści Poznajemy rozkłady: geometryczny, dwumianowy i Poissona
Stajemy się dyskretni Wyznaczanie rozkładów prawdopodobieństwa zabiera sporo czasu. W iem y już, jak wyznaczać rozkłady praw dopodobieństw a, choć nie zawsze jest to łatwe. Pewnie więc zgodzisz się z nami, że byłoby dobrze, gdyby istniały ogólne, bardziej uniwersalne rozkłady praw dopodobieństw a, którym i ła tw o m ożna by się posługiwać na co dzień. W tym rozdziale zaprezentujem y kilka standardow ych ro zk ła d ó w praw do po do bień stw a, o ściśle określonych charakterystykach. Gdy zrozumiesz, jak to działa, będziesz w stanie w rekordow o szybkim czasie obliczać p raw do po do bień stw a, w artości oczekiw ane i w ariancje. Przygotuj się więc na poznanie rozkładów: geometrycznego, dw um ianow ego I Poissona. M iłej lektury.
A u to m a t
A u to m a t
do napojów
O
Znajdujemy rozkład prawdopodobieństwa dla osiągnięć Chada
311
Istnieje rozkład prawdopodobieństwa, który dobrze opisuje nasz problem
312
Prawdopodobieństwo możemy przedstawić za pom ocą wzoru
315
Rozkład geometryczny pozwala operować także na nierównościach
317
W artość oczekiwana dla rozkładu geometrycznego
318
W artość oczekiwana wynosi l/p
319
W ariancja dla rozkładu geometrycznego
321
Krótki przewodnik po rozkładzie geometrycznym
322
W łaśnie poznałeś rozkład geometryczny
325
Arcyfrajerzy
327
Lepiej grać czy jednak zrezygnować?
329
Uogólniamy rozkład na więcej niż trzy przypadki
331
Uogólniamy nasze wzory jeszcze bardziej
334
Ile wynosi wartość oczekiwana i wariancja dla tego rozkładu
336
W artość oczekiwana i wariancja rozkładu dwumianowego
339
Krótki przewodnik po rozkładzie dwumianowym
340
W artość oczekiwana i wariancja dla rozkładu Poissona
346
Jaki jest więc rozkład prawdopodobieństwa?
350
Liczymy prawdopodobieństwa zdarzeń złożonych dla rozkładu Poissona
351
Rozkład Poissona w przebraniu
354
Krótki przewodnik po rozkładzie Poissona
357
' f i t
Spis treści Poznajemy rozkład normalny
Wybieramy normalność Dyskretne rozkłady prawdopodobieństwa nie w każdej sytuacji się sprawdzajq. W poprzednim rozdziale poznaliśmy trzy rozkłady praw dopodobieństw a, dla których byliśmy w stanie wym ienić wszystkie wartości, jakie może przyjąć zm ienna losowa. Nie zawsze jednak jest to możliwe. Niekiedy posiadane przez nas dane w ogóle nie przystają do żadnego z tych trzech rozkładów. W tym rozdziale dow iem y się o Istnieniu rozkładów Innego typ u , ta k zwanych ciągłych ro zk ła d ó w p raw do po do bień stw a, oraz poznam y jeden z najważniejszych rozkładów w statystyce — rozkład normalny.
Zm ienne dyskretne przyjmują wybrane w artości...
364
...ale nie wszystkie zmienne muszą być dyskretne
365
Ile będzie czekać Julie?
366
Musimy znaleźć rozkład prawdopodobieństwa dla danych ciągłych
367
D la zmiennych ciągłych możemy wyznaczyć funkcję gęstości
368
Prawdopodobieństwo = pole powierzchni
369
Aby obliczyć prawdopodobieństwo, znajdź najpierw f(x)
370
...a następnie oblicz prawdopodobieństwo, wyznaczając pole
371
Znaleźliśmy szukane prawdopodobieństwo
375
Szukanie bratniej duszy
376
Modelujemy wzrost mężczyzn
377
Rozkład normalny stanowi „idealny” model opisu danych ciągłych
378
Jak znajdować prawdopodobieństwa dla rozkładu normalnego?
379
Liczymy prawdopodobieństwo w trzech krokach
380
Krok 1: Wyznacz param etry definiujące rozkład
381
Krok 2: Dokonaj standaryzacji, by otrzymać N ( 0 ,1)
382
Aby dokonać standaryzacji, najpierw przesuwamy środek rozkładu...
383
...a następnie zmieniamy jego szerokość
383
Obliczamy Z, dla której będziemy odczytywać prawdopodobieństwo
384
Krok 3: Odczytaj prawdopodobieństwo z tabeli
387
\
/ /
17
Spis treści Poznajemy rozkład normalny (cd.)
Więcej niż normalność Gdyby tak istniał jedynie rozkład normalny...
Życie byłoby o w iele prostsze, gdyby
wszystko dało się opisać rozkładem norm alnym . Nie trzeba by poświęcać m nóstw a czasu na wyznaczanie różnych p ra w d opodobieństw w tak wielu rozkładach — m ożna by przeznaczyć go na dużo przyjemniejsze rzeczy, na przykład na rozrywkę. Na szczęście są sposoby na to, by najbardziej złożone problem y rozw iązywać rów nie ła tw o , jak w przypadku rozkładu normalnego. W tym rozdziale dowiesz się, kiedy jest m ożliwe zastąpienie innego rozkładu przez rozkład norm alny I jak się to robi w praktyce.
Wszyscy na pokład Kolejki Miłości!
401
Sumujemy zmienne o rozkładzie normalnym
402
N adal jest to jednak waga
403
Jaki jest więc rozkład wagi młodej pary?
405
Znajdujem y prawdopodobieństwo
408
Więcej ludzi chce skorzystać z Kolejki Miłości
413
Przekształcenia liniowe odnoszą się do zmian w artości...
414
...zm ienne niezależne mówią o tym, ile różnych wartości posiadasz
415
W artość oczekiwana i wariancja dla niezależnych zmiennych losowych
416
Wejść do gry czy zrezygnować?
421
Rozkład normalny przychodzi nam z pom ocą
424
Kiedy stosować przybliżenie rozkładu dwumianowego rozkładem normalnym
427
Ponowny rzut oka na problem aproksymacji
432
Rozkład dwumianowy jest rozkładem dyskretnym, a normalny — ciągłym
433
Bierzemy poprawkę na ciągłość
434
Cała prawda o rozkładzie normalnym
442
Wszyscy na pokład!
443
Kiedy można aproksymować rozkład Poissona rozkładem normalnym
445
Olbrzymi sukces!
451 X + X + X
18
X+ X+ X+ X
Spis treści Przeprowadzamy losowanie
Pobieramy próbkę Statystyka zajmuje się analizę danych, ale skqd właściwie bierze dane? Czasami zebranie danych potrzebnych do analiz nie jest wcale trudne. Tak było wtedy, gdy potrzebow aliśm y Inform acji o przeciętnym wieku klientów klubu od n ow y czy też danych o wielkości sprzedaży gier kom puterow ych. Ale co w sytuacji, gdy potrzebne nam dane nie są ogólnie dostępne I trzeba je w jakiś sposób zdobyć? Czasami Ilość różnych Inform acji, jakie są nam potrzebne, jest na tyle duża, że nie w iem y naw et, jak się do Ich grom adzenia zabrać. Od czego zacząć? W tym rozdziale dowiesz się, jak grom adzić rzeczyw iste dane w sposób e fe k ty w n y , odpow iedni do potrzeb I m ożliwie jak najniższym kosztem. W ita m y w świecle losowań!
M ig h ty G u m b a ll Sp. z o.o.
p A/
Wielki test produktów Mighty Gumball
454
Firm a traci z powodu zużywanych gum
455
Przeprowadzamy testy na próbce, nie na całej populacji
456
Jak przebiega dobór próby
457
Kiedy próba nie jest reprezentatyw na
458
Jak dobrać próbę
460
Definiujemy operat losowania
461
Czasami dostajemy próby obciążone
462
Ź ródła obciążenia próby
463
Jak właściwie dobrać próbę
468
Losowanie próby prostej
468
Jak uzyskać próbę prostą
469
Istnieją także inne schematy losowania
470
Możemy przeprowadzić losowanie warstwowe...
470
...losowanie zespołowe...
471
...a nawet losowanie systematyczne
471
Mighty Gumball dostał swoją próbę
477
r j j Q Y
' X
X I
)
Spis treści Szacujemy parametry populacji na podstawie próby
Dokonujemy ocen Czy nie byłoby wspaniale, gdybyśmy potrafili scharakteryzować populację generalnq na podstawie informacji zawartych w pojedynczej próbie? Zanim będziesz m ógł św iętow ać osiągnięcie biegłości w pro w ad zeniu badań statystycznych, musisz się nauczyć robić w łaściw y użytek z próbki pobieranej z populacji. Musisz więc posiąść umiejętność p rze w id y w a n ia charakterystyk populacji na podstawie inform acji zawartych w próbie oraz nauczyć się, jak możesz ocenić wiarygodność swoich szacunków. W tym rozdziale pokażem y Cl, w ja k l sposób posiadana próbka może być użyta jako użyteczne źródło Informacji o badanej populacji I vice versa.
Jaka więc jest rzeczywista trwałość smaku tamtych gum?
480
Zacznijmy od oszacowania średniej w populacji
481
Estymatory punktowe pozwalają oszacować param etry populacji 482
F antastyczn ie) Mamy komplet bardzo korzystnych dla nas s ta ty s ty k , któ re możemy w ykorzystać w naszych reklamach.
20
Szacujemy wariancję populacji
486
Znajdujem y inny estymator niż wariancja z próby
487
K tóra form uła co oznacza?
489
Wszystko jest kwestią proporcji
492
Jaki m a to związek z estymacją param etrów ?
497
Rozkład z próby estym atora p
498
Ile wynosi wartość oczekiwana Ps?
500
A ile wynosi wariancja Ps?
501
Ustalam y rozkład Ps
502
Ps m a rozkład normalny
503
Musimy znaleźć rozkład dla średniej z próby
509
Rozkład z próby estym atora średniej
510
Znajdujem y wartość oczekiwaną X
512
A co z wariancją zmiennej X?
514
Jaki jest więc kształt rozkładu zmiennej X?
518
Jeśli n jest odpowiednio duże, rozkład X jest zbliżony do rozkładu normalnego
519
Stosujemy centralne twierdzenie graniczne
520
Spis treści Konstruujemy przedziały ufności
Wyrażamy przekonania Czasami estymacja punktowa daje nie do końca trafione wyniki.
Wiesz juz, jak
za pom ocą estym a to rów p unktow ych uzyskać dokładne oceny param etrów populacji, takich jak w artość oczekiwana, wariancja czy wskaźnik struktury. Nie zawsze jednak ocena w postaci pojedynczej liczby zaspokoi w pełni Twoje oczekiwania. Bo jak ocenić, na ile jest ona dokładna? Bądź co bądź całe wnioskowanie o populacji generalnej opiera się na stosunkowo nielicznej próbie, która przecież nie zawsze musi w pełni odzwierciedlać charakterystyki populacji. W tym rozdziale poznasz inną m etodę szacow ania nieznanych w artości p ara m e tró w populacji, która uwzględnia pewien stopień niepewności ocen I — co więcej — pozwala ją zmierzyć. Czytaj dalej, a poznasz wszystkie tajem nice p rze d zia łó w ufności.
Mighty Gumball znów m a kłopot
526
Problemem pozostaje precyzja
527
Poznajemy przedziały ufności
528
Wyznaczamy przedział ufności w czterech krokach
529
Krok 1: Wybierz param etr populacji
530
Krok 2: Znajdź rozkład jego estym atora w próbie
530
Krok 3: Wybierz poziom ufności
532
Krok 4: Znajdź granice przedziału ufności
534
Zaczniemy od wyznaczenia Z
535
Zapisujemy prawdopodobieństwo z użyciem X
536
Znajdujemy ostatecznie wartość zmiennej X
539
Znaleźliśmy poszukiwany przedział ufności
540
Podsumujmy wykonane kroki
541
Użyteczne skróty przy wyznaczaniu przedziałów ufności
542
Krok 1: Wybierz param etr populacji
546
Krok 2: Znajdź rozkład jego estym atora w próbie
547
Krok 3: Wybierz poziom ufności
550
Krok 4: Znajdź granice przedziału ufności
551
Rozkład t-Studenta a rozkład normalny
553
O 21
Spis resci Weryfikacja hipotez
Oceniamy fakty Nie wszystko, co do Ciebie dociera, musi być prawdq.
Najgorsze jest jednak to,
ze trud n o jest ocenić, kiedy m a się do czynienia z prawdą, a kiedy nie. Weryfikacja hipotez, drugi obok estymacji dział wnioskow ania statystycznego, daje Ci narzędzie do oceny prawdziwości tw ierdzeń statystycznych. Za jej pom ocą będziesz m ógł ocenić, na ile takie, a nie inne charakterystyki próby m ogą być efektem działalności określonych sił, stanowiących o kształcie całej populacji, a na Ile są jedynie dziełem czystego przypadku. Z lektury tego rozdziału dowiesz się, w jaki sposób możesz potw ierdzić lub obalić swoje przypuszczenia odnoszące się do otaczającej Clę rzeczywistości.
Cudowny lek na chrapanie
SnoreCulł W TabletkachJedyne W Swoim Rodzauu Lekarstwo
Na Chrapanie
22
560
Ogólne spojrzenie na problem
564
Weryfikacja hipotez w sześciu krokach
565
K rok 1: Sformułuj hipotezę, którą chcesz zweryfikować
566
K rok 2: Wybierz statystykę testową (sprawdzian testu)
569
K rok 3: Określ obszar odrzuceń testowanej hipotezy
570
K rok 4: Znajdź prawdopodobieństwo p (p-wartość)
573
K rok 5: Sprawdź, czy sprawdzian testu w pada do obszaru odrzuceń
575
K rok 6: Podejmij decyzję
575
Co by się stało, gdyby próba była większa?
578
Przeprowadzamy kolejny test
581
K rok 1: Sformułuj hipotezę, którą chcesz zweryfikować
581
K rok 2: Wybierz statystykę testową (sprawdzian testu)
582
Przybliżamy rozkład statystyki testowej rozkładem normalnym
585
K rok 3: Określ obszar odrzuceń testowanej hipotezy
586
Zacznijmy od błędu I rodzaju
594
A co z błędem II rodzaju?
595
Znajdujem y prawdopodobieństwa a i P w naszym przykładzie
596
Znajdujemy zbiór wartości spoza obszaru krytycznego
597
Znajdujemy P(błąd II rodzaju)
598
Moc przybywa
599
Spis treści R o z k ła d X 2
Gdy sprawy idą nie po naszej myśli Czasami sprawy toczq się zupełnie inaczej, niż się tego spodziewaliśmy. Kiedy decydujesz się na opis pewnego zjawiska za pom ocą konkretnego rozkładu p raw dopodobieństw a, zwykle masz jakieś wyobrażenia na te m a t tego, jak się ono rozwinie w dłuższym okresie. Czasem jednak te w y o b ra że n ia całkow icie rozm ijają się z rzeczywistością. Co w te d y począć? Skąd masz wiedzieć, czy dostrzeżone różnice są jedynie dziełem przypadku, czy też może pierwszą oznaką błędnych założeń leżących u podstaw przyjętego przez Ciebie modelu? W tym rozdziale pokażem y Cl, jak możesz posłużyć się rozkładem x 2 do oceny re zu lta tó w , by m óc wskazać wśród nich te najbardziej podejrzane.
Przed kasynem D ana rysują się kłopoty
606
Przyglądamy się autom atom do gry
607
Rozkład x2 dobrze m odeluje różnice
609
0 czym więc mówi ta statystyka?
610
Główne zastosowania rozkładu x2
611
v reprezentuje liczbę stopni swobody
612
Czym jest istotność statystyczna?
613
Testowanie hipotez z rozkładem x2
614
Rozwiązałeś tajem nicę wysokich wygranych w grach na autom atach
617
D an m a jeszcze jeden problem
623
Rozkład x2 sprawdza się również w testach niezależności
624
Częstości teoretyczne możemy wyznaczyć w oparciu o rachunek prawdopodobieństwa
625
Ile więc wynoszą częstości teoretyczne?
626
Musimy jeszcze poznać liczbę stopni swobody
629
O gólna m etoda wyznaczania liczby stopni swobody
634
A zatem formuła m a postać...
635
Uratowałeś kasyno D ana od bankructwa
637
23
Spis treści Korelacja i regresja
Co z moją linią? Czy zastanawiałeś się kiedyś, w jakim stopniu dwie rzeczy są ze sobą powiązane? W poprzednich rozdziałach przyglądaliśmy się użyciu statystyk, które opisywały zbiór danych z punktu widzenia wyłącznie jednej cechy — m ów iliśm y na przykład o wzroście mężczyzn, punktach zdobytych przez zaw odnika koszykówki czy też o trwałości smaku gum do żucia. Tymczasem istnieją statystyki, które pozwalają ocenić siłę zw ią zk u m iędzy w iększą liczbą zm iennych . Ich znajomość dostarczy Ci znacznie bogatszych inform acji na te m a t otaczającego Cię świata, które będziesz m ógł wykorzystać w e własnym interesie. W tym rozdziale pokażem y Ci, jak w y k ry w a ć zw ią zk i między zm iennym i, korzystając z miar korelacji i regresji.
Przyjrzyjmy się danym na tem at frekwencji i nasłonecznienia R zut oka na wymiary
646
Wykreślamy dane dwuwymiarowe
647
Wykresy rozrzutu pokazują trendy obecne w danych
650
Korelacja a przyczynowość
652
Wykorzystujemy do prognozowania linię o najlepszym dopasowaniu
656
Najlepsze dopasowanie jest nadal tylko dopasowaniem
657
Będziemy minimalizować odchylenia od wartości rzeczywistych
658
Wyznaczamy sumę kwadratów odchyleń
659
Znajdujem y wartości nieznanych param etrów
660
Obliczamy nachylenie linii najlepszego dopasowania
661
Obliczamy nachylenie linii najlepszego dopasowania (cd.)
662
Znaleźliśmy b, ale co z a?
663
Znaleźliśmy związek między dwiema zmiennymi
667
Różne typy korelacji
668
Współczynnik korelacji mierzy siłę związku między zmiennymi
669
Poznajemy wzór na wartość współczynnika r
670
Obliczamy wartość r dla naszego zbioru danych
671
Obliczamy wartość r dla naszego zbioru danych (cd.)
672
'--V. (
24
Poczuj ten rytm, 1 dziecino... ]
645
__
L 0
O ( ^
Czuję! Ale widzę też chmury zbierające się nad naszymi głowam i.
\ J / J
Spis treści Dodatek uzupełniający
Dziesięć najważniejszych rzeczy (które pominęliśmy) Choć powiedzieliśmy już wiele, coś musimy dopowiedzieć. Jest jeszcze
kilka
rzeczy, o których, naszym zdaniem, powinieneś wiedzieć. Byłoby trochę nie w porządku wobec Ciebie, gdybyśm y je całkowicie przemilczeli. Nie ma przy tym znaczenia, że są to naprawdę sprawy, które w y m a g ają tylko krótkiej w zm ian ki.
1. Inne techniki wizualizacji danych
682
2. A natom ia rozkładu prawdopodobieństwa
683
3. Eksperym ent statystyczny
684
4. M etoda najmniejszych kwadratów w notacji alternatywnej
686
5. Współczynnik determinacji
687
6. Zależności nieliniowe
688
7. Przedział ufności dla współczynnika nachylenia prostej regresji 689 8. Rozkłady z próby — różnica między dwiema średnimi
690
9. Rozkłady z próby — różnica między wskaźnikami struktury
691
10. E(X ) i V ar(X ) dla zmiennych ciągłych
692
Tablice statystyczne
Czasem trzeba coś sprawdzić Co byśmy poczęli bez poczciwych tablic statystycznych?
Nie wystarczy znać
zastosowanie poszczególnych rozkładów. Bardzo często trzeba coś policzyć. Dobrze jest mieć w te d y pod ręką tablice statystyczne, zawierające s tandardow e praw do po do bień stw a dla typ o w ych rozkładów. Dlatego ten załącznik prezentuje tablice dla rozkładów: norm alnego, t-S tu d e n ta i %2.
Standaryzowany rozkład normalny
696
W artości krytyczne dla rozkładu t-Studenta
698
W artości krytyczne dla rozkładu %2
699
Skorowidz
701
25
Jak czytać tę książkę
Wprowadzenie
27
Jak czytać tę ksiqżkę
Dla kogo przeznaczona je s t ta książka? Jeśli na każde z poniższych pytań odpowiesz „tak”: ©
Czy chciałbyś nauczyć się statystyki na potrzeby zajęć w szkole, w związku ze swoją pracą albo po prostu uważasz, że nadszedł najwyższy czas dowiedzieć się, czymjest odchylenie standardowe ijakie są szanse na wygraną w ruletkę? Czy chcesz nauczyć się, zrozumieć i zapamiętać, jak wykorzystywać statystykę i rachunek prawdopodobieństwa do opisu zdarzeń zachodzących wokół Ciebie? Czy preferujesz wykład w formie stymulującego do myślenia i działania dialogu zamiast nudnego, mało odkrywczego, czysto akademickiego monologu?
ta książka jest dla Ciebie.
Kto powinien raczej trzymać się od niej z daleka? Jeśli na któreś z tych pytań odpowiesz „tak”: Czy nigdy nie miałeś do czynienia z najprostszą nawet matematyką? (Nie chodzi o jakieś zaawansowane obliczenia, ale o rozumienie podstawowych działań: mnożenia, dzielenia, dodawania i odejmowania). Czy jesteś statystykiem szukającym typowego podręcznika?
Czy lękasz się spróbować czegoś nowego? Czy wolałbyś poddać się leczeniu kanałowemu niż połączyć pasy ze szkocką kratą? Czy wydaje Ci się, że książce, która prostym językiem tłumaczy, czym są diagramy Y enna, nie można ufać?
tai książka nie była pisana z myślą o Tobie.
*
28
po» ¡ « t a ,
Wprowadzenie
w *«»
Wprowadzenie
Wiemy, co sobie przed chwilą pomyślałeś „Jak to coś może się nazywać poważną książką do statystyki?” „O co chodzi z całą tą grafiką?” „Czy w ten sposób można się w ogóle czegokolwiek nauczyć?”
Wiemy też jednak, co pomyślał sobie Twój mózg Twój umysł łaknie czegoś nowego. N ieustannie domaga się, poszukuje i oczekuje czegoś niezwykłego. T ak został zaprojektowany i dzięki tem u utrzymuje Cię przy życiu. Co więc robi Twój mózg z tym wszystkim, czego doświadcza na co dzień, a co można określić jako nudne, rutynowe, banalne? O tóż robi wszystko, co może, by nie przeszkadzało mu to wypełniać podstawowego zadania, jakim jest zapamiętywanie rzeczy, które rzeczywiście mają znaczenie. Nie zawraca sobie głowy zapamiętywaniem nudnych rzeczy; nigdy nie udaje im się przejść przez sito spraw nieistotnych. Skąd zatem Twój mózg wie, co ma znaczenie? Wyobraź sobie, że wziąłeś sobie dzień wolny i udałeś się na wycieczkę. Nagle staje przed Tobą olbrzymi tygrys. Jak na to zareaguje Twój umysł i ciało? N eurony zwariują. Emocje sięgną zenitu. Puls gwałtownie wzrośnie. Właśnie stąd wie, że m a do czynienia z czymś, co m a znaczenie...
T o m u s i b y ć is t o t n e ! N ie z a p o m n ij o ty m ! A teraz wyobraź sobie, że jesteś we własnym domu albo — na przykład — w bibliotece. Siedzisz w ciszy i ciepełku. Strefie wolnej od szarżujących tygrysów. Uczysz się. Przygotowujesz się do egzaminu. Albo studiujesz jakieś skomplikowane zagadnienie na potrzeby swojej pracy, na które szef dał Ci tydzień, maksymalnie dziesięć dni. I pojawia się problem . Twój mózg chce wyświadczyć Ci przysługę. Robi więc wszystko, by najmniejsza nawet porcja w sposób oczywisty nieistotnej informacji nie zajęła nawet kawałka cennych zasobów Twojej pamięci. Zasobów, które mają przechowywać informacje 0 naprawdę ważnych sprawach. Jak atak tygrysa. Jak zagrożenie pożarowe. Jak to, że tych akurat zdjęć z imprezy nie powinieneś zamieszczać na Facebooku. A — niestety — nie m a sposobu na to, by przekonać Twój mózg: „Hej, mój mózgu kochany! Dziękuję za to, jak bardzo się starasz, ale zrozum, proszę, że bez względu na to, jak głupia jest ta książka 1 jak bardzo jej czytanie wywołuje u mnie nudności, naprawdę chcę, byś przechował informacje, które ona zawiera”.
jesteś tutaj ►
29
Jak czytać tę ksiqźkę
H e a d F irs t c h c e s ię
czegoś
nauczyc^
W y s z liś m y z z a ł o ż e n i a , ż e c z y t e l n i k s e r i i
Co więc trzeba zrobić, by się czegoś informacji, a następnie zdobyć M ' „e fakty do Twojej głowy. ^ ^ ^ ¡ ^ ^ S wtłaczać różne neutobiologii i psychologii edukac,, ze : kartki. Wiemy, co stymuluje Twój mozg. czytanie
nauk kognitywnych, r t ę c ą n iż t y lk o
W y b ra n e z a s a d , u c z e n ia s le z s e r ią H e a d Firsts ------ran e za»«««y P o s t a w i a j tre ś c i g ra fic z n ie . O brazy
U ła tw ia ją on
^
S B
zam iast na sąsied nie j stronie, N ie mamy Ł e s o b i a b s o l u t n ie n ic w s p ó ln e g o
a Twoi czytelnicy niemal dwa razy lepiej poradzą
W z a je m n ie s ię
sobie z zagadnieniami, o których on mowi.
w yklucza m y.
O I o Czerwonej
i0 czT Od tych , g dzie stosuje się styl
S
S
S
S
S
z b y t serio.
r - s
r - .....
m & ' B\ L , » i . k i i P » N » - c , c k , c i ć 9o d » « * « “ N
■' - *
— “
O
Czarne
a■
*
w iedzę. Trzeba staw iać m u w y z w a ń a, zlec za an g a zow ać poszczególne zm ysły. p y ta n ia . By z m u s ić d o d z iałan ia obie p ó łk u le m ó zgu , za g
V Zdobądź -
i z a trz y m a j -
, .. u w a g ę czyte
w „ vscv kiedyś słyszeliśm y:„N ap ra w d ę chcę się ^ ^ m 6 zgu p rz y c iągają
te g o nauczyć, ale nie m o g ę w y js c poza p e rw
ą
rzeczy n ie zw ykłe , now e, interesujące -
^
-
n ie o c z e k iw a n e . Nauka now ych , ^
n u d n a . Tw 6j m 6 zg p rzysw o i je
W p ły w a j na em o cje d o z a p a m ię tyw a n ia różnych r
z
ko n te kstu , w ja k im się one p o ja w i ją. interesuje. Z a p a m ię tu je m y to, co
30
Wprowadzenie
e
c
Z
,ę ^
CQ nas n a p ra w dę
^ c h w y ta jące za serce opo w ieści
* C em ocja ch ta kich , ja k zaskoczenie, ciekaw ość,
Wprowadzenie
Metapoznanie — myślenie o myśleniu Jeśli naprawdę chcesz się czegoś nauczyć, a przy tym nauczyć się szybciej, więcej i lepiej, zwróć uwagę na to ... jak zwracasz uwagę. Pomyśl nad tym, jak przebiega u Ciebie myślenie. Naucz się, jak się czegoś uczysz. Większość z nas nigdy nie spotkała się w dzieciństwie z takimi pojęciami, jak m etapoznanie czy teoria uczenia się. Oczekiwano od nas, ze nauczymy się czegoś, ale rzadko uczono nas, jak się mamy uczyć. Zakładam y jednak, ze skoro trzymasz w ręku tę książkę, to naprawdę chcesz się nauczyć statystyki. Przy czym zapewne nie chcesz poświęcić jej nauce zbyt wiele czasu. Jeśli chcesz korzystać na co dzień z wiedzy, która jest zawarta w tej książce, musisz zapamiętać to, co przeczytałeś. A to wymaga od Ciebie zrozumienia czytanego tekstu. Aby wynieść jak najwięcej z tej albo jakiejkolwiek innej książki, weź na siebie odpowiedzialność za pracę swojego mózgu. Pracę nad zawartością tej książki. Cała sztuczka polega na tym, by przekonać Twój mózg, że to, co właśnie czytasz, jest N apraw dę Ważne. Kluczowe dla Twojego dobrego samopoczucia, dla Twojego być albo nie być. T ak ważne, jak spotkanie z tygrysem. W przeciwnym razie będziesz musiał staczać nieustanną walkę ze swoim umysłem, który będzie robił wszystko, co w jego mocy, by nie zapam iętać nowych rzeczy.
Jak więc możesz przekonać swój mózg, by traktował statystykę jako nie mniej ważną od spotkania z tygrysem? Istnieją dwa sposoby: powolny i uciążliwy oraz szybszy i bardziej efektywny. Pierwszy z nich opiera się na ciągłym pow tarzaniu zapamiętywanych treści. D obrze wiesz, że jesteś w stanie zapam iętać i przyswoić pewien m ateriał dzięki ciągłemu wtłaczaniu do głowy tych samych treści. Gdy powtórzysz tę czynność wystarczającą liczbę razy, Twój mózg pomyśli sobie: „Nie wydaje się, by było to coś ważnego, ale skoro ciągle do tego wraca, w kółko wałkuje ten sam tem at, to pewnie jednak jest to dla niego istotne”. D ruga z metod, znacznie szybsza, polega na świadomej stymulacji aktywności mózgu z uwzględnieniem różnych rodzajów tejże aktywności. Zasady wymienione na poprzedniej stronie realizują właśnie to podejście. Ich skuteczność została udowodniona. N a przykład wyniki najnowszych badań pokazują, że umieszczanie słów w obrębie rysunku, do którego się odnoszą (zamiast w dowolnym innym miejscu na stronie), zmusza mózg do wytężonej pracy nad poszukiwaniem związków, które łączą ze sobą słowa i obrazy. Zwiększa to siłę więzów i przewodnictwo neuronów. Im większa aktywność neuronów, tym większa szansa na to, że Twój mózg uzna odbierane informacje za rzeczy ważne i w arte zapamiętania. Styl konwersacyjny sprawdza się dlatego, że ludzie przykładają większą wagę do spraw, które osobiście ich angażują. Muszą wtedy śledzić na bieżąco postęp rozmowy, by być w stanie w każdej chwili się do niej włączyć. Najciekawsze jest to, że Twojego mózgu wcale nie interesuje to, czy konwersacja ma miejsce między T obą a innym człowiekiem, czy między Tobą a książką! Z drugiej strony, wypowiedź w stylu suchym i formalnym Twój mózg odbiera podobnie jak słowa padające z ust wykładowcy na wykładzie, którego jesteś tylko biernym uczestnikiem. N ie widzi potrzeby stałego czuwania. Ale grafika i styl konwersacyjny to dopiero początek...
jesteś tutaj ►
31
Jak czytać tę ksiqżkę D an®
d y sk r^ 6
Oto, co MY zrobiliśmy Wykorzystaliśmy grafikę, ponieważ Twój mózg najlepiej odbiera bodźce pochodzące z obrazów, nie tekstu. Jeśli m a to rzeczywiście skłonić Twój umysł do wytężonej pracy, można powiedzieć, że je st warte tysiąca słów. A ponieważ ta stymulacja jest jeszcze silniejsza, gdy rysunkom towarzyszą słowa, staraliśmy się, by każdemu rysunkowi towarzyszył adekwatny opis. Stosowaliśmy powtórzenia, opisując tę samą rzecz w różny sposób, za pomocą różnych środków wyrazu, z różnych punktów widzenia, aby zwiększyć prawdopodobieństwo tego, że dana informacja zostanie zakodowana przez więcej niż jeden obszar aktywny Twojego mózgu.
5 4 3 2 1± 1
2
3
4
5
Nowymi koncepcjami i grafiką posługiwaliśmy się w sposób zaskakujący i nieoczekiwany, ponieważ zdajemy sobie sprawę z tego, że Twój mózg nastawiony jest na przyjmowanie rzeczy nowych. Przekazywaliśmy przy tym co najmniej w minimalnym zakresie pewien ładunek emocjonalny, ponieważ Twój mózg zwraca szczególną uwagę na biochemię emocji. To sprawia, że czujesz, iż czytana rzecz będzie łatwiejsza do zapamiętania, nawet jeśli wiąże się ona jedynie z odrobiną hum oru, poczucia zaskoczenia czy zainteresowania. Stosowaliśmy spersonalizowany, konwersacyjny styl wypowiedzi, ponieważ Twój mózg jest bardziej nastawiony na odbiór i przyswajanie informacji, gdy wie, że bierzesz udział w konwersacji i nie jesteś jedynie biernym uczestnikiem wykładu. Twój mózg wykazuje taką aktywność także wtedy, gdy czytasz. Zamieściliśmy ponad 80 ćwiczeń, ponieważ Twój mózg uczy się i zapamiętuje nowe rzeczy najlepiej wtedy, gdy sam je wykonujesz, a nie tylko gdy o nich czytasz. Są to ćwiczenia wymagające pewnej inicjatywy, ale w danych warunkach wykonalne, ponieważ tego właśnie oczekuje większość ludzi.
Zaostrz ołówek
Zastosowaliśmy różne style wykładu, ponieważ niektórzy ludzie wolą szczegółowe opisy omawianych procedur, inni zaś wolą najpierw zrozumieć całościowy obraz zagadnienia, a jeszcze inni preferują zapoznać się z nową treścią na przykładzie. Bez względu na szczególne preferencje czytelnika każdy z nich doceni prezentację nowych treści na wiele różnych sposobów. Wykorzystaliśmy treści, które angażują obie półkule Twojego mózgu, ponieważ im większe zasoby mózgu zaangażujesz, tym większa szansa na to, że nauczysz się i zapamiętasz nowy materiał, będąc dłużej na nim skupionym. Ponieważ z reguły praca jednej półkuli mózgu wiąże się z odpoczynkiem drugiej, dzięki tem u będziesz w stanie pracować bardziej efektywnie przez dłuższy czas. Zamieściliśmy historie i zadania prezentujące więcej niż jeden p u n kt widzenia, ponieważ Twój mózg bardziej dokładnie analizuje nowe treści, gdy oczekuje się od niego wydawania ocen i sądów. Zamieszczone ćwiczenia stanowią pewne wyzwanie. Zadawaliśmy w nich pytania, na które nie zawsze istnieje prosta odpowiedź, ponieważ Twój mózg uczy się i zapamiętuje najbardziej efektywnie wtedy, gdy musi nad czymś popracować. Pomyśl sam — jedynie od patrzenia na ludzi uprawiających fitness nie zdobędziesz zgrabnej figury. Zadbaliśmy jednak o to, by Twój wysiłek był na pewno działaniem, z którego odniesiesz jakąś korzyść. Nie musisz się więc martwić, że angażujesz swoje neurony w pracę nad niezrozumiałymi przykładami albo nad przyswojeniem trudnego, naszpikowanego technicznym żargonem lub oszczędnego w treści tekstu. Zaangażowaliśmy ludzi. Do opowiadania historii, w przykładach, na rysunkach itp. Ponieważ — cóż — ponieważ sam jesteś człowiekiem. W związku z tym Twój mózg przykłada większą wagę do ludzi niż rzeczy.
32
Wprowadzenie
Podstawowe terminy
Wprowadzenie
Oto, co TY możesz zrobić, by pobudzić swój mózg My więc zrobiliśmy swoje. Reszta zależy od Ciebie. Poniższe wskazówki mają pokazać Ci najlepszy punkt wyjścia; wsłuchaj się w funkcjonowanie swojego mózgu i zdecyduj, co się sprawdzi w Twoim przypadku, a co nie. Spróbuj nowych rzeczy. W ytnij te wskazówki i u m ieść na drzwiach lodowki.
0
Wykonuj ćw icz e n ia . Z ap isu j sw o je w ła sn e uwagi.
0
Nie tylko czytaj. Zatrzymajsię i myśl. Gdy zadajemy Ci pytanie, nie przechodź od razu do zamieszczonej odpowiedzi. Wyobraź sobie, że ktoś rzeczywiście zadaje Ci pytanie. Do im większego wysiłku zmusisz swójmózg, tym większa szansa na to, że się czegoś nauczysz i zapamiętasz.
Zw olnij. Im w ię c e j zrozum iesz, tym m niej b ęd ziesz m u siał zap am iętać.
Mów o tym, co czyta sz. W ypowiadaj to na głos. Mówienie uaktywnia jeszcze inne części mózgu. Jeśli chcesz coś zrozumieć lub zwiększyć swoje szanse na zapamiętanie tego, powtarzajto na głos. Nawet więcej, starajsię wyjaśniać to na głos innejosobie. Nauczysz się przez to szybciej, a czasem również dostrzeżesz nowe idee, które pominąłeś wcześniej, w trakcie czytania.
0
Słu ch aj sw ojego mózgu. Zwracajuwagę na to, czy nie przeciążasz nadmiernie swojego mózgu. Jeśli nie jesteś w stanie skupić się na tyle, by dotrzeć do sedna problemu, albo też od razu zapominasz to, co przed chwilą przeczytałeś, zrób sobie przerwę. Gdy dotrzesz do pewnego miejsca, wcale nie zaczniesz uczyć się szybciej, próbując wchłonąć na siłę więcejmateriału. Postępując w ten sposób, możesz nawet osiągnąć efekt odwrotny do zamierzonego.
Zamieściliśmy ćwiczenia, ale gdybyśmy rozwiązali je za Ciebie, byłoby to trochę tak, jak byśmy wykonali za Ciebie trening na zajęciach fitness. Starajsię nie tylko czytać ich treść. Weź do ręki ołówek. Jest mnóstwo dowodów na to, że fizyczna aktywność w trakcie nauki sprzyja jejefektywności.
( 3) Czytaj s e k c ję „Nie istn ie ją głupie pytania”. To znaczy wszystkie z zamieszczonych tam pytań i odpowiedzi. Nie zamieszczono ich jedynie dla ozdoby — są one częścią tekstu głównego! Nie pomiń ich zatem.
C zytaj ją jak o o statn ią rzecz przed p ó jściem do łóżka. Albo przynajm niej jak o o sta tn ią rze cz w ym a g a ją cą w ysiłku um ysłowego. Część nauki (a zwłaszcza proces transferu wiedzy do pamięci długotrwałej) odbywa siępo tym, gdy odłożysz książkę na półkę. Twójmózg potrzebuje czasu dla siebie, aby przetworzyć pozyskaną wiedzę. Jeśli w tym czasie będzie musiał zająć się czymś innym, część tejwiedzy zostanie utracona.
0
Pij w odę. Dużo wody. Twójmózg pracuje najlepiejwtedy, gdy jest dobrze nawodniony. Odwodnienie (które może się zdarzyć, jeszcze zanim poczujesz pragnienie) zmniejsza funkcje kognitywne.
0
W czuj się . Twójmózg musi wiedzieć, że to ma znaczenie. Wczujsię w czytane historie. Dopisz do rysunków własne podpisy. Narzekanie na kiepski żart jest mimo wszystko lepsze niż nieangażowanie się w nic.
0
Angażuj s ię w aktyw n e rozw iązyw anie problem ów! Statystyki można się naprawdę nauczyć tylko w jeden sposób: aktywnie odpowiadając na pytania. To właśnie będziesz robił w ramach tej książki. Wykorzystywanie statystyki na co dzień to prawdziwa umiejętność, a aby ją posiąść, trzeba ćwiczyć. Damy Ci ku temu wiele okazji: w każdym rozdziale zamieściliśmy ćwiczenia, które wymagają Twojejpomocy przy rozwiązywaniu. Nie zapominajo nich — rozwiązywanie praktycznych problemów sprzyja większej efektywności nauki. Każdemu ćwiczeniu towarzyszy rozwiązanie. Nie obawiajsię zerkać w nie, jeśli nie będziesz sobie radził sam! (Poradzisz sobie lepiej, gdy zapoznasz się z drobną wskazówką). Jednak postarajsię włożyć w rozwiązywanie zadań możliwie najwięcejsamodzielnej pracy. Koniecznie upewnijsię, że właściwie zrozumiałeś analizowany materiał, zanim pójdziesz dalej.
jesteś tutaj ►
33
Jak czytać tę ksiqżkę
Przeczytaj to
Książka stanowi pewien sposób uczenia się, nie jest natom iast typowym podręcznikiem. Celowo pominęliśmy w niej wszystko to, co mogłoby Ci go przypominać. Czytając książkę po raz pierwszy, powinieneś zacząć od jej początku, ponieważ na kolejnych kartach znajdują się odwołania do treści zaprezentowanych wcześniej.
R o z p o c z y n a m y w y k ła d o d z a g a d n ie ń n a jb a r d z ie j p o d s ta w o w y c h , t o z n a c z y m e to d r e p r e z e n t a c ji i o p is u d a n y c h , p r z e c h o d z im y d o z a g a d n ie ń z w ią z a n y c h z r o z k ła d a m i p r a w d o p o d o b ie ń s tw a , b y n a k o n ie c p o r u s z y ć z a g a d n ie n ia b a r d z ie j z a a w a n s o w a n e , t a k i e j a k w e r y f i k a c j a h ip o te z . Choć omawiane w dalszej części książki zagadnienia są bardzo ważne, nie możesz pominąć tematów fundamentalnych dla tych dalszych rozważań, takich jak: wykreślanie danych, pom iar tendencji centralnej (średnie) czy miary rozproszenia (wariancja). Są to tem aty na tyle proste i przyjemne w nauce, że po ich przyswojeniu będziesz w stanie od razu wykorzystać je w praktyce, co pozwoli Ci zrozumieć ich przydatność i nabrać odpowiedniego entuzjazmu do dalszej nauki. W tedy będziesz mógł przejść do zagadnień związanych z rachunkiem prawdopodobieństwa i teorią rozkładów. Ponieważ będziesz już posiadał solidne podstawy, zdobyte w trakcie lektury wcześniejszych rozdziałów, będziesz mógł się teraz skupić na zrozumieniu sedna poznawanych koncepcji. Łatwo wtedy przejdziesz do rozdziałów poświęconych bardziej zaawansowanym zastosowaniom zdobytej wiedzy, takim jak weryfikacja hipotez. Książka ta przekazuje Ci wiedzę, którą powinieneś posiąść, w optymalnym dla tego celu momencie — bo tylko wtedy zdobywanie wiedzy ma sens.
34
Wprowadzenie
Wprowadzenie
Ć w icz e n ia NIE s ą opcjonalne. Zamieszczone w książce ćwiczenia nie stanowią dodatku do tekstu wykładu, lecz są jego integralną częścią. N iektóre z nich mają za zadanie ćwiczyć Twoją pamięć, inne są ukierunkowane na pogłębienie rozumienia nowego m ateriału, jeszcze inne m ają pokazać Ci praktyczne zastosowania omawianych metod. Nie pom ijaj ćwiczeń. Możesz zrezygnować co najwyżej z rozwiązywania zadań zaprezentowanych w formie łamigłówek, lecz musisz pam iętać, że zostały one przygotowane z myślą o tym, by zachęcić Twój mózg do myślenia o term inach czy wzorach, które właśnie poznałeś w nieco innym kontekście.
P o w tó r z e n ia s ą c e lo w e i p e łn ią w a ż n ą ro lę . Jedną z cech, która odróżnia serię H ead First od innych serii wydawniczych, jest to, że my naprawdę chcemy, byś się czegoś nauczył. I by wiedza ta nie ulotniła się po odłożeniu książki na półkę. Nie wszystkie książki stawiają sobie za cel utrwalenie i zapam iętanie wiedzy, jednak ta książka m a Cię czegoś nauczyć, dlatego pewne jej fragmenty powtarzamy wielokrotnie.
Ć w ic z e n ia z r o d z a ju „ W y s il s z a r e k o m ó r k i” i „ W y tę ż u m y s ł” n ie m a ją p o d a n y c h o d p o w ie d z i. Nie zamieściliśmy odpowiedzi, ponieważ mają one zmobilizować Cię do samodzielnego przemyślenia pewnych zagadnień. Nie m a tu więc prawidłowych odpowiedzi. Niektórym z tych zadań towarzyszą wskazówki, które mają skierować Twoje myśli na odpowiednie tory.
jesteś tutaj ►
35
Zespół recenzentów
Recenzenci merytoryczni Ariana Anderson
Andy Parker
Cary C ollett
Dru Kleinfeld
Danielle Levitt
Michael Prerau Brak zdjęcia (ale nie brak talentu): Jeffrey Maddelena i M a tt Vadeboncoeur. Podziękowania należą s ię te ż Keithowi frahlg renowi, B ruce‘owi Freyowi i Leanne Lockhart za w sparcie techniczne.
Recenzenci: A riana A nderson jest asystentką i doktorantką w Katedrze Statystyki Uniwersytetu Kalifornijskiego w Los Angeles. Jej zainteresowania naukowe skupiają się wokół zagadnień data mining i m etod rozpoznawania wzorców. D ru Kleinfeld ukończyła ekonom ię na Cornell University w 2007 r. Obecnie pracuje w D epartam encie Zasobów Ludzkich w M organ Stanley w Nowym Jorku. Danielle Levitt rozpoczęła studia medyczne w Tel Awiwie w Izraelu. Swój wolny czas spędza najchętniej słuchając muzyki, pływając w oceanie, spotykając się z rodziną i przyjaciółmi.
Andy P arker, fizyk zajmujący się nauką, pomyślał w którymś momencie, że wie też coś o statystyce. Niestety, przeczytawszy tę książkę, stwierdził, że tak mu się tylko wydawało. Andy przez większość swojego czasu martwi się, co jeszcze mógł zapomnieć. Michael J. P rerau jest neurobiologiem prowadzącym badania nad statystycznymi modelami kodowania informacji przez neurony. Jest doktorantem na Uniwersytecie Bostońskim, jak również asystentem w Neuroscience Statistics Research Laboratory na Wydziale Anestezji i O pieki Klinicznej w Massachusetts G eneral Hospital. M atthew Vadeboncoeur studiuje ekologię ekosystemów na Uniwersytecie w New Hampshire.
36
Wprowadzenie
Wprowadzenie
Podziękowania Dla redaktora książki G orące podziękowania składam na ręce redaktora książki Sandersa Kleinfelda. W spółpraca z Sandersem to prawdziwa przyjemność. Wymieniając dziesiątki i setki e-maili, kontaktując się przez telefon czy kom unikator internetowy, staliśmy się dobrymi przyjaciółmi. Sanders jest osobą bardzo oddaną swojej pracy i zawsze chętną do pomocy. Jego rady były zawsze najwyższej próby. Dziękuję Ci, Sanders! Jesteś niesamowity. Bez Ciebie nigdy bym sobie nie poradziła. Dla całego zespołu O ’Reilly Wyrazy wdzięczności jestem winna Brettowi McLaughlinowi za to, że dał mi możliwość podjęcia się tej pracy, jedynej w swoim rodzaju. A także za podróże do Bostonu, gdzie organizowany jest obóz dla rekrutów H ead First. Autorskie pomysły Bretta, jego wizja całej serii są naprawdę fenomenalne. Wiele zyskałam, nie tylko jako autorka książek, na radach, jakich udzielał mi w trakcie pisania tej książki. Dzięki, Brett.
Sanders Kleinfeld
T rudno mi sobie wyobrazić, jakby wyglądała ta książka, gdyby nie Lou B arr. Lou zajmuje się grafiką komputerową. To dzięki niej każda strona tej książki m a w sobie coś magicznego. Jest to działanie świadome — Lou podzieliła się ze m ną również swoim doświadczeniem z zakresu metodyki nauczania. Ż adne wyzwanie nie jest dla niej zbyt trudne i za to jestem jej bardzo wdzięczna. Lou Barr
Również reszcie zespołu redagującego serię Head First jestem winna słowa podziękowania. C atherine Nolan pom agała mi wykonać pierwsze kroki przy pisaniu tej książki i wprowadziła mnie do rodziny H ead First. B rittany Smith dbała o to, by moja praca przebiegała bez przeszkód, L aurie Petrycki zaufała mi na tyle, że zgodziła się na moje autorstwo tej książki (nawet użyczyła mi swojego biura — dzięki, Laurie!), Keith M cN am ara sprawnie zorganizował zespół korektorów i recenzentów, zaś C aitrin McCullough zadbała o stworzenie odpowiedniej strony internetowej. Dziękuję Wam, moi drodzy!
C atherine Nolan
Wyrazy szczególnego uznania chciałabym przekazać K athy Sierra i Bertowi Batesowi, którzy są autoram i pomysłu i koncepcji tej niesamowitej serii książek. D la mnie to prawdziwy zaszczyt, że mogłam mieć swój udział w realizacji ich zamysłu. Dla mojej rodziny i przyjaciół
B rett McLaughl
Bardzo chciałabym mieć tyle miejsca, by wymienić wszystkich, którzy w jakiś sposób przyczynili się do powstania niniejszej książki. Z przyczyn obiektywnych wymienię tylko niektórych — wszystkich pozostałych zapewniam o mojej wdzięczności. G orące podziękowania składam na ręce: Davida, Mamy, Taty, Steve’a Harveya, Gilla Chestera, Paula Burgessa, Andy’ego T atlera i P etera W alkera. To dzięki Wam, W aszemu wsparciu i dobrem u słowu udało się doprowadzić proces twórczy do szczęśliwego końca. Dziękuję.
jesteś tutaj ►
37
38
Wprowadzenie
1. Wizualizacja danych
^
Pierwsze wrażenie
Czy masz problem ze zrozumieniem faktów zapisanych w danych? Statystyki opisowe pom ogą Ci zrozum ieć znaczenie złożonych zb io ró w danych. Dzięki nim bardzo złożone kw estie staną się zupełnie proste. A kiedy ju z zrozumiesz ich sens i będziesz chciał podzielić się tą w ie d z ą z innym i, z pewnością zainteresuje Cię potencjał licznych technik w izu a liza c ji danych, jakie oferuje statystyka. Jeśli chcesz w ięc dobrać optym alny wykres dla swoich danych, weź w rękę swój płaszcz, spakuj ulubiony suwak logarytm iczny I ruszaj z nami po przygodę do Statsvllle.
to jest nowy rozdział ►
39
Witamy w Statsville!
S tatystyki są wszędzie Gdziekolwiek spojrzysz, znajdziesz jakieś statystyki — surfując w internecie, uprawiając sport czy też analizując najlepsze wyniki w Twojej ulubionej grze komputerowej. W arto więc, byś dobrze uświadomił sobie, czym właściwie one są. Statystyki (opisowe) to — mówiąc najprościej — liczby, które ułatwiają odbiór informacji zawartych w danych źródłowych, prezentując je w skondensowanej, a przy tym bardziej zrozumiałej formie. Wskaźniki te (czasem nazywane miernikami bądź miarami rozkładu) pozwalają dostrzec rzeczy niewidoczne na pierwszy rzut oka. Dane źródłowe zaś to zbiór tych wszystkich wyników obserwacji lub eksperymentu (liczb, faktów itp.), które stanowią podstawę wnioskowania. Gdybyś chciał się dowiedzieć, jak radzi sobie drużyna piłkarska, której jesteś kibicem, nie musiałbyś przedzierać się przez wyniki poszczególnych spotkań z jej udziałem. Wszystko to mógłbyś odczytać ze statystyk, dostępnych w gazetach i internecie. Znaczenie poszczególnych statystyk, reguły ich obliczania oraz interpretacji są przedm iotem nauki nazywanej statystyką. Ludzi, którzy zawodowo zajmują się statystyką, nazywamy statystykami.
Przeprowadź analizę
d ^ e. -----^ Wyciągnij wnioski 40
Rozdziali.
Wizualizacja danych
Co Ci dadzą sta ty sty k i? Świadomość tego, o czym informują poszczególne statystyki, może Ci się bardzo przydać. Gdy zrozumiesz, co się kryje w Twoich danych, będziesz podejmował bardziej obiektywne decyzje. Będziesz umiał przewidywać rozwój sytuacji, a także przekazywać zdobytą wiedzę w efektywny sposób. Statystyki mogą być bardzo użytecznym i wygodnym sposobem podsumowywania wiedzy ukrytej w danych, jeśli jednak będą niewłaściwie użyte, mogą nieść ze sobą poważne zagrożenie.
Chociaż statystyki opierają się na danych, a więc faktach, mogą być przyczyną wyciągnięcia nieprawdziwych wniosków. Powołując się na nie, możesz powiedzieć prawdę, ale również skłamać. I tu pojawia się problem : jak odróżnić w takiej sytuacji prawdę od fałszu. W iedza o znaczeniu podstawowych statystyk da Ci przewagę nad innymi. Pozwoli Ci łatwo ocenić, kiedy będą niosły ważną informację, a kiedy ich interpretacja może być myląca. Dzięki tem u nie musisz się obawiać, że mógłbyś paść ofiarą manipulacji. Posłużymy się przykładem — spójrz na informacje o zyskach wypracowanych przez pewną firmę w kolejnych miesiącach drugiej połowy minionego roku.
M ie s ią c Z y s k ( w m illio n a c h
L ip ie c 2,0
S ie r p ie ń
W rz e s ie ń
2,1
2,2
P a ź d z ie r n ik
L is to p a d
G r u d z ie ń
2,1
2,3
2,4
z ło t y c h )
Jak to możliwe, by z tych samych danych m ożna było wyciągnąć tak odm ienne wnioski? Przyjrzyjmy się tem u bliżej.
jesteś tutaj ►
41
Różnice między wykresami
Jak to z wykresami było Jak to się stało, ze te same dane doprowadziły do tak różnych wniosków? Aby to zrozumieć, dokonamy wizualizacji danych, to znaczy przedstawimy je w sposób graficzny. Posłużymy się wykresem odpowiedniego typu. Pozwoli on w szybki i efektowny sposób podsumować informacje, jakie kryją w sobie dane, dając nam podstawę do pierwszych wniosków. Musisz jednak pam iętać, że źle przygotowany wykres może być przyczyną mylnych wniosków. Poniżej zamieszczono dwa wykresy, które pokazują, jak zmieniały się zyski naszej firmy wraz z upływem czasu. (Zysk ten jako interesujący nas param etr określa się mianem cechy statystycznej). Choć oba prezentują takie same dane, m ają całkowicie inny kształt. Jak to jest możliwe? Dlaczego oba wykresy przedstawiają różny obraz rzeczywistości?
Z y s k f i r m y w u ję c iu m ie s ię c z n y m
&
4* O N
2,5 2,0
£ O n
1,5
0
1,0
c
£
0,5
1 £ >
0,0 Lip.
N
Sie.
Wrze.
Paź.
Lis.
Gru.
M ie s ią c Oba w ykre sy p re z e n tu ją te same dane źródłow e, choć znacząco s ię od s ie b ie roznią.
Z y s k f i r m y w u ję c iu m ie s ię c z n y m
N iepraw da, są wręcz zdumiewające. Spójrz, jak szybują w górę!
£* O > O N
£ O n
c o
E l £ >
N
42
Rozdziali.
M ie s ią c
Wizualizacja danych
_
^ Zaostrz ołówek ________
V
Przyjrzyj się jeszcze raz wykresom na poprzedniej stronie. Jakie różnice zaobserwowałeś? Dlaczego wrażenie, jakie wywołują one na pierwszy rzut oka, jest tak różne?
iNie.istnieia,
głupie pytania ^ : Dlaczego warto robić wykresy, zamiast analizować surowe dane?
^ : Na czym polega różnica między danymi a informacjami?
0 : Czasami bardzo trudno jest zaobserwować pewne wzorce
0 : Dane to surowe fakty, bardzo często w postaci liczbowej.
w danych na podstawie samej ich analizy. Dotyczy to zwłaszcza
Informacje zaś to dane, którym nadano określone znaczenie.
danych liczbowych, które zwykle pojawiają się w olbrzymiej
Zobaczmy to na przykładzie. M am y trzy liczby: 5 ,6 i 7. Same
ilości. Wykresy to najprostsze narzędzie do w ykrywania takich
w sobie nie przekazują one żadnej informacji — są to jedynie liczby.
w zorców w danych. Prezentują one informacje w sposób graficzny,
Nie wiemy, w jakim celu je nam podano ani co mogłyby oznaczać.
co bardzo ułatw ia zrozumienie danych i ich poznanie.
Dlatego powiemy, że stanowią one dane. Gdybyśmy jednak dodali, że oznaczają one wiek trojga dzieci, powiedzielibyśmy, że stanowią informacje, ponieważ mają teraz określone znaczenie.
jesteś tutaj ►
43
Zaostrz ołówek: Rozwiązanie
_
*
Zaostrz ołówek ______ Rozwiązanie
Przyjrzyj się jeszcze raz wykresom na poprzedniej stronie. Jakie różnice zaobserwowałeś? Dlaczego wrażenie, jakie wywołują one na pierwszy rzut oka, jest tak różne?
Oba w ykresy prezentują te sam e dane, jednak wywołują catkiem inne wrażenie.
^
Z y s k f i r m y w u ję c iu m ie s ię c z n y m 2.5
&
Pierw szy sugeruje, ze zyski firmy s ą praktycznie sta te. Wynika to z przyjętego zakresu skali na osi pionowej. Zaczyna s ię ona od zera, a więc od wartości dalekiej od tych, które znalazty s ię w zbiorze danych.
4* O N £ O n
c o
Zauważ, ¿o ~l„, ^ r e ta c h 0 ^
2,0 1.5 1,0 0,5 0,0 Lip.
Sie.
Wrze.
Paź.
Lis.
Gru.
M ie s ią c Drugi wykres może wydaje s ię mówić coś innego. Z yski firmy wydają s ię bardziej wahać z m iesiąca na m iesiąc, choć, ogólnie rzecz biorąc, rosną. Wynika to z zastosow ania innej skali na osi pionowej, która zaczyna s ię od w a rto ś c i rzeczyw iście zaobserw ow anej. Caty wykres ulega przeskalowaniu, co utrudnia jego prawidłową interpretację.
Z y s k f i r m y w u ję c iu m ie s ię c z n y m
Tutaj skala zaczyna s ię od dwójki a nie od zera Nic dziwnego, że teraz zyski robią wrażenie. Sie.
Wrze.
Paź.
M ie s ią c PlacŁego powinnam się tym wsŁystkim prŁejmować? P rŁ e c ie i istnieją programy, k tó re wykreślą dla mnie kaidy wykres.
'
^
Oprogramowanie nie będzie myśleć za Ciebie! Programy kom puterowe pozwolą Ci przygotować profesjonalne wykresy i zaoszczędzą mnóstwo czasu, ale nie zrobią za Ciebie wszystkiego. Nie podejm ą za Ciebie decyzji, jaki rodzaj wykresu będzie najlepiej pasował do danego zbioru danych i pozwoli Ci przekazać innym własny punkt widzenia. Odpowiednie oprogramowanie wyręczy Cię w żmudnej czynności wizualizacji danych, jednak tylko od Ciebie zależy, czy robiąc dany wykres, osiągniesz cel, jaki sobie założyłeś.
44
Rozdziałl.
Lis.
Gru.
Wizualizacja danych
Manic Mango prosi Cię o pomoc Jedną z wielu firm, które potrzebują eksperta z zakresu wizualizacji danych, jest Manie Mango, producent innowacyjnych gier komputerowych, który przebojem wdziera się na światowe rynki. Jej szef został zaproszony do zaprezentow ania swojej firmy w czasie nadchodzącej wystawy Expo. Potrzeba mu więc szybkiego i efektywnego sposobu prezentacji danych i z tym problem em zgłasza się do Ciebie. O d Twoich umiejętności zależą więc dalsze losy jego i jego firmy. Jeśli prezentacja będzie bardzo dobra, przyniesie firmie wymierne korzyści w postaci dodatkowych środków na sfinansowanie planów rozwojowych (a Tobie atrakcyjną prem ię za wysiłek włożony w jej przygotowywanie). Szef firmy m a pewne wyobrażenie o przebiegu swojego wystąpienia. N a początku chciałby dokonać porównania wielkości sprzedaży gier według ich gatunku. W prowadził posiadane dane do arkusza kalkulacyjnego i za jego pom ocą stworzył poniższy wykres:
Pozostałe Strzelanki 1500 3500 Akcja 6000
Strategiczne 11 500
S p rz e d a ż
c W ^ W Y S IL SZARE K O M O R K I Przyjrzyj się dobrze powyższem u wykresow i. Co reprezentują poszczególne części koła? Co m ógłbyś powiedzieć o popularności poszczególnych ga tun kó w gier wśród klientów firmy?
jesteś tutaj ►
45
Tajemnice wykresu kołowego
Prosty, lecz bardzo użyteczny wykres kołowy Z asada konstrukcji wykresów kałowych jest stosunkowo prosta. O piera się ona na podziale zbioru danych na rozłączne klasy (podzbiory danych) różniące się wartościami interesującej nas cechy. Podziałowi tem u odpowiada podział koła na części odpowiadające poszczególnym klasom. Ich powierzchnia jest proporcjonalna do liczebności danej klasy: wycinek zajmuje tym większą powierzchnię, im liczniejsza jest klasa, którą reprezentuje. Liczebność każdej klasy nazywać będziemy częstością absolutną. Z am iast częstości absolutnej można mówić o częstości względnej, gdy wyraża się ją jako udział danej klasy w całości. Wykres kołowy prezentuje kompletny zbiór danych w podziale na rozłączne klasy. D latego suma wszystkich częstości przedstawionych na diagramie jest równa liczbie elementów wyjściowego zbioru (w przypadku częstości względnej suma ta będzie wynosiła 1 lub — równoważnie — 100%). Zobaczmy to wszystko na wykresie:
Pozostałe Strzelanki 1500 3500 Akcja 6000
Ten w ycinek za jm u je dużo m niejszą po w ie rzch n ią n iż pozostafe, co ■ gier tego g a tun ku sprzedaje s ią duzo m niej n iż pozostałych. . f T
Ten wycinek kota zajm uje największa - P°w>erzchnię , co o z L c Ł , d
największa.
Strategiczne 11 500
da" ^
-
na diagram Ä S Äi nazw ą oroz
P° £ 2 f w
Kiedy warto tworzyć wykresy kołowe? Wiemy już, że powierzchnia każdego wycinka reprezentuje częstość jednej z klas, które wyróżniliśmy w zbiorze danych. Dlatego ten typ wykresu sprawdza się wszędzie tam, gdzie zależy nam na porównaniu struktury danych. Już na pierwszy rzut oka pozwala on stwierdzić, które klasy są bardziej liczne od pozostałych. Oznacza to jednak, że wykresy tego typu nie sprawdzą się najlepiej w przypadku klas o zbliżonych liczebnościach. Kiedy bowiem wszystkie klasy charakteryzują się zbliżoną częstością, wszystkie wycinki będą miały praktycznie jednakową powierzchnię.
46
Rozdział!.
Sportowe
27 500
Strategiczne 11 500 6000
Strzelanki
3500
Pozostałe
1500
c z ą s to ś ć .
S p rz e d a ż g ie r w e d łu g g a t u n k u ( w s z t u k a c h )
Czy zatem szef Manie Mango właściwie dobrał typ wykresu do swoich danych?
W ie lk o ś ć s p rz e d a ż y ( w s z tu k a c h )
Akcja
Sportowe 27 500 M o i.» K
Jest
G a tu n e k
Podstawowe terminy Częstość C zę sto ść m ówi o tym , ja k w iele elem en tó w zbio ru danych na leży do o kreślonej klasy. M oże określa ć ich liczebność (c z ę s to ś ć a b so lu tn a ) bądź u d zia ł w ca ło ści (c z ę s to ś ć w zględna).
Wizualizacja danych
Kiedy wykres kołowy zawodzi Pierwsze sukcesy tak podbudowały szefa Manie Mango, ze postanowił stworzyć jeszcze jeden wykres kołowy, informujący o poziomie satysfakcji klientów Manie Mango z zakupionych gier. Dysponował danymi na tem at odsetka klientów zadowolonych z zakupu gry danego gatunku, które chciał umieścić na wykresie w celu ułatwienia ich porównania. Z a pom ocą arkusza kalkulacyjnego stworzył nowy wykres kołowy, lecz gdy ujrzał wynik swojej pracy, jego entuzjazm nieco osłabł.
Co Łtobiłem ź.le? W stystkie fragm enty koła są sobie równe, a p r z e c ie ż dane mówią coś innego. C zy m o ż e s z pomóc mi naprawić mój błąd?
Pozostałe 85%
Sportowe 99%
Strzelanki 95% Strategiczne 90% Akcja 85%
Wykresy kołowe wykorzystuje się do porównywania częstości poszczególnych klas wyodrębnionych w zbiorze danych. W tym jednak przypadku między częstościami kolejnych klas nie ma istotnych różnic.
O d s e te k k lie n t ó w z a d o w o lo n y c h z z a k u p u ( w e d łu g g a tu n k u g r y )
Bardzo trudno jest powiedzieć na pierwszy rzut oka, z którym gatunkiem gier wiąże się największy poziom zadowolenia ich nabywców.
S z e f Manie Mang.
Poza tym nie powinno się umieszczać na wykresie wartości procentowych, które nie odnoszą się do liczebności kompletnego zbioru danych, tak jak zrobił to szef Manie Mango. Choć aż 99% nabywców gier sportowych było zadowolonych ze swojego zakupu, to odpowiadający im wycinek koła zajmuje na wykresie tylko 20% jego powierzchni. Co więcej, nie wiemy tak naprawdę, ilu nabywców gier każdego gatunku wzięło udział w badaniu. Jeśli liczba udzielonych odpowiedzi różniła się dość znacznie, wnioski wyciągnięte na podstawie takiej analizy mogą być mylące.
Wykresy kołowe p r e z e n t u j
udziały części w całości
WYSIL SZARE K O M Ó R K I Przeanalizuj ponow nie inform acje, jakie szef Manie M ango chciał zaprezentować na ostatnim wykresie. Jakie problem y napotkał? Jaki rodzaj wykresu pom ógłby je przezwyciężyć?
jesteś tutaj ►
47
Wykres słupkowy w dwóch odsłonach
Wykres słupkowy je s t bardziej precyzyjny Gdy diagram kołowy nie wystarcza, warto pomyśleć o wykresie innego typu. N a przykład o wykresie słupkowym. Podobnie jak wykres kołowy, umożliwia on dokonywanie porównań częstości różnych klas, ale z większą precyzją. Tego typu wykresy sprawdzają się dobrze także wtedy, gdy częstości poszczególnych klas są do siebie zbliżone. Dobierając odpowiednio skalę, łatwo można wskazać klasę o największej częstości. Nawet najmniejsze różnice między częstościami poszczególnych klas będą widoczne jak na dłoni. Wykres słupkowy może być kreślony zarówno w pionie, jak i w poziomie. W pierwszym przypadku nazwiemy go wykresem kolumnowym, zaś w drugim — wykresem wierszowym. Wykres słupkowy składa się z pewnej liczby kolumn lub wierszy reprezentujących klasy w yodrębnione w zbiorze danych. Wielkość każdego słupka jest proporcjonalna do wartości, jaką reprezentuje: im wyższa kolumna (dłuższy wiersz), tym ta wartość wyższa. Każdy słupek m a tę samą szerokość, co ułatwia ich porównywanie.
Wykres kolumnowy N a wykresie kolumnowym oś pozioma prezentuje poszczególne klasy, zaś oś pionowa — odpowiadające im częstości. Wysokość kolumny jest proporcjonalna do częstości. Oto przykład wykresu kolumnowego prezentującego informacje o sprzedaży gier (w sztukach) w pięciu regionach (A, B, C, D, E):
na wielkość sprzedaży w danym regionie.
10000 □
9000 8000 7000 O n N
W
■N n
■o 0) ü a
Każda kolumna reprezentuje jeden region.
S p rz e d a ż ( w s z tu k a c h )
A
1000
4000
B
5000
3000
C
7500
2000
D
8000
1000
E
9500
V)
0 A
B
C
D
W ie lk o ś ć s p r z e d a ż y ( w s z tu k a c h ) z p o d z ia łe m n a r e g io n y
48
R e g io n
6000 5000
Sprzedaż (w sztukach)
Rozdziałl.
E
Wizualizacja danych
Wykres wierszowy Wykresy słupkowe w układzie poziomym różnią się od wykresów w układzie pionowym jedynie przeznaczeniem poszczególnych osi (co wpływa na kierunek wykreślania słupków). N a wykresie wierszowym poszczególne klasy odkładane są na osi pionowej, a częstości na osi poziomej. Długość każdego stupka w skazuje odsetek klientów zadowolonych
O to wykres wierszowy prezentujący te same informacje co poprzednio:
W szy stk ie stupki kreślone s ę w układzie w ierszow ym .
¡ a tu n Z U ^
O d s e t e k k lie n t ó w z a d o w o lo n y c h z z a k u p u ( w e d łu g g a tu n k u g r y )
Odsetek zadowolonych
Sportowe
Strategiczne
Akcja Kazdy stupek cep rezentuje inny gatunek
^
Strzelanki
G a tu n e k
% z a d o w o lo n y c h
Sportowe
99%
Strategiczne
90%
Akcja
85%
Strzelanki
95%
Pozostałe
80%
Pozostałe
0
T "
- V
- V
- V
- V
- V
- V
- V
- V
10
20
30
40
50
60
70
80
90
—i 100
% z a d o w o lo n y c h
Częstości
k|as
poszczeg°^ycn osi
■ odktedene są poziomej-
Wykresy kolumnowe cieszą się nieco większą popularnością niż ich wierszowe odpowiedniki. Poziomy układ wykresu sprawdza się jednak lepiej wtedy, gdy nazwy poszczególnych klas są stosunkowo długie: nie zmieniając kierunku tekstu, można je łatwo zmieścić na wykresie.
Wykres kolumnowy p re ze n to w a ł częstości absolutne, a wykres wierszowy częstości względne. Czy je s t to regułą?
<
Nie jest to regułą. Wszystko zależy od tego, jaki komunikat chcesz przekazać odbiorcom wykresu. Przyjrzyjmy się tem u bliżej.
jesteś tutaj ►
49
Kwestia »kali
Wszystko je s t kwestią odpowiedniej skali Gdy nauczysz się odpowiednio operować skalą, będziesz mógł przekazać odbiorcom dokładnie takie informacje, na jakich Ci zależy. Ale musisz być ostrożny — przez zastosowanie nieodpowiedniej skali możesz zniekształcić prawidłowy odbiór danych. Spójrz, dlaczego tak się dzieje.
Wykorzystanie skali procentowej N a początek przyjrzyjmy się wykresowi słupkowemu prezentującem u informacje o zadowoleniu klientów Manie Mango z nabycia gry danego gatunku. N a osi poziomej odłożono informacje o odsetku klientów zadowolonych z zakupu, a więc dane w ujęciu procentowym. O d s e te k k lie n tó w za d o w o lo n y c h z za k u p u (w e d łu g g a tu n k u g ry ) □
S p o rto w e
O d se te k z a d o w o lo n y c h
S tra te g icz n e
A kcja
S trz e la n k i
P o zo stałe
Tutaj odktadane Są procenty. 0
10
20
30
40
50
60
70
80
90
100
% za d o w o lo n y c h
Wykres tego typu bardzo ułatwia porównanie różnych wartości procentowych. Łatwiej też je odczytać z samego rysunku. Nie rozwiązuje jednak wszystkich problemów. N ie pozwala na przykład ocenić, jak wielu nabywców gry danego gatunku wzięło udział w badaniach satysfakcji z zakupu. Bez tej informacji trudno jest ocenić, na ile m iarodajne są nasze dane — czy odzwierciedlają one opinię wszystkich nabywców gier, niektórych z nich, czy może jedynie garstki. Dlatego prezentując dane w ujęciu procentowym, w arto pam iętać o podaniu częstości absolutnych — bezpośrednio na wykresie albo poza nim (np. w tabelce).
N ie u fa j p u b lik a c jo m , w k t ó r y c h w y k r e ś lo n o d a n e w u ję c iu p r o c e n t o w y m b e z p o d a n ia c z ę s t o ś c i a b s o lu tn y c h , i n a o d w r ó t. Może to być bowiem celowym działaniem autorów, którzy starają się ukryć pewne fakty dotyczące danych źródłowych. Bez tych informacji nie da się powiedzieć, na ile reprezentatywne dla ogółu są dane źródłowe. Mógłbyś na przykład przeczytać w gazecie, że istotna większość graczy preferuje określony gatunek gier, ale — pom yśl sam — ile warta je s t taka informacja, gdy okaże się, że w badaniach wzięło udział jedynie 10 klientów? Niewiele więcej warta je s t informacja, że 10 000 graczy preferuje gry sportowe, je ś li nie będziesz m ógł ocenić, ja k ą część wszystkich graczy stanowi owe 10 000. t o '.
50
Rozdziali.
Wizualizacja danych
Wykorzystanie skali bezwzględnej Zam iast wartości w ujęciu procentowym (względnym) możesz zamieścić na wykresie informacje w ujęciu bezwzględnym. Ułatwi to odbiorcom wykresu odczytanie liczebności poszczególnych klas i porównanie ich pomiędzy sobą.
L ic zb a k lie n tó w za d o w o lo n y c h z za k u p u (w e d łu g g a tu n k u g ry ) □
K lie n c i z a d o w o le n i z zak u p u
Ten < r-
„a n n ie ie o 01d s e te K ki w yr a k a żd e g o g a tu n k u . g ry
,„ k u D U
L ic zb a k lie n tó w
Skala w ujęciu absolutnym zaczyna się najczęściej od zera. Ale uważaj, bo nie jest to regułą. A jak już się przekonałeś, zm iana skali m a decydujący wpływ na wrażenie, jakie wykres wywiera na jego odbiorcy, i może naw et wpłynąć na wnioski, jakie z niego wyciągnie.
Czy chcecie pow iedzieć, źe nie można prezentow ać danychjednoczesnie w ujęciu bezwzględnym i względnym? A gdybym jednak chciała to zrobić?
Wykresy słupkowe są dość elastyczne i łatwo poddają się modyfikacjom. Omówione wyżej typy wykresów pozwalały na graficzną prezentację jedynie liczby bądź odsetka klientów zadowolonych z zakupu (ale nigdy jednocześnie). I to wyłącznie tych zadowolonych z zakupu. Spójrzmy więc, jak możemy sobie radzić z podobnymi ograniczeniami.
jesteś tutaj ►
51
Wykreślanie złożonych zbiorów lanych
Praca z bardziej złożonymi zbiorami danych N a wykresie słupkowym bardzo łatwo jest zaprezentować więcej niż jedną cechę danych. N a przykład na tym samym wykresie można by zamieścić informacje o odsetku klientów zadowolonych i niezadowolonych z zakupu. M ożna by to zrobić na dwa sposoby.
Skategoryzowany wykres słupkowy Pierwszy polega na wykreśleniu oddzielnych słupków dla dwóch kategorii danych: informacji o klientach zadowolonych i niezadowolonych z zakupu — z podziałem na gatunki gier. O dsetek klientów zadowolonych i niezadowolonych traktujem y jak oddzielne kategorie. Ten sposób wizualizacji ułatwia porównywanie wartości absolutnych, ale nie sprawdza się najlepiej, gdy chcemy porównywać wartości w ujęciu względnym (odsetki czy proporcje).
Z a d o w o le n ie g r a c z y z z a k u p u g ry (w e d łu g g a tu n k u ) S p o rt o w e
□
Z a d o w o le n i z z a k u p u
□
N ie z a d o w o le n i z z a k u p u
□
Z a d o w o le n i z z a k u p u
□
N ie z a d o w o le n i z z a k u p u
S tr a te g ic z n e
A k c ja
S t r z e la n k
P o z o s ta łe
0
5000
10000
15000
20000
25000
30000
C z ę s to ś ć
Wykres warstwowy Gdybyś na tym samym wykresie chciał zaprezentować informacje w ujęciu bezwzględnym oraz względnym, mógłbyś posłużyć się wykresem warstwowym. Każdej klasie odpowiada tu jeden słupek, przy czym jego powierzchnia jest dzielona proporcjonalnie do odsetka klientów zadowolonych i niezadowolonych z zakupu (oba odsetki stanowią jedną kategorię). Długość słupka — jak w przypadku zwykłego wykresu wierszowego — pokazuje liczebność danej klasy.
Z a d o w o le n ie g r a c z y z z a k u p u g ry (w e d łu g g a tu n k u ) S p o rt o w e
1
S tr a te g ic z n e
A k c ja
□
S t r z e la n k
P o z o s ta łe
] 0
5000
10000
15000
20000
25000
3000C
C z ę s to ś ć
Wykres tego rodzaju pozwala łatwo odczytać informacje o liczebności każdej klasy — w naszym przykładzie jest to liczba nabywców gry danego gatunku — i jednocześnie zorientować się, jak duży jest odsetek klientów zadowolonych z zakupu.
52
Rozdziali.
Wizualizacja danych
Szef Manic Mango musi przygotować kolejny wykres na potrzeby swojego wystąpienia. W poniższej tabeli zamieszczono informacje niezbędne do jego sporządzenia. Spróbuj przedstawić je na wykresie w możliwie najbardziej przejrzysty sposób.
Ćwiczenie K o n ty n e n t
W ie lk o ś ć s p r z e d a ż y (w s z tu k a c h )
Ameryka Północna
1500
Ameryka Południowa
500
Europa
1500
Azja
2000
Australia i Oceania
1000
Afryka
500
Antarktyda
1
ołówek ____________________________________________________ Poniżej zamieszczono jeszcze jeden wykres przygotowany przez szefa Manic Mango. Na jego podstawie odpowiedz na pytanie, który gatunek gier cieszył się największą popularnością wśród klientów firmy w 2007 r.? Jak te same gry sprzedawały się w 2006 r.? S p rz e d a ż g ie r w k o le jn y c h la t a c h ( w e d łu g g a tu n k u ) Sportowe
|
| 2006
|
| 2007
Strategiczne
0)
c
3
4* n (9
Akcja
Strzelanki
Pozostałe
5000
10000
15000
20000
25000
30000
W ie lk o ś ć s p rz e d a ż y
jesteś tutaj ►
53
Ćwiczenie: Rozwiązanie
Szef Manic Mango musi przygotować kolejny wykres na potrzeby swojego wystąpienia. W poniższej tabeli zamieszczono informacje niezbędne do jego sporządzenia. Spróbuj przedstawić je na wykresie w możliwie najbardziej przejrzysty sposób.
Ćwiczenie Rozwiązanie
S p rzed a ż gier według regionów św iata Ameryka
K o n ty n e n t
W ie lk o ś ć s p rze d a ży (w s z tu k a c h )
Ameryka Północna
1500
Ameryka Południowa
500
Europa
1500
Azja
2000
Australia i Oceania
1000
Afryka
500
Antarktyda
1
P ó tn o c n a
"I-------1----------- 1-- 1------- 1------- 1-------1------- 1------- 1------- 1 O
200
400
600
800 1000 1200 1400 1600 1800 2000
Sprzedaż
_
^ Zaostrz ołówek Rozwiązanie
Poniżej zamieszczono jeszcze jeden wykres przygotowany przez szefa Manic Mango. Na jego podstawie odpowiedz na pytanie, który gatunek gier cieszył się największą popularnością wśród klientów firmy w 2007 r.? Jak te same gry sprzedawały się w 2006 r.?
S p r z e d a ż g ie r ( w e d łu g g a tu n k u ) Sportowe
Strategiczne W 2007 r. sprzedano najwięcej gier z gatunku sportowych — 27 500 sztu k W 2006 r. sprzedano jedynie 14 000 gier tego gatunku, a więc znacznie mniej. Wówczas najlepiej sprzedaw ały s ię gry strategiczne
0)
c
3
4* n O
Akcja
Strzelanki
Pozostałe 1
□
0
5000
10000
15000
20000
25000
30000
S p rz e d a ż
54
Rozdziali.
Wizualizacja danych
Twoje wykresy powalają na kolana Szef Manie Mango jest bardzo zadowolony z wykresów, jakie dla niego przygotowałeś, ale m a jeszcze wiele informacji, Dobra robota! Te wykresy będą prawdziwą ozdobą m ojej p re z e n ta c ji. Teraz które chciałby przedstawić mam dla C iebie nowe zadanie. Przy pomocy w sposób graficzny w czasie ochotników testujem y właśnie nasz najnowszy produkt swojego wystąpienia. Wystawiają mu oni oceny w postaci punktowej, któ re również chciałbym dołączyć do mojej p re ze n ta c ji w postaci wykresu. Oto dane:
Testerzy wystawiają 9rze ocenę punktową z za«resu od 0 do 999 punktów. Na przykład ocenę z przedziału u ~ W punktów wystawiło 5 osób.
O cen a punktowa
C z ę sto ść
0 - 199
5
200 - 399
29
400 - 599
56
600 - 799
17
800 - 999
3
-I
C re s to ś ć oznacza W tym p rz y p a d k u
hcz ą o c e n m ie s z c z ą c y c h s ę w p o d a n y m p r z e d z ia le .
Tego rodzaju inform acje różnią się od tych, ja k ie analizowaliśmy dotychczas. Czy to oznacza, ż e powinniśmy zajmować się nimi inaczej niż do t e j pory?
WYSIL SZARE KOMÓRKI Przyjrzyj się ponow nie danym źród ło w ym , które stanow iły podstaw ę naszych dotychczasowych analiz. Czy domyślasz się, co odróżnia przedstawione wyżej dane od analizowanych do tej pory? Jak m oże to w płynąć na sposób wykreślania tych danych?
jesteś tutaj ►
55
Kategorie a liczby
Kategorie a liczby Przed przystąpieniem do kreślenia wykresu powinieneś zastanowić się przez chwilę, z jakim typem danych masz właściwie do czynienia. Nie wszystkie bowiem rodzaje wykresów nadają się do prezentow ania danych dowolnego typu.
Dane jakościowe (kategorialne) W większości przykładów, które dotąd rozpatrywaliśmy, dane źródłowe miały charakter danych kategorialnych, zawsze bowiem można było wydzielić pewną liczbę kategorii (klas), które dzieliły kompletny zbiór danych pod względem określonej cechy jakościowej, niemierzalnej. D latego też dane tego typu określa się często danymi jakościowymi. Przykładem cechy o charakterze jakościowym jest gatunek gry — każdy stanowi oddzielną kategorię. Najważniejszą cechą charakterystyczną danych jakościowych jest to, że nie można ich interpretow ać jako liczb.
Dane ilościowe (liczbowe) N a dane liczbowe — jak sama nazwa wskazuje — składają się liczby. Każdą wartość występującą w zbiorze danych można odczytywać jako liczbę, a więc coś, co m ożna zliczyć bądź zmierzyć. D latego też dane liczbowe są nazywane danymi ilościowymi, dla odróżnienia od danych jakościowych.
czas N a ile takie rozróżnienie może wpłynąć na możliwość prezentacji danych za pom ocą wykresów?
56
Rozdziali.
Wizualizacja danych
Praca z danymi zgrupowanymi D ane, które w ostatnim przykładzie przedstawił szef Manie Mango, Oceny mają miały charakter ilościowy. Co więcej, były to dane zgrupowane, charakter przetworzone do postaci tak zwanego szeregu rozdzielczego. ilościowy zostały Jaki rodzaj wykresu najlepiej sprawdzi się w tym przypadku? z9 rupowane w szereg przedziatów. P tŁ e c ie i to proste! C ty nie moiem y wykorzystać zwykłego wykresu słupkowego, tak jak to robiliśmy do t e j pory? Każdy p rz e d z ia ł liczbowy możemy traktować jak oddzielną klasę.
]
O cena punktowa
C z ę sto ść
0 - 199
5
200 - 399
29
400 - 599
56
600 - 799
17
800 - 999
3
q
Oczywiście możemy, choć istnieją lepsze metody. Zam iast traktować każdy przedział jak oddzielną klasę — jak w przypadku danych jakościowych — możemy skorzystać z tego, że mamy do czynienia z danymi o charakterze ilościowym, które dadzą się przedstawić przy użyciu skali liczbowej. Innymi słowy, każdy słupek będzie reprezentow ał pewien zakres ocen, nie zaś pojedynczą wartość (klasę) jako taką. Wykres, którym się posłużymy, nosi nazwę histogramu. H istogram wizualnie bardzo przypomina zwykły wykres słupkowy, choć różni się od niego co najmniej z dwóch powodów. Po pierwsze, powierzchnia każdego słupka nie jest dobierana dowolnie, ale jest wprost proporcjonalna do częstości przypisanej przedziałowi, który ten słupek reprezentuje. Po drugie, pomiędzy sąsiednimi słupkami nie m a wolnej przestrzeni. Poniżej zamieszczono przykład histogramu prezentującego informacje o średniej liczbie gier kupowanych miesięcznie przez jedno gospodarstwo domowe ze Statsville.
P r z e c ię t n e m ie s ię c z n e z a k u p y g ie r o
o
w flp N O
słupkami nie ma przerw-
P o m ię d z y
k ° ? j erzc hnia
h ! t T stuP*°
0
4
5
6
L ic z b a g ie r
jesteś tutaj y
57
Konstruujemy listogram
C z ę sto ść
0 - 199
5
200 - 399
29
Zajmijmy się dwiema pierwszymi klasami z naszego przykładu. Są to przedziały: 0 - 1 9 9 oraz 200 - 399 punktów. Łatwo zauważyć, że górną granicą pierwszego przedziału jest 199, zaś dolną granicą drugiego — 200. Gdybyśmy wykreślili te dwa przedziały na osi liczbowej, pomiędzy nimi powstałaby przerwa, jak na poniższym rysunku:
400 - 599
56
600 - 799
17 3
199
200
Nie może to mieć miejsca w przypadku histogramu. Aby pozbyć się tego problem u, zmodyfikujemy nieco granice obu przedziałów. Pierwszy z nich będzie się kończył w połowie odległości między nim a przedziałem sąsiednim, gdzie z kolei ten będzie się zaczynał. W spólną ich granicą będzie wartość 199,5:
199,5
Dzięki tem u sąsiadujące ze sobą przedziały będą miały wspólną granicę i nie pozostanie między nimi żadna wolna przestrzeń. Gdy powtórzymy ten zabieg dla kolejnych trzech przedziałów, otrzymamy w efekcie:
-0,5
199,5
399,5
599,5
799,5
Długość każdego przedziału klasowego jest taka sama i wynosi 200 punktów. Dlatego też prawidłowo zbudowany histogram otrzymamy, kreśląc prostokąty zbudowane na kolejnych przedziałach klasowych, których wysokość będzie uzależniona od częstości przyporządkowanej danem u przedziałowi.
58
Rozdziali.
999,5
CD CD CD
O cen a punktowa
o 0 1
Pierwszym krokiem na drodze do stworzenia histogramu jest podanie rozpiętości przedziałów klasowych. Należy tu pam iętać o dwóch rzeczach: by pokryć przedziałami cały zakres zmienności danej cechy (w naszym przypadku jest to przedział od 0 do 999 punktów) oraz by przedziały te sąsiadowały ze sobą, ale były rozłączne.
CO
Konstrukcję histogram u rozpoczniemy od podania długości przedziałów
Wizualizacja danych
Poniżej przedstawiamy jeszcze raz informacje uzyskane od szefa Manic Mango.
Ćwiczenie O cen a punktowa
C z ę sto ść
0 - 199
5
200 - 399
29
400 - 599
56
600 - 799
17
800 - 999
3
Spróbuj na ich podstawie wykreślić histogram według podanego wyżej przepisu. Pamiętaj, że częstość odkładamy na osi pionowej.
60
50
40
30
20
10
0
100
200
300
400
500
600
700
800
900
1000
jesteś tutaj ►
59
Ćwiczenie: Rozwiqzanie
Poniżej przedstawiamy jeszcze raz informacje uzyskane od szefa Manic Mango.
Ćwiczenie Rozwiązanie C z ę sto ść
56
600 - 799
17 3
0
1
400 - 599
CD CD CD
5 29
o
0 - 199 200 - 399
CO
O cen a punktowa
Spróbuj na ich podstawie wykreślić histogram według podanego wyżej przepisu. Pamiętaj, że częstość odkładamy na osi pionowej.
C z ę sto ść decyduje o w ysokości każdego
60
p ro s to k ą ta .
Oceny w ysta w io n e grze
3> 50
40
30
20
'Z I 10
/ -
0
100
200
300
400
500
600
700
800
900 Ocena
60
Rozdziali.
1000
Wizualizacja danych iNie.istnieia,
głupie pytania ^ : Czy dobrze rozumiem, że histogram nadaje się do prezentacji przede wszystkim zgrupowanych danych liczbowych?
^ : Dlaczego w takim razie zmodyfikowaliśmy granice sąsiednich przedziałów tak, by spotykały się w połowie swej dotychczasowej odległości?
0 : Tak. Pozwala on odczytać nie tylko Informacje o częstości
0 : Skoro na wykresie ma nie być wolnych przestrzeni
przyporządkowanej każdemu przedziałowi klasowemu,
pomiędzy słupkami, muszą mleć one wspólne krawędzie. Zwykle
ale również jego rozpiętość.
jest to połowa rzeczywistej odległości między przedziałami
Co by się stało, gdyby każdy przedział klasowy miał inną długość? Czy nadal moglibyśmy skonstruować histogram?
sposobu zaokrąglania. Zwykle zaokrągla się części ułamkowe
klasowymi, choć wszystko zależy ta k naprawdę od przyjętego do najbliższej wartości całkowitej. Oznacza to, że wszystkie wartości z przedziału od -0 ,5 do 0,5 są zaokrąglane do zera. Dlatego też gdy zero występuje na histogramie, reprezentujemy 0 : Oczywiście. Najczęściej posługujemy się przedziałami o tej
je za pomocą wartości z przedziału od -0 ,5 do 0,5.
samej rozpiętości, ale nie jest to regułą. Jej uchylenie wymagałoby wykonania kilku dodatkowych czynności, zanim można by
^ : Czy są jakieś wyjątki od tej zasady?
sporządzić wykres. Przekonasz się o tym już niebawem. 0 : Tak, takim wyjątkiem jest na przykład wiek. Gdybyśmy
^ : Dlaczego między sąsiednimi przedziałami nie powinno być wolnej przestrzeni? 0 : Są co najmniej dwa tego powody. Po pierwsze, ma to pokazać, że żadna wartość analizowanej cechy nie została pominięta. Po drugie, musisz pamiętać, że rozpiętość każdego przedziału odzwierciedla określony zakres zmienności
chcieli przedstawić przedział 18 - 1 9 lat na histogramie, wykreślilibyśmy prostokąt zaczynający się w punkcie 1 8 1kończący w punkcie 20. Wiąże się to z tym , że zwykle zaokrąglamy wiek w dół, to znaczy osobę, która ukończyła 19 rok życia, traktujem y jako 19-latka aż do jej 20 urodzin (choć już rozpoczęła 20 rok życia).
danej cechy. Gdybyś na przykład wykreślił przedział O -1 9 9 w postaci prostokąta rozpoczynającego się w punkcie O I kończącego w punkcie 199, jego szerokość wynosiłaby jedynie 199 —O = 199 punktów.
CELNE SPOSTRZEŻENIA
Częstość określa w statystyce, jak wiele elem entów
W ykresy słupkow e w układzie pionow ym mogą
zostało zaliczonych do określonej klasy (kategorii
być stosowane zarów no do prezentacji danych
danych).
ilościowych, jak I jakościowych (jeśli nazwy kategorii
W ykresy kołow e są dobrym sposobem prezentacji
nie są zbyt długie).
danych wyrażonych w ujęciu względnym .
Na jednym wykresie słupkow ym m ożna przedstawić
W ykresy słupkow e pozwalają na większą swobodę
dane opisane z punktu w id ze n ia w ie lu cech
I precyzję prezentacji niż wykresy kołowe.
— I to na kilka sposobów, sporządzając wykres
Dane ilościowe to dane mierzalne, które m ożna wyrazić w postaci liczbowej. W ykresy słupkow e w układzie w ierszo w ym stosuje się najczęściej do prezentacji danych skategoryzow anych (jakościowych), zwłaszcza gdy
skategoryzowany bądź w arstw ow y. Na osi w artości w ykresu słupkow ego m ożna zastosować zarów no skalę absolutną, jak I względną (procentow ą). Każdy wykres może w ystąpić w wielu wariantach.
nazwy poszczególnych kategorii są długie.
jesteś tutaj ►
61
Gdy rozpiętości przedziałów nie są jednakowe
Manie Mango potrzebuje jeszcze innego wykresu Szef Manie Mango jest bardzo zadowolony z histogramu, który dla niego skonstruowałeś — i to na tyle, ze chciałby Cię poprosić o przygotowanie kolejnego — dla innego zbioru danych. Tym razem miałby to być wykres prezentujący, jaką część doby klienci Manie Mango poświęcają grze. Oto niezbędne dane:
na grę-
Liczb a godzin
C z ę sto ść ,
0- 1
4300
1- 3
6900
3- 5
4900
5 - 10
2000
10 - 24
2100
Choć d a n e są pogrupowane tak jak p o p r z e d n io , kolejne p r z ę d z iały nie mają t e j samej długości. To in teresujące.
Rzeczywiście, rozpiętości przedziałów klasowych nie są jednakowe. Jeśli przyjrzysz się dokładniej samym danym, zauważysz, ze kolejne przedziały mają różną rozpiętość. N a przykład przedział 10 - 24 godziny pokrywa większą liczbę możliwych wartości niż przedział 0 - 1 godziny. Gdybyśmy posiadali surowe dane, na podstawie których stworzono powyższy szereg rozdzielczy, moglibyśmy pokusić się o stworzenie własnego szeregu, z przedziałami klasowymi o jednakowej długości. Niestety, takie dane nie są nam dostępne. Musimy więc znaleźć m etodę konstrukcji histogramu, który dopuszcza różne rozpiętości przedziałów klasowych.
WYSIL SZARE K O M O R K I Cechą charakterystyczną histogram u jest to, że powierzchnia każdego prostokąta jest proporcjonalna do częstości w ystępow ania wartości badanej cechy w danym przedziale. Czy — biorąc to pod uwagę — byłbyś w stanie stw orzyć histogram dla tych danych? Na co jeszcze musisz zwrócić uwagę?
62
Rozdziali.
Tylu klie n tó w M a n ic Mango pośw ięca na g rę podaną liczbą godzin.
Wizualizacja danych Wydaje mi się, ¿e moiem y postąpić dokładnie ta k ,ja k p o p r z e d n io — nie w id tę problemu. Wykreślimy prostokąty o odpowiedniej sŁerokości, u ia le in io n e j od ro ip ię to ś c i p r z ę d z iału, która tym ra zem nie je s t stała.
Przekonajmy się, czy to dobry pomysł. O to przykład histogramu sporządzonego według tego przepisu. N a osi pionowej odłożono częstości, a na poziomej — rozpiętości kolejnych przedziałów klasowych. Czy, Twoim zdaniem, wszystko jest w porządku?
o *>
L ic z b a g o d z in w c ią g u d o b y 7000
p o ś w ię c o n a n a g r ę
o
4*
W
N O
6000 5000 4000
c
3000 2000
«SU ?
1000 0
- t-
0
1
2
- t-
3
4
5
- ł-
- ł-
- ł-
- ł-
6
7
8
9
10
- ł-
- ł-
- ł-
- ł-
- ł-
- ł-
- ł-
- ł-
- ł-
- ł-
- ł-
- ł-
- ł-
11
12
13
14
15
16
17
18
19
20
21
22
23
24
L ic z b a g o d z in
Powierzchnia słupków histogramu musi być proporcjonalna do częstości N iektóre słupki na tym histogramie wydają się mieć nieproporcjonalnie duża powierzchnię, co wynika z założenia, że rozpiętość przedziału klasowego decyduje o szerokości słupka histogramu. Może to wywołać mylne wrażenie co do rzeczywistej liczby godzin przeznaczanych w ciągu doby na grę. Bo choć największą powierzchnię zajmuje słupek odpowiadający przedziałowi 10 - 24 godzin gry na dobę, to nie jest prawdą, że największa część ankietowanych graczy poświęca grze aż tyle czasu. Ponieważ cały czas mamy do czynienia z histogramem, musimy zadbać o to, by pole każdego słupka było proporcjonalne do częstości przedziału klasowego, który słupek ten reprezentuje. Jeśli jeden w wymiarów każdego prostokąta jest z góry określony przez rozpiętość przedziału, możemy co najwyżej odpowiednio dostosować drugi z jego wymiarów, to znaczy wysokość.
jesteś tułaj ►
63
Dobieramy powierzchnię słupków histogramu
Zadbaj o to, by powierzchnia słupków histogram u była proporcjonalna do częstości D o tej pory mogliśmy swobodnie dobierać wysokość słupków histogramu tak, by powierzchnia zajmowana przez każdy z nich była proporcjonalna do częstości. Tym razem mamy jednak do czynienia z przedziałam i klasowymi o różnych rozpiętościach. Jeśli zatem chcemy zachować stałą powierzchnię słupków histogramu (proporcjonalną do częstości odpowiednich przedziałów klasowych), to zmieniając jeden z ich wymiarów (szerokość podstawy), musimy dokonać odpowiedniej korekty także drugiego wymiaru (wysokości). Przy danej szerokości słupka histogramu (określonej przez rozpiętość odpowiadającego mu przedziału klasowego) musimy więc znaleźć taką miarę wysokości, by powierzchnia słupka nadal odpowiadała częstości.
N
a
h is t o g r a m
częstość reprezentuje powierzchnia słupka
Prześledźmy zatem całą procedurę krok po kroku.
Krok 1: Określ szerokość słupków histogram u Szerokość słupków histogramu określamy na podstawie rozpiętości odpowiednich klas szeregu. Musimy więc oszacować, ile pełnych godzin mieści się w każdym z przedziałów szeregu stworzonego przez szefa Manie Mango. Weźmy przedział 1 - 3 godziny gry na dobę. Jak łatwo obliczyć, jego rozpiętość wynosi dwie ( 3 - 1 = 2 ) godziny. Oznacza to, że szerokość słupka histogramu odpowiadającego tem u przedziałowi wyniesie dwie jednostki, jak na poniższym rysunku: Tu znajdzie s ię stupek dla przedziału 1 - 3 godziny, będzie m i at szerokość 2 jednostek, poniew aż ty le 100
200
300
p itn y c h godzin obejm uje przedziat.
Powtarzając obliczenia dla kolejnych przedziałów klasowych, otrzymujemy:
L iczb a godzin
C z ę sto ść
R o zp ięto ść przedziału
0- 1
4300
1
1- 3
6900
2
3- 5
4900
2
5 - 10
2000
5
10 - 24
2100
14
Teraz, kiedy oszacowaliśmy już rozpiętość każdego przedziału, a tym samym szerokość odpowiadającego mu słupka histogramu, możemy przejść do określenia jego wysokości.
64
Rozdziali.
ie
Wizualizacja danych
Krok 2 : Dostosuj wysokość słupków histogram u Znając szerokość każdego słupka oraz częstości odpowiadających im przedziałów klasowych, możemy określić wysokość każdego z nich. Pamiętasz zapewne, że musimy jednocześnie utrzymać jego powierzchnię na stałym poziomie, proporcjonalnym do częstości przedziału klasowego. Zacznijmy więc od określenia powierzchni każdego słupka. Wiemy, że w przypadku histogramu określenia „powierzchnia” i „częstość” są równoważne. Ponieważ znamy częstość odpowiadającą każdej klasie, wiemy, jaka powinna być powierzchnia reprezentującego ją słupka histogramu:
P o w ie r z c h n ia s łu p k a = C z ę s to ś ć p rz e d z ia łu r ó w n a n i d ,° r ^ f p o w ^ e r z c h n i ę s tu p k ó w .
Ponieważ każdy słupek histogramu jest — z geometrycznego punktu widzenia — prostokątem , łatwo policzymy jego powierzchnię, mnożąc szerokość przez wysokość słupka. Powierzchnia słupka musi być proporcjonalna do częstości, zatem możemy zapisać (pomijając współczynnik proporcjonalności):
p o tr a fim y oKre=>
r
C z ę s to ś ć = S z e r o k o ś ć s łu p k a x W y s o k o ś ć s łu p k a Powierzchnia = częstość
W poprzednim kroku obliczyliśmy szerokość każdego słupka, dlatego jedyną niewiadomą w powyższym równaniu pozostaje wysokość słupka. Korzystając z własności równań, możemy przekształcić powyższą formułę do postaci, z której bezpośrednio wyznaczymy naszą niewiadomą:
C z ę s to ś ć
S z e ro k o ś ć
W y s o k o ś ć s łu p k a =■ S z e r o k o ś ć s łu p k a Wysokość słupka histogramu determ inuje tak zwaną gęstość częstości, to znaczy informuje o tym, jak bardzo skoncentrow ana jest częstość w danym przedziale klasowym. Pozwala ona ocenić, jak bardzo „upakowane” są dane w przeliczeniu na jednostkę, w której mierzone są wartości badanej cechy.
_
*
Zaostrz ołówek Ile powinna wynosić wysokość pozostałych słupków? Uzupełnij brakujące informacje. L ic z b a g o d z in
C z ę s to ś ć
S z e ro k o ś ć
W y s o k o ś ć ( g ę s t o ś ć c z ę s t o ś c i)
0- 1
4300
1
4300:1 = 4300
1- 3
6900
2
3- 5
4900
2
5 - 10
2000
5
10 - 24
2100
14
jesteś tutaj ►
65
Wykreślamy listogram
_
^ Zaostrz ołówek Rozwiązanie
Ile powinna wynosić wysokość pozostałych słupków? Uzupełnij brakujące informacje.
L ic z b a g o d z in
C z ę s to ś ć
S z e ro k o ś ć
W y s o k o ś ć ( g ę s t o ś ć c z ę s t o ś c i)
0- 1
4300
1
4300:1 = 4300
1- 3
6900
2
6900:2 = 3450
3- 5
4900
2
4900:2 = 2450
5 - 10
2000
5
2000:5 = 400
10 - 24
2100
14
2100:14 = 150
Krok 2: Wykreśl swój histogram Teraz, kiedy znamy już wysokość i szerokość każdego słupka histogramu, możemy zacząć go wykreślać. Będziemy to robić tak, jak poprzednio, z jednym wyjątkiem: na osi pionowej będziemy odkładać nie częstości odczytane z szeregu rozdzielczego dostarczonego przez szefa Manic Mango, a gęstości obliczone przez nas w poprzednim kroku. Oto, jak teraz prezentuje się nasz histogram:
L ic z b a g o d z in w c ią g u d o b y p o ś w ię c o n a n a g r ę
A
O *> O 4* W O' N O >0
5000
O znacza 1000 dni 4000
o
7
3000
Legenda, choć nieobowiązkowa, ułatwia czytanie histogramu.
w
O' o
M ię d z y sąsiedn im i „sto p ka m i m e ma
2000
p o w ie r z c h n ia k azd e g s tu p k a je s t teraz p ro p o rc jo n a ln a
przerw .
do c z ę s to ś c i.
1000
li 0 ^ 1
J
3
Choć dla
c z ę s to ś ć dla przedziału 3 g o d z i n y j e s t w yższa m z przedziału O - 1 g o d z in ,t o
te n
drugi charakteryzuje w yższa
1 -
g ę s to ś ć .
66
Rozdziali.
5
10 S łu p ki s ą kreślone na u skali H c z b Z ij
°
24
L ic z b a g o d z in
Wizualizacja danych (p S lO S C
C Z ć p S lO S C i
Gęstość częstości jest m iarą skoncentrowania wartości danej cechy. Jej znaczenie jest bardzo zbliżone do koncepcji częstości, jednak obu m iar nie można traktować wymiennie. Posłużymy się pewną analogią, która pozwoli lepiej zrozumieć różnice między obom a wskaźnikami.
Z
M is k
Q\
W te j szklance znajduje s ię Twój sok. S ię g a on aż do tego poziom u.
Wyobraź sobie, że określoną ilość soku wlewasz do szklanki podobnej do tej na rysunku: Co by się stało, gdybyś tę sam ą ilość soku przelał do naczynia o zupełnie innych wymiarach, na przykład o innej średnicy? Jak wysoko sięgałby Twój sok tym razem? Oczywiście jego poziom obniżyłby się, ponieważ tym razem naczynie jest dużo szersze.
To naczynie je s t szersze, w ię c sok się g a dużo n iże j.
Wysokość, do jakiej sięga Twój sok, zmienia się wraz ze zm ianą szerokości naczynia, w jakim jest przechowywany: im większa szerokość, tym sok sięga niżej. I odwrotnie: im szerokość mniejsza, tym wyżej sięga sok.
Co to wszystko ma wspólnego z gęstością częstości? Sok b Częstość Wyobraź sobie teraz, że zamiast szklanki sokiem „wypełniasz” słupki histogramu częstością. Podobnie jak potrafisz zmierzyć szerokość naczynia z sokiem, potrafisz również obliczyć szerokość słupków histogramu. Podobnie też jak ilość soku w szklance możesz oszacować w przybliżeniu, mnożąc szerokość naczynia przez wysokość słupa cieczy (pomijamy średnicę podstawy), tak powierzchnia słupka histogramu pozwala Ci oszacować częstość odpowiedniego przedziału klasowego. Gęstość częstości jest więc równa wysokości słupka histogramu. Trzymając się tej analogii, można by powiedzieć, że odpowiada ona poziomowi, do jakiego sięga Twój sok w różnych naczyniach. Podobnie jak większa szerokość naczynia oznacza niższy poziom soku (przy stałej powierzchni podstawy), tak większa szerokość słupka histogramu implikuje niższą gęstość częstości.
jesteś tutaj ►
67
Kluczowe zagadnienia CELNE SPOSTRZEŻENIA
Gęstość częstości określa, jak bardzo częstość jest
Przy kreśleniu histogramu należy pamiętać o tym ,
skoncentrowana w danym przedziale klasowym szeregu
by szerokość każdego słupka odpow iadała rozpiętości
rozdzielczego. W yznacza się ją w edług form uły:
przedziału klasowego, który on reprezentuje. Oś poziom a opisana jest przez ciągłą skalę liczbową.
Częstość
Gęstość częstości =
Rozpiętość przedziału Histogram jest form ą graficznej prezentacji zgrupow anych danych liczbowych. Z wyglądu przypom ina w ykres słupkowy, jednak wysokość słupka
Częstość danego przedziału klasowego jest rów na polu powierzchni słupka, który go reprezentuje. Na histogramie nie mogą występow ać przerw y między sąsiednimi słupkami.
w histogramie jest powiązana z gęstością częstości, a nie z samą częstością.
^ : Dlaczego do reprezentacji częstości wykorzystujemy w histogramie powierzchnię prostokątów?
^ : Jeśli dysponuję szeregiem, którego przedziały klasowe mają jednak tę samą rozpiętość, czy mogę wykreślić zwykły wykres kolumnowy (słupkowy)?
0 : Daje nam to pewność, że względne rozmiary każdego
0 : Tak, choć w arto w tedy pomyśleć nad wykreśleniem
słupka histogramu pozostają w odpowiedniej proporcji
histogramu, który lepiej obrazuje dane zgrupowane.
do danych. W przypadku danych zgrupowanych w szereg
Powinno Cl zależeć na tym , by częstość była proporcjonalna
rozdzielczy Ich graficzna reprezentacja powinna odzwierciedlać
do powierzchni, a nie do wysokości słupków na wykresie.
nie tylko rozpiętość każdej grupy, ale I przypisaną jej częstość. Powiązanie szerokości słupka histogramu z rozpiętością „jego" przedziału jest zgodne z Intuicją, jednak ma skutek uboczny: sprawia, że słupki dla stosunkowo szerokich przedziałów wydają się nieproporcjonalnie duże w stosunku do pozostałych. Powiązanie częstości z powierzchnią słupka I odpowiednie
^ : Czy histogramy nadają się wyłącznie do prezentowania danych zgrupowanych? Czy można je wykorzystać do prezentacji pojedynczych wartości liczbowych lub zbiorów tych wartości? 0 : Oczywiście. Trzeba jednak pamiętać o tym , by między
sterowanie jego wysokością jest sposobem na ominięcie tego
słupkami nie pozostała żadna wolna przestrzeń I by każdy
problemu. Dzięki tem u żaden przedział klasowy nie zabiera
słupek miał szerokość rów ną 1. Zwykle uzyskuje się to przez
zbyt dużo (lub zbyt mało) miejsca na wykresie.
umieszczenie danej liczby dokładnie w jego środku.
^ : Czemu więc służy gęstość częstości?
Na przykład gdybyś chciał skonstruować histogram dla pojedynczej wartości, jaką jest liczba 1, powinieneś narysować
0 : Gęstość częstości jest wskaźnikiem mówiącym o tym ,
słupek rozpoczynający się w punkcie 0,5, a kończący
jak bardzo wartości cechy są skoncentrowane w danym
w punkcie 1,5, z liczbą 1 umieszczoną dokładnie w środku jego
przedziale klasowym. Ułatwia to porównywanie przedziałów
podstawy.
klasowych o różnych rozplętośclach. Dzięki temu częstość jest proporcjonalna bardziej do powierzchni niż do wysokości słupka histogramu (jak to miało miejsce w przypadku w ykresów słupkowych). Aby wyznaczyć wartość gęstości dla danego przedziału, należy podzielić przypisaną mu częstość przez jego szerokość.
68
Rozdziali.
Wizualizacja danych
jesteś tutaj ►
69
Ćwiczenie: Rozwiqzanie
Ćwiczenie Rozwiązanie
Poniżej zamieszczono histogram prezentujący liczbę poziomów ukończonych przez grających w pewną grę. Ile razy wzięto w niej udział? Przyjmij założenie, że kolejne liczby całkowite oznaczają numer poziomu gry. L ic z b a p o z io m ó w u k o ń c z o n y c h p rz e z g r a c z y o *> o 4* W O' N O >0
50
O znacza 1 0 p o d e jś ć d o g r y
40
o
Każdy poziom je s t oznaczany za pomocą liczb y c a łk o w ite j, dlatego te ż na przykład p rz e d z ia i dla poziom u 3 ^ zaczyna s ię w punkcie 2 ,5 , a kończy w punkcie 3 ,5 .
30
w
O' o
20
10-
0
2
3
4
5
6
P o z io m g r y M usim y znaleźć całkowitą liczbą rozegranych gier, czyli liczebność naszego zbioru danych. Będzie ona równa su m ie pól powierzchni w szystkich prostokątów tworzących histogram. Innymi słowy, m usim y pomnożyć szerokość każdego prostokąta przez jego wysokość (gęstość czę sto ści), by otrzymać częstość każdego przedziału, a następnie dodać te przedziały do siebie.
Poziom gry
Szerokość słupka
G ęstość czę sto ści
Częstość
0
1
10
1 X 10 = 10
1
1
30
1 X 30 = 30
2
1
50
1 X 5 0 = 50
3
1
30
1 x 30 = 30
4 -5
2
10
2 x 10= 20
Liczebność całkowita = 1 0 + 30 + 50 + 30 + 2 0 = 140
70
Rozdziali.
Wizualizacja danych
Kiedy histogram to za mało Choć histogram jest doskonałym narzędziem graficznej Bardzo prezentacji danych ilościowych zgrupowanych chciałbym móc łatw o odczytywać do postaci szeregu, to z pewnymi typami z wykresu, jak wielu graczy poświęca g rze danych nawet histogram nie jest w stanie nie więcej niż podaną liczbę godzin na dobę. sobie poradzić.
O
Na przykład chciałbym w iedzieć nie ty le , ilu graczy poświęca na grę 3 - 5 godzin na dobę, ile to , jak wielu graczy poświęca t e j czynności nie w ięcej niż 5 godzin na dobę. Czy można stworzyć wykres, który pozwoli szybko odczytać te g o rodzaju informacje?
Zastanówmy się, czy możemy w jakiś sposób pomóc szefowi Manie Mango. O to histogram, który stworzyliśmy ostatnio: O
o
5000
+* w O' N o >0
4000
o
3000
+* w O' o
L ic z b a g o d z in w c ią g u d o b y p o ś w ię c o n a n a g rę
M
O znacza 1000 dni
Ten histo g ra m podaje częstości d ln k a z d e g p
2000
°k,N o w e g o odpou,ie d zi p yta nie
skum ulow anych.
1000
0 0
1
3
5
10
24
Aby dowiedzieć się, ilu graczy poświęca na grę nie więcej niż 5 godzin na dobę, należałoby dodać do siebie kilka częstości dla różnych przedziałów klasowych. Aby ułatwić poszukiwanie odpowiedzi na tego rodzaju pytania, warto by skonstruować wykres innego typu... tylko jaki?
¿śćWYSIL
L ic z b a g o d z in
____________
SZARE KOMÓRKI Jak sądzisz, jakiego rodzaju inform acje pow inniśm y zamieścić na wykresie? Zapisz swoje odpow iedzi poniżej.
jesteś tutaj ►
71
Wykresy częstości ¡kumulowanych
Czym są częstości skumulowane
Podstawowe terminy
Szef Manie Mango chciałby otrzymać wykres, z którego mógłby łatwo odczytać informację o tym, jaka jest całkowita liczebność elementów zbioru danych, które przyjmują wartość nie większą od z góry ustalonej wartości progowej, czyli tak zwaną liczebność (częstość) skumulowaną.
Częstość skumulowana
Jaki rodzaj wykresu pozwoli nam odczytać tego rodzaju informacje? Zapewne taki, gdzie na osi poziomej odłożymy wartości cechy (godziny), a częstości skumulowane na osi pionowej. Dzięki tem u szef Manie Mango będzie mógł odnaleźć ustaloną wartość progową i odczytać odpowiadającą jej liczebność skumulowaną. Będzie mógł szybko stwierdzić, ilu graczy spędza na grze nie więcej niż 5 godzin na dobę, 6 godzin na dobę czy jakąkolwiek inną ilość czasu, która tylko przyjdzie mu do głowy.
C zę sto ść w yznaczona dla tych w a rto ści cech y, które n ie s ą w ię k sz e od u sta lo n ej w artości granicznej. Dla s z e re g u rozdzielczego obliczana p o p rzez su m o w a n ie c z ę s to ś c i kolejnych p rzed zla tó w klasow ych.
Zanim będziemy mogli przystąpić do tworzenia takiego wykresu, musimy poznać wszystkie wartości, jakie powinny się na nim znaleźć. Musimy więc nauczyć się liczyć częstości skumulowane dla każdego przedziału klasowego szeregu rozdzielczego. Zajmijmy się zatem danymi, które posłużą nam do konstrukcji wykresu.
Ile więc wynoszę częstości skumulowane?
L ic zb a godzin
C zę s to ś ć
0
4300
1
-
1- 3
6900
3
-
4900
5
-
10
5 10
2000
24
2100
Załóżmy na początek, że szef Manie Mango chciałby wykreślić częstość skumulowaną dla liczby graczy, którzy spędzają na grze nie więcej niż 1 godzinę na dobę. Szybki rzut oka na dane pozwala nam stwierdzić, że istnieje oddzielny Oto nasze dane U jściow e. przedział obejmujący czas 0 - 1 godzina na dobę (włącznie), którego liczebność wynosi 4300 graczy. Ponieważ górną granicą tego przedziału jest dokładnie 1 godzina, a więc tyle, ile wartość progowa ustalona przez szefa Manie Mango, łatwo stwierdzamy, że częstość skumulowana liczby graczy, którzy spędzają na grze nie więcej niż 1 godzinę na dobę, wynosi dokładnie 4300 osób. -
Spróbujmy teraz wyznaczyć częstość skumulowaną dla tych graczy, którzy poświęcają grze nie więcej niż 3 godziny na dobę. Łatwo zauważamy, że dysponujemy informacjami na tem at liczebności przedziałów 0 - 1 godzina na dobę oraz 1 - 3 godziny gry na dobę, przy czym górna granica drugiego z tych przedziałów jest tożsam a z ustaloną wartością progową. Aby więc znaleźć poszukiwaną częstość skumulowaną, musimy dodać częstości obu wymienionych przedziałów. Czy rozumiesz już, na czym polega obliczanie częstości skumulowanych? W ybierając kolejno górne granice kolejnych przedziałów klasowych szeregu rozdzielczego i sumując liczebności wszystkich przedziałów klasowych poprzedzających dany przedział, wyznaczymy częstości skumulowane dla elementów przyjmujących wartości nie większe od górnej granicy danego przedziału. Otrzymamy w ten L ic zb a C zę s to ś ć G ó rn a g ra n ic a C zę s to ś ć s k u m u lo w a n a Dodaliśm y godzin p rzed ziału sposób szereg częstości do szeregu dodatkowy skumulowanych: 0 0 0 0 1
4300
1- 3
6900
3
4300
+
6900
=
11 200
1
4900
5
4300
+
6900
+
4900
=
16 100
5
-
2000
10
4300
+
6900
+
4900
+
2000
=
18 100
2100
24
4300
+
6900
+
4900
+
2000
+
2100
Rozdziali.
LO
4300
-
10
72
p rze d zia ł obejmujący
1
CO
0
10 -
24
zero, , . ponieważ n można grac
MNIEJ mz =
20 200
zero godzin na dobę.
Wizualizacja danych
Jak wykreślić częstości skumulowane W y k re s c z ę s to ś c i s k u m u lo w a n y c h n ig d y n ie o p a d a .
Gdy znamy już częstości skumulowane dla naszego szeregu, możemy przystąpić do kreślenia wykresu. Zaczniemy od poprowadzenia obu osi, przy czym na osi poziomej będziemy odkładali wartości cechy (godziny), a na pionowej — częstości skumulowane. Po naniesieniu odpowiedniej skali możemy przystąpić do kreślenia właściwego wykresu w następujący sposób: dla każdej liczby godzin oznaczającej górną granicę przedziału klasowego odkładamy na osi pionowej odpowiadającą jej częstość względną, a następnie łączymy tak wyznaczone punkty linią prostą, otrzymując tak zwaną łamaną częstości skumulowanych:
Jeśli wyznaczone przez Ciebie częstości skumulowane zaczynają maleć od pewnego momentu, sprawdź, czy nie popełniłeś gdzieś błędu.
S k u m u lo w a n y c z a s p r z e z n a c z a n y n a g r ę n
22500
n 5
20000
c
o
17500 15000 12500
W
10000
>0
7500
o 4*
5000
w
2500
N
0,0
flp
u
a o d z in o m
p o z io m ie
P
18 100.
0
powinien zaczy ^ punkcie O.
_
i
!k u m u lo w a n «j
5
10
15
20
25
L ic z b a g o d z in
Zaostrz ołówek Szef Manic Mango poprosił Cię o oszacowanie, jak wielu graczy korzysta z produktów firmy przez nie więcej niż 4 godziny na dobę. Sprawdź, czy możesz odpowiedzieć na to pytanie, korzystając z wykresu częstości skumulowanych.
jesteś tutaj ►
73
Nie istniejq głupie pytania
_
^ Zaostrz ołówek __ Rozwiązanie
13750
Szef Manic Mango poprosił Cię o oszacowanie, jak wielu graczy korzysta z produktów firmy przez mniej niż 4 godziny na dobę. Sprawdź, czy możesz odpowiedzieć na to pytanie, korzystając z wykresu częstości skumulowanych.
15000 12500 10000 7500 5000 2500
A by odpowiedzieć na to pytanie, m usim y znaleźć wartość 4 na osi poziomej i odczytać na osi pionowej odpowiadającą je j wartość liczebności skumulowanej wyznaczonej przez tamaną czę sto ści. Odczytamy w ten sposób częstość skumulowaną na poziomie 13 750 osób. Oznacza to, ze okoto 13 750 ludzi korzysta z gier Manie Mango przez nie więcej niż 4 godziny na dobę.
0,0
i Nie.istnieja.
głupie pytania ^ : Czym jest częstość skumulowana? 0 : Częstość skumulowana wyznaczona dla danej wartości progowej jest sumą częstości wszystkich przedziałów
^ : Na niektórych rodzajach wykresów można prezentować wartości więcej niż jednej cechy. Czy zalicza się do nich wykres częstości skumulowanych?
^ : Powtórzmy jeszcze raz, w jaki sposób należy odczytywać skumulowaną częstość dla danej wartości granicznej? O : Częstość skumulowaną można
klasowych poprzedzających przedział obejmujący tę wartość progową, wraz
O : Oczywiście, można tego dokonać przez
z tym przedziałem. Inform uje ona o liczbie
wykreślenie oddzielnej łamanej częstości
Na osi poziomej znajdujemy Interesującą
wystąpień wartości cechy nlewlększych
dla każdej cechy. Jeśli, powiedzmy, chciałbyś
nas wartość progową, po czym kierujemy
od wartości progowej.
porównać częstości skumulowane pewnej
w zrok na odpowiadający jej punkt
cechy oddzielnie dla każdej płci, mógłbyś
nałam anej częstości. Wyznacza
to zrobić, kreśląc oddzielną łamaną
on poszukiwaną częstość na osi pionowej.
Na przykład wyobraźm y sobie, że posiadamy dane na tem at wieku pewnej grupy ludzi. Częstość skumulowana dla wartości 27 powie nam, Ilu ludzi (bądź jaka Ich część) ma nie więcej niż 27 lat.
^ : Czy wykresy częstości skumulowanych służą wyłącznie do prezentacji danych zgrupowanych? 0 : Nie zawsze. M ożna je wykreślać dla dowolnych danych o charakterze Ilościowym. Decyzja o stworzeniu tego typu wykresu powinna wynikać z potrzeby poznania łącznej liczby wystąpień wartości cechy nlewlększych od wartości progowej, a nie Indywidualnych częstości każdego przedziału klasowego.
74
Rozdziali.
odczytać bezpośrednio z wykresu.
dla mężczyzn I kobiet. Istotnie ułatwiłoby to porównywanie obu zbiorów danych.
^ : Czy jest jakieś ograniczenie dotyczące maksymalnej liczby łamanych, które można nanieść na pojedynczy wykres?
^ : Czy jeśli znamy częstość skumulowaną, możemy wykorzystać łamaną częstości do odczytania odpowiadającej jej wartości progowej? O : Oczywiście. Odszukujemy Interesującą nas częstość na osi pionowej I kierujemy
O : Nie ma z góry nałożonych lim itów
w zrok w stronę łamanej częstości.
— wszystko ta k naprawdę zależy
Odpowiadający jej punkt na osi poziomej
od danych. Trzeba jedynie pamiętać, by nie
będzie wskazywał szukaną wartością
wykreślać zbyt wielu linii jednocześnie,
progową.
bo mogłoby to przesłonić obraz całości I utrudnić dokonywanie porównań.
Wizualizacja danych
Ćwiczenie
W czasie swojego wystąpienia szef Manic Mango chciałby wyjaśnić między innymi, w jaki sposób zamierza dotrzeć ze swoimi produktami do poszczególnych grup wiekowych. Dysponuje diagramem częstości skumulowanych dla wieku swoich klientów, ale potrzebne mu są dodatkowo wartości liczbowe częstości. Niestety, kartka, na której były one zapisane, została zjedzona przez psa. Czy korzystając z poniższego wykresu, mógłbyś oszacować indywidualne częstości każdego przedziału klasowego?
Górna granica tego przedziatu wynosi 18, ponieważ zw ykle zaokrąglamy wiek cztowieka w dół, m ów iąc „siedemnastolatek o osobie, która ukończyła ju ż 17 lat
P r z e d z ia ł w ie k u
G ó r n a g r a n ic a
C z ę s to ś ć s k u m u lo w a n a
C z ę s to ś ć in d y w id u a ln a
<0
0 18
0
0
0 - 17 18 - 24 25 - 39 40 - 54 55 - 79 80 - 99
n
c n 5
o
w >0
o
w N
o
W ie k
jesteś tutaj y
75
Ćwiczenie: Rozwiązanie
. . Kozwi^zanie
W czasie swojego wystąpienia szef Manic Mango chciałby wyjaśnić między innymi, w jaki sposób zamierza dotrzeć ze swoimi produktami do poszczególnych grup wiekowych. Dysponuje diagramem częstości skumulowanych dla wieku swoich klientów, ale potrzebne mu są dodatkowo wartości liczbowe częstości. Niestety, kartka, na której były one zapisane, została zjedzona przez psa. Czy korzystając z poniższego wykresu, mógłbyś oszacować indywidualne częstości każdego przedziału klasowego?
Przedział w ieku
G órna g ra n ica
C z ę sto ść skum ulow ana
C z ę s to ś ć indyw idualna
<0
0
0
0
0-17
18
2,0 00
2,0 00
18-24
25
4,500
4,500
25-39
40
6,500
6,500 - 4,500
40-54
55
8,500
8,500 - 6,500 = 2,0 00
55-79
80
9,400
9,400 - 8,500 = 900
80-99
100
9,500
9,500 - 9,400 = 100
- 2 ,0 0 0 = 2,500 = 2,0 00
Skorzystaj Nie martw się, je ś li odczytasz nieco inne wartości niż my — to tylko szacunki.
C zęstość
s k u m u lo w a n a
z wykresu, bu °dczytać częito ści skumulowane.
W ie k
76
Rozdziali.
Wizualizacja danych
Jak wybrać odpowiedni typ wykresu Szef Manie Mango jest w pełni usatysfakcjonowany wynikami Twojej pracy nad diagramami częstości skumulowanych. Jesteś więc coraz bliżej obiecanej Ci nagrody. Przygotowanie materiałów do prezentacji jest już w zasadzie na ukończeniu. Potrzeba właściwie już ostatniego wykresu, który prezentowałby zyski firmy w porównaniu do zysków jej głównego konkurenta na rynku. Jaki wykres powinien przygotować szef Manie Mango?
jesteś tutaj y
77
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Poniżej zamieszczono dwa przykładowe wykresy, które mógłby wykorzystać w swoim wystąpieniu szef Manic Mango. Jakie są zalety i wady każdego z nich w porównaniu z drugim? Który z nich Ty byś wybrał? Zapisz swoje komentarze obok każdego wykresu.
Z y s k ( w d o la r a c h ) 600 □
Manic Mango
□
Competitor
500
5 -o i. n
400
o ■o
300
W ykres słupkow y nadaje s ię idealnie zarówno do porównywania zysków wypracowanych w kolejnych latach, jak i w danym roku — pom iędzy Manie Mango a ich konkurentem. Łatwo na przyktad zauw ażyć, ze aż do 2007 r. najbliższy konkurent Manic Mango uzyskiw a ł w yższe zyski, jednak w 2007 r. nastąpiła zmiana. S łabością tego w ykresu j e s t to, że w przypadku w iększej liczby danych sta je s ię on mało czytelny. Ten problem pojawiłby s ię na przykład wówczas, gdyby s z e f Manie Mango chciał dodać dane na tem a t je szcze jednego konkurenta firmy.
w >
200 100
>
N
0,0 2003
2004
2005
2006
2007
R ok
Z y s k ( w d o la r a c h )
Rok
s tupkowy $ ¡ t k6w w oza s ie niż
if
78
Rozdziali.
?
UWypu ^ ić
W ykres tego rodzaju nadaje s ię lepiej do prezentowania tendencji rozwojowej w czasie, na przykład zm iany poziomu zysków z roku na rok. Łatwo na nim zauw ażyć, że zyski Manic Mango system a tyczn ie w zrastały w dość szybkim tem pie, podczas gdy zyski konkurenta rosły z roku na rok nieco wolniej. B ez istotnego zm niejszenia czytelności w ykresu można by poszerzyć go o linię dla trzeciej firmy. S łabością tego typu wykresu j e s t to, że nieco trudniej je s t dokonać porównania zysków wypracowanych w konkretnym roku.
Wizualizacja danych
\A/yicr©sy liniow .im ow e z Mislca* Wykresy liniowe nadają się idealnie do obrazowania trendów obecnych w danych. Tworzy się je poprzez wykreślenie punktów odpowiadających danym źródłowym i połączenie ich linią prostą. N a pojedynczym wykresie można przedstawić dane z punktu widzenia wielu cech, nie zmniejszając istotnie jego czytelności. Wystarczy dodać do wykresu legendę, która pozwoli zidentyfikować każdą linię. Podobnie jak w przypadku innych typów wykresów, możesz zdecydować, czy na osi wartości (pionowej) chciałbyś odkładać częstości absolutne, czy względne (np. w wyrażeniu procentowym). D obór skali jest uzależniony wyłącznie od tego, jakie charakterystyczne cechy zbioru danych chcesz uwypuklić. Diagramy liniowe są często wykorzystywane do prezentow ania danych o wartościach zmieniających się w czasie. Czas jest zawsze odmierzany na osi poziomej, a odpowiednie wartości na osi pionowej. Aby odczytać wartość charakteryzującą dany m om ent (okres) czasu, wystarczy odszukać go na osi poziomej i odczytać na osi pionowej, jaka odpowiada mu wartość wskazana przez wykreśloną linię.
Z y s k ( w d o la r a c h )
>
N
0 2003
2004
2005
2006
2007
Rok Tą linię trudno i,
N a wykresie liniowym m ożna zaprezentować wyłącznie dane ilościowe (liczbowe), nie zaś jakościowe (kategorialne). W przypadku danych jakościowych dokonuje się porównań pomiędzy różnymi kategoriami, ale nie ma sensu doszukiwać się w nich trendów. Chyba że dane te byłyby m ierzone względem pewnej skali liczbowej, takiej jak na przykład czas. Wówczas możliwe jest stworzenie wykresu liniowego, na którym każdej kategorii odpowiadałaby oddzielna linia.
i_______ i_____ i______ i__> Niebieskie Brązowe
Piwne Czerwone
K o lo r o c z u
jesteś tutaj ►
79
Kluczowe zagadnienia CELNE SPOSTRZEŻENIA
Częstość skum ulow ana to liczba wystąpień wartości
W ykresy liniowe możesz w ykorzystać do form ułow ania
cechy niewiększych od ustalonej wartości progowej.
wstępnych prognoz dotyczących przyszłości, ponieważ
W ykres (łam ana) częstości skum ulowanych prezentuje górne granice przedziałów klasowych i odpowiadające im częstości skumulowane. W ykresy liniowe doskonale obrazują dane o wartościach zmieniających się w czasie (wykazujących trend).
dobrze w idać na nich tendencję rozw ojow ą badanej cechy. Wystarczy, że przedłużysz linię poza zbiór danych, starając się jak najlepiej zachować jej kształt. Nie u żyw aj w y k re s ó w liniow ych do p re ze n to w a n ia danych jakościowych (kategorialnych), chyba że wykazują one wyraźny trend, na przykład są m ierzone
Na jednym wykresie liniowym możesz przedstawić
w różnych m om entach czasu. W takim przypadku
dane opisane z punktu w idzenia wielu cech. Każda linia
wykreśl oddzielną linię dla każdej kategorii.
będzie reprezentowała wartości jednej z nich. Pamiętaj, by zachować odpow iednią czytelność wykresu.
i Nie.istnieja.
głupie pytania ^ : Czy wykresy liniowe są tym samym co wykresy szeregów czasowych? Wydaje mi się, że słyszałem te nazwy stosowane wymiennie.
^ : Czy na wykresach liniowych można prezentować zarówno dane ilościowe, jak i jakościowe? 0 : Wykresy liniowe mogą prezentować
^ : Teraz, kiedy już wiem, jak tworzyć różne rodzaje wykresów, czy mogę posługiwać się odpowiednim oprogramowaniem, które wykona za mnie całą tę żmudną pracę?
dane jakościowe, ale tylko wtedy, gdy 0 : Wykres szeregu czasowego ma
istnieją w nich określone trendy; wówczas
0 : Oczywiście! Programy komputerowe
rzeczywiście postać wykresu liniowego,
każdej kategorii powinna odpowiadać
pozwolą Ci zaoszczędzić bardzo wiele
dla którego na osi poziomej zastosowano
oddzielna linia na wykresie.
czasu i wysiłku, a uzyskane dzięki nim
skalę czasową — dokładnie tak, jak w przypadkach przez nas rozpatrywanych. Jednakże wykres liniowy nie musi
Nie pow inno się tw orzyć wykresów liniowych dla prezentowania różnic między kategoriami.
prezentować wyłącznie danych zmiennych w czasie.
^ : Czy istnieją jakieś szczególne odmiany wykresów liniowych? 0 : Tak. Właściwie jeden z nich już poznałeś. Wykres (łam ana) częstości
^ : Czy można więc powiedzieć, że wykresy liniowe powinny być stosowane do prezentowania trendów zarysowujących się w danych, podczas gdy wykresy słupkowe bardziej nadają się do porównywania różnych wartości czy kategorii danych? 0 : Tak, to tra fn a uwaga. To, jakim wykresem się posłużysz do prezentacji danych, zależy wyłącznie od tego, jaki komunikat chcesz przekazać oraz jakich fa k tó w wolisz nie prezentować.
80
Rozdziali.
pracy wykonanej ręcznie. Musisz jedynie zapamiętać, że komputer nie będzie myślał za Ciebie. Sam musisz
skumulowanej jest właśnie szczególną odmianą wykresu liniowego.
rezultaty będą lepsze niż w przypadku
zdecydować, jaki wykres pozwoli najbardziej efektywnie zaprezentować dane, jakimi dysponujesz, jak również upewnić się, że uzyskany wykres jest dokładnie zgodny z tym , czego oczekiwałeś.
Wizualizacja danych
Manic Mango zdobył rynek gier! Dzięki pomocy, jaką okazałeś szefowi Manie Mango, jego wystąpienie na forum Expo okazało się niebywałym sukcesem. Dzięki tem u firma zdobyła dostęp do nowych środków na sfinansowanie swojej ekspansji. Zwiększyło to zainteresowanie klientów produktam i firmy, dzięki czemu wysunęła się ona na pozycję lidera! Tobie jako współautorowi tego niebywałego sukcesu pozostaje tylko wydać ciężko zarobione pieniądze. Czy jesteś już myślami w tych wszystkich miejscach, które odwiedzisz w ramach zasłużonych wakacji? Teraz już wiesz, jak bardzo statystyka, nawet w podstawowym jej zakresie, może pomóc Ci zrozumieć otaczający Cię świat i jak bardzo ta wiedza może być użyteczna. Jeśli zechcesz nam towarzyszyć w dalszej części naszej podróży po świecie statystyki, dowiesz się, jakie jeszcze przysługi może Ci ona wyświadczyć.
82
Rozdziali.
2 . Miary tendencji centralnej
Droga Środka
Niekiedy Irzeba po prostu dotrzeć do sedna sprawy.
Czasami trud n o ogarnąć
ogrom inform acji ukrytych w gąszczu danych. Pierwszym krokiem m oże być wówczas wyznaczenie
średnich. Statystycy
nazywają je m iaram i tendencji centralnej. Dzięki nim
p otrafią szybko wskazać wartości reprezentatyw ne dla danego zbioru danych I na tej podstawie wyciągnąć ważne wnioski. W tym rozdziale nauczysz się wyznaczać wartości kilku najważniejszych I najpopularniejszych statystyk — średniej, m ediany I dominanty. Zobaczysz, jak ła tw o I efektyw nie m ożna za Ich pom ocą dokonać
opisu danych.
to jest nowy rozdział ►
83
Statsville Health Club liczy średnie
Witamy w ośrodku odnowy The Statsville H ealth Club jest dumny ze swej szerokiej oferty dostosowanej do potrzeb każdego klienta. Każdemu, kto chciałby nauczyć się pływać, doskonalić sztuki walki czy wymodelować swoje ciało, The Statsville H ealth Club jest w stanie zaproponować odpowiedni program treningów. Uwagę trenerów zwrócił fakt, że klienci zdecydowanie wolą ćwiczyć w towarzystwie swoich rówieśników — a zadowolony klient to dla klubu gwarancja przyszłych zysków. Kluczem do sukcesu ośrodka wydaje się zatem poznanie przeciętnego wieku uczestników poszczególnych grup ćwiczeniowych. Potrzebne informacje można łatwo uzyskać, wyznaczając średnie (wartości przeciętne). Średnia określa przeciętny wiek uczestnika każdej grupy — jej znajomość ułatwi nowym klientom wybór grupy ćwiczeniowej, w której będą czuli się najlepiej. 2 0 lat
Oto dotychczasowi uczestnicy zajęć fitness:
2 0 lat
2 0 lat
19 lat
Jak wyznaczyć przeciętny wiek uczestników zajęć fitness?
84
Rozdział 2.
Miary endencji centralnej
Najpopularniejszą średnią je s t średnia arytm etyczna Jest niem al pewne, ze już nieraz miałeś do czynienia z jakąś średnią. Jednym ze sposobów na policzenie średniej dla pewnego zbioru liczb jest dodanie ich do siebie i podzielenie otrzymanej sumy przez ich liczbę. T ak uzyskaną wartość statystycy nazywają średnią arytmetyczną.
PlacŁego nie można, by je j naŁwać p o prostu średnią? Tak byłoby prościej.
Niekoniecznie, ponieważ istnieje wiele typów średnich. Musisz wiedzieć, ze pod pojęciem średniej kryje się wiele statystyk różnego typu, służących pomiarowi tendencji centralnej, a więc wskazujących położenie przeciętnych (centralnych) wartości dla danego zbioru danych. W ażne, by um ieć je odróżniać i zawsze dopowiadać, którą m a się na myśli. To trochę tak, jak z kupowaniem chleba: zawsze trzeba dodać, jaki rodzaj chce się kupić (pszenny, żytni itp.). Gdy więc będziesz opracowywał wyniki (na przykład) ankiety, pam iętaj, że Twoi czytelnicy chcą wiedzieć, na jakich średnich opierasz swoje wnioski. Gdy ktoś podaje Ci wartość przeciętną zbioru danych, upewnij się, która statystyka posłużyła do jej wyznaczenia. Tylko wtedy będziesz w stanie poprawnie ją zinterpretow ać — lepiej zrozumiesz, co tak naprawdę ktoś chce Ci przekazać, albo też — przeciwnie — co próbuje przed Tobą ukryć. W tym rozdziale poznasz również inne niż średnia arytmetyczna miary tendencji centralnej.
jesteś tutaj ►
85
Notacja statystyczna
W świecie symboli Jeśli naprawdę chcesz zrozumieć statystykę, musisz umieć odczytywać symbole, którymi się ona posługuje. N ie przejmuj się, jeśli na początku będziesz miał z tym kłopot — na pewno dasz sobie radę.
Litery i liczby Większość obliczeń statystycznych prędzej czy później sprowadza się do operacji sumowania. N a przykład aby poznać przeciętny wiek osób uczestniczących w zajęciach fitness, musimy najpierw zsumować wiek wszystkich tych osób. Problemem statystyków jest uogólnienie operacji dodawania. Często nie m ożna bowiem z góry przewidzieć, jak wiele, i jakich, liczb trzeba będzie zsumować. Wiemy, ilu klientów The Statsville H ealth Club korzysta obecnie z zajęć fitness i w jakim są wieku, ale co, gdy dołączy do nich ktoś nowy? Korzystając z ogólnej metody, pracownicy klubu mieliby mniej roboty z przeliczaniem średniej na nowo po każdej zmianie składu grupy. U dało się znaleźć na to sposób: wartości liczbowe są reprezentow ane przez symbole literowe. N a przykład literą x m ożna by oznaczyć wiek kobiet ćwiczących fitness:
W ie k _ u c z e s t n ic z e k z a ję ć f it n e s s
Z a p is s y m b o lic z n y
1 9 2 0 2 0 2 0 21 Każdy „x” reprezentuje wiek jednej z uczestniczek zajęć fitness. To trochę tak, jak byśmy wiek każdej z nich oznaczyli unikalnym identyfikatorem x.
Symbolami literowymi możemy posługiwać się w obliczeniach tak samo jak zwykłymi liczbami. Sumę wieku pięciu uczestniczek zajęć fitness moglibyśmy więc przedstawić jako:
Sum a = x 1 + x 2 + x 3 + x 4 + x 5
f
86
Rozdział 2.
Co by się stało, gdybyśmy nie wiedzieli, ile liczb musimy zsumować? Gdybyśmy nie wiedzieli, ile osób bierze udział w zajęciach fitness?
Miary tendencj centralnej
Jak sobie radzić z niewiadomymi Statystycy posługują się symbolami literowymi do reprezentow ania nieznanych wartości. Co jednak, gdy nie wiemy nawet, ile liczb musimy zsumować? To nie problem — nieznaną liczbę elementów również możemy oznaczyć za pom ocą litery, na przykład n. Gdybyśmy nie znali liczby osób ćwiczących fitness, moglibyśmy przyjąć, że jest ich n, zaś sumę wieku tych osób zapisać następująco:
S u m a = x .1 + 2x
+ X 3 + x .4 + x_5 + ... + x n
W tym przypadku xn jest uogólnionym sposobem zapisu wieku n-tego uczestnika zajęć. Gdyby na zajęcia z aerobiku uczęszczało 18 osób, wiek ostatniej osoby moglibyśmy zapisać jako x18.
Wypisanie wsŁystkicb iksów m o ie być męcŁące...
Możemy posłużyć się kolejnym skrótem. Pisanie: xŁ + x2 + x3 + ... + xn jest symbolicznym zapisem następującej operacji: „Sumuję wiek pierwszej i drugiej osoby, następnie dodaję do tego wiek osoby trzeciej i każdej kolejnej, do osoby n-tej włącznie”. N a co dzień nie mówimy jednak w ten sposób. Powiedzielibyśmy raczej: „Zsumuj wiek wszystkich osób”. Szybciej, prościej, jaśniej. Statystycy posługują się podobnym skrótem. Jest nim E, czyli wielka grecka litera sigma. Zapis w postaci Ex, odczytywany jako „suma x”, oznacza więc „zsumuj wartości wszystkich x ”.
X 1 +
X 2+ X 3 + X 4 + X 5 + -
+ X n = ™
Widzisz, jak bardzo upraszcza to rachunki? Jest to szybki sposób na powiedzenie: „Dodaj do siebie wszystkie wartości”, który nie wymaga wskazywania wprost, o jakie dokładnie wartości chodzi. Teraz, kiedy znasz już kilka użytecznych skrótów, jakimi posługują się statystycy, przekonasz się, w jaki sposób można wykorzystać je do obliczenia średniej arytmetycznej.
jesteś tutaj ►
87
Wzór na sredniq
Wracamy do średniej Przedstawimy teraz średnią arytmetyczną przy wykorzystaniu symboli literowych (czyli w tak zwanej notacji matematycznej). Aby wyznaczyć średnią arytmetyczną dla pewnego zbioru liczb, należy dodać je do siebie, a następnie otrzym aną sumę podzielić przez liczebność tego zbioru. Wiemy już, jakim symbolem literowym statystycy oznaczają sumowanie. Pamiętasz też zapewne, że bliżej nieokreśloną liczbę elementów zbioru statystycy oznaczają za pom ocą litery n. Łącząc obie informacje, możemy zapisać formułę na średnią arytmetyczną w postaci:
. ip o d z ie / j e przez ich
Mówiąc inaczej, formuła ta przekłada na język matem atyki następujące wyrażenie: „Dodaj do siebie wszystkie wartości, a następnie podziel je przez liczbę mówiącą, jak wiele ich jest”.
Również średnia arytmetyczna ma swój symbol Średnia arytmetyczna jest jedną z najpopularniejszych statystyk opisowych. Jest wykorzystywana na tyle często, że doczekała się własnego oznaczenia literowego. Jest nim grecka litera p, (wymawiana jako „mi”). Zapam iętaj, że jest to skrótowy zapis średniej arytmetycznej.
Średnia arytm etyczna to jedna statystyk. Zwykle symbolizuje j| o
Zx
o
M=
88
Rozdział 2.
- Z "
Miary tendencj centralnej
_
» Zaostrz ołówek Spróbuj policzyć średnią arytmetyczną wieku uczestników zajęć fitness organizowanych przez The Statsville Health Club. W poniższej tabelce zawarto niezbędne dane.
Ile osób j e s t w danym wieku
Wiek
19
20
21
Liczebność
1
3
1
Przypadek zagadkowej średniej Załoga pewnej firmy postanowiła się zbuntować przeciwko niesprawiedliwym — jej zdaniem — zarobkom. Zdecydowana większość pracowników zarabia 2000 złotych miesięcznie, nieliczna grupa menedżerów dużo wyższe kwoty, a szef firmy przynosi do domu aż 196 000 złotych na koniec każdego miesiąca. ro ^ ie w ie lk ie j
Przeciętne wynagrodzenie w firmie kształtuje się na poziomie 10 000 złotych miesięcznie, a przecież my zarabiamy 7S tej kwoty” — twierdzą pracownicy. „Czujemy się oszukiwani i żądamy więcej pieniędzy”
ta je m n ic y Jeden z menedżerów dowiedział się o buncie załogi i postanowił się przyłączyć ze swoim żądaniem: „Przeciętne wynagrodzenie w naszej spółce wynosi 40 000 złotych na miesiąc, a ja dostaję tylko 16 000. Żądam podwyżki”. Szef firmy skomentował to następująco: „Mylicie się wszyscy; przeciętne wynagrodzenie wynosi 2000 złotych miesięcznie. N ikt nie jest pokrzywdzony. A teraz wracajcie do pracy”. Na czym polega problem z przeciętnym wynagrodzeniem? Kto, Twoim zdaniem, ma rację?
jesteś tutaj ►
89
Średnia a częstość
Zaostrz ołówek Rozwiązanie
Spróbuj policzyć średnią arytmetyczną wieku uczestników zajęć fitness organizowanych przez The Statsville Health Club. W poniższej tabelce zawarto niezbędne dane. Wiek
19
20
21
Liczebność
1
3
1
Aby znaleźć u, musimy obliczyć sumę wieku wszystkich osób i podzielić j ą przez ich liczbę. Stąd
u =
19 + 2 0 + 2 0 + 2 0 + 21 P a r n i* * ) '» *
=
122-
~ =
5
20
Średnia arytmetyczna ćwiczących fitness wynosi 20 lat.
Jak uwzględnić częstości Wiesz dobrze, ze w zbiorach danych często występują wartości wielokrotne (powtarzające się). Jeśli spojrzysz na dane dotyczące wieku uczestników zajęć fitness, przekonasz się, ze liczba 20 pojawia się tam trzykrotnie. W ażne jest zatem, by przy liczeniu średniej nie zapomnieć o kolejnych wystąpieniach zliczanych wartości. Trzeba uwzględniać ich częstości. W arto też zmienić nieco formułę na liczenie średniej, by w sposób jawny wprowadzić do niej częstość. Jeśli przez f oznaczymy częstość wystąpienia wartości x, formuła na średnią arytmetyczną przyjmie postać: _
M=
Przemnóż każdą liczbę przez je j często ść i dodaj do sieb ie wyniki.
Z fx Zf
To j e s t s u m a c z ę s to ś c i.
Jest to tylko inny sposób na policzenie średniej arytmetycznej, odwołujący się bezpośrednio do częstości. Stosując go do naszego przykładu, otrzymujemy: 1 X 19 + 3 x 20 + 1 x 21
=
20
Dostaliśmy ten sam wynik, choć uzyskany w nieco inny sposób.
90
Rozdział 2.
Miary tendencj centralnej
Wróćmy do naszego klubu O to kolejny klient szukający czegoś dla siebie. Czy możesz pom óc mu dokonać wyboru?
Chciałbym ćwiczyć w każdy w torek wieczorem, n ajlep iej w towarzystwie moich rówieśników. Czy myślisz, z e możesz mi pomóc?
Z adanie wydaje się całkiem proste. Z ulotki informacyjnej klubu wynika, że są jeszcze wolne miejsca w trzech grupach mających zajęcia w podanym przez Clive’a terminie. W pierwszej grupie średnia wieku wynosi 17 lat, w drugiej 25, a w trzeciej 38 lat. Clive szuka grupy o średniej wieku jak najbliższej jego wiekowi.
W Y T fŻ U M Y S Ł Przyjrzyj się jeszcze raz średniej wieku uczestników każdej z trzech powyższych grup. Do której z nich powinien dołączyć Clive?
.
J
Sześćd zfe^ie°' ,praM"'e ehcictby zadbaó ' który kondycje u, + SU/°M * i e9 ° w ie k u WarzVstu jie ludzi
jesteś tutaj ►
91
Kiedy średnia się nie sprawdza
Każdy ćwiczył kiedyś kung-fu Clive dołączył ostatecznie do grupy, w której średnia wieku wynosi 38 lat. Liczył na niezbyt forsowne ćwiczenia i uczestników w swoim wieku. N iestety...
Podstawowe terminy &
Średnia arytmetyczna 2 x n
Co mogło pójść nie tak? O statnią rzeczą, jakiej spodziewałby się (czy też chciałby) Clive, był udział w zajęciach, w których większość uczestników to nastolatkowie. Jak to się stało? Odpowiedzi powinniśmy szukać w danych. Spróbujmy dokonać ich szybkiej wizualizacji.
92
Rozdział 2.
2 fx 2 f
Miary tendenci centralnej
Ćwiczenie
Naszkicuj histogram na podstawie informacji o wieku uczestników zajęć fitness oraz kung-fu. (Czym jest histogram, dowiesz się z rozdziału 1.). Czy widzisz jakieś różnice w kształcie obu wykresów? Dlaczego Clive trafił do niewłaściwej grupy? Wiek uczestników zajęć fitness Wiek
19
20
21
Częstość
1
3
1
Wiek uczestników zajęć kung-fu Wiek
19
20
21
145
147
Częstość
3
6
3
1
1
jesteś lulaj ►
93
Ćwiczenie: tozwiqzanie
Naszkicuj histogram na podstawie informacji o wieku uczestników zajęć fitness oraz kung-fu. (Czym jest histogram, dowiesz się z rozdziału 1.). Czy widzisz jakieś różnice w kształcie obu wykresów? Dlaczego Clive trafił do niewłaściwej grupy? Wiek uczestników zajęć fitness Wiek
19
20
21
Częstość
1
3
1
Wiek uczestników zajęć kung-fu Wiek
19
20
21
145
147
Częstość
3
6
3
1
1
Wiek uczestników zajęć fitness o *> o 4* W
N
O - i-
—i—
Pominęliśmy grupy wiekowe od O do 18 lat, by oszczędzić
0
18
19
20
21
22
23
w ie k
m ie jsce .
Wiek uczestników zajęć kung-fu
>0 O 4* W
N
O
0
_
19
20
21
22
-V
—i— 145
146
147
148
» Zaostrz ołówek ____________________________________________ Czy myślisz, że średnia arytmetyczna dla danego zbioru liczb może być równa największej wartości w tym zbiorze? Kiedy byłoby to możliwe?
94
Rozdział2.
w ie k
Miary tendencj centralnej
W naszych danych są wartości nietypowe Czy zauważyłeś, jak bardzo różnią się oba histogramy, które przed chwilą wykreśliłeś? Pierwszy z nich m a bardziej regularny, symetryczny kształt. Pozwala łatwo odczytać, jaki jest typowy wiek ćwiczących fitness. H istogram wieku uczestników zajęć kung-fu nie jest już tak czytelny i łatwy w interpretacji. Większość danych skupia się w okolicach 20 lat, ale wiek dwóch uczestników wyraźnie odstaje od reszty. Tego rodzaju przypadki statystycy nazywają obserwacjami nietypowymi lub odstającymi.
Wiek uczestników zajęć kuug-fu o 'Ul o 4* Ul flp N O
W ię k s z o ś ć ć w ic z ą c y c h m okoto 2 0 la t .
s tu p k i Te, dwa ow a
6
■
¿
r
r
° e Sd u ż e Cw a r to ś c i, ¡a one a u z «
«
«
i
" “ *■
4 2
—i—
0 0
19
20
21
22
145
146
147
148
w ie k
u = 38
d o b rze r e p r e z e n t u je o n a ś re o n w ie k w t e j g r u p ie ?
WYSIL SZARE K O M Ó R K I Ile wynosiłaby średnia, gdyby w iekow i m istrzow ie ku n g -fu nie uczestniczyli w tych zajęciach? Oblicz ją I porów naj z obecną średnią. Jaki w yp ływ a stąd wniosek o w p ływ ie obserwacji nietypow ych na w artość średniej arytmetycznej?
jesteś tutaj ►
95
Wprowadzamy )bserwacje nietypowe
Czym s | dane asym etryczne Z informacji o wieku uczestników zajęć kung-fu wiemy, ze większość z nich m a około 20 lat. Okazuje się, ze gdyby najstarsi uczestnicy zajęć zrezygnowali ze swojego w nich udziału, średnia arytmetyczna wieku pozostałych osób wyniosłaby dokładnie 20 lat. Dopóki jednak są członkami grupy, nie możemy ich pom inąć przy liczeniu średniej. Niestety, m a to tę złą stronę, ze znacząco zaburzy wartość średniej, zawyżając ją — w tym przypadku — niemal dwukrotnie.
Podstawowe terminy Obserwacja nietypowa S k ra jn ie m ata b ą d ź duża w a rto ść, zn a c zn ie odbiegająca od r e s z ty danych.
c z ę s to ś ć
Wiek uczestnikom zajęć kung-fu
zająć, średnia znalazłaby s i ę gdzieś tu ta j.
Podstawowe terminy
D o p ó k i bierzemy ich
Dane asymetryczne
w prawo.
Ą rZ 0
19
20
21
22
145
146
147
148 w ie k
D ane, dla których histogram j e s t ro zcią g n ięty albo z p raw ej, albo z lew ej stro n y .
u = 38 Czy widzisz, jak obecność obserwacji nietypowych wpływa na wartość średniej arytmetycznej? Jest to bezpośredni skutek obecności obserwacji odstających. W takich przypadkach mówimy, że dane są asymetryczne lub skośne. D ane na tem at wieku uczestników zajęć kung-fu są ^prawostronnie asymetryczne {skośne), ponieważ ilustrujący je histogram jest bardziej rozciągnięty z prawej strony. Przyjrzyjmy się tem u z bliska.
_
^ Zaostrz ołówek __________________________________ Czy myślisz, że średnia arytmetyczna pewnego zbioru liczb może być równa największej wartości w tym zbiorze? Kiedy byłoby to możliwe?
Owszem, może. Wtedy, gdy w szy stkie wartości w zbiorze danych będą sobie równe.
96
Rozdział 2.
Miary endencji centralnej ^ s y m e try c z n e
z
Asymetria (skośność) prawostronna D ane praw ostronnie asymetryczne zawierają obserwacje nietypowe, które powodują rozciągnięcie prawego „ogona” histogramu. Bardzo dobrze widać to na zamieszczonym obok wykresie. Zawyżyło to średnią arytmetyczną wieku uczestników zajęć kung-fu, a tym samym — patrząc na histogram — przesunęło ją na prawo.
/ ^ " ^ V
W iększość w a rto ści m ie ści s ię gdzieś tu ta j, ale średnia leży bardziej na prawo.
W tym ogonie znajduję. obserw acje
mnWG.
Asymetria (skośność) lewostronna Te dane s ą
„kośne-
,
le w o stro ^ ® ,5 ^ r to ś c . 8 arc*z° śre d n ią w 1 .
cięgncl
Zamieszczony obok wykres ilustruje dane lewostronnie skośne. Czy zauważyłeś, że tym razem obserwacje nietypowe znajdują się po lewej stronie? Ich wartości, mniejsze od pozostałych, przesunęły średnią arytmetyczną w lewo. Jest ona niższa, niż by to wynikało z wartości większości danych.
Symetria Gdybyśmy żyli w świecie idealnym, moglibyśmy oczekiwać, że wszystkie dane będą symetryczne. Średnia arytmetyczna takich danych mieści się dokładnie pośrodku wykresu. Obserwacje nietypowe nie wpływają na jej przesunięcie w żadnym kierunku. Odpowiadający takim danym wykres jest symetryczny — jego lewa połowa stanowi lustrzane odbicie prawej
/ ■ - - 's
M— "
T utaj dane s ą sym etryczne, Nie ma obserw acji odstających, które w p ływ a łyb y na w a rto ść śred n ie j a rytm e tyczn e j.
X
jesteś tutaj ►
97
Rozmowy o średniej
Rozmowa przy dystrybutorze
o
Clive: Dowiedziałem się, że średnia wieku w tej grupie to 38 lat. Pomyślałem, że to coś w sam raz dla mnie. Ale już po 5 minutach, gdy moje nogi odmówiły posłuszeństwa, zmieniłem zdanie. Dziewczyna: Ale przecież tam nie ma nikogo w tym wieku. Musieli się pomylić w obliczeniach. Bo dlaczego mieliby Cię wprowadzać w błąd? Clive: Nie wydaje mi się, żeby się pomylili; po prostu nie powiedzieli mi dokładnie tego, o co ich zapytałem. Zadałem pytanie, jaki jest typowy wiek dla tej grupy ćwiczących, a oni podali mi średnią arytmetyczną, 38 lat. Dziewczyna: A to wcale nie jest typowy wiek dla tej grupy, prawda? Bo patrząc na ludzi, którzy ćwiczą z tobą kung-fu, powiedziałabym raczej, że bardziej reprezentatywny byłby wiek dużo niższy. Clive: Wiesz, gdyby w swoich obliczeniach pominęli najstarszych uczestników, byłoby jasne, że ta grupa nie jest dla mnie. To właśnie przyczyna moich problemów. Te obliczenia są w zasadzie pozbawione sensu. Dziewczyna: Cóż, skoro starsi członkowie grupy sprawiają tak duży problem , to dlaczego ich po prostu nie pominęli? Może dzięki tem u uzyskaliby bardziej sensowne wyniki...
98
Rozdział 2.
Miary tendencj centralnej
Z pomocą przychodzi nam mediana Kiedy w danych występują obserwacje nietypowe, średnia arytmetyczna nie sprawdza się najlepiej jako m iara tendencji centralnej. Lepszym sposobem jest odnalezienie w danych... wartości środkowej. I to dosłownie. W ten sposób wyznaczymy inną miarę tendencji centralnej, nazywaną medianą (wartością środkową). Aby znaleźć m edianę wieku trenujących kung-fu, musimy uporządkować wiek wszystkich osób w kolejności rosnącej, a następnie wybrać wartość, która znajduje się dokładnie pośrodku takiego szeregu, tak jak w tym przykładzie:
19
19
20
20
20
21
21
100
102
Oto 20, wartość środkowa. Nazywamy ją medianą.
Postępując w ten sposób, przekonamy się, ze dokładnie pośrodku znajduje się liczba 20. D latego właśnie m ediana wieku uczestników zajęć kung-fu wynosi 20 lat.
Mediana zawsze
A gdyby w zajęciach brała udział parzysta liczba osób?
p o ś ro d k u
19
20
20
20
21
21
100
102
t Gdyby wielkość grupy byta liczbą parzystą, nie można bytoby wskazać wartości środkowej.
to wartość środkowa.
Je st
Przy parzystej liczbie danych ich m ediana równa jest średniej arytmetycznej dwóch środkowych w artości (a więc ich sumie podzielonej przez 2). N a powyższym rysunku m ediana wynosi 20,5 roku.
W iem y już, że dla 9 liczb Ich medianę stanow i liczba znajdująca się na piątej pozycji w szeregu uporządkowanym . Jeśli m am y 8 liczb, Ich m edianą jest w artość na pozycji 4,5 (w połowie odległości m iędzy liczbą na pozycji 4 . 15.). A co w ogólnym przypadku, gdy m am y
n liczb?
jesteś tutaj ►
99
Liczymy medianę krok po kroku
Jak znaleźć medianę w trzech prostych krokach: 1.
Uporządkuj liczby w kolejności rosnącej, od najmniejszej do największej.
2 . .Jeśli jest ich nieparzysta liczba, mediana znajduje się dokładnie pośrodku tak uporządkowanego szeregu. Oznaczając tę liczbę przez numer pozycji, na której znajduje się mediana, wyznaczysz ją ze wzoru: (n+1)/2. 2 . Jeśli tych wartościjest parzysta liczba, ich mediana równajest średniej arytmetycznej dwóch środkowych wartości — tych, które zajmują pozycję jak najbliższą numerowi (n+1)/2 (z lewej i prawej strony).
i Nie.is+nieja.
głupie pytania ^ : Czy jeśli bardzo chcę, mogę obliczać średnią dla danych asymetrycznych?
^ : Czy zatem mediana jest lepszym wskaźnikiem od średniej arytmetycznej?
0 : Możesz, robi tak wiele osób. Jednak w takich przypadkach
0 : W niektórych przypadkach mediana daje bardziej wiarygodne
średnia arytmetyczna nie jest najlepszą miarą tendencji centralnej.
wyniki niż średnia, ale nie jest to regułą. W większości przypadków
Spróbuj mimo wszystko wyznaczyć medianę.
będziesz musiał liczyć średnią, ponieważ ma ona pewną przewagę nad medianą. Wartości średniej są bardziej stabilne, co ma znaczenie
^ : Tak, ale to przecież średnia arytmetyczna informuje o tym, jaka jest typowa wartość danych. W końcu jest to średnia.
zagadnienia w dalszej części książki.
0 : Problem ze średnią arytmetyczną polega m.in. na tym , że może
^ : Jak można wyznaczyć średnią lub medianę dla danych jakościowych? Na przykład takich, jak na stronie 47 w rozdziale 1.?
ona przyjmować wartości, których nie ma w zbiorze danych.
na przykład przy losowaniu danych do próby. Wrócimy do tego
Przypomnij sobie dane na temat wieku uczestników zajęć kung-fu. Gdybyś przyszedł na zajęcia i losowo wybrał jedną z trenujących
0 : Średnią i medianę wyznacza się jedynie dla danych liczbowych.
osób, w większości przypadków trafiłbyś na osobę mniej więcej
Dla danych jakościowych można wyznaczyć inną miarę tendencji
20-letnią, ponieważ osoby w tym wieku dominują w grupie.
centralnej, o czym powiemy za chwilę.
Gdybyś jednak oceniał wiek ćwiczących tylko na podstawie średniej arytmetycznej, mógłbyś spodziewać się zupełnie innego wyniku. Problem ten nie wystąpiłby, gdybyś zamiast średniej policzył medianę. Czasami jednak nawet mediana daje wartości, których nie ma
w zbiorze danych, jak w przykładzie zamieszczonym na poprzedniej stronie. Powinno Ci to uświadomić, dlaczego wymyślono wiele wskaźników wartości przeciętnej — każda z nich może sprawdzić się lepiej od innych w konkretnym zastosowaniu.
^ : Zawsze mi się myli asymetria prawostronna z lewostronną. Jak można łatwo zapamiętać, która jest która? 0 : Dane asymetryczne charakteryzują się występowaniem obserwacji nietypowych i tak zwanych „grubych ogonów". Aby stwierdzić, z jakim rodzajem asymetrii mamy do czynienia, wystarczy sprawdzić, z której strony histogramu występuje „gruby ogon". Na przykład dane prawostronnie asymetryczne powodują rozciągnięcie i pogrubienie prawego ogona histogramu.
100
Rozdział2.
Miary tendencj centralnej
Poczuj dane Wyobraź sobie, że stałeś się obiektem badania i dane m.in. na Twój temat są zawarte w poniższych tabelach. Wyznacz medianę dla każdego zbioru danych, określ, czy jest on skośny, oraz sprawdź, czy mediana jest mniejsza, czy większa od średniej arytmetycznej. Uzasadnij swoją odpowiedź.
Wartość
1
2
3
4
5
6
7
8
Częstość
4
6
4
4
3
2
1
1
W artość
1
4
6
8
9
10
11
12
Częstość
1
1
2
3
4
4
5
5
jesteś tutaj ►
101
Poczuj dane: Rozwiązanie
Poczuj dane: Rozwiązanie Wyobraź sobie, że stałeś się obiektem badania i dane m.in. na Twój temat są zawarte w poniższych tabelach. Wyznacz medianę dla każdego zbioru danych, określ, czy jest on skośny, oraz sprawdź, czy mediana jest mniejsza, czy większa od średniej arytmetycznej. Uzasadnij swoją odpowiedź.
W artość
1
2
3
4
5
6
7
8
Częstość
4
6
4
4
3
2
1
1
J e s t to zbiór 25 liczb, więc ich mediana znajduje s ię na 13. p o zycji w szeregu uporządkowanym rosnąco. Ma ona wartość 3. Dane są prawostronnie skośne, co zaw yża wartość średniej arytm etycznej. Dlatego j e s t ona w yższa niż mediana.
W artość
1
4
6
8
9
10
11
12
Częstość
1
1
2
3
4
4
5
5
Tutaj mediana wynosi 10. Dane s ą lewostronnie skośne, dlatego średnia je s t przesunięta w lewo. Ma więc ona niższą wartość niż mediana.
Jeśli dane s ą prawostronnie skośne, ich średnia arytm etyczna leży na prawo od mediany (je s t od niej w iększa).
Jeśli dane s ą lewostronnie skośne, ich średnia arytm etyczna leży na Ig wo od mediany (je s t od niej m niejsza).
średnia arytmetyczna
mediana
102
Rozdział 2.
Miary tendencj centralnej
Nasz interes kwitnie Twoja praca ze średnimi zaczyna przynosić wymierne korzyści. Coraz więcej osób zapisuje się na zajęcia w The Statsville H eath Club, a pracownicy ośrodka mogą łatwiej dopasować grupę ćwiczących do oczekiwań klienta. N a przykład ten chłopak chce się zapisać na naukę pływania, licząc, ze przy okazji pozna wielu nowych kolegów w swoim wieku. / ”
Z a ję c ia
f i
na basenie dla \ i nastolatków ~ o to , J l cŁego stukam! ZapisŁcie \ \ mnie natychmiast! J
& 0
Średnia wieku uczestników nauki pływania wynosi 17 lat. T ak się składa, ze jest to również jego mediana. Wydaje się więc, ze ta grupa jest wprost stworzona dla naszego znajomego.
Nauka pływania Mediana wieku: 17 lat
Zobaczmy, czy rzeczywiście...
jesteś tutaj ► 103
Kiedy mediana ;ię nie sprawdza
Nauka pływania d la ... najmłodszych Zajęcia z nauki pływania odbywają się na basenie dwa razy w tygodniu. Istnieją oddzielne grupy stworzone specjalnie dla najmłodszych dzieci oraz ich rodziców. T a formuła bardzo dobrze się sprawdza, gdyż i rodzicom, i ich dzieciom wspólna zabawa sprawia sporo radości. Spójrzmy jednak, kto zapisał się na te zajęcia...
Q W
Y T § Z U M Y S Ł
Jak sądzisz, co poszło nie tak tym razem?
104
Rozdział 2.
Miary tendencj centralnej
Magnesiki częstości Poniżej zamieszczono informacje na tem at wieku osób uczęszczających na naukę pływania. Są one jednak niepełne: niektóre częstości „w ypadły" z tabelki. Spróbuj je przyporządkować do odpowiednich kolumn tabeli, wiedząc, że w zajęciach bierze udział dziewięcioro dzieci i ich rodziców oraz że średnia i mediana ich wieku wynosi 17 lat.
Wiek
1
Częstość
3
□
2
G J
3
31
2
2
32
33
£ 3
jesteś tutaj ► 105
Magnesiki: Rozwiqzanie
Magnesiki częstości: Rozwiązanie Poniżej zamieszczono informacje na tem at wieku osób uczęszczających na naukę pływania. Są one jednak niepełne: niektóre częstości „w ypadły" z tabelki. Spróbuj je przyporządkować do odpowiednich kolumn tabeli, wiedząc, że w zajęciach bierze udział dziewięcioro dzieci i ich rodziców oraz że średnia i mediana ich wieku wynosi 17 lat.
Wiek
1
Częstość
3
2
3
31
2
2
32
33 3
- 0
-
Średnia wieku w y n o s i1 7 lat. Jeśli nieznane czę sto ści oznaczymy odpow iednio przez a i b, możemy zapisać. 1 x 3 + 3 x 4 + 3 x 3 + 3 1 x 3 + 32a + 33b _ 17
Wierny, że w zajęciach bierze u o zra f dziewięcioro dzieci, więc m u s' s '3 sum ować do 9. Wynika stąd, że dzieci w w ieku 2 lat m usi być czworo.
18~~ 3 + 8 + 6 + 63 + 33a + 33b = 17 x 18 = 306
Pomnóż obie strony p rze z 18.
33a + 33b = 3 0 6 - (3 + 8 + 6 + 6 3 ) = 3 0 6 - 79 V 33a + 33b = 3 3 7 . Ponieważ 32a + 33b daje w w yn iku iiczb ę n ie p a rzystą , h m usi buć równe 3, a m usi być równe 4.
» Zaostrz ołówek _ Rozwiązanie
Gdy poprawnie przyporządkujesz częstości do odpowiadających im grup wiekowych, naszkicuj dodatkowo histogram. Czy zaobserwowałeś coś interesującego?
Wiek uczestników nauki pływania To je s t d ru g i podzbiór danych.
4
o 'Ul o 4* Ul ap
3 2
N
O 0 32
33
34
w ie k
M ożna powiedzieć, że mamy tu ta j dwa zbiory danych za m ia st jednego: ten obejmujący wiek
dzieci oraz ten dla wieku ich rodziców.
106
Rozdział2.
Miary tendencj centralnej
Dlaczego średnia i mediana nie są m iarodajne? Przyjrzyjmy się tym danym z bliska. Poniżej zamieściliśmy wiek wszystkich uczestników nauki pływania w kolejności rosnącej:
1 1 1 2 2 2 2 3
jjL n
31
32
32
32
32
33
33
33
Ponieważ liczba obserwacji j e s t parzysta, mediana leży w potowie odległości m iędzy wartościami 3 i 31 lat. Obliczając ich średnią arytm etyczną — (3+3D/2 — otrzym ujem y wartość mediany wynoszącą 17 lat.
Zarówno średnia, jak i m ediana wynoszą w tym przypadku 17 lat, choć w tej grupie nie m a ani jednej osoby, która byłaby w tym wieku! Co by się stało, gdybyśmy mieli do czynienia z nieparzystą liczbą osób? Także wtedy zarówno m ediana, jak i średnia arytmetyczna wprowadzałyby nas w błąd. Spójrz:
1 1
1 2 2 2
2 2
3
(f)
31
31
32
32
32
32
33
33
33
1
Gdybyśmy tę grupę poszerzyli o je s zc ze jednego dwulatka, mediana w ieku wyniosłaby 3 lata. A co z dorosłymi?
Gdybyśmy dołączyli do grupy kolejnego dwulatka, m ediana wieku wynosiłaby 3 lata. Byłaby więc dobrym miernikiem przeciętnego wieku dzieci, ale nie ich rodziców.
1 1 1 2 1 2 2 1 i <9> i i
51
52 i l
il
32
33
33
33
7
G dybyśmy dodali do grupy je szcze jednego rodzica w wieku 31 lat, mediana wyniosłaby dokładnie 31 lat. Tym razem pomijamy więc dzieci!
Gdyby do zajęć na basenie chciał dołączyć kolejny rodzic w wieku lat 31, m ediana wieku wszystkich uczestników wyniosłaby 31 lat. Tym razem m ediana nie odzwierciedlałaby poprawnie wieku dzieci. W jakikolwiek więc sposób oszacowalibyśmy przeciętny wiek uczestników nauki pływania, otrzymalibyśmy wartości, które wprowadzają w błąd.
Jak możemy sobie radzić z danymi tego ty p u ? jesteś tutaj y
107
Zaostrz >łówek
-
Zaostrz ołówek
V
Tym razem musisz trochę pomyśleć, zanim wpadniesz na pomysł średniej, która dobrze odzwierciedlałaby przeciętny wiek uczestników nauki pływania. Spróbuj jednak odpowiedzieć na poniższe pytania. Dla ułatwienia zamieszczamy niżej dane potrzebne do obliczeń: Wiek
1
2
3
31
32
33
Częstość
3
4
2
2
4
3
1. Jak sądzisz, dlaczego w ty m przypadku zarów no średnia, ja k i m ediana nie dają popraw nych w yników ? Dlaczego o b ie te statystyki w prow adzają w błąd?
2. Gdybyś m ia ł wskazać liczbę, która najlepiej odzw ierciedla przeciętny w ie k uczestników zajęć, na co byś się zdecydował? Dlaczego w łaśnie na tę wartość?
3. A gdybyś m ó g ł wskazać d w ie ta kie liczby? Jakie wartości w ybrałbyś w ty m przypadku? Dlaczego?
108
Rozdział2.
Miary tendencj centralnej
Cała prawda o średniej arytmetycznej W yw iad tygodnia:
Różne typy średnich Head First: Witaj, Średnio, cieszę się, że mogę gościć cię w naszym studiu... Średnia: Mnie również jest miło. Ale mam prośbę, mów do mnie „Średnio Arytmetyczna”. Head First: Średnio Arytmetyczna? Sądziłem, że nazywasz się po prostu „Średnią”. Czyżbym pomylił listę gości? Średnia: Nie sądzę. Ale widzisz, tak naprawdę w Statsville mieszka bardzo wiele różnych średnich. Ja jestem tylko jedną z nich i nazywam się „Średnią Arytmetyczną”. Head First: Czyli że jest was więcej? To dość skomplikowane. Średnia: Niekoniecznie, w każdym razie nie wtedy, gdy już poznasz nas wszystkie. Bo widzisz, każda z nas mówi o tym, jaka jest wartość przeciętna pewnego zbioru liczb, ale każda z nas ma na ten temat inne zdanie. Head First: A zatem która z was jest tą właściwą Średnią? Rozumiesz — tą, która mówi o tym, że należy dodać do siebie wszystkie wartości i tę sumę podzielić przez ich liczbę? Średnia: To właśnie ja, ale proszę, nie nazywajmnie „tą właściwą” Średnią, bo inne mogą poczuć się dotknięte. Rzeczywiście, wielu nowych mieszkańców Statsville myśli, że jestem tą Średnią. To właśnie o mnie myślą w pierwszej kolejności uczniowie, gdy po raz pierwszy spotykają się z pojęciem Średnięjna lekqach statystyki. Ale tak naprawdę jestem tylko jedną z wielu Średnich, zwaną — dla jasności — Średnią Arytmetyczną. Head First: Czy to twoje jedyne imię? Średnia: Cóż, czasami oznacza się mnie symbolem ¡x. Jak każda prawdziwa gwiazda mam więc swójpseudonim. No, może nie każda. W każdym razie ja swójmam. Jest to grecka litera, co mnie w pewnym sensie dodatkowo wyróżnia. Head First: Do czego zatem są potrzebne inne Średnie?
Średnia: Nie lubię się do tego przyznawać, ale mam pewną wadę. Tracę głowę, gdy mam do czynienia z danymi, w których występują obserwacje nietypowe. Gdy ich nie ma, radzę sobie bardzo dobrze, ale kiedy tylko ujrzę jakąś wartość odstającą, poddaję się jej wpływowi i zmierzam w jejkierunku. To dość spory problem. Bo wyobraź sobie, że czasami za bardzo oddalam się od tych wartości, które mam reprezentować jako średnia. Wtedy dobrze sprawdza się jedna z moich koleżanek, zwana Medianą. Head First: Medianą? Średnia: Tak, ona zachowuje się w sposób bardziej zrównoważony w towarzystwie obserwacji nietypowych. Możesz robić, co chcesz, a ona zawsze będzie trwała na swoim miejscu, dokładnie pośrodku danych. Jest to jednak w pewnym sensie jęjsłabością, bo nie można tak łatwo oszacować, ile jest ona warta; można co najwyżej wskazać pozyqę, jaką zajmuje w uporządkowanym zbiorze danych. Dlatego jest nieco rzadzięjstosowana. Head First: Czy ty i Mediana zawsze macie tę samą wartość? Średnia: Otóż nie — tylko wtedy, gdy dane są symetryczne. W innym razie możemy się znacząco różnić. Mówiąc wprost: jeśli w danych występują obserwacje nietypowe, mam tendencję do przemieszczania się w ich kierunku, podczas gdy Mediana zawsze tkwi na swojej stałęjpozyqi. Head First: Kończy nam się czas, dlatego zadam ostatnie dziś pytanie. Czy zdarza się i tak, że zarówno ty, jak i Mediana macie problem ze wskazaniem typowej wartości w danych? Średnia: Obawiam się, że tak właśnie jest. Niekiedy musimy skorzystać z pomocy jeszcze innejŚredniej. Nie zdarza się to często, ale dobrze, że mam z nią stały kontakt. Gdy spotkamy się następnym razem, pokażę ci, kiedy warto prosić ją o pomoc. Head First: Brzmi świetnie! Trzymam cię za słowo!
jesteś tutaj y
109
Zaostrz ołówek: Rozwiqzanie
(
Tym razem nie tak łatwo wskazać sposób na oszacowanie wartości średniej, która dobrze odzwierciedlałaby przeciętny wiek uczestników zajęć na basenie. Dla przypomnienia zamieszczamy niżej odpowiednie dane: Wiek
1
2
3
31
32
33
Częstość
3
4
2
2
4
3
1. Jak sądzisz, dlaczego w ty m przypadku zarów no średnia, ja k i m ediana nie dają popraw nych w yników ? Dlaczego o b ie te statystyki w prow adzają w błąd?
A ni średnia arytm etyczna, ani mediana nie spełnią s w o je j roli w przypadku danych tego rodzaju, ponieważ żadna z nich nie bierze pod uwagę tego, że składają s ię na nie jakby dwa oddzielne podzbiory. Z w a rto ś c i średniej wynika, że j e s t to grupa złożona z nastolatków, choć nie ma w niej ani jednego nastolatka. To samo dotyczy mediany, która dodatkowo j e s t bardzo wrażliwa na dodanie do grupy kolejnych osób.
2. Gdybyś m ia ł wskazać liczbę, która najlepiej odzw ierciedla przeciętny w ie k uczestników zajęć, na co byś się zdecydował? Dlaczego w łaśnie na tę wartość?
Nie da s ię tak tatwo wskazać jednej w a rto ści, która bytaby dobrym przybliżeniem typowego wieku uczestników tych za ję ć. Tak naprawdę grupa ta sktada s ię z dwóch oddzielnych zbiorowości, których wiek znacząco s ię różni: dzieci i dorosłych. Żadna pojedyncza wartość nie będzie dobrym przybliżeniem wieku osób z obu tych grup.
3. A gdybyś m ó g ł wskazać d w ie ta kie liczby? Jakie wartości w ybrałbyś w ty m przypadku? Dlaczego?
Ponieważ w praktyce mamy do czynienia z dwoma podzbiorami danych, dobrym pom ysłem wydaje s ię wskazanie dwóch w a rto ś c i, reprezentujących przeciętny wiek oddzielnie, m y wybralibyśmy 2 lata dla dzieci i 32 lata dla dorosłych, ponieważ ludzi w tym właśnie w fe k u je s t najwięcej w każdym z obu podzbiorów.
110
Rozdział2.
Miary tendencj centralnej
Przedstawiamy dom inantę (modę) O prócz średniej arytmetycznej i mediany istnieją inne statystyki będące miarami tendencji centralnej. Jedną z nich jest dominanta, zwana inaczej modą. D om inanta — jak wskazuje jej nazwa — to taka wartość w zbiorze danych, która pojawia się najczęściej, innymi słowy: wartość o największej częstości. W odróżnieniu od średniej i mediany, dom inanta zawsze jest obecna w danych źródłowych. Czasami w jednym zbiorze danych występuje wiele wartości mających najwyższą częstość. Każda z nich jest wówczas dominantą. Dzieje się tak wtedy, gdy w danych źródłowych m ożna wyróżnić kilka podzbiorów albo gdy wykazują one więcej niż jeden trend. Każdy z nich m a wtedy swoją modę. D ane, które kryją dwie dominanty, nazywamy danymi bimodalnymi. Dokładnie taka sytuacja wystąpiła w naszym przykładzie. Spośród uczestników nauki pływania można było utworzyć dwie oddzielne grupy: dzieci oraz ich rodziców, bardzo różniące się pod względem wieku. D latego nie można podać jednej liczby, która reprezentowałaby wiek typowego uczestnika zajęć. Bez problem u możemy jednak wskazać dom inantę wieku dla każdej z tych grup. Są to: 2 lata dla dzieci i 32 lata dla dorosłych, ponieważ te grupy wiekowe są najliczniej reprezentow ane w każdej z grup. N a histogramie będą to słupki o najwyższej wysokości.
Wiek
1
2
3
31
32
33
Częstość
3
4
2
2
4
3
rle , dwie ^ ^ wartości pojawiają s ię najczęściej, dlatego obie są dominantami.
Wiek uczestników nauki pływania To są dom inanty ; mają one najw iększe czę sto ści.
\ 'O 4
-U) *ow4 3o N 2
1
2
3
31
4
32
33
J
S ą to danebirnodąine
Dominanta istnieje także dla danychjakościowych D om inantę możesz bez problem u wyznaczać dla danych jakościowych (kategorialnych). T ak naprawdę jest to jedyna m iara tendencji centralnej, którą można stosować do danych tego typu. D om inantą będzie tutaj kategoria, która m a najwyższą częstość. W przypadku danych zgrupowanych do postaci szeregu rozdzielczego można wskazać klasę, w której mieści się dominanta. Nazywa się ją klasą (przedziałem) dominanty.
Liczba grup ćwiczeniowych według typu zajęć o
Nauka pływania
Liczba grup
fitness
M e d ia n a -w ieku; 17 i a t
N N
■o o
D o m in a n ty w ie k u : kung-fu
2 i 3 2 la ta
nauka pływania 0
2
4
6
8
10
12
14
16
1!
c z ę s to ś ć
jesteś tutaj y
111
34
w ie k
Liczymy dominantę krok po kroku --------------------------------------------------------------------------------------------------------------------
Jak znaleźć dom inantę w trzech prostych krokach: 1. Znajdź wszystkie wyodrębnione wartości w danych (pojedyncze wartości cechy lub ich klasy). 2 . Oblicz częstość występowania każdej z tych wartości. 2 . Wybierzjedną (bądź więcej) wartość, która ma największą częstość. Będzie to szukana dominanta (bądź dominanty).
ołówek ________________________________________________ Znajdź dominantę (dominanty) dla poniższych zbiorów danych:
W a rtość
1
2
3
4
5
6
7
8
Częstość
4
6
4
4
3
2
1
1
K olor
n iebieski
cze rw o n y
zie lo n y
ró żo w y
ż ó łty
Częstość
4
5
8
1
3
W artość
1
2
3
4
5
Częstość
2
3
3
3
3
W którym z tych trzech przypadków dominanta daje użyteczną informację?
Kiedy dominanta jest najmniej przydatna?
112
Rozdział 2.
Miary tendencj centralnej
Przyjmij nasze gratulacje! Twoja pomoc okazana pracownikom H ealth Club była niezwykle cenna. Dzięki niej znacznie wzrosło zainteresowanie zajęciami organizowanymi przez ten klub.
Po trzykroć hurra dla M-O-p-Y! Większość członków g ru p y je s t w tym samym wieku co ja!
Mediana zarobków tak doświadczonego tre n e ra te n is a ja k ja wynosi 33 dolary za godzinę.
'"am«
O
Średnia moich wyników w g o lfie to 2 p on iżej normy. Ale nie mów koleżankom, z e mediana wynosi 2 powyżej normy.
O 1 kilom etr pokonuję średnio w 2 5 minut, ale łącznie z przerw ą na kawę w m ojej ulubionej kawiarni.
O O
O
>
Paję z siebie wszystko, w piłce i w statystyce.
■
O
I■ U
W każdym meczu hokeja tracę średnio 7 zębów.
O
M ediana c za s u ,ja k i codziennie spędzam p od wodą, wynosi 2 4 minuty.
O
*
jesteś lulaj k
113
Zaostrz ołówek: Rozwiązanie
» Zaostrz ołówek _ Rozwiązanie
Znajdź dominantę (dominanty) dla poniższych zbiorów danych:
W a rtość
1
2
3
4
5
6
7
8
Częstość
4
6
4
4
3
2
1
1
K olor
n iebieski
cze rw o n y
zie lo n y
ró żo w y
ż ó łty
Częstość
4
5
8
1
3
W artość
1
2
3
4
5
Częstość
2
3
3
3
3
N ajczęściej powtarzającą się wartością je s t 2 i to ona stonow f dominantę tego zbioru.
Tutaj dominuje kolor zielony, dlatego ta kategoria je s t dominantą.
W tym zbiorze danych można wyróżnić liczne dominanty: 2, 3, 4 i 5.
W którym z tych trzech przypadków dominanta daje użyteczną informację? Wtedy, gdy w zbiorze danych niewiele w a rto ś c i dominuje nad innymi albo gdy dane mają charakter jakościow y. W tym ostatnim przypadku nie da s ię wyliczyć ani średniej, ani mediany.
Kiedy dominanta jest najmniej przydatna? Kiedy tak naprawdę nie można wskazać jednej mody, lecz caty ich zbiór.
Podstawowe terminy Dominanta D om inanta z a w s z e j e s t je d n ą z w a r to ś c iz e zbioru danych.
Tylko t ę m iarę ten d en cji centralnej m ożna w yzn a czyć dla danych ja ko ścio w ych .
114
Rozdział 2.
Miary tendenc| centralnej
Uzupełnij poniższą tabelkę. Do każdej miary tendencji centralnej, którą poznałeś w tym rozdziale, dopisz sposób jej wyznaczania oraz warunki, przy których sprawdza się ona lepiej od innych. Postaraj się wypełnić tę tabelkę bez odwoływania się do informacji zawartych na poprzednich stronach tego rozdziału.
Miara Średnia arytm etyczna (p)
Sposób obliczania
Kiedy warto stosować Gdy dane są względnie sym etryczne i wykazują wspólny trend.
M ediana
D om inanta
jesteś lulaj y
115
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Uzupełnij poniższą tabelkę. Do każdej miary tendencji centralnej, którą poznałeś w tym rozdziale, dopisz sposób jej wyznaczania oraz warunki, przy których sprawdza się ona lepiej od innych. Postaraj się wypełnić tę tabelkę bez odwoływania się do informacji zawartych na poprzednich stronach tego rozdziału.
Miara
Sposób obliczania
Kiedy warto stosować
Średnia arytm etyczna (p)
Według formuły:
Gdy dane są względnie symetryczne
. .
^ ^ x oznacza w a rto ść cechy 2 i X ^ ------- n __________ _ j e s t liczbą w szystkich ^ --------- •-___w artości cechy - -----------
M ediana
i w ykazują wspólny trend.
f oznacza częstość x (w a rto ś c i cechy)
Uporządkuj rosnąco w szystkie wartości cechy.
Kiedy dane charakteryzuje asym etria z uwagi na w ystępow anie wartości odstających.
Gdy je s t ich nieparzysta liczba, medianę stanowi wartość leżąca dokładnie pośrodku. W przypadku p a rzystej liczby elementów medianę stanowi średnia arytmetyczna dwóch wartości środkowych.
D om inanta
Znajdź wartość (bądź w a rto ś c i) cechy, która ma najw yższą częstość. J eśli w danych można wyróżnić kilka skupisk, dominantę należy wyznaczyć dla każdego z nich.
Kiedy dane m ają charakter jakościowy. Kiedu w danuch można wuodrębnić różne\ skupiska.
Dominanta to jedyna miara tendencji centralnej, którą można wyznaczyć dla danych jakościowych.
116
Rozdział2.
Miary tendenc| centralnej
_
zaostrz ołówek ________________________________________________________ Hojny szef pewnej sieci kawiarni chciałby dać podwyżkę wszystkim pracownikom. Nie jest jednak pewien, czy zwiększyć pensje o tę samą kwotę (2000 złotych rocznie), czy też podnieść każdemu wynagrodzenie o 10%. Średnia arytmetyczna wynagrodzeń w firmie wynosi 50 000 złotych, mediana 20 000 złotych, a dominanta 10 000. Odpowiedz na poniższe pytania:
a) Jak zmieniłaby się wartość średniej arytmetycznej, mediany i dominanty, gdyby każdy pracownik firmy otrzymał podwyżkę w wysokości 2000 złotych?
b) Jak zmieniłaby się wartość średniej arytmetycznej, mediany i dominanty, gdyby każdy pracownik firmy otrzymał podwyżkę w wysokości 10% swoich dotychczasowych zarobków?
c) Na który z wariantów podwyżki zdecydowałbyś się, gdyby Twoje wynagrodzenie było równe średniej arytmetycznej? A gdybyś zarabiał tyle, ile wynosi dominanta?
jesteś lutaj y
117
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
Hojny szef pewnej sieci kawiarni chciałby dać podwyżkę wszystkim pracownikom. Nie jest jednak pewien, czy zwiększyć pensje o tę samą kwotę (2000 złotych rocznie), czy też podnieść każdemu wynagrodzenie o 10%. Średnia arytmetyczna wynagrodzeń w firmie wynosi 50 000 złotych, mediana 20 000 złotych, a dominanta 10 000. Odpowiedz na poniższe pytania:
a) Jak zmieniłaby się wartość średniej arytmetycznej, mediany i dominanty, gdyby każdy pracownik firmy otrzymał podwyżkę w wysokości 2000 złotych? Średnia: Jeśli p rzez x oznaczymy wyjściowy poziom zarobków, a przez n liczbą pracowników firmy, możemy zapisać: Mediana: Dodanie 2 0 0 0 do zarobków każdego pracownika oznacza również zw iąkszenie 2 ( x + 2000) mediany o tą sam ą wartość. Nowa mediana bądzie wynosić: Liczba p r a c o ^ Średnia . V V 2000 2 0 000+ 2000 = 22 OOO ztotych. firm y w ynosi a r y t m e ty c z n a ^ — + —
wyjśctowuch zarobków.
n
" = 5 0 OOO +
2000 n
= 52 OOO z t
> Podniesienie zarobków
w szystkich pracowników o 2 0 0 0 ztotych zw iąksza w szy stk ie trzy sta ty sty k i o tą sam ą wartość.
Dominanta: Dominanta, czyli n a jczę ście j w ystąpujący poziom wynagrodzeń, to 10 OOO ztotych. Po podwyżce będzie to: 10 000+ 2000 = 12 OOO ztotych.
b) Jak zmieniłaby się wartość średniej arytmetycznej, mediany i dominanty, gdyby każdy pracownik firmy otrzymał 10-procentową podwyżkę? Tym razem zarobki każdego pracownika s ą mnożone przez 1,1 (czyli 100%+10%). Średnia:
I(1 ,1 x )
U =-------n = 1,1
Podniesienie zarobków w szystkim pracownikom ~ 0 10% zw iększa średnią, dominantą 1 medianą w tym samym stopnia.
Mediana: Każdą p en sję mnożymy przez 1,1, także w a rto ść środkową, czyli medianę. Otrzymujemy: 2 0 000x1,1 = 22 OOO ztotych.
n = 1,1 x 5 0 OOO = 55 OOO z t
Dominanta: N ajczęściej w ystępującym poziomem wynagrodzeń j e s t 10 OOO ztotych. Pomnożenie tej w a rto ś c i przez 1,1 da nam nową dominantę: 10 OOOx1,1 = 11 OOO ztotych.
c) Na który z wariantów podwyżki zdecydowałbyś się, gdyby Twoje wynagrodzenie było równe średniej arytmetycznej? A gdybyś zarabiał tyle, ile wynosi dominanta? Gdybyś dostaw ał p en sję na poziomie średniej, zyskałbyś więcej na podwyżce procentowej. Gdybyś zarabiał tyle, ile wynosi dominanta, pow inieneś zdecydować s ię na podwyżkę kwotową.
118
Rozdział2.
Miary tendenc| centralnej
Przypadek zagadkowej średniej: Rozwiązanie Na czym polegał problem ze średnim i? Kto, TWoim zdaniem, m iał rację w tym sporze? Każda ze stron sporu opierała swoje wnioski na innej mierze tendencji centralnej. Szeregowi pracownicy posługiwali się medianą, która minimalizuje wpływ relatywnie wysokich zarobków szefa firmy. Menedżerowie opierali się na wartościach średniej arytmetycznej. Zostały one sztucznie zawyżone przez skrajnie wysokie zarobki szefa firmy. Szef firmy posłużył się dominantą. Ponieważ większość pracowników zarabia 2000 złotych miesięcznie, tyle, jego zdaniem, wynosi przeciętne wynagrodzenie w jego firmie. Kto miał zatem rację? W pewnym sensie wszyscy, choć trzeba dodać, że przedstawiciele każdej z grup pracowników posługiwali się taką średnią, która najlepiej wspierała ich pogląd na sprawę. Zapam iętaj, że choć poznane w tym rozdziale statystki są bardzo użytecznym narzędziem opisu danych, mogą być niekiedy bardzo zwodnicze. Naszym zdaniem najwłaściwszą m iarą tendencji centralnej w tym przypadku była m ediana, ponieważ wśród danych mogliśmy zauważyć obserwacje nietypowe.
jesteś tutaj k
119
120
Rozdział 2.
3 . Miary zróżnicowania
Potęga zmienności
Nie wszystkiemu można wierzyć, ale jak się o tym przekonać? Średnie pozwalają nam poznać typ o w ą w artość dla naszych danych, ale
nam wszystkiego.
nie mówią
Um iemy juz znajdować wartości centralne zbioru danych,
ale średnia arytm etyczna, m ediana czy dom inanta nie zawsze wystarczają do wyciągnięcia głębszych wniosków. W tym rozdziale poszerzym y naszą wiedzę o narzędzia, dzięki którym będziemy m ogli coś powiedzieć o
zróżnicowaniu
naszych danych.
to jest nowy rozdział k
121
Przedstawiamy zespół »tatsville All Stars
W poszukiwaniu zawodnika Statsville Ali Stars to najlepsza drużyna koszykówki w okolicy. M ają spore szanse na zwycięstwo w obecnym sezonie rozgrywek ligowych. Jest tylko jeden problem — przez nieszczęśliwy zbieg okoliczności brakuje im jednego gracza. Szukają więc nowego zawodnika, bo czas goni. Nowy zawodnik powinien mieć ogólne predyspozycje do gry w koszykówkę, ale trenerow i zależy na tym, by był przede wszystkim dobrym strzelcem. Chciałby kogoś, kto wzmocni drużynę w ataku. D latego poświęcił on ostatni tydzień na ocenę umiejętności kandydatów do drużyny i wstępnie wytypował trzech graczy. Nie wie jednak, jak wybrać z nich tego, który sprawdzi się najlepiej.
W styscy t r t e j mają t ę samą średnią punktów, więc p o trte b u ję innej wskatówki, która pomoże mi wybrać najlepsŁego. C ty masŁ jakiś pomysł?
Trener drużi
122
Rozdział 3.
W szyscy 9r ?cz® a uzyskah ta k ą s a m ą ś re d n ia punktów „ cza sie e lim in a cji, czym w ię c ma s ię kierow ać tre n e r „ sw oim wyborze?
Miary różnicowania
Musimy porównać wyniki kandydatów Oto, jak radzili sobie nasi kandydaci w dotychczas rozegranych meczach:
♦ \ «0
Punkty
7
8
1 9
10
11
12
13
Częstość
1
1
2
2
2
1
1
1
cC zęstość mówi o tym, w ilu meczach gracz zdobyt daną liczbą punktów. Ten kandydat zdobył 9 punktów w 2 meczach, a 12 tutko w jednym .
Punkty
7
9
10
11
13
Częstość
1
2
4
2
1
Punkty
3
6
7
10
11
13
30
Częstość
2
1
2
3
1
1
1
Średnia arytmetyczna, mediana i dominanta punktów zdobytych przez każdego z kandydatów wynosi 10. A le gdy przyjrzysz się bliżej tym wynikom, przekonasz się, że każdy z nich inaczej zapracował na sw oją średnią. Jeden prezentuje bardziej, inny mniej wyrównany poziom gdy, o czym średnia niestety nic nie mówi. Trenerowi Statsville All Stars potrzeba więc innego kryterium, którym m ógłby się kierować przy wyborze najlepszego kandydata do swojej drużyny. Kryterium innego niż oparte wyłącznie na średniej punktów. Pytanie tylko, jakiego?
WYSIL SZARE K O M Ó R K I Jaka inform acja, oprócz średniej p u n któ w w poszczególnych meczach, m ogłaby pom óc trenerow i w w yborze najlepszego zawodnika?
jesteś tutaj k
123
Rozstęp mierzy ’ozrzut danych W yniki kandydatów do drużyny
0 czym mówi rozstęp Jak dotąd, skupialiśmy się na wyznaczaniu najbardziej typowych (średnich) wartości zbioru danych. Nie wystarczy to jednak do pełnego opisu. Dzięki średnim dowiemy się, jakie wartości są najbardziej reprezentatywne dla zbioru danych, jednak nie dowiemy się, jak bardzo dane te są rozproszone. Każdy z kandydatów do drużyny uzyskał ten sam średni wynik, ale punkty zdobywane w kolejnych meczach rozłożyły się u każdego nieco inaczej. Dobrze by było, gdybyśmy umieli zmierzyć tego typu różnice. Wyniki każdego gracza kształtują się odmiennie. Znając sposób na ich obiektywne porównanie, trener Statsville Ali Stars mógłby podejmować bardziej trafne decyzje.
Pomiar rozstępu
p u n k ty
Pierwsze wyobrażenie o tym, jak bardzo zmienne i rozproszone są nasze dane, da nam rozstęp. Rozstęp to m iara tego, na jakiej przestrzeni rozproszone są dane, coś jakby m iara ich szerokości. Wyznacza się go jako różnicę między największą i najmniejszą wartością cechy w zbiorze danych.
Nie mówi jednak nic na tem a t ich rozproszenia. M u s im y znaleźć na to inny sposo'b.
W artość najmniejszą określa się czasem jako minim um , a największą — maksimum wartości danej cechy. Spójrzmy na wyniki uzyskane przez jednego z kandydatów do zespołu:
7 (
8
9
9
10
10
V--------------------------- Rozstęp 7----- 7^
11
12
13 \
Maks im urn
Aby poznać rozstęp tego zbioru danych, musimy od największej z zaobserwowanych wartości odjąć wartość najmniejszą. Z danych wynika, że najmniejszą wartością jest 7, zaś największą 13. Odejmując od siebie te dwie wartości, otrzymujemy: rozstęp = wartość największa - wartość najmniejsza = 13-7
a więc rozstęp wynosi 6 punktów. Jest to najprostszy i najłatwiejszy sposób oszacowania, jak bardzo rozproszone są wartości w zbiorze danych. Pozwala on szybko dokonać wstępnego porównania różnych zbiorów danych.
124
Rozdział 3.
Podstawowe terminy Rozstęp R o z s tę p pozw ala o sza co w a ć, ja k bardzo zm ie n ia ją s i ę w a rto ści cechy. S ta n o w i różnicę m ię d zy m a ksim u m i m inim um w a rto ści danej cechy.
Miary różnicowania
Znajdź minimum, maksimum, rozstęp oraz średnią arytmetyczną dla podanych zbiorów danych. Naszkicuj histogram. Czy wartości w obu zbiorach są jednakowo rozproszone? Czy ewentualne różnice znajdują swoje odzwierciedlenie w rozstępie?
Ćwiczenie
Punkty
8
9
10
11
12
Częstość
1
2
3
2
1
10
11
12
0
1
Punkty
8
Częstość
1
9 0
8
jesteś tutaj ► 125
Ćwiczenie: tozwiqzanie
Znajdź minimum, maksimum, rozstęp oraz średnią arytmetyczną dla podanych zbiorów danych. Naszkicuj histogram. Czy wartości w obu zbiorach są jednakowo rozproszone? Czy ewentualne różnice znajdują swoje odzwierciedlenie w rozstępie?
Ćwiczenie Rozwiązanie Punkty
8
9
10
11
12
Częstość
1
2
3
2
1
u = 10
Minimum = 8 M aksim um = 12
c z ę s to ś ć
Rozstęp = 1 2 - 8
=4
£
4 75
7,5
10,5
11,5
12,5
Punkty
8
9
10
11
12
Częstość
1
0
8
0
1
p u n k ty
sdane ^ 'znacząco s p
s i*x
z
r choć
czę s to ś ć
u = 10
p am i^ aSZ' ? r . s ą °k ser
Q-fo i one'
M in im u m = 8 M aksim um = 12 Rozstęp = 1 2 - 8
=4
4 ,—
E
p u n k ty 5
10,5
11,5
12,5
Oba Łbiory danych mają te n sam roŁstęp, choć ró in e są ctęstości posŁcŁególnych ocen. Coś mi się wydaje, ¿e roŁstęp nie mówi nam w stystkiego.
Rozstęp mówi jedynie o tym, jak „szeroki” jest zbiór danych; nie mówi nic o tym, co się w nim znajduje. O ba zbiory danych mają ten sam rozstęp, choć w jednym z nich występują obserwacje nietypowe — skrajnie duże bądź małe wartości cechy. M ożna powiedzieć, że choć rozstęp daje jakieś wyobrażenie o zmienności danych, nie mówi o tym, jak się ona kształtuje.
126
Rozdział3.
Miary różnicowania
Obserwacje nietypowe rodzą pewien problem Rozstęp to najprostszy sposób na stwierdzenie, jak bardzo rozległe są granice zbioru danych, ale nie mówi nic o tym, co się dzieje w jego wnętrzu. Gdy w danych występują obserwacje nietypowe, wartość rozstępu może wprowadzać w błąd, ponieważ jest on na nie bardzo wrażliwy. Sprawdźmy to na przykładzie. Wyobraź sobie, że masz do czynienia z następującym zbiorem liczb:
Oto w ykres naszych danych
(je s t to rodzaj w ykresu słupkowego, w którym stupki zastąpiono kreskami). Każda z kresek przedstaw ia często ść jednej wartości ze zbioru.
MakiSlfr*Ltrn
Minimum wynosi 1
Wynosi s
V
1 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 5 5 5
Te liczby są w miarę równom iernie rozłożone w całym zbiorze. N ie ma tu problem u obserwacji odstających. Rozstęp tego zbioru wynosi 4.
2
3
4
5
Co by się jednak stało, gdybyśmy dodali obserwację nietypową, na przykład liczbę 10?
r—Minimum nadal I w ynosi 1.
A le maksimum wynosi teraz 10. T o je s t nasza obserw acja n ie typ o w a .
1 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 5 5 5 10
Choć wartość najmniejsza nie uległa zmianie, zmieniła się wartość największa, a więc i oparty na nich rozstęp. Wynosi on teraz 9, a więc zwiększył się ponad dwukrotnie — tylko dlatego, że dodaliśmy obserwację, która odstaje od pozostałych.
2
3
4
5
10
Gdyby nie ona, oba zbiory danych niczym by się od siebie nie różniły. Czy więc wszystko jest w porządku, skoro wartości rozstępu są aż tak niestabilne?
^ W
Y
S
I L
____________
SZARE K O M Ó R K I Czy wiesz, jak zmienić sposób liczenia rozstępu, by uzyskać bardziej stabilne wyniki?
jesteś tutaj ►
127
Rozstęp: kiedy używać, a kiedy nie
Rozstęp daje nam pierwsze wyobrażenie o tym, jak bardzo rozproszone są nasze dane. Ma jednak swoje ograniczenia. Jego wartość mówi o tym, jak są od siebie oddalone skrajne wartości cechy w zbiorze danych. Tylko tyle. N ie mówi więc nic o pozostałych wartościach z tego zbioru. Poza informacją o szerokości przedziału zmienności danej cechy rozstęp nie wnosi żadnej dodatkowej wiedzy. Ponieważ opiera się wyłącznie na wartościach skrajnych, nie odzwierciedla zmienności wewnątrz zbioru danych, w szczególności nie pozwala stwierdzić, czy w danych występują obserwacje nietypowe. M ożna jednak zmienić jego definicję, tak by pozbyć się tej niedogodności.
Skoro ten wskainik ma tak w iele wad, to po co go uiywać?
Głównie dlatego, ze jest miarą bardzo prostą. Sposób jego obliczania jest na tyle prosty, że rozumie go bez problem u większość ludzi, także ci, którzy nie mieli do czynienia ze statystyką. Kiedy na przykład mówisz o rozstępie wieku, ludzie łatwo rozumieją, co masz na myśli. Musisz być jednak ostrożny, ponieważ za tą prostotą kryje się pewne niebezpieczeństwo. Ponieważ rozstęp nie daje pełnego obrazu tego, jak rozkładają się dane między wartościami skrajnymi, jego wartość może Cię łatwo wprowadzić w błąd.
128
Rozdział3.
Miary różnicowania
Musimy znaleźć sposób na pozbycie się obserwacji nietypowych Największą w adą rozstępu jest to, ze uwzględnia wartości nietypowe. Nawet jeśli tylko jedna czy dwie wartości cechy odstają od reszty, zmienią wartość rozstępu. Potrzebny jest nam więc sposób na wyeliminowanie wpływu obserwacji nietypowych, by móc lepiej oszacować rzeczywiste rozproszenie danych. Jeden z tych sposobów polega na wyznaczeniu rozstępu na ograniczonym zbiorze danych, z którego usunięto obserwacje nietypowe. Byłby on liczony nie dla całego zbioru danych, a dla pewnej jego części, w której nie m a wartości odstających.
Pomiń
obserw acje
p u n k ty Wyznacz rozstęp dla tych wartości.
Musimy zrobić to w sposób przemyślany. Gdybyśmy usuwali obserwacje nietypowe w sposób zupełnie dowolny, stracilibyśmy możliwość porównywania różnych zbiorów danych. Jak więc moglibyśmy się upewnić, że za każdym razem usuwamy wartości odstające w ten sam sposób? Musimy ustalić definicję naszego rozstępu w wersji mini, którą można by stosować do każdego zbioru danych. Cóż, łatwo powiedzieć...
jesteś tutaj ► 129
Kwartyle i rozstęp międzykwartylowy
Na ratunek spieszą kwartyle Jeden ze sposobów konstrukcji rozstępu w wersji mini polega na wykorzystaniu tylko tych wartości, które koncentrują się w pobliżu średniej. Możemy to osiągnąć poprzez uporządkowanie wszystkich wartości cechy w kolejności rosnącej, a następnie podzielenie zbioru danych na cztery równe kawałki, z których każdy będzie zawierał V4 (kwartę) danych.
p
1 1 2 2 ]
[ 2 2 3 3 3 |
f 3 3 4 4 4 ]
To s ą te same dane co poprzednio, ale podzielone na czte ry c z ę ś c i.
^4
5 5 5 10]
Teraz możemy wyznaczyć rozstęp w oparciu o wartości, które oddzielają dwie zewnętrzne części od pozostałych:
1 1 1 2 2
)Ol
2 2 3 3 3 1
|o
3 3 4 4 4
IO
4 5 5 5 10 |
Różnica m iędzy ty m i w a rto ścia m i sta n o w i nasz ro zstę p w w e rs ji m in i.
W artości, które dzielą zbiór danych cechy na cztery równe podzbiory, nazywamy kwartylami, ponieważ każdy z podzbiorów zawiera czwartą część (kwartę) danych. Wyznaczanie kwartyli przypomina wyznaczanie mediany. Tym razem szukamy jednak wartości, które dzielą zbiór danych na cztery równe części, nie zaś na dwie, jak poprzednio. Pierwszy z kwartyli (Q l) nazywamy... kwartylempierwszym lub dolnym, zaś trzeci (Q3) — kwartylem trzecim lub kwartylem górnym. Drugi kwartyl (Q2), zwany też kwartylem środkowym, dzieli zbiór danych na dwie równe części. Jest to więc znana już nam dobrze mediana. Różnica między kwartylem górnym i dolnym to rozstęp międzykwartylowy, zwany też rozstępem ćwiartkowym.
\L m W n ie k t ó r y c h k s ią ż k a c h k w a r t y le m n a z y w a s ię k a ż d ą z c z te r e c h ć w ia r t e k p o d z ie lo n e g o z b io r u d a n y c h . e a c h q u a r t e r o f t h e d a ta . M y jednak przyjmujemy, że kwartylami są wartości cechy, które dzielą zbiór danych na ćwiartki.
R o z s tę p m ię d z y k w a r ty lo w y = k w a r t y l g ó r n y - k w a r t y l d o ln y Rozstęp ćwiartkowy pozwala nam oszacować rozproszenie danych za każdym razem w ten sam sposób. Podobnie jak zwykły rozstęp, umożliwia porównania między różnymi zbiorami. Co jednak z wartościami nietypowymi? Czy jest na nie bardziej odporny niż zwykły rozstęp? Przyjrzyjmy się tem u bliżej.
130
Rozdział3.
Podstawowe terminy Kwartyle K w artyle to w a rto ści cech y, które d zie lą zb ió r danych na c z te r y rów ne c z ę ś c i. W yróżniam y tr zy kw artyle: dolny, środkow y (m ed ia n ę) i górny.
Miary różnicowania
Rozstęp międzykwartylowy wyklucza obserwacje nietypowe Podstawowa zaleta rozstępu międzykwartylowego w porównaniu do zwykłego rozstępu polega na tym, ze jest on mniej wrażliwy na obserwacje nietypowe. Kwartyl dolny to taka wartość cechy, poniżej której znajduje się V4 obserwacji ze zbioru danych. Podobnie kwartyl górny to wartość cechy, powyżej której znajduje się V4 wartości cechy. Oznacza to, że rozstęp międzykwartylowy opiera się jedynie na połowie obserwacji, a tym samym ignoruje wartości odstające, które mogą się znajdować w skrajnych ćwiartkach. Spójrz ponownie na nasze dane. Czy możesz potwierdzić, że rozstęp ćwiartkowy rzeczywiście wyklucza obserwacje nietypowe?
R o zstą p ćwiartkowy uw zględnia środkową, czę ść danych...
Ponieważ rozstęp międzykwartylowy uwzględnia tylko połowę danych najbliższych medianie, wartości odstające zostaną automatycznie pominięte, niezależnie od tego, jak bardzo odległą wartość przyjmą. Nigdy nie znajdą się one w części środkowej. D latego też wszystkie obserwacje nietypowe zostaną skutecznie wyeliminowane.
O bserw acje nietypow e to skrajnie mafe bądź duże w artości, które kwartyl dolny i go'm y efektywnie odcinają..
Podstawowe terminy Rozstęp międzykwartylowy J e s t to ro zstą p w w e r s ji m ini, b ardziej odporny
na w ystę p o w a n ie o b serw a cji n ietyp o w ych . Oblicza s i ę go ja k o ró żn icę m ię d zy kw artylem górnym i dolnym.
Dzięki wyeliminowaniu wpływu obserwacji nietypowych na wartość rozstępu możemy dokonywać bardziej wiarygodnych porównań między różnymi zbiorami danych. Zanim jednak będziemy mogli wyznaczyć jego wartość, musimy znaleźć kwartyl dolny i górny dla naszych danych. N a następnej stronie pokażemy Ci, jak tego dokonać.
jesteś tutaj ►
131
Bliższe spojrzenie na kwartyle
Anatomia kwartyli Wyznaczanie kwartyli przypomina wyznaczanie mediany. M ediana jest wartością środkową w uporządkowanym rosnąco zbiorze danych. Dzieli zbiór liczb na dwie równe części: dla zbioru n wartości jest to liczba na pozycji ( n + l )/2 albo średnia arytmetyczna dwóch najbliższych liczb (gdy n jest parzyste). Jest to jednocześnie kwartyl środkowy. Kwartyl dolny i kwartyl górny powstają przez podział zbioru danych na cztery równe części:
Q1
í t M in im u m
1
° L t
K w a rty l
Q2
Q3
|Q [
i° r
r M e d ia n a
d o ln y
'T K w a rty l
T M a k s im u m
g ó rn y
Wyznaczanie pozycji kwartyla dolnego i górnego wymaga nieco więcej zręczności niż wyznaczanie mediany, ponieważ musimy się upewnić, że wybrane przez nas wartości dzielą zbiór danych w odpowiednich proporcjach. Ale jest na to sposób. Zacznijmy od kwartyla dolnego.
Znajdujemy pozycję kwartyla dolnego Najpierw obliczamy wartość wyrażenia n/4. Jeśli otrzymamy w wyniku liczbę całkowitą (n jest podzielne przez 4), kwartyl dolny znajduje się w połowie odległości między pozycją o tym num erze i następną w kolejności liczbą w szeregu uporządkowanym. Jego wartość wyznaczamy jako średnią arytmetyczną tych liczb. Jeżeli w wyniku otrzymamy liczbę niecałkowitą, zaokrąglamy ją w górę. Otrzymamy w ten sposób num er pozycji kwartyla dolnego. N a przykład jeśli masz zbiór 6 liczb, najpierw znajdujesz wynik dzielenia 6/4. Ponieważ jest to 1,5, a więc liczba niecałkowita, zaokrąglasz ją w górę do najbliższej liczby całkowitej, czyli do 2. Jest to pozycja (kolejny num er w zbiorze uporządkowanym) kwartyla dolnego.
Znajdujemy pozycję kwartyla górnego Najpierw obliczamy wartość wyrażenia 3n/4. Jeśli otrzymamy w wyniku liczbę całkowitą (3n jest podzielne przez 4), kwartyl górny znajduje się w połowie odległości między pozycją o tym num erze i następną w kolejności liczbą. Jego wartość wyznaczamy jako średnią arytmetyczną tych liczb. Jeśli w wyniku otrzymamy liczbę niecałkowitą, zaokrąglamy ją w górę. Otrzymamy w ten sposób num er pozycji kwartyla górnego.
132
Rozdział 3.
Miary różnicowania
Ćwiczenie
Naszedł czas, byś sprawdził swoją wiedzę w praktyce. Poniżej zamieszczono wyniki uzyskane przez jednego z kandydatów do drużyny Statsville Ali Stars: Liczba punktów w grze
3
6
7
10
11
13
30
Częstość
2
1
2
3
1
1
1
1.
Jaki jest rozstęp tego zbioru danych?
2.
Ile wynosi kwartyl dolny, a ile kwartyl górny?
3.
Ile wynosi rozstęp ćwiartkowy?
jesteś tutaj ► 133
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Naszedł czas, byś sprawdził swoją wiedzę w praktyce. Poniżej zamieszczono wyniki uzyskane przez jednego z kandydatów do drużyny Statsville All Stars: Liczba punktów w grze
3
6
7
10
11
13
30
Częstość
2
1
2
3
1
1
1
1. Jaki jest rozstęp tego zbioru danych? Najmniejsza w a rto ść w zbiorze wynosi 3 punkty, za ś n a jw iększa 3 0 punktów . Stąd: Rozstęp = w a rto ść n a jw iększa -
w a rto ść najmniejsza =
=30-3= = 27
2. Ile wynosi kwartyl dolny, a ile kwartyl górny? Zacznijm y od kwartyla dolnego. Ponieważ mamy 11 liczb, dzielimy 11 przez 4, co daje 2,75. Po zaokrągleniu j e s t to 3 i to j e s t numer pozycji kwartyla dolnego. Oznacza to, że kwartyl dolny wynosi 6 punktów. Teraz znajdziem y kwartyl górny. 3 x 1 1 /4 wynosi 8,25, co w zaokrągleniu daje 9. Kwartyl górny znajduje s ię więc na pozycji 9. i je s t to 11 pun któ w .
T
Kwartyl dolny
3.
T
Mediana
^
.
K w a rtyl góm y
Ile wynosi rozstęp ćwiartkowy? Rozstęp ć w ia r tk o w y je s t równy różnicy m iędzy kwartylem górnym i dolnym. Rozstęp ćwiartkowy = kwartyl górny -
kwartyl dolny =
= TI - 6 = =5
To DUŻO m niej " ' z ^ b ie r z e m y Z * * ' Pe° w a r ^ c i skrajnych-
pod uwagę wflr'
134
Rozdział 3.
Miary różnicowania iNie.istnieia,
głupie pytania ^ : Rozumiem, że średnia, mediana i dominanta przydają się na co dzień. Po co mi jednak wiedza 0 rozproszeniu danych?
^ : Czy do pomiaru rozrzutu powinienem zawsze wykorzystywać rozstęp międzykwartylowy? 0 : W bardzo wielu przypadkach rozstęp międzykwartylowy daje
0 : Średnie dają Ci dość ograniczony obraz danych. M ówią o tym ,
bardziej wiarygodne wyniki niż zwykły rozstęp, jednak wszystko
jakie są typow e wartości danych, i nic więcej. Jest to oczywiście
zależy od tego, na czym Ci najbardziej zależy. Istnieją inne
użyteczna informacja, ale często niewystarczająca. Warto wtedy
miary rozproszenia, które być może jeszcze lepiej spełnią Twoje
uzupełnić opis danych o informacje na tem at ich zmienności.
oczekiwania. Wrócimy do tego wątku już niedługo.
^ : Zatem mediana jest tym samym co rozstęp ćwiartkowy?
^ : Czy przyda mi się kiedyś znajomość samego kwartyla, a nie rozstępu czy rozstępu międzykwartylowego?
0 : Nie. Mediana jest środkową wartością w danych. Rozstęp ćwiartkowy to rozstęp wyznaczony dla połowy danych,
0 : Jak najbardziej. Na przykład wtedy, gdybyś chciał dowiedzieć
najbardziej skupionych w okół mediany.
się, jakie są najwyższe wartości w zbiorze danych, mógłbyś
^ : Jaki jest tak naprawdę sens liczenia kwartyli? Liczenie rozstępu w oparciu o kwartyle jest dość pracochłonne.
traktując kwartyl górny jako punkt graniczny.
przyjrzeć się czwartej ćwiartce uporządkowanego zbioru danych,
0 : Wadą rozstępu jako miary rozrzutu jest jego wrażliwość
^ : Czy mógłby mi się do czegoś przydać podział zbioru danych na mniejsze części niż ćwiartki? Na przykład na dziesięć części zamiast czterech?
na obserwacje nietypowe. Informuje on o różnicy między największą 1najmniejszą wartością w danych, która może zostać zawyżona
0 : Oczywiście, czasami warto dokonać takiego podziału.
przez obserwacje o skrajnie małych bądź dużych wartościach.
Na następnej stronie powiemy o tym więcej...
Możemy obejść ten problem, wyznaczając rozstęp w oparciu o połowę danych najbliższych medianie. Na pewno nie będzie wśród nich obserwacji nietypowych. Wymaga to znalezienia kwartyli i obliczenia odległości między nimi. Jest to trudniejsze niż znalezienie najmniejszej i największej wartości w całym zbiorze, ale ma swoje zalety.
CELNE SPOSTRZEŻENIA
M inim u m i maksimum to najmniejsza
K w artyle to wartości, które dzielą zbiór
i największa w artość cechy w zbiorze danych.
danych na cztery rów ne części. Istnieją trzy
Rozstęp jest najprostszą miarą rozproszenia
kwartyle: kw artyl dolny (pierw szy), środkowy
danych, wyznaczaną w edług wzoru:
(m ediana) i górny (trzeci).
rozstęp = w artość największa - w artość
Rozstęp m ię d zy kw a rty lo w y to rozstęp
najmniejsza.
wyznaczony na podstawie p o ło w y danych
Rozstęp jest bardzo w rażliw y
sym etrycznie leżących najbliżej mediany.
na występow anie obserwacji nietypow ych.
Oblicza się go w edług wzoru:
Rozstęp m iędzykw artylow y jest bardziej odporny na obserwacje nietypow e niż zw ykły
kw artyl górny - kw artyl dolny.
rozstęp.
jesteś tutaj ► 135
Dzielimy dane na percentyle
Nie musimy ograniczać się tylko do kwartyli Wiemy już, jak szacować stopień rozproszenia danych za pom ocą dwóch statystyk: rozstępu i rozstępu ćwiartkowego. Rozstęp jest różnicą między największą i najmniejszą wartością w całym zbiorze danych, zaś rozstęp ćwiartkowy ogranicza się do połowy danych rozłożonych symetrycznie najbliżej mediany.
f
S (
C ty są to je d y n e sposoby na wyżnacŁenie ro Ł s tę p u ,ja k ie mogę wykotŁystać? C ty mogę Łtobić to ¡nactej?
Rozstęp można wyznaczyć jeszcze inaczej niż tylko w oparciu o pełen lub okrojony do połowy zbiór danych. Przyczyną, dla której szukaliśmy innego sposobu na policzenie rozstępu, była jego wrażliwość na wartości nietypowe. Aby obejść ten problem , podzieliliśmy zbiór danych na cztery ćwiartki (kwarty) i wyznaczyliśmy rozstęp międzykwartylowy oparty na połowie danych. Choć rozstęp międzykwartylowy jest najpopularniejszą m iarą rozproszenia opartą na podzbiorze danych, nie jest jedyną. Z am iast dzielić zbiór danych na cztery równe części, można podzielić go na większą ich liczbę i wyznaczyć na ich podstawie rozstęp. Wyobraź sobie na przykład, że podzieliliśmy nasz zbiór danych na dziesięć równych części, tak że każda z nich zawiera 7 1(l wyjściowego zbioru danych. Otrzymalibyśmy coś takiego: 1 / 1 0 w szystkich o b se rw a cji.
i 1 1
1 2 || 2 2
2 3
3 3
| 3 3 || 4 4
4 4
5 5 ■>
M ożem y wykorzystać te n podział do zdefiniowania zu p e łn ie nowego rozstępu.
Gdy podzielisz zbiór danych na 100 równych części, wartości oddzielające poszczególne podzbiory będą nosiły nazwę percentyli. W powyższym przykładzie zbiór danych został podzielony na 10 równych części poprzez wyznaczenie tak zwanych decyli. W oparciu o wartości percentyli można zbudować nowe miary rozproszenia, analogicznie jak w przypadku rozstępu kwartylowego.
136
Rozdział3.
10
Miary różnicowania
Czym s | percentyle? Percentyle to wartości, które dzielą zbiór danych na sto równych części, podobnie jak kwartyle dzielą go na cztery równe części. Każdy percentyl nosi nazwę oznaczającą, jaką część danych w zbiorze uporządkowanym (licząc od wartości najmniejszej) „odcina”. N a przykład dziesiąty percentyl to wartość, poniżej której znajduje się 10% obserwacji. Ogólnie k-ty percentyl to wartość, poniżej której znajduje się k% danych. Oznacza się go często jako Pk.
k%
L
o p
j .
p
to w a r to ś ć o d c in a ją c a
k% d a n y c h .
Kwartyle m ożna traktować jako szczególny przypadek percentyli. Kwartyl dolny to P2S, kwartyl górny P7S, a m ediana — PJ(|.
Wykorzystanie percentyli Choć rozstęp oparty na percentylach nie jest tak popularny jak rozstęp międzykwartylowy, same percentyle są często wyznaczane dla celów porównawczych lub do określania szczegółowych pozycji w zbiorze danych. Pozwalają ławo określić, jak duża jest dana wartość w porównaniu z innymi. N a przykład wyobraź sobie, że uzyskałeś 50 punktów na teście ze statystyki. Liczba ta sama w sobie nie mówi wiele o tym, jak wypadłeś na tle innych. Gdybyś jednak wiedział, że Twój rezultat to 90. percentyl wyników wszystkich kandydatów, łatwiej byłoby Ci ocenić, jak się zaprezentowałeś.
W yniki testom statystycznych G dy d o s t a ł e ś 5 0 p u n k tó w , co s ta n o w i P 90, ™a s z p e w n o ś ć , ż e j e s t e ś m e g o rs z y n iż 90% k a n d y d a tó w .
50
Wyznaczamy percentyle
p u n k ty
Percentyle wyznaczamy według podobnego schem atu co kwartyle. Porządkujemy dane w kolejności rosnącej. Aby wyznaczyć pozycję k-tego percentyla dla zbioru n liczb,
Podstawowe terminy
obliczamy k x ( 100 )Jeśli otrzymamy w wyniku liczbę całkowitą, k-ty percentyl znajduje się w połowie odległości między pozycją o numerze k x ( i 00 ) i następną w kolejności liczbą. Jego wartość wyznaczamy jako średnią arytmetyczną tych liczb. Jeśli w wyniku otrzymamy liczbę niecałkowitą, zaokrąglamy ją w górę. Otrzymamy w ten sposób num er pozycji k-tego percentyla. N a przykład jeśli mamy 125 liczb, dla których chcemy znaleźć pierwszy decyl (dziesiąty percentyl), zaczynamy od obliczenia 10x(125/100), co daje w wyniku 12,5 lub też 13 — po zaokrągleniu w górę. Oznacza to, że szukany decyl znajduje się na pozycji o num erze 13 w szeregu uporządkowanym.
Percentyl k - ty perc e n tyl to w a rto ść, p o n iżej której zn a jd u je s i ę k% danych w zb io rze uporządkow anym . O znaczam y go
P,
jesteś tutaj ►
137
Wykresy pudełkowe
Wykres pudełkowy dobrze prezentuje rozproszenie danych Dowiedziałeś się już sporo na tem at podstawowej miary rozrzutu, jaką są rozstępy. D obrze byłoby przedstawić je na wykresie, choćby dla celów porównawczych. Istnieje specjalny rodzaj wykresu, który idealnie się tu sprawdza. To tak zwany wykrespudełkowy, zwany też czasami wykresem ramka-wąsy. Wykres pudełkowy prezentuje rozstęp, rozstęp międzykwartylowy i m edianę zbioru danych. M ożna go wykreślić dla więcej niż jednego zbioru danych, dlatego bardzo dobrze nadaje się do porównań. Tworzenie wykresu zaczynamy od wykreślenia „ram ki” („pudełka”) względem ustalonej skali, której boki wyznaczają dolny i górny kwartyl zbioru danych. Stąd możemy już odczytać, jaką wartość m a rozstęp międzykwartylowy. Wewnątrz ramki prowadzimy linię prostą reprezentującą m edianę, zaś z bocznych części ramki prowadzimy na bok linie proste („wąsy”) tak, by ich końcówki wskazywały na towarzyszącej wykresowi osi liczbowej minimum (w lewo) i maksimum (w prawo) wartości cechy, a tym samym rozstęp. Oto przykład wykresu pudełkowego wykreślonego dla danych ze strony 133:
Oto dane do w ykre su.
3 3 6 7 7 10 10 10 11 13 30
W yniki kandydata do drużyny koszykówki Rozstęp ------------------------------------------
G ra c z ^
,
K w a rtyl g ° rny
Minimum
/y\aks'¡mur*'
—i------1-------1------1------1----1----- 1------- 1----1------1— > -
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
P u n k ty Jeśli w danych występują obserwacje nietypowe, rozstęp będzie dużo większy. N a wykresie pudełkowym znajdzie to swój obraz w większej długości „wąsów”. Być może zauważyłeś też, że wykres ten nadaje się również do oceny skośności danych. Jeśli wykres pudełkowy jest symetryczny względem mediany (środka pudełka), dane, które prezentuje, są symetryczne.
138
Rozdział3.
Teraz. roŁumiem, ¿e wykres pudełkowy to taki sprytny sposób na wykreślenie podstawowych miar ju ł
roŁ rŁ utu.
Miary różnicowania
Poniżej zamieszczono wykresy pudełkowe dla wyników uzyskanych w eliminacjach przez dwóch innych kandydatów do drużyny. Porównaj ich rozstępy. Gdybyś miał wybrać jednego z kandydatów, na którego byś się zdecydował? Dlaczego?
G rac z B
i Nie.is+nieja.
głupie pytania ^ : Wydaje mi się, że widziałem już gdzieś wykres pudełkowy, który wyglądał trochę inaczej niż wykreślone wyżej.
^ : Jeśli prezentujemy średnią jako kropkę, będzie ona leżała na prawo czy na lewo od mediany? 0 : Jeśli dane są prawostronnie asymetryczne, średnia będzie
0 : Być może. Istnieje bowiem kilka wersji tego wykresu. Niektóre
leżała na prawo od mediany, a prawy „wąs" będzie dłuższy od
mają celowo skrócone „wąsy" i dodatkowo prezentują obserwacje
lewego. Jeśli dane są asymetrycznie lewostronnie, średnia będzie
nietypowe jako punkty bądź gwiazdki wykraczające poza nie.
leżała na lewo od mediany, a lewy „wąs" będzie dłuższy od
U łatwia to ocenę, ile wartości nietypowych znajduje się w zbiorze
prawego.
i jak skrajne są to wartości. Jeszcze inne prezentują dodatkowo średnią (jako kropkę), co ułatwia określenie jej położenia względem mediany. Dobrze jest zdawać sobie sprawę z tych różnic, by umieć interpretować każdy z tych wykresów.
jesteś tutaj ► 139
Ćwiczenie: Rozwiązanie Poniżej zamieszczono wykresy pudełkowe dla wyników uzyskanych w eliminacjach przez dwóch innych kandydatów do drużyny. Porównaj ich rozstępy. Gdybyś miał wybrać jednego z kandydatów, na którego byś się zdecydował? Dlaczego?
Ć w iczenie
Rozwiązanie
W yniki kandydatów
i (B
G ra c z A
G ra c z B
0
2
4
6
8
10
12
14
16
18
20
22
24
Wyniki gracza A mają dość maty rozstęp, a ich mediana je s t nieco wyższa niż w przypadku gracza 8 .
26
28
30
P u n k ty
Wyniki gracza 8 m ają w iększy rozstęp. Czasami jego wyniki s ą lepsze niż gracza A , ale bywają te ż gorsze. Gracz A uzysku je bardziej stabilne wyniki, zw ykle w yższe niż gracz 8 (co wynika z porównania mediany i rozstępu międzykwartylowego wyników obu graczy), dlatego wybralibyśmy wtaśnie jego.
CELNE SPOSTRZEŻENIA
Percentyle dzielą dane na sto rów nych części.
W ykresy p ud ełko w e (ram ka-w ąsy)
Ułatw ia to porów nyw anie różnych zbiorów
są użytecznym narzędziem wizualizacji
danych.
inform acji o rozproszeniu i skośności danych.
k-ty percentyl odcina k% danych. Oznacza się go jako Pk.
M ożna z nich odczytać wielkość rozstępu oraz rozstępu m iędzykw artylow ego, a także najmniejszą i największą w artość w zbiorze
Na bazie percentyli m ożna budow ać
danych. Na jednym diagramie m ożna
rozstępy, podobnie jak na bazie kwartyli.
zaprezentować więcej niż jeden zbiór danych, co znacznie ułatw ia ich porównywanie.
140
Rozdział 3.
Miary różnicowania
( R o z s tą p m iędiykwartylowy je s t pewnie dość V ., sensowny^ ale co z. gractami^ k to rty ctasami mają is to tn e spadki formy? Jeśli taki spadek z.darz.y się w dniu w ain ego mecz-u, może nas kosz-tować cały sez.on! Nie je s te m prz-ekonany, ż.e mogę ^ w pełni ufać tym statystykom. J
Wydaje się, ze trener nie ufa prostem u porównaniu rozstępu wyników uzyskanych przez różnych zawodników. Potrzebuje raczej czegoś, co pozwoli mu z większą dokładnością oszacować, którzy zawodnicy miewają najmniejsze w ahania formy. Innymi słowy, potrzebuje ocenić, wyniki którego zawodnika m ają najmniejszą zmienność. Zarówno rozstęp, jak i rozstęp międzykwartylowy mówi jedynie 0 różnicy między dwoma skrajnymi wartościami pewnego zbioru danych. Nie mówi zaś o tym, jak często pojawiają się te skrajne wartości w relacji do wartości bardziej typowych, bliższych średniej. A na tym najbardziej zależy trenerowi. Każdy tren er buduje drużynę spośród ludzi, do których ma zaufanie 1 na których może zawsze liczyć. O statnią rzeczą, jakiej by sobie życzył, jest zmienność formy podległych mu zawodników, którzy raz będą grali świetnie, a innym razem fatalnie. Co możemy zrobić, by pomóc trenerow i podjąć właściwą decyzję?
Jak możemy bardziej precyzyjnie mierzyć zm ienność danych?
jesteś tutaj ►
141
Odkrywamy zmienność
Zmienność to coś więcej niż tylko rozstęp Nie chcemy mierzyć jedynie rozstępu wyników każdego z graczy, ale dowiedzieć się, na ile solidnym zawodnikiem jest każdy z nich. Innymi słowy, chcemy być w stanie mierzyć zmienność wyników (formy) każdego z graczy. Możemy przyjrzeć się na przykład, jak daleko od średniej plasują się wyniki każdego z nich. Taki wskaźnik przeciętnej odległości od średniej mógłby być całkiem dobrą m iarą rozproszenia danych. Im mniejszą wartość by przyjmował, tym bardziej skoncentrowane wokół średniej byłyby dane. Spójrzmy, jak to działa w praktyce.
W yniki gracza A
punkty
W tym przypadku wartości są rozrzucone na dość znacznej przestrzeni dookoła średniej. Gdyby trener zdecydował się na przyjęcie tego zawodnika do swojej drużyny, miałby spory problem z określeniem, w jakiej będzie on formie w dniu rozgrywek. W przypływie formy taki gracz może uzyskać nadzwyczajne wyniki, ale w okresie spadku formy będzie radził sobie dość kiepsko, doprowadzając być może naw et do przegranej swojej drużyny.
W yniki gracza B >0 A '(/>
(/> ©* N O
Wyniki uzyskane przez tego kandydata są dużo bardziej skupione wokół średniej, a więc mniej zmienne. W ybór tego kandydata to właściwa decyzja. Jego form a nie podlega szczególnym wahaniom, dlatego powinien uzyskiwać wysokie noty dla swojej drużyny w każdym meczu.
punkty Czy to oznacza, ż e będziemy liczyć p rze c ię tn ą odległość danych od ich średniej?
Przekonajmy się.
142
Rozdział 3.
Miary różnicowania
Jak obliczyć odchylenie od średniej Wyobraź sobie, ze masz trzy liczby: 1, 2 i 9. Ich średnia arytmetyczna wynosi 4. Ile wynosi średnia arytmetyczna odległości każdej z tych liczb od ich średniej? odlegtość = 2
Suma odchyleń od średniej (a więc również średnie odchylenie) dla dowolnego zbioru liczb wynosi zawsze 0. D odatnie i ujem ne odchylenia wzajemnie się znoszą. A chyba nie o to nam chodziło. Czy możemy coś na to poradzić?
i Nie.islniej. Nte.tstmeia,
.
głupie pytania ^ : Dlaczego w powyższym równaniu występuje odchylenie równe - S ? Powiedziałbym raczej, że wynosi ono S. Dlaczego jest ujemne?
^ : Wydaje mi się, że odchylenia nie powinny się zerować dla wszystkich wartości. Noże po prostu mieliśmy pecha?
0 : Odchylenie 9 od p jest ujemne,
0 : Niestety, bez względu na wartości,
ponieważ p jest mniejsze od 9. Z kolei
jakie mamy w zbiorze danych, ich
pominięte przy wyznaczaniu rozstępu m iędzykwartylowego. Aby wiarygodnie ocenić przydatność poszczególnych graczy, musimy oprzeć się napełnych wynikach eliminacji.
zarówno wartości 1, jak i 2 są mniejsze od p,
odchylenia od średniej arytmetycznej będą
dlatego w tym przypadku odchylenie jest
się zawsze wzajemnie znosiły.
^ : Zwykły rozstęp opiera się na pełnym zbiorze danych. Dlaczego więc nie możemy się nim posłużyć?
dodatnie. Wszystkie odchylenia wzajemnie
Przeprowadź mały eksperyment: weź
0 : Tak naprawdę przydaje się on tylko
się znoszą.
dowolny zbiór liczb, policz ich średnią
wtedy, gdy chcemy poznać różnicę
^ : Czy nie moglibyśmy wziąć po prostu wszystkich dodatnich odchyleń i policzyć ich średnią? 0 : Byłoby to pewnie zgodne z intuicją, ale w praktyce statystycy robią to dość rzadko. Z problemem znoszących się odchyleń można poradzić sobie w inny sposób, o czym już niedługo się przekonasz.
arytmetyczną, odległości od średniej oraz
między najmniejszą i największą wartością
ich sumę. W wyniku zawsze otrzymasz 0,
w zbiorze danych. Nie wystarcza to
bez względu na to, ile razy zmienisz dane.
do oceny, jak rozkładają się dane w ew nątrz zbioru. Do tego potrzeba nam innej miary.
A nie moglibyśmy po prostu wykorzystać rozstępu międzykwartylowego do określenia, jak stabilne są wyniki uzyskiwane przez kandydatów?
Ten właśnie sposób jest powszechnie
0 : Rozstęp międzykwartylowy opiera
stosowany w statystyce — my też
się jedynie na części wyjściowego
będziemy się nim posługiwali już do końca
zbioru danych. Jeśli gracz uzyskał
tej książki.
szczególnie kiepskie wyniki, zostaną one
Podatnie i ujemne odchylenia od średniej wzajemnie s[g znoszą.
jesteś tutaj ► 143
Wariancja i odchylenie standardowe miarami zmienności
Zmienność możemy zmierzyć za pomocą wariancji.. Potrzebny jest nam sposób na zmierzenie średniej odległości poszczególnych wartości w zbiorze danych od ich średniej, który nie pozwalałby na wzajemne znoszenie się odchyleń o przeciwnych znakach.
Stukamy sposobu na to , by wstystkie odległości stały się dodatnie. Mo t e d o b rte byłoby p o d n ie ś ć je do drugiej p otęgi? Wtedy na pewno byłyby lictbami dodatnimi.
Z atem wypróbujmy ten pomysł dla naszego zbioru trzech liczb. Średnia (odległość )2 =
P a m ię ta j, źe U = 4.
r (1 do p )2 + (2 do p )2 + (9 do p )2
32 + 22 + (-5 )2
Twm razem dodajem y trz y dodatnie w a rto ś c i.
9 + 4 + 25
= 12,67 (z dokładnością do dwóch miejsc po przecinku)
Uzyskaliśmy bardziej m iarodajne wyniki, ponieważ kolejne odchylenia nie znoszą się nawzajem. Każde z sumowanych odchyleń od średniej będzie liczbą nieujem ną, ponieważ występuje w drugiej potędze. Zawsze więc otrzymamy w ten sposób średnią będącą liczbą nieujemną. Uzyskaną powyżej wartość nazywamy wariancją. Jest to statystyka powszechnie wykorzystywana do pom iaru zmienności w danych. Oto ogólna form uła na jej wyliczanie:
Podstawowe terminy Wariancja W ariancja j e s t m iarą ro zrzu tu , w yzn a cza n ą ja ko śred n ia kw adratów odchyleń poszczeg ó ln ych w artości od ich w a rto ści p rze c ię tn e j.
Wariancja j e s t średnią kwadratów odchyleń od wartości przeciętnej.
Z (x - m) Wariancja = ----- n— 144
Rozdział 3.
K x
- j j r n
Miary różnicowania
...ale odchylenie standardowe je s t miarą bardziej intuicyjną W ariancja jest powszechnie wykorzystywana przez statystyków do pom iaru rozproszenia danych. Jest tak popularna, ponieważ nie pomija żadnej wartości ze zbioru danych i jest raczej zrozumiała. Ale d lacteg o miałabym myśleć o odległościach podniesionych do p otęgi? Nie natwałabym te g o metodą intuicyjną. C ty da się coś z. tym zrobić?
Tak napraw dę chcielibyśmy mieć miarę, która pozwoliłaby nam mierzyć rozrzut danych w kategoriach odchyleń od średniej, a nie ich kwadratów. Trudno jest wyobrażać sobie rozrzut danych mierzony jako średnia odchyleń podniesionych do potęgi drugiej. N a szczęście łatwo możemy sobie z tym poradzić. Jedyne, co musimy zrobić, to wyciągnąć pierwiastek kwadratowy z wariancji. Uzyskaną w ten sposób miarę nazywamy odchyleniem standardowym. Policzmy więc odchylenie standardowe dla zbioru danych wykorzystywanych poprzednio. W ariancja wyniosła około 12,67, co oznacza, że odchylenie standardow e = Vl2,67 = 3,56 (z dokładnością do dwóch miejsc po przecinku) Innymi słowy, nasze dane znajdują się w przeciętnej odległości równej 3,56 jednostek od średniej.
Jak to działa Wiemy już, że odchylenie standardow e pozwala nam zmierzyć, jak bardzo nasze dane różnią się przeciętnie od średniej. Im mniejszą przyjmuje wartość, tym są one bardziej skupione wokół średniej. Najmniejszą wartość, jaką może przyjąć odchylenie standardowe, to 0. Podobnie jak średnia arytmetyczna, odchylenie standardowe otrzymało specjalne oznaczenie literowe. Oznacza się je a , czyli m ałą literą sigma z alfabetu greckiego. (Widzieliśmy, że wielką literą sigma oznaczamy operację sumowania). Aby znaleźć a musimy najpierw wyznaczyć wariancję, a następnie policzyć jej pierwiastek kwadratowy.
a = Vwariancja a 2 = w arian cja
o
Jestem odchyleniem standardowym. Jeśli p otrŁebujesŁ miary odległości danych od ich średniej, Ładtwoń do mnie.
a jesteś tutaj ► 145
Wywiad z Odchyleniem Standardowym
Cała prawda o Odchyleniu standardowym W yw iad tygodnia:
Obliczanie odchylenia standardowego
Head First: Witaj, Odchylenie Standardowe, miło gościć Cię w studiu. Odchylenie Standardow e: Mnie również jest miło, H ead First. Head First: Zacznijmy od tego, że opowiesz nam nieco o sobie i o tym, czym się zajmujesz. Odchylenie Standardow e: Mam tylko jedno zadanie: mierzyć rozproszenie danych. Średnia Arytmetyczna powie ci o tym, jakie są typowe wartości w zbiorze danych, ale często taka wiedza nie wystarcza. Czasami potrzebna jest m oja pomoc, by dostrzec pełen obraz sprawy. To jest właśnie m oja rola. Średnia mówi o wartościach typowych, a ja o tym, jak się one zmieniają. Head First: Nie zrozum mnie źle, ale dlaczego powinienem się przejmować tym, jak dane się zmieniają? Czy to naprawdę jest aż tak ważne? Pewnie wystarczy tylko znajomość wartości przeciętnych. Odchylenie Standardow e: D obrze więc, pozwól, że posłużę się przykładem. Jak byś się czuł, gdybyś zamówił obiad w lokalnej jadłodajni, a po jego zaserwowaniu okazałoby się, że połowa twojego posiłku jest spalona na węgiel, a połowa zupełnie surowa? Head First: Pewnie byłbym zły, głodny i gotowy podać kucharza do sądu. Dlaczego pytasz? Odchylenie Standardow e: Bo wiesz, Średnia Arytmetyczna powiedziałaby ci, że twój posiłek został przygotowany w idealnej tem peraturze. Widzisz jednak, że coś tu jest nie tak; brakuje ci informacji o zmienności. A o tym mogę powiedzieć ci ja. Biorę pod uwagę to, co Średnia Arytmetyczna uważa za wartość typową, i mówię ci, jak bardzo odległych od niej wartości możesz się spodziewać. Head First: Chyba zaczynam rozumieć. Średnia mówi o wartościach typowych, a ty o rozproszeniu danych. Skąd to jednak wiesz?
146
Rozdział 3.
Odchylenie Standardow e: To proste. Sprawdzam po prostu, jak poszczególne wartości różnią się od średniej. Wyobraź sobie, że odchylenie standardowe dla jakiegoś zbioru liczb wynosi 3 cm. Możesz więc powiedzieć, że poszczególne wartości są odległe od średniej o jakieś 3 cm. Co prawda to trochę bardziej skomplikowane, ale myśląc w ten sposób, pojmiesz sam sens. Head First: Jeśli już o twoich wartościach mowa, to czy lepiej, Odchylenie Standardowe, gdy przyjmujesz je duże, czy małe? Odchylenie Standardow e: Cóż, wszystko zależy od tego, do jakich celów się m ną posługujesz. Jeśli wytwarzasz części do maszyn, pewnie chciałbyś, bym miał jak najmniejszą wartość, bo wtedy będziesz miał pewność, że wszystkie części będą spełniać pewne normy. Jeśli zaś myślisz o wynagrodzeniach w dużej firmie, to raczej będę miał całkiem dużą wartość. Head First: Rozumiem. Powiedz mi zatem, czy coś cię łączy z W ariancją? Odchylenie Standardow e: To zabawne, że o to zapytałeś. W ariancja jest moim alter ego. Podnieś mnie do drugiej potęgi, a stanę się Wariancją. Weź pierwiastek kwadratowy z Wariancji, a znów otrzymasz mnie. Jesteśmy trochę jak Clark K ent i Superm an, choć nie mamy pelerynki. Head First: Zadam więc ostatnie pytanie. Czy kiedykolwiek czułeś się zdominowany przez Średnią Arytmetyczną? W końcu jej poświęca się zwykle więcej uwagi. Odchylenie Standardow e: Oczywiście że nie. Jesteśmy dobrymi przyjaciółmi i wspieramy się nawzajem. Zresztą gdyby było inaczej, byłoby to dla mnie ujmą. A ja nigdy nie przyjmuję ujemnych wartości. Head First: Odchylenie Standardowe, dziękuję ci za przybycie do naszego studia. Odchylenie Standardow e: Cała przyjemność po mojej stronie.
Miary różnicowania
jesteś tutaj ► 147
Ćwiczenie: Rozwiązanie
Te oblicŁenia nie są wcale ła tw e . C ty nie da się te g o p olictyć in actej?
Wyznaczanie odchylenia standardowego nie jest sprawą łatwą. Aby je obliczyć, trzeba najpierw wyznaczyć wariancję, obliczając (x -p )2 dla każdej wartości x. Istnieje jednak prostszy sposób policzenia wariancji, który daje takie same rezultaty. Odpowiednie formuły przedstawiono na kolejnej stronie, jednak spróbuj je najpierw odgadnąć sam za pom ocą kolejnego ćwiczenia.
148
Rozdział 3.
Miary różnicowania
Łamigłówka Pewnie m ożna dużo ła tw ie j policzyć wariancję, tylko jak? Twoim zadaniem jest pobrać
_ , P s s t — oto mata podpowiedz,
kolejne wycinki rów nania z basenu I umieścić je
P a m ię ta j, że
w odpow iednich miejscach poniżej. Każdy fragm ent możesz w ykorzystać tylko
raz, a niektóre nie będą Cl potrzebne celem jest uzyskanie równania.
w ogóle. Twoim
n
I(x - |j) (x - |j) n
X(x 2
+ |J2) n
Zastanów s ię , czy m ożesz je przenieść stąd...
2|j Ix
Ix 2 “
-
n
+
n
- t2|j ........ , + —np
Xx2 n
pp
Pamiętaj: każdy element możesz wykorzystać tylko raz
jesteś tutaj ► 149
Łamigłówka: Rozwiązanie
Łamigłówka: Rozwiązanie Pewnie m ożna dużo ła tw ie j policzyć wariancję, tylko jak? Twoim
zadaniem jest
pobrać
kolejne wycinki rów nania z basenu I umieścić je w odpow iednich miejscach poniżej. Każdy fragm ent możesz w ykorzystać tylko
raz, a niektóre nie będą Cl potrzebne celem jest uzyskanie równania.
w ogóle. Twoim
ż(x - |J)2 n
I( x - |j) (x - |j) n
I(x 2. . . - 2PX. . . .+ P2) n
Ix 2 n
2p Ix —
+
Ip 2 Tych
. składników żx 2 n
2
- 2p
^
+ 1T = -
J « * "• n pod i nad kreska
utamkową można s k ró c ić .
Ix 2 n P2
150
Rozdział3.
Miary różnicowania
Szybszy sposób na wariancję Jak już się domyślasz, odchylenie standardow e to całkiem dobra miara zmienności, ale wymaga dość sporych nakładów pracy. Trudność polega na tym, ze trzeba liczyć kwadraty odchyleń od średniej (x-¡u,)2 dla każdej obserwacji x. Im większy zbiór danych, tym łatwiej o pomyłkę — zwłaszcza gdy p, jest liczbą o dużej liczbie cyfr po przecinku.
Podstawowe terminy Wariancja
Istnieje jednak prostsza form uła wyznaczania wariancji:
Oto s z y b s z y sp o só b na p o liczen ie wariancji:
2
Wariancja =
n
Jej zaletą jest to, że nie wymaga liczenia kwadratów odchyleń od średniej. Dzięki tem u wszystkie obliczenia są w praktyce dużo prostsze, co zmniejsza ryzyko popełnienia błędu.
i Nie.islniej. Nie.istmeia.
n
.
głupie pytania ^ : Której formuły na liczenie wariancji powinienem używać? 0 : Gdy liczysz ręcznie, lepiej, byś stosował
^ : Czy można odwrócić postępowanie i na podstawie wartości odchylenia standardowego wyznaczyć wariancję?
(P :: Czy odchylenie standardowe
0 : Oczywiście. Skoro odchylenie
są sobie równe. Innymi słowy, gdy odległość
drugą z podanych wyżej form uł, to znaczy
X l n
M
Jest to szczególnie istotne, gdy musisz operować na liczbach o dużej liczbie cyfr po przecinku.
^ : Jak wyznaczyć odchylenie standardowe, posługując się tą formułą na liczenie wariancji? 0 : Dokładnie w ten sam sposób jak poprzednio. Po prostu biorąc pierwiastek kwadratowy z wariancji.
może mieć wartość O?
U: Oczywiście. Wartość 0 ma wtedy, gdy wszystkie obserwacje w zbiorze danych
standardowe jest pierwiastkiem
każdej obserwacji od średniej wynosi 0,
kwadratowym z wariancji, to wariancja
odchylenie standardowe jest równe 0.
jest kwadratem odchylenia standardowego. Aby więc wyznaczyć jej wartość, podnieś do potęgi drugiej odchylenie standardowe.
(P : W
jakich jednostkach mierzone jest odchylenie standardowe?
0 : Jest ono mierzone w tych samych
^ : Nadal mam problem ze zrozumieniem idei odchylenia standardowego. Czym ono jest?
Twoje dane są wyrażone w centymetrach,
0 : Odchylenie standardowe to jedna
jest w centymetrach.
jednostkach co wartości cechy. Jeśli odchylenie standardowe również podawane
z miar rozproszenia. M ówi o tym , jak bardzo różnią się typow e wartości ze zbioru danych od średniej arytmetycznej. Gdy ma ono dużą wartość, dane są bardziej rozproszone (oddalone od średniej). Gdy ma małą wartość, dane są mniej zmienne (położone bliżej średniej).
(P :: Wydaje mi się, że widziałem gdzieś formuły na wariancję, w których w mianowniku występował czynnik n -1 , a nie n. Czy był to błąd?
U
Nie, to nie błąd. Tamta form uła jest
wykorzystywana wtedy, gdy nasz zbiór danych traktujemy jako próbkę z populacji. W rócimy do tego zagadnienia w dalszej części książki, gdy będziemy mówić o metodach doboru prób.
jesteś tutaj ►
151
Sprawdź się w roli Irenera
Sprawdź się w roli trenera Oto wyniki trzech kandydatów do drużyny koszykówki. Średnia arytmetyczna dla każdego z nich wynosi 10 punktów. Wyobraź sobie, że jesteś trenerem i chcesz wybrać najlepszego kandydata do swojej drużyny. Oblicz odchylenie standardowe i na jeg o podstawie podejmij decyzję.
Gracz B
Gracz C
152
Gracz A Punkty
7
9
10
11
13
Częstość
1
22
4
2
1
Punkty
7
8
9
10
11
12
13
Częstość
1
1
2
2
2
1
1
Punkty
3
6
7
10
11
13
30
Częstość
2
1
2
3
1
1
1
Rozdział 3.
Miary różnicowania
Ćwiczenie
Hojny szef pewnej sieci kawiarni chciałby dać podwyżkę wszystkim pracownikom. Nie jest jednak pewien, czy zwiększyć pensje o tę samą kwotę (2000 złotych rocznie), czy też podnieść każdemu wynagrodzenie o 10%.
a) Jak zmieniłoby się odchylenie standardowe wynagrodzeń w firmie, gdyby każdy otrzymał podwyżkę w tej samej kwocie (2000 złotych)?
b) Jak zmieniłoby się odchylenie standardowe wynagrodzeń w firmie, gdyby każdy otrzymał podwyżkę w wysokości 10% swoich zarobków?
jesteś tutaj ► 153
Sprawdź się w roli trenera: Rozwiązanie
Sprawdź się w roli trenera: Rozwiązanie Oto wyniki trzech kandydatów do drużyny koszykówki. Średnia arytmetyczna dla każdego z nich wynosi 10 punktów. Wyobraź sobie, że jesteś trenerem i chcesz wybrać najlepszego kandydata do swojej drużyny. Oblicz odchylenie standardowe i na jeg o podstawie podejmij decyzję.
Gracz A Punkty
7
9
10
11
13
Częstość
1
22
4
2
1
.
72 + 2 (9 0 + 4Ć102) + 2(110 + 132
.
Wariancja =
49 + 162 + 4 0 0 + 242 + 169
10 2,2
=
Odchylenie standardowe =y/2,2 = 1,48
Gracz B
Punkty
7
8
9
10
11
12
13
Częstość
1
1
2
2
2
1
1
72 + 82 + 2(90 + 2 0 0 2) + 2 ( 110 + 122 + 132 W ariancja =
100 =
10 49 + 64 + 162 + 2 0 0 + 242 +144 + 169
-100
=
10 = 3 Odchylenie standardowe = V T = 1,73
Gracz C
Punkty
3
6
7
10
11
13
30
Częstość
2
1
2
3
1
1
1
Wariancja =
2 (3 0 + 62 + 2 (7 0 + 3(10*) + 112 + 132 + 302
-------------------------------------------------------------------------- jqq _
11 18 + 36 + 98 + 3 0 0 + 121 + 169 + 900
=
100 = 11
= 49,27 Odchylenie standardowe = ^¡49,27
= 7,02
Wyniki graczy A i B m ają niskie odchylenie standardowe, a więc s ą skupione wokót średniej. Odchylenie standardowe wyników gracza C wynosi aż 7,02 punktu, co oznacza, że o tyle wtaśnie uzyskane przez niego wyniki różnią s ię przeciętnie od średniej. Gracz A j e s t więc najbardziej pewnym kandydatem, za ś gracz C — najmniej.
154
Rozdział 3.
100 =
10 ■100
=
Miary różnicowania
. . Ćwiczenie
Hojny szef pewnej sieci kawiarni chciałby dać podwyżkę wszystkim pracownikom. Nie jest jednak pewien, czy zwiększyć pensje o tę samą kwotę (2000 złotych rocznie), czy też podnieść każdemu wynagrodzenie o 10%.
Rozwiązanie
a)
Jak zmieniłoby się odchylenie standardowe wynagrodzeń w firmie, gdyby każdy otrzymał podwyżkę w tej samej kwocie (2000 złotych)? Odchylenie standardowe nie zm ieni się . Ponieważ w szystk ie zarobki zw iększą się o tę sam ą wartość, będą tak samo zróżnicowane jak przed podwyżką.
odchylenie standardowe =
+
- (u + 2 0 00)) _
J l , ( x + 2000 - u - 2000) 2
_j 2 ( x - u) _
= w yjściow e odchylenie standardowe
b)
Jak zmieniłoby się odchylenie standardowe wynagrodzeń w firmie, gdyby każdy otrzymał podwyżkę w wysokości 10% swoich zarobków? Odchylenie standardowe zw iększy s ię o 10% (zostanie przemnożone przez 1,1). Poziom zarobków ulegnie w iększem u zróżnicowaniu, co wptynie na poziom odchylenia standardowego.
odchylenie standardowe =
2((1,1x) - (H u ))2
^ 2
(x - u )
¿ 1 ,1
v
= 1,1
2 ( x - u)
2
2
= 1,1 razy w yjściowe odchylenie standardowe
jesteś tutaj y
155
Zmienne tandaryzowane
A gdybyśmy potrzebowali punktu odniesienia dla porównań? Wiemy już, że odchylenie standardowe służy do pom iaru rozproszenia (zmienności) danych. Wykorzystaliśmy je w praktyce do wyboru najlepszego kandydata do drużyny koszykówki Statsville Ali Stars. Ale to nie jedyne zastosowanie dla tej miary rozproszenia. Wyobraź sobie dwóch graczy o zbliżonych umiejętnościach technicznych. Pierwszy z nich (gracz 1) trafia do kosza średnio w 70% podejść przy odchyleniu standardowym na poziomie 20%. Drugi z graczy (gracz 2) trafia w 40% prób przy odchyleniu standardowym na poziomie 10%. W czasie jednej z rund w ramach eliminacji gracz 1 trafił do kosza w 75% przypadków, zaś gracz 2 — w 55%. Który z nich wypadł lepiej na tle swoich dotychczasowych osiągnięć?
Niestety, sama średnia niewiele mówi o kondycji kandydata. Wydaje się, że 75% trafień to więcej niż 55%, ale nie bierzemy tu pod uwagę odchylenia standardowego wyników obu graczy. Obaj uzyskali wyniki lepsze od swoich dotychczasowych rezultatów, ale który z nich pobił je w większym stopniu? Jak możemy porównać obu graczy pod tym względem?
z m ie n n o ś c i, w ię c ja k
m ożna'by je porównać?
G ra c z 1
\
C M = 70
G ra c z 2 M = 40
\ f
\ 55
A a = 20
O d s e te k t r a f ie ń
a = 10
O d s e te k t r a f ie ń
Czy znaleźliśmy się w sytuacji bez wyjścia? Niekoniecznie. Możemy sobie z tym poradzić, dokonując standaryzacji wyników obu graczy.
156
Rozdział3.
Miary różnicowania
Standaryzacja danych sposobem na ich porównywanie Standaryzacja danych umożliwia porównywanie danych, które różnią się zarówno średnią, jak i odchyleniem standardowym. Ułatwia ona porównywanie powiązanych ze sobą danych w różnych sytuacjach. Dzięki tem u możliwe jest na przykład porównanie wyników uzyskanych w eliminacjach przez obu graczy na tle ich wcześniejszych dokonań — czyli to, czym byłby zainteresowany trener. Standaryzację danych przeprowadza się przy wykorzystaniu ich średniej i odchylenia standardowego. D ane wystandaryzowane w ten sposób oznacza się najczęściej literą z, a wyznacza się je według poniższej formuły:
Przeprowadzimy teraz standaryzację wyników uzyskanych w eliminacjach przez obu graczy.
Standaryzacja w praktyce Zacznijmy od wyznaczenia zp czyli wystandaryzowanego wyniku eliminacji dla gracza 1. 7 5 -7 0 z
5
= 0,25 Otrzymaliśmy więc wartość 0,25. Ile wyniesie ona w przypadku gracza 2? 5 5 -4 0 z,
10 15
10 = 1,5 Jak widzimy, wynosi ona 1,5. Jest więc wyższa od wyniku gracza 1 (0,25). Ale co to oznacza?
jesteś tutaj ►
157
Interpretacja zmiennych standaryzowanych
Jak interpretować dane wystandaryzowane Standaryzacja danych to sposób na porównanie kilku zbiorów danych różniących się wartościami średniej i odchylenia standardowego. To sprowadzenie wszystkich danych do wspólnego mianownika — tak, jakby pochodziły z tego samego zbioru. Co to oznacza w przypadku naszych kandydatów do drużyny koszykówki? Wyniki każdego z graczy uzyskane w eliminacjach różnią się wartością przeciętną i zmiennością, co utrudnia ich porównywanie, zwłaszcza w odniesieniu do wyników uzyskiwanych w przeszłości. Widzieliśmy, że gracz 1 uzyskał znacznie wyższy odsetek trafień od gracza 2. Widzieliśmy także, że obaj gracze poradzili sobie nieco lepiej niż do tej pory. Trudno jednak powiedzieć, który z nich w większym stopniu pobił swoje dotychczasowe osiągnięcia. Standaryzacja danych umożliwia przeprowadzanie tego typu porównań, ponieważ transform uje oba zbiory wyników do porównywalnej postaci, o stałych, znanych z góry wartościach średniej i odchylenia standardowego.
H = 70
/T X
G ra c z 1
l
75 \ Z
„zi = 0,25 ‘ Z2 = 1 »5
K Su p erogóln y rozkład danych
G ra c z 2
Dojakich wniosków prowadzi standaryzacja? a = 10
Wystandaryzowany wynik uzyskany przez gracza 1 to 0,25, podczas gdy dla gracza 2 jest to 1,5. A zatem po sprowadzeniu obu wyników do porównywalności, to wynik gracza 2 okazał się wyższy. Oznacza to, że choć gracz 1 jest, ogólnie rzecz biorąc, lepszym koszykarzem i częściej trafia do kosza, to jednak gracz 2 dużo bardziej poprawił swoje wyniki w porównaniu do dotychczasowych.
158
Rozdział3.
Miary różnicowania S f ^ ^ r y z ^ c j^
z M is k ^
W wyniku standaryzacji dokonujemy przekształcenia danych źródłowych do postaci porównywalnej, o tej samej średniej i odchyleniu standardowym. M ożna powiedzieć, że tak przekształcone dane należą do tego samego, teoretycznego zbioru. Ogólny kształt wykresu dla danych przekształconych nie ulega zmianie.
Ok
M=0 M
\ i V
a
a = 1
D ane wystarndaryzowane mogą przyjmować dowolne wartości, które oznaczają, jak daleko leżą one od wartości przeciętnej. Liczby dodatnie wskazują na wartości większe od średniej, zaś ujem ne — na leżące poniżej średniej, ponieważ średnią dla tych danych jest wartość 0. Im więc większa wartość (z pominięciem znaku), tym leży ona dalej od średniej.
Liczba odchyleń standardowych od średniej Niekiedy statystycy opisują położenie danej obserwacji, mierząc je liczbą odchyleń standardow ych od średniej. N a przykład możesz się spotkać informacją, że dana wartość znajduje się w odległości jednego odchylenia standardowego od średniej. Jest to inny sposób na określenie, jak daleko od centrum danych znajduje się dana obserwacja. Co to jednak oznacza w praktyce? Wiemy już, że dokonując standaryzacji danych, przekształcamy je w dane o średniej 0 i odchyleniu standardowym równym 1. Jeśli jakaś obserwacja mieści się w granicach jednego odchylenia standardowego od średniej, oznacza to, że jej wartość wystandaryzowana mieści się w przedziale od -1 do 1. Podobnie gdy jakaś obserwacja mieści się w granicach dwóch odchyleń standardowych, jej wartość wystandaryzowana znajduje się w przedziale od -2 do 2.
A luIIP , z—n a jd j1. S ię W c e n tr a ln e j c z ę ś c i
0
wystandaryzowana = liczba odchyleń standardowych od średniej.
J e ś li ° b s e ^ ^ d n 5 o e odchSy ^ ia w g ra n ic a c h j od ^ śred 4rec|nn ie ie j, j, standardowego obszarze
M
-1
Wartość
¿ ary c h -
1
jesteś tutaj ► 159
Nie istniejq głupie pytania iNie.istnieja,
głupie pytania ^ : I wariancja, i odchylenie standardowe mierzą rozrzut danych. Czym więc różnią się od rozstępu?
^ : Jak do tego wszystkiego ma się standaryzacja danych?
0 : Rozstęp to bardzo prosta miara rozrzutu danych. M ów i
0 : Standaryzacja polega na przekształceniu danych za pomocą
o tym , jak bardzo wartość najmniejsza w danych rożni się od
średniej i odchylenia standardowego, tak by doprowadzić
wartości największej. I nic więcej. Nie m ówi nic na tem at tego, jak
do porównywalności różne zbiory danych, różniące się
układają się dane pomiędzy tym i wartościami.
wartościami tych statystyk, jednak bez zmiany ogólnego kształtu
Wariancja i odchylenie standardowe to dużo dokładniejsze miary
ich wykresu.
rozproszenia, ponieważ przy ich wyliczeniu bierze się pod uwagę
Jest to sposób na porównywanie różnych zbiorów danych, w tym
wszystkie wartości ze zbioru danych. M ów ią o tym , jak bardzo
względnego położenia konkretnych obserwacji na tle całego
dane te różnią się od swojej wartości średniej.
zbioru danych.
^ : Jaka jest zatem różnica między wariancją a odchyleniem standardowym? Którą miarą powinienem się posługiwać?
^ : Czy standaryzacja danych może ułatwić wykrywanie obserwacji nietypowych? 0 : Bardzo dobre pytanie! Choć zwykle wykrywanie wartości
0 : Odchylenie standardowe jest pierwiastkiem kwadratowym
odstających odbywa się w sposób subiektywny, często
z wariancji, co oznacza, że możesz posługiwać się dowolną z tych
za wartości odstające uznaje się te obserwacje, które leżą
statystyk.
w odległości większej niż 3 odchylenia standardowe od średniej.
Jednakże odchylenie standardowe jest miarą bardziej intuicyjną,
Różni statystycy mają różne wyobrażenie na ten tem at, dlatego
ponieważ jest wyrażone w tych samych jednostkach co dane
bądź jednak ostrożny.
źródłowe, co ułatwia interpretację.
CELNE SPOSTRZEŻENIA Wariancja i odchylenie standardowe mierzą
Odchylenie standardow e jest rów ne pierw iastkowi
zmienność danych — jak daleko od średniej
kw adratow em u z wariancji, a wariancja jest
znajduje się typ o w a obserwacja.
kwadratem odchylenia standardowego.
W ariancję wyznaczam y w e d łu g wzoru:
Standaryzacja danych jest
2
Z (x -|J) n Inna postać tego samego wzoru:
średniej i odchylenia standardowego. Aby wystandaryzow ać dane, należy przekształcić je do postaci:
_ z -M2
n
160
Rozdział3.
sposobem
na porów nyw anie danych o różnych wartościach
x -M
a
Miary różnicowania
Uzupełnij poniższą tabelę. Podaj nazwę każdej z miar rozproszenia, którą poznałeś w tym rozdziale, i pokaż, jak należy ją wyznaczać. Postaraj się podać odpowiedzi bez odwoływania się do wcześniejszych stron książki.
Statystyka
Sposób wyznaczania
Rozstęp
Górny kwartyl - dolny kwartyl
Odchylenie standardowe (o)
Wartość wystandaryzowana
jesteś tutaj ►
161
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Uzupełnij poniższą tabelę. Podaj nazwę każdej z miar rozproszenia, którą poznałeś w tym rozdziale, i pokaż, jak należy ją wyznaczać. Postaraj się podać odpowiedzi bez odwoływania się do wcześniejszych stron książki.
Statystyka
Sposób wyznaczania
Rozstęp
W artość największa - w a rto ść najmniejsza
R ozstęp międzykwartylowy
Górny kwartyl - dolny kwartyl
Odchylenie standardowe (o)
¡'¿ L (x V
u )2
n
1-------------------------
/ 2 - . „ Wartość wystandaryzowana
X ~ Id z = ----------
a
162
Rozdział3.
o
' Oba wzory dają ten sam wynik.
Miary różnicowania
Nasza drużyna mistrzem! Wszystkie mecze tego sezonu zostały już rozegrane i to nasza drużyna zajęła pierwsze miejsce w tabeli! Także dzięki Twojej pomocy, ponieważ pomogłeś trenerow i dokonać wyboru właściwego kandydata do drużyny. Pamiętaj: swój sukces zawdzięczasz znajomości odchylenia standardowego.
jesteś tutaj ► 163
164
Rozdział3.
4 . Prawdopodobieństwo zdarzeń
Natura ryzyka
Życie pełne jest niepewności.
Czasami trud n o jest naw et przewidzieć,
co w ydarzy się w ciągu najbliższych paru m inut. Szanse zajścia pewnych zdarzeń są
rachunek prawdopodobieństwa. Szacowanie przewidywanie przyszłości, ponieważ pozwala ich wystąpienia. A to pozwala podejm ow ać bardziej świadome
jednak większe niż innych, czego uczy nas praw dopodobieństw a zdarzeń ułatw ia ocenić, jak duże są szanse
wybory. W
tym rozdziale dowiesz się, czym jest praw dopodobieństw o zdarzeń
i jak m oże Ci ono pom óc zapanować nad przyszłością!
to jest nowy rozdział ► 165
Witamy w Fat Dan's Casino
Wielki Szlem Fat D an’s Casino jest najpopularniejszym miejscem rozrywki w całej okolicy. Oferuje każdy rodzaj gry kasynowej: od ruletki, poprzez jednorękich bandytów, po pokera czy blackjacka. T ak się składa, ze dziś jest Twój szczęśliwy dzień. Dostaniesz od nas spory zestaw żetonów, które możesz poświęcić na grę, zachowując dla siebie wszelkie wygrane, jakie Ci się przytrafią. Chciałbyś spróbować? Śmiało — przecież wiesz, że chcesz.
jed en . k c ^ o w y O , kru p ie r«»
T° f
i i «
Największym zainteresowaniem gości kasyna cieszy się ruletka. Właśnie zaczyna się kolejna gra. Przekonajmy się, czy szczęście rzeczywiście dziś Ci sprzyja.
166
Rozdział4.
Prawdopodobieństwo zdarzeń
Wejdź do gi-g! Pewnie nieraz widziałeś ludzi grających w ruletkę w filmie — a być może nawet sam próbowałeś swoich sił w prawdziwym kasynie. K rupier (pracownik kasyna) wprawia w ruch specjalne koło, po czym rzuca na nie kulkę — w kierunku przeciwnym do kierunku ruchu koła. Gracze obstawiają, na którym z ponumerowanych pól koła zatrzyma się kulka.
koto ruletki
W Fat D an’s Casino koło ruletki m a 38 takich pól. Pola główne są numerowane kolejnymi liczbami od 1 do 36, przy czym każde z nich jest koloru czarnego bądź czerwonego. Dwa dodatkowe pola m ają num er 0 i 00. O ba są zielone. pole z ie l° ne ' kolor )asn0SZaZ \ kolor cza r y kolor
pole czarne czerWOne
ciemnoszary -
Możesz zawierać wiele typów zakładów. Możesz na przykład obstawić, na którym polu zatrzyma się kulka; czy będzie to liczba parzysta, a nawet — jakiego koloru będzie dane pole. O innych możliwościach dowiesz się więcej, gdy zaczniesz grać. Zapam iętaj jednak, że gdy kulka zatrzyma się na polu zielonym, przegrywasz. Specjalne plansze pokrywające stół do ruletki pozwalają lepiej zorientować się w bieżącej sytuacji na kole.
Plansza do ruletki (przejdź na następną, stron ę , by z o b a c z y ć ją w pow iększonej w e r s ji) . '
:
A by obstaw ić dane pole, ktadziesz żetony w odpowiednim m iejscu na planszy.
Jeśli na kole wypadnie O lub 00, przegryw asz!
jesteś tutaj y
167
rsi
uo
UO
00
r—
r \i
^r
ON
00 00
o T3
O *
*
ON
00
ON
vO r \i
CK ONI
ON
00
uo
00
O
~o
1 - 18
CK
II TUZIN
PARZYSTE
Twoja własna plansza do ruletki Wiele razy w tym rozdziale będziesz obstawiał różne zakłady. O to poręczna plansza, którą możesz wyciąć i mieć zawsze pod ręką. Pomoże Ci ona oszacować prawdopodobieństwa/rożnych zdarzeń, które będziemy obliczali w tym rozdziale. .Tylko uważaj na nożyczki!
oo
III TUZIN
NIEPARZYSTE
19-36
Rozdział 4.
I TUZIN
kD
168
00
2 do 1
O
34
r\
28
'śj-
25
-
22
CN
o
Plansza do ruletki
00
36
CK
CN
ON
r
vO
30
o o
00
27
■
Prawdopodobieństwo zdarzeń
Proszę państwa, zaczynamy grę! Czy wyciąłeś już swoją tablicę? G ra właśnie się zaczyna. Jak sądzisz, gdzie zatrzyma się kulka? Wskaż miejsce na swojej planszy, by obstawić zakład.
Racja, zanim obstawi się konkretne pole, dobrze byłoby wiedzieć, z jaką szansą na wygraną się ono wiąże. Może niektóre pola dają większą szansę na sukces niż inne. Powoli dochodzimy do sedna problem u... prawdopodobieństwa zdarzeń.
WYSIL SZARE K O M Ó R K I Co musisz przemyśleć przed rozpoczęciem gry? Na co byś postaw ił, gdybyś m iał wybór? Dlaczego?
jesteś tutaj y
169
Znajdujemy prawdopodobieństwo
Jakie są moje sz a n se ? Czy kiedykolwiek zadawałeś sobie pytanie: „Jakie były szanse na to, ze to się akurat teraz wydarzy?”. N a przykład wtedy, gdy odwiedził Cię kolega, o którym dopiero co myślałeś. Albo gdy wygrałeś los na jakiejś loterii. W takich przypadkach posługujemy się prawdopodobieństwem, które określa szanse zajścia różnych zdarzeń. Może ono wyrażać, jak bardzo praw dopodobne jest określone zdarzenie (np. to, że uda Ci się zdrzemnąć którejś nocy w tym tygodniu) albo też jak bardzo jest niepraw dopodobne (np. to, że wędrując przez pustynię, zostaniesz uderzony kowadłem przez pieska preriowego). Przez zdarzenie elem entarne statystycy rozumieją każdy możliwy wynik doświadczenia losowego, którem u można przypisać prawdopodobieństwo wystąpienia. Innymi słowy, zdarzeniem (elementarnym) jest to wszystko, co może się wydarzyć i czemu m ożna przypisać szanse realizacji. Najczęściej posługujemy się tym term inem dla określenia pewnego zbioru możliwych wyników danego doświadczenia. Mówimy wówczas po prostu o zdarzeniu (losowym). Prawdopodobieństwo wyraża się za pom ocą liczb z przedziału od 0 do 1. Jeśli zdarzenie jest niemożliwe (na pewno nie zajdzie), m a prawdopodobieństwo 0. Jeśli zdarzenie jest pewne (na pewno zajdzie), m a prawdopodobieństwo 1. Zwykle jednak spotyka się zdarzenia, których prawdopodobieństwo leży gdzieś pomiędzy tymi dwiema wartościami. Oto przykład skali z zaznaczonymi prawdopodobieństwami różnych zdarzeń. Jednakowe s z a n s e na z a jś c ie lub nie
Zdarzenie niemożliwe
zd arzen ia
l
ir
0,5
Z darzeni« pew ne
i A tak kowadfem ze stro n y
S E P d la te g o zn ajdzie
£ « 7
s i ę tu ta j.
Podstawowe terminy Zdarzenie Każde zd a rze n ie lub w ynik dziatania, którem u można p rzy p isa ć praw dopodobieństw o w y stą p ie n ia .
170
Rozdział4.
Orzet i reszka mają jednakowe sza n se w rzucie monetą.
To, z e za śn ie sz któreiś nocy w tym tygodn°™ ś j e s t w zasadzie pewne.
Czy rozumiesz już, w jaki sposób prawdopodobieństwo wiąże się z ruletką? Gdybyś znał prawdopodobieństwo zatrzymania się kulki na konkretnym polu, łatwiej byłoby Ci podjąć decyzję, czy obstawić dane pole, czy też nie. Jeśli chcesz wygrywać, nie masz wyjścia...
Prawdopodobieństwo zdarzeń
Zaostrz ołówek Spróbuj oszacować prawdopodobieństwo tego, że kulka tocząca się po kole ruletki zatrzyma się na polu o numerze 7. Podpowiemy Ci, jakie czynności powinieneś wykonać.
1.
Spójrz na swoją planszę. Ile jest na niej miejsc (pól), na których może zatrzymać się kulka?
2.
Ile jest tam pól o numerze 7?
3.
Aby znaleźć prawdopodobieństwo wypadnięcia siódemki, podziel liczbę stanowiącą odpowiedź na pytanie 2. przez liczbę będącą odpowiedzią na pytanie 1. Jaki otrzymałeś wynik?
4.
Zaznacz otrzymane prawdopodobieństwo na poniższej skali. Jak opisałbyś słownie prawdopodobieństwo wypadnięcia siódemki na kole ruletki?
0
0 ,5
1
jesteś tutaj ► 171
Zaostrz ołówek: Rozwiązanie
_
» Zaostrz ołówek
V 1.
Rozwiązanie
Spróbuj oszacować prawdopodobieństwo tego, że kulka tocząca się po kole ruletki zatrzyma się na polu o numerze 7. Podpowiemy Ci, jakie czynności powinieneś wykonać.
Spójrz na swoją planszę. Ile jest na niej miejsc (pól), na których może zatrzymać się kulka? Na planszy je s t 38 pól.
2.
Ile jest tam pól o numerze 7? Tylko jedno,
3.
Nie zapomnij, że kulka może się zatrzym ać równie dobrze na polu oznaczonym O czy 00.
_____________
Aby znaleźć prawdopodobieństwo wypadnięcia siódemki, podziel liczbę stanowiącą odpowiedź na pytanie 2. przez liczbę będącą odpowiedzią na pytanie 1. Jaki otrzymałeś wynik? Prawdopodobieństwo wypadnięcia siódemki = - ł-
38
= 0,026 N — Odpowiedź zaokrąglona do trzech m iejsc
po przecinku
4.
Zaznacz otrzymane prawdopodobieństwo na poniższej skali. Jak opisałbyś słownie prawdopodobieństwo wypadnięcia siódemki na kole ruletki?
O
0 ,5
1
i_l----------------------------------------------------------- 1--------------------------------------------------------------- 1
172
Rozdział 4.
Prawdopodobieństwo zdarzeń
Znajdujemy prawdopodobieństwo wygranej w ruletkę Przyjrzyjmy się bliżej tem u, jak uzyskaliśmy taki wynik. N a poniższej planszy zamieszczono odpowiedniki wszystkich pól, na których może się zatrzymać kulka tocząca się po kole ruletki. To, co nas interesowało, to prawdopodobieństwo zatrzymania się kulki na polu o num erze 7.
Jesteśm u Zaini. T s ą wszystk'®
f is S S r —' Zat^ m a s ,:/ e ku'k°
ponieważ
na numerze 7.
atrzWm ac,,
może s i« tych p ° L na każdym z y
Aby znaleźć prawdopodobieństwo wygranej, dzielimy liczbę zdarzeń sprzyjających naszemu zakładowi przez liczbę wszystkich możliwych zdarzeń, to znaczy:
liczb a w yników sp rzy ja ją cy ch w ygranej Praw dopodobieństw o = liczb a w szy stk ich m ożliw ych w yników
To samo możemy zapisać w bardziej ogólny sposób. Prawdopodobieństwo dowolnego zdarzenia A jest równe:
Prawdopodobieństwo zajścia zdarzenia A
p (a )
= n(A) n(O)
W statystyce fi określa się jako przestrzeń zdarzeń elementarnych. Jest to inny sposób na nazwanie zbioru wszystkich możliwych wyników. Zdarzenie A jest podzbiorem tej przestrzeni.
jesteś tutaj ► 173
Diagramy Venna
Do czego przydają się diagramy Venna Wyznaczanie prawdopodobieństwa nie zawsze jest tak proste, jak w naszym przykładzie. D latego wykorzystuje się różne sposoby wizualizacji danych. N a przykład kreśląc prostokąt, który reprezentuje przestrzeń Q, i umieszczając w nim koła, po jednym dla każdego interesującego nas zdarzenia. Tego rodzaju diagramy nazywa się diagramami Venna. Poniżej zamieszczono diagram dla naszego przykładu, gdzie zdarzenie A oznacza wypadnięcie siódemki na kole ruletki.
Rozm iar kota
pr0porCjonaMy do p
jedynie to,
danego ^ . co zawieraj a c z e g ----
t , i+ s i i u m ie ś c iliś m y
1 * ko/e.
ąd W re,
Zwykle na diagramach V enna nie prezentuje się liczb jako takich. Zam iast nich m ożna się posługiwać prawdopodobieństwami zdarzeń. Wszystko zależy od tego, jaka informacja ma płynąć z diagramu.
Zdarzenia dopełniające W statystyce przyjęto pewien skrót na określenie tego, że A nie zajdzie. Jest to A ’ (czytaj: a prim). A ’ nazywa się dopełnieniem zdarzenia A do przestrzeni Q. Istnieje bardzo sprytny sposób na wyznaczenie prawdopodobieństwa zajścia zdarzenia A ’, czyli P(A ’). Ponieważ A ’ grupuje wszystkie zdarzenia elem entarne, które nie sprzyjają zajściu A, zatem wspólnie muszą one obejmować całą przestrzeń zdarzeń elementarnych. Jeśli coś sprzyja zajściu A, nie może sprzyjać zajściu A ’, i odwrotnie. Oznacza to, że gdy dodamy do siebie P(A) i P(A ’), musimy otrzymać 1. Innymi słowy, istnieje 100% szansy na to, że zdarzenia elem entarne sprzyjają zajściu A albo A ’. Mamy więc: P(A) + P (A ) = 1 albo też:
P(A’) = 1 - P(A) 174
Rozdział 4.
Prawdopodobieństwo zdarzeń
Wciel się w rolę krupiera j :V
Wyobraź sobie, że jesteś krupierem. Chciałbyś poznać ■ szanse pojawienia się różnych wyników w grze. Dla każdego z wymienionych niżej zdarzeń oszacuj prawdopodobieństwo jego zajsc ia.
Y
,
P (9 )
P (z ie lo n e )
P (cza rn e)
P (3 8 )
jesteś tutaj ► 175
Wciel się w rolę krupiera: Rozwiązanie
Wciel się w rolę krupiera: Rozwiązanie Wyobraź sobie, że jesteś krupierem. Chciałbyś poznać szanse pojawienia się różnych wyników w grze. Dla każdego z wymienionych niżej zdarzeń oszacuj prawdopodobieństwo jeg o zajścia.
P (z ie lo n e )
P (9 ) Prawdopodobieństwo wypadnięcia dziew iątki j e s t doktadnie takie samo jak wypadnięcia siódemki, ponieważ sza n se na to, że kulka zatrzym a s ię na którymś z tych pól, s ą jednakowe.
Ponieważ na kole s ą 2 zielone pola spośród 38 ogótem, zatem :
2 Prawdopodobieństwo
1
----- --
38
Prawdopodobieństwo = ------ =
38
= 0 ,0 5 3 (z doktadnością
do trzech m iejsc po przecinku) = 0,026 (z doktadnością
do trzech miejsc po przecinku)
P (c za rn e)
P (3 8 )
Na kole j e s t 18 pól czarnych na 38 ogótem, dlatego:
18 Prawdopodobieństwo
----- -38 = 0,474 (z doktadnością
do trzech m iejsc po przecinku)
czarnym.
176
RozdziaM.
To zdarzenie j e s t niemożliwe — na kole nie ma pola oznaczonego liczbą 38. Dlatego jego prawdopodobieństwo wynosi 0.
Prawdopodobieństwo zdarzeń
^ : Dlaczego powinienem wiedzieć, czym jest prawdopodobieństwo? Myślałem, że będę się uczył statystyki.
0 : Możesz wykorzystać każdą z tych metod. Nie m a to większego znaczenia. Pamiętaj tylko, że nigdy nie powinno ono wyjść poza zakres od O do 1.
^ : Czy zawsze muszę kreślić diagramy Venna? Zauważyłem, że nie zrobiliście tego w ostatnim przykładzie.
0 : Istnieje bardzo bliski związek Ü : Nie, oczywiście nie musisz. Ale często
między statystyką a rachunkiem prawdopodobieństwa. Wiele koncepcji statystycznych w yw odzi się właśnie z teorii prawdopodobieństwa. Dlatego wiedza z tego zakresu jest niezbędna dla zrozumienia statystyki. Rachunek prawdopodobieństwa ułatwi Ci przewidywanie określonych zdarzeń i pomoże dostrzec wzorce w danych. Pomoże Ci zrozumieć, jaka jest natura losowości, która nas otacza. Przekonasz się o tym już niebawem.
^ : Czy prawdopodobieństwo zapisuje się w postaci ułamków zwykłych, dziesiętnych, czy może procentów?
^ : Spotkałem się już z diagramami Venna na zajęciach z teorii zbiorów. Czy jest między nimi jakiś związek? 0 : Rzeczywiście, w ję zyku teorii zbiorów przestrzeń zdarzeń elementarnych jest zbiorem wszystkich możliwych w yników eksperymentu, a dowolne zdarzenie jest podzbiorem tego zbioru. Nie musisz
przydają się one do lepszego zrozumienia prawdopodobieństwa różnych zdarzeń i zależności między nimi. W dalszej części książki spotkasz się z wielom a przypadkami użycia diagramów Venna.
^ : Czy może się zdarzyć, że jakieś zdarzenie elementarne zostanie zaliczone do A i jednocześnie do A ’?
jednak sięgać do podręczników teorii zbiorów, ponieważ całą wiedzę niezbędną
Ü : Nie. A' obejmuje wszystkie zdarzenia
do obliczenia prawdopodobieństwa
elementarne, które nie sprzyjają A. Jeśli coś
zdarzeń i wykreślenia diagramów Venna
sprzyja A, nie może sprzyjać A', i odwrotnie.
zdobędziesz w tym rozdziale.
Te dwa zdarzenia wzajemnie się wykluczają, dlatego nie mają części wspólnych.
Czas zacząć grę! Nasza partia ruletki zacznie się już za chwilę. Spójrz na zdarzenia wymienione na poprzedniej stronie. Postawimy na najbardziej prawdopodobne z nich, to znaczy na to, że kulka zatrzyma się na polu czarnym. s p ó jrz m y ,
co się wydarzy
jesteś tutaj ►
177
Prawdopodobieństwo nie daje pewności
Tym czasem wygrywa num er... Co za pech! Chociaż obstawiliśmy nasz najbardziej prawdopodobny wynik, kulka zatrzymała się nazielonym polu oznaczonym num erem 0. Straciłeś pewną część swoich żetonów.
I 00 L I
\
Prawdopodobieństwo określonego zdarzenia mierzy jedynie szanse jego zajścia, ale go nie gwarantuje. Ważne, aby zapamiętać, że prawdopodobieństwo mówi o tym, jak często miałyby miejsce określone zdarzenia w dużej liczbie powtórzeń tych samych czynności. Gdybyś obstawiał wynik ruletki wiele razy, mógłbyś oczekiwać, że kulka zatrzyma się na polu czarnym przeciętnie 18 razy na każde 38 kolejek, czyli mniej więcej w 47% przypadków, a na polu zielonym 2 razy na każde 38 kolejek, czyli mniej więcej w 5% przypadków. Jednak to, że jakieś zdarzenie jest mało praw dopodobne (jak wypadnięcie zielonego pola), nie oznacza jeszcze, że jest niemożliwe.
Nie ma znaczenia, jak mało prawdopodobne jest zdarzenie. Jeśli nie jest niemożliwe, zawsze może się zdarzyć. 178
Rozdział4.
Prawdopodobieństwo zdarzeń
Obstawmy zatem bardziej prawdopodobne zdarzenie Spróbujmy zatem obstawić zdarzenie, które powinno zajść z jeszcze większym prawdopodobieństwem. Niech będzie to zdarzenie polegające na tym, ze kulka zatrzyma się na polu czarnym lub czerwonym. Aby oszacować prawdopodobieństwo tego zdarzenia, musimy zliczyć wszystkie pola czarne i czerwone, a następnie ich liczbę podzielić przez liczbę wszystkich pól na kole ruletki. Wydaje się proste?
Z a k ła d : c za rn e
lu b c z e r w o n e
Tych pól je s t b ardto d u io . M o¿e dałoby się wykortystać inform acje, k tó re ju Ł posiadamy, tŁn. P(cŁarne) oraŁ P(Łielone)?
Nieznane prawdopodobieństwa możemy wyznaczyć w oparciu o te, które już znamy. Spójrz na planszę do ruletki. Kulka może się zatrzymać na polu w jednym z trzech kolorów: czarnym, czerwonym i zielonym. Ponieważ wiemy już, ile wynosi P(zielone), możemy wykorzystać je do znalezienia szukanego prawdopodobieństwa bez konieczności zliczania pól czarnych i czerwonych. P(czarne lub czerwone) = P(zielone’) = = 1 - P(zielone) = = 1 - 0,053 = = 0,947 (z dokładnością do trzech miejsc po przecinku)
_
^Zaostrz ołówek Nie musisz wierzyć nam na słowo. Oblicz prawdopodobieństwo wypadnięcia pola czarnego lub czerwonego poprzez zliczenie takich pól na kole (planszy) ruletki i podzielenie ich liczby przez ogólną liczbę pól.
jesteś tutaj ► 179
Sumujemy >rawdopodobieństwa
_
^ Zaostrz ołówek Rozwiązanie
Nie musisz wierzyć nam na słowo. Oblicz prawdopodobieństwo wypadnięcia pola czarnego lub czerwonego poprzez zliczenie takich pól na kole (planszy) ruletki i podzielenie ich liczby przez ogólną liczbę pól.
36 PCczarne lub czerwone) = ----- =
38 = 0,947 (.z dokładnością do trzech
m iejsc po przecinku) Z a tem PCczarne lub czerwone) = 1 - P(zielone)
Możesz także dodać prawdopodobieństwa Istnieje jeszcze inny sposób wyznaczania prawdopodobieństw takich zdarzeń. Gdybyśmy znali P(czarne) i P(czerwone), moglibyśmy wyznaczyć szukane prawdopodobieństwo P(czarne lub czerwone), dodając do siebie obie wartości. Spójrzmy:
0ddz'®ln * n
s tą d
ta dwójka.
P(czarne lub czerwone)
18 + 18 38
38
= P(czarne) + P(czerwone) W wyniku zsumowania prawdopodobieństw obu zdarzeń otrzymaliśmy dokładnie taki sam wynik, jak poprzez podzielenie liczby pól czarnych i czerwonych przez ogólną liczbę pól na kole.
180
Rozdział4.
ten
Prawdopodobieństwo zdarzeń
Podstawowe terminy
Podstawowe terminy
Prawdopodobieństwo A b y zn a le źć praw dopodobieństw o zd a rzen ia A , m o że sz p o stu ży ć s i ę
P(A ) =
A ' j e s t zd a rzen iem do pełniającym A . P (A ‘) j e s t p ra w dopodobieństw em tego, i e zd a rze n ie A n ie za jd zie .
n(A )
n(Q)
P (A ') = 1 - P(A )
i Nie.is+nieja.
głupie pytania ^ : Jak rozumiem, prawdopodobieństwo takich „złożonych” zdarzeń można wyznaczyć na trzy sposoby. Który z nich sprawdza się najlepiej? 0 : Wszystko zależy od tego, jaką Informacją dysponujesz w konkretnej sytuacji. Załóżmy, że w ostatnim przykładzie miałeś jedynie Informację, Ile wynosi P(zlelone). Wówczas mógłbyś wyznaczyć szukane prawdopodobieństwo jako P(zlelone'), czyli 1 - P(zlelone). Gdybyś jednak znał wartości P(czarne) I P(czerwone), ale nie
0 : Rzeczywiście, często nie jest to konieczne. Wszystko zależy jednak od konkretnego przypadku. Raczej nie zaszkodzi sprawdzić w ten sposób w yników uzyskanych Inną metodą.
^ : Dlaczego ludzie obstawiają niektóre zdarzenia, choć są one tak mało prawdopodobne? 0 : Zapewne dlatego, że z takim i zdarzeniami wiąże się wyższa wygrana. Ogólnie Im mniej prawdopodobny jest dany wynik, tym większa jest wypłata w przypadku wygranej. Gdy obstawisz zdarzenie o wysokim prawdopodobieństwie, raczej nie wygrasz
wiedział, Ile różnych kolorów występuje na kole ruletki, mógłbyś
dużo pieniędzy. Ludzie mają tendencję do poszukiwania wysokich
znaleźć szukane praw dopodobieństwo przez dodanie do siebie
zysków, nawet jeśli szanse na nie są niewielkie.
obu wartości.
^ : Zatem nie muszę wyznaczać prawdopodobieństwa przez liczenie pól?
^ : Czy zawsze można dodawać prawdopodobieństwa różnych zdarzeń, tak jak zrobiliśmy to ostatnio? 0 : Lepiej traktuj to jako przypadek szczególny, a nie ogólną zasadę. Powiemy o tym więcej na kilku najbliższych stronach.
jesteś tutaj ►
181
Kolejny zakład W y g ra łe ś ! Tym razem kulka zatrzymała się na polu czerwonym, oznaczonym num erem 7, zatem zgarniasz dodatkowe żetony. Tum razem obstaw iłeś
w łaściwy kolor, czerwony.
Czas na kolejny zakład Teraz, kiedy wiesz już, jak wyznacza się prawdopodobieństwa zdarzeń, spróbujemy czegoś innego. Jakie jest prawdopodobieństwo tego, że kulka zatrzyma się na polu czarnym lub oznaczonym liczbą parzystą?
Czasami rzeczywiście można dodać do siebie prawdopodobieństwa dwóch zdarzeń, ale nie jest to regułą. Tym razem nie możemy postąpić w ten sposób. Spróbuj wykonać ćwiczenie zamieszczone na następnej stronie, a sam się przekonasz, na czym polega problem.
182
Rozdział 4.
Prawdopodobieństwo zdarzeń
_
^Zaostrz ołówek Wyznacz prawdopodobieństwo wypadnięcia na kole koloru czarnego lub numeru parzystego (przyjmij, że 0 i 00 nie są liczbami parzystymi).
1.
Jakie jest prawdopodobieństwo wypadnięcia pola w kolorze czarnym?
2.
Jakie jest prawdopodobieństwo wypadnięcia numeru parzystego?
3.
Co otrzymasz w wyniku zsumowania obu tych prawdopodobieństw?
4.
Posługując się załączoną planszą, policz, ile jest na kole pól, które są czarne lub parzyste, i podziel tę liczbę przez całkowitą liczbę pól. Jaki wynik uzyskałeś?
jesteś tutaj ► 183
Zaostrz ołówek: Rozwiązanie
_
» Zaostrz ołówek _______________________________________________ \
1.
Rozwiązanie
Wyznacz prawdopodobieństwo wypadnięcia na kole koloru czarnego lub numeru parzystego (przyjmij, że 0 i 00 nie są liczbami parzystymi).
Jakie jest prawdopodobieństwo wypadnięcia pola w kolorze czarnym? 18 / 38 = 0,474
2.
Jakie jest prawdopodobieństwo wypadnięcia numeru parzystego? 18 / 38 = 0,474
3.
Co otrzymasz w wyniku zsumowania obu tych prawdopodobieństw? 0,947
4.
Posługując się załączoną planszą, policz, ile jest na kole pól, które są czarne lub parzyste, i podziel tę liczbę przez całkowitą liczbę pól. Jaki wynik uzyskałeś? 26 / 38 = 0,684 Ć -
. „ .„ w y n ik i.
„»Oh » '
Prawdopodobieństwo zdarzeń
Zdarzenia rozłączne Kiedy wyznaczaliśmy prawdopodobieństwo tego, ze wypadnie kolor czarny lub czerwony, mieliśmy tak naprawdę do czynienia z dwoma oddzielnymi zdarzeniami: kulka mogła się zatrzymać na polu czarnym albo zatrzymać się na polu czerwonym, ale nie na polu w obu tych kolorach jednocześnie. Takie zdarzenia nazywamy rozłącznymi lub wzajemnie się wykluczającymi.
Nie mamy Łe sobą
absolutnie nic
G d y
wspólnego. Wzajemnie się wyklucŁamy.
n
Czarne o
i Czerwone
Jak to wygląda w przypadku pól czarnych i parzystych? Tym razem oba zdarzenia nie wykluczają się wzajemnie. Może się zdarzyć, ze kulka zatrzyma się na polu czarnym i parzystym. Te zdarzenia nie są rozłączne.
n
d w a
zdarzenia wzajemnie się wykluczają, nie mogą zajść jednocześnie.
Jeśli dwa zdarzenia nie są rozłączne, może się zdarzyć, ze zajdą równocześnie.
WYSIL SZARE K O M Ó R K I Jak m ogło to w płynąć na w artość oszacowanego przez nas prawdopodobieństwa?
jesteś tutaj ► 185
Suma i iloczyn zdarzeń
Gdy część wspólna sprawia problem Nasze szacunki prawdopodobieństwa P(czarne lub parzyste) nie dały poprawnego wyniku, ponieważ niektóre pola uwzględniliśmy w nich dwukrotnie. Oto, dlaczego. Najpierw obliczyliśmy (niezależnie) prawdopodobieństwa dwóch zdarzeń: pojawienia się koloru czarnego oraz num eru parzystego.
Czarne
Parzyste P(czarne)
^8
(o )
18
P(parzyste)
18
38
38
= 0,474
= 0,474
D odając do siebie oba prawdopodobieństwa, dwukrotnie uwzględniliśmy w rachunku te pola, które ^jed n o cześn ie czarne oraz parzyste.
Czarne
Parzyste
Czarne
Parzyste
Tę część wspólną uwzględniliśmy dwukrotnie.
P(czarne n parzyste) =
10
38 Aby uzyskać poprawny wynik, musimy odjąć prawdopodobieństwo pojawienia się części wspólnej, czyli zdarzenia polegającego na wypadnięciu czarnego pola o num erze parzystym. Czyli:
0,263
P ( c z a r n e lu b p a r z y s te ) = P ( c z a r n e ) + P ( p a r z y s te ) - P ( c z a r n e i p a r z y s t e ) f c '"
ebujemy 3«3 *
Podstawiając do tego wzoru konkretne wartości, otrzymujemy:
P ( c z a r n e lu b p a r z y s te ) = 1 8 /3 8 + 1 8 /3 8 - 1 0 /3 8 = 2 6 /3 8 = 0 ,6 8 4
186
RozdziaM.
o d ję ć-
Prawdopodobieństwo zdarzeń
Trochę notacji Istnieje bardziej ogólny sposób zapisania prawdopodobieństwa tego rodzaju zdarzeń za pom ocą notacji matematycznej. Gdy myślimy o zdarzeniach elementarnych wspólnych dla zdarzeń A i B, możemy posłużyć się zapisem: A n B. Mówimy wtedy o iloczynie zdarzeń A i B. Symbol n możemy więc traktować jako spójnik „i”.
iloczy n
n
suma Z kolei A U B oznacza sumę zdarzeń A i B. Zdarzenie takie obejmuje wszystkie zdarzenia elem entarne sprzyjające zajściu każdego z tych zdarzeń. Symbol U możemy traktować jako spójnik „lub”. Gdy P(A U B) = 1, o zdarzeniach A i B mówimy, że są. jedynie możliwe. Wyczerpują one przestrzeń zdarzeń elementarnych Q, tzn. zawierają w sobie wszystkie możliwe zdarzenia elem entarne.
n l e ź l i s u m a z d a r z ¡„ e ie m e n ta rn e ,
Obszar
fo s u 'r n ^ Cleni° Wany
_
^Zaostrz ołówek Na poprzedniej stronie zapisaliśmy: P(czame lub parzyste) = P(czame) + P(parzyste) - P(czarne i parzyste) Zapisz tę równość przy wykorzystaniu symboli iloczynu
n
i sumy u zdarzeń.
jesteś tutaj ►
187
Zaostrz ołówek: Rozwiązanie
_
» Zaostrz ołówek __________________________ \
Rozwiązanie
Na poprzedniej stronie zapisaliśmy: P(czame lub parzyste) = P(czarne) + P(parzyste) - P(czarne i parzyste) Zapisz tę równość przy wykorzystaniu symboli iloczynu
n
i sumy
u
zdarzeń.
lub B ) P(A u B ) = PCA) + P(B) - P(A n B)
< ---------P(A i
P lacteg o równanie dla z d a r z e ń wykluwających się je s t inne? Czy nie za d u io ju Ł tych w zorów do Łapamiętania?
Oba równania wcale nie różnią się aż tak bardzo. Zdarzenia rozłączne nie m ają części wspólnej, czyli żadne zdarzenia elem entarne nie sprzyjają zajściu jednocześnie ich obu. W takim przypadku prawdopodobieństwo jednoczesnego zajścia zdarzeń A i B jest równe zero: P(A n B) = 0. Wróćmy na chwilę do przykładu z prawdopodobieństwem wypadnięcia koloru czarnego lub czerwonego. W tym przypadku wypadnięcie czerwonego bądź czarnego pola to zdarzenia wzajemnie się wykluczające, ponieważ żadne pole na kole ruletki nie jest jednocześnie czarne i czerwone. Oznacza to, że P(czarne n czerwone) = 0, dlatego tę część równania można po prostu pominąć.
tiw a g a
Zdarzenia wykluczając s ię to nie to samo co zdarzenia wyczerpujące przestrzeń S.
Jeśli zdarzenia A i B wzajemnie s ię wykluczają, wówczas. P(A n B) = 0 Jeśli zdarzenia A i B wyczerpują przestrzeń S, wtedy:
188
Rozdział4.
P(A u B) = 1
Prawdopodobieństwo zdarzeń
Poczuj prawdopodobieństwo Wyobraź sobie, że jesteś prawdopodobieństwem. Zaznacz na poniższych diagramach Venna prawdopodobieństwa podanych zdarzeń. n
P(A n B) + P(A n B”
n
P(A' n B')
n
P(A u B) - P(B)
jesteś tutaj ► 189
Poczuj prawdopodobieństwo: Rozwiązanie
Poczuj prawdopodobieństwo: Rozwiązanie Wyobraź sobie, że jesteś prawdopodobieństwem. Zaznacz na poniższych diagramach Venna prawdopodobieństwa podanych zdarzeń. n
P(A n B) + P(A n B'
n
P(A' n B')
n
P(A u B) - P(B)
190
Rozdział 4.
Prawdopodobieństwo zdarzeń
j. . . kwiczenie
50 amatorów sportu chodzących na zajęcia w Head First Health Club zapytano, jaki rodzaj sportu uprawiają: baseball, piłkę nożną czy koszykówkę. 10 z nich gra wyłącznie w baseball, 12 jedynie w piłkę nożną, zaś 18 gra tylko w koszykówkę. 6 osób gra zarówno w baseball, jak i w koszykówkę, ale nie w piłkę nożną, zaś 4 osoby grają zarówno w piłkę nożną, jak i w koszykówkę, ale nie w baseball. Wykreśl diagramy Venna dla tak zdefiniowanej przestrzeni zdarzeń elementarnych. Ilu sportowców gra w baseball? Ilu w koszykówkę, a ilu w piłkę nożną? Czy uprawianie którejś z dyscyplin wyklucza uprawianie innej? Które zdarzenia wyczerpują przestrzeń zdarzeń elementarnych?
l
¿W
Podstawowe terminy A lub B A by znaleźć prawdopodobieństwo zajścia zdarzenia A lub B, korzystam y ze wzoru: P(A u B ) = P(A) + P(B) - P(A n B) u oznacza LUB n oznacza I
jesteś tutaj ► 191
Ćwiczenie: tozwiqzanie
_ _ Rozwiązanie
50 amatorów sportu chodzących na zajęcia w Head First Health Club zapytano, jaki rodzaj sportu uprawiają: baseball, piłkę nożną czy koszykówkę. 10 z nich gra wyłącznie w baseball, 12 jedynie w piłkę nożną, zaś 18 gra tylko w koszykówkę. 6 osób gra zarówno w baseball, jak i w koszykówkę, ale nie w piłkę nożną, zaś 4 osoby grają zarówno w piłkę nożną, jak i w koszykówkę, ale nie w baseball. Wykreśl diagramy Venna dla tak zdefiniowanej przestrzeni zdarzeń elementarnych. Ilu sportowców gra w baseball? Ilu w koszykówkę, a ilu w piłkę nożną? Czy uprawianie którejś z dyscyplin wyklucza uprawianie innej? Które zdarzenia wyczerpują przestrzeń zdarzeń elementarnych? n
Przykład wydawał się dość skomplikowany^ ¡ednak po wykreśleniu Ł r diagramu Venna sto f się dużo bardzie j zrozumiały.
Dodając wartości zam ieszczone w każdym z okręgów na diagramie Venna, możemy s ię dowiedzieć, że ogółem 16 osób gra w baseball, 28 w koszykówkę, a 16 w piłkę nożną. Zdarzenia: „gra w b a se b a lf i „gra w piłkę nożną" wzajemnie s ię wykluczają. Nie ma ani jednej osoby, która uprawiałaby obie dyscypliny, więc P(baseball n piłka nożna) = O. Trzy zdarzenia: „gra w b a seb a lf, „gra w koszykówkę" i „gra w piłkę nożną" wyczerpują przestrzeń zdarzeń elementarnych, dlatego P(baseball u piłka nożna u koszykówka) = 1
^ : Czy zdarzenia A i A ’ wzajemnie się wykluczają, czy są jedynie możliwe?
Czy zapis P(A n B) + P(A n B’) nie jest tylko bardziej skomplikowanym sposobem zapisu P(A)?
^ : Czy jest jakieś ograniczenie liczby zdarzeń, które mogą się przecinać?
0 : Oba te stwierdzenia są prawdziwe.
0 : Rzeczywiście jest. Czasami dobrze jest
do Iloczynu większej liczby zdarzeń,
A i A' nie mają elem entów wspólnych,
myśleć o jakimś prawdopodobieństwie
po prostu użyj więcej symboli n .
dlatego wzajemnie się wykluczają. Łącznie
w kategorii prawdopodobieństwa Innych
Na przykład Iloczyn zdarzeń A, B I C
jednak wyczerpują całą przestrzeń zdarzeń
zdarzeń. Nie zawsze bowiem mamy dostęp
zapiszemy jako A n B n C.
elementarnych, dlatego są też jedynie
do potrzebnej nam Informacji. W tedy
Czasami jednak obliczenie
możliwe.
umiejętność dostrzeżenia takich zależności
prawdopodobieństwa Iloczynu większej
0 : Nie. Jeśli potrzebujesz odnieść się
jest dużą zaletą.
liczby zdarzeń może być trudne. Gdy nie jesteś pewien wyniku, wykreśl diagram Venna, który ułatwi Cl orientację co do tego, co należy dodać, a co odjąć.
192
Rozdział 4.
Prawdopodobieństwo zdarzeń
Znowu nieudany o brót... Wiemy już, ze prawdopodobieństwo wypadnięcia koloru czarnego lub num eru parzystego wynosi 0,684. Niestety, tym razem kulka zatrzymała się na polu czerwonym oznaczonym nieparzystą liczbą 23.
...cz as więc na kolejny zakład Choć mieliśmy spore szanse na wygraną, szczęście znowu nam nie sprzyjało. Dlatego krupier postanowił trochę nam pomóc, przekazując poufne informacje. Po zakręceniu kołem, lecz przed ujawnieniem wyników, da nam jakąś wskazówkę co do tego, jaki jest rezultat rzutu, a my oszacujemy na tej podstawie prawdopodobieństwo wygranej. Oto
nasŁ następny q
/
Łakfad... i wskaŁówka, g d iie ŁattŁymafa się kulka. Ą \e c iii..., nie mówmy sŁefowi kasyna...
Z a k ła d :
parzyste W skazów ka: w y p a d » 0 p o le
\
czarne
Czy powinniśmy obstawić taki zakład? Jak się m a prawdopodobieństwo wypadnięcia liczby parzystej, kiedy wiemy, ze wypadło pole czarne, do prawdopodobieństwa wyznaczonego w ostatnim przykładzie? Przekonajmy się.
jesteś tutaj ► 193
Poznajemy prawdopodobieństwo warunkowe
Prawdopodobieństwo warunkowe K rupier powiedział nam, ze kulka zatrzymała się na polu czarnym. Jakie jest teraz prawdopodobieństwo tego, ze wypadł num er parzysty?
AI& przecież. ju ż to licŁ yliśm yjjest to prawdopodobieństwo wypadnięcia pola czarnego i liczby p a rzy s te j.
Nie do końca, to nieco inne zagadnienie. Nie interesuje nas tym razem prawdopodobieństwo pojawienia się pola koloru czarnego o num erze parzystym. Chcemy oszacować prawdopodobieństwo tego, ze num er wylosowanego pola będzie liczbą parzystą, jeśli wiemy, ze jest ono koloru czarnego.
n
Czarne
Parzyste możemy Ten ° bsza, ^ ie m y ¿e w yloS
•ane
Innymi słowy, musimy się dowiedzieć, ile pól czarnych jest oznaczonych liczbą parzystą. Gdy spojrzysz na planszę do ruletki, przekonasz się, ze wszystkich pól czarnych jest 18, a 10 spośród nic) nosi num er parzysty, a zatem: P(parzyste gdy czarne)
Czarne
\^ _
1« czarny°^. 1°Jc oznaczony^ J® p a rz y s z lic z b a
!£ 18
^^8 0,556 (z dokładnością do trzech miejsc po przecinku)
(lo)
Parzyste
Okazuje się więc, ze mimo posiadania dodatkowej, poufnej informacji, nasze szanse na wygraną w tym zakładzie są jeszcze mniejsze niż poprzednio. Prawdopodobieństwo wypadnięcia liczby parzystej przy założeniu, że wypadło pole czarne, jest mniejsze niż prawdopodobieństwo wypadnięcia pola czarnego lub liczby parzystej. Mimo wszystko prawdopodobieństwo 0,556 jest nadal większe niż 50%, więc ten zakład nie jest taki zły. Zagrajmy więc o niego.
194
Rozdział 4.
0
Prawdopodobieństwo zdarzeń
Obliczamy prawdopodobieństwa warunkowe Jak moglibyśmy uogólnić tego rodzaju obliczenia? Przede wszystkim potrzebna nam jest specjalna notacja do wyrażania prawdopodobieństwa warunkowego zdarzeń, które mierzyłoby szanse realizacji jakiegoś zdarzenia przy założeniu, że zachodzi inne zdarzenie. Kiedy statystycy chcą zapisać prawdopodobieństwo jakiegoś zdarzenia przy założeniu, że zaszło inne zdarzenie, posługują się symbolem „ | ”, oznaczającym w arunek (czytaj: pod warunkiem). Zam iast więc pisać „prawdopodobieństwo zajścia zdarzenia A pod warunkiem B”, możemy zapisać to w skrócie: P(A | B)
praw dopodobieństw o A f ^ p o d w a r c m k ie m ze zaszfo o
Będziemy chcieli znaleźć ogólny sposób wyznaczania P(A | B). W powyższym przykładzie obliczyliśmy je, dzieląc sumę zdarzeń elementarnych sprzyjających jednoczesnem u zajściu zdarzeń A i B przez liczbę zdarzeń sprzyjających zajściu B. N a diagramie Y enna możemy łatwo potwierdzić, że:
P(A | B) =
Ponieważ szukam y prawdopodobieństwa zdarzenia A przy założeniu, że zaszło 8 , ograniczamy s ię jedynie do tej części przestrzeni, która oznacza 8 .
\ n
P(A n B) P(B)
To równanie możemy przekształcić do postaci ułatwiającej obliczanie P(A n B): P(B) P(A n B) = P(A | B) x P(B) Ale to jeszcze nie koniec. Ponieważ P(A n B) jest tym samym, co P(B n A), możemy również zapisać: P(A n B)
P(A n B) = P(B n A) = P(B | A) x P(A) Innymi słowy, możemy zamienić A i B. Wydaje mi się, ¿e na diagramie Venna nie da się prtedstaw ić prawdopodobieństwa warunkowego. C ty m oina to Łrobić w inny sposób?
Diagramy Venna nie nadają się najlepiej do prezentowania prawdopodobieństw warunkowych. Ale nie martw się, bo możesz się posłużyć innym rodzajem wykresu. Jest nim tzw. drzewo stochastyczne.
jesteś tutaj k
195
Drzewa ¡tochastyczne
Prawdopodobieństwa warunkowe można przedstawić na drzewie stochastycznym Nie zawsze da się łatwo przedstawić prawdopodobieństwa warunkowe na diagramach Venna. Istnieje jednak inny typ diagramu, tak zwane drzewo stochastyczne, który doskonale nadaje się do tego celu. Poniżej przedstawiono przykładowe drzewo stochastyczne dla omówionego wyżej przykładu, z którego m ożna łatwo odczytać prawdopodobieństwa wylosowania pól o różnych kolorach, oznaczonych zarówno liczbami parzystymi, jak i nieparzystymi.
N a pierwszym poziomie drzewka zapisano prawdopodobieństwa pojawienia się każdego koloru, na przykład dla pola czarnego wynosi ono 18/38, czyli 0,474. N a drugim poziomie drzewka umieszczono prawdopodobieństwa wypadnięcia różnych grup numerów przy założeniu, że zaszło zdarzenie, z którym łączy się dana gałąź. D latego prawdopodobieństwo wypadnięcia num eru nieparzystego, jeżeli wypadło pole czarne, wynosi 8/18, czyli 0,444.
196
Rozdział4.
Prawdopodobieństwo zdarzeń
Drzewa są pomocne w obliczaniu prawdopodobieństw Drzewa stochastyczne przydają się nie tylko do wizualizacji prawdopodobieństw, ale są pom ocne także przy ich wyliczaniu. Zobaczmy, jak m ożna je wykorzystać do tego celu. O to przykład drzewka mającego inną liczbę gałęzi niż poprzednio. Posiada ono dwa poziomy, a tym samym dwa zbiory dopełniających się zdarzeń: A i A ’ oraz B i B’. A ’ oznacza jak zwykle zdarzenie przeciwne do A, zaś B’ — zdarzenie przeciwne do B. Prawdopodobieństwa iloczynu zdarzeń możesz wyznaczyć jako iloczyn prawdopodobieństw z łączących się ze sobą gałęzi. N a przykład P(A n B) możemy wyznaczyć, mnożąc P(B) przez P(A | B). Innymi słowy, mnożymy prawdopodobieństwo przypisane gałęzi pierwszego poziomu prowadzącej do wierzchołka B przez prawdopodobieństwo przypisane gałęzi drugiego poziomu wchodzącej do wierzchołka A. J e s t to to samo rów nanie, które poznateś wcześni j . o ro s tu wymnóz przez s ie b ie p ra w d o p o d o bień stw a
g), mnożymy
j T
z sąsiednich ga tęzi.
P(A n B) = P ( A |B ) x P ( B )
P ( A 'n B) = P(A'| B ) x P(B)
A
P(A n B1) = P(A| B1) x P(B')
A1
P(A' n B1) = P(A' I B1) x P(B')
Prawdopodobieństwa wyznaczone za pom ocą drzew są dokładnie takie same jak obliczone przez nas wcześniej. D o Ciebie należy decyzja, z której m etody chcesz korzystać. Kreślenie drzewek może być czasochłonne, ale dzięki nim łatwiej jest odczytać prawdopodobieństwa warunkowe.
jesteś tutaj ►
197
Magnesiki prawdopodobieństwa
Magnesiki prawdopodobieństwa Właściciele cukierni oszacowali, z jakim prawdopodobieństwem ich klienci zamawiają ciastko i kawę. Wykreślili drzewko stochastyczne, ale gwałtow ny podmuch w iatru zdmuchnął karteczki z prawdopodobieństwam i, które były przypięte do drzewka. Twoim zadaniem jest przywrócenie ich na właściwe miejsce. Poniżej zamieszczono kilka wskazówek, które powinny Ci w tym pomóc.
P(ciastko) = 3/4
P(kawa | ciastko') = 1/3
P(ciastko n kawa) = 9/20
Prawdopodobieństwo zdarzeń
Praktyczne wskazówki dotyczące pracy z drzewkami 1. Określ liczbę poziomów drzewka.
2. Umieść na drzewku wszystkie informacje, jakie posiadasz. Jeśli znasz jakieś prawdopodobieństwa, umieść je na drzew u W odpowiednich miejscach.
^
K S S S K i’ “
wynosić 1. Pamiętaj, ze P(A) - 1
7
.
)■
4 Wykorzystuj tę formułę. Większość nieznanych prawdopodobieństw powinno udać O f zn aleii przy wykorzystaniu wzoru: P(A n B) P(A | B) =
P(B)
jesteś tutaj ► 199
Magnesiki prawdopodobieństwa: Rozwiqzanie
Magnesiki prawdopodobieństwa: Rozwiązanie Właściciele cukierni oszacowali, z jakim prawdopodobieństwem ich klienci zamawiają ciastko i kawę. Wykreślili drzewko stochastyczne, ale gwałtow ny podmuch w iatru zdmuchnął karteczki z prawdopodobieństwam i, które były przypięte do drzewka. Twoim zadaniem jest przywrócenie ich na właściwe miejsce. Poniżej zamieszczono kilka wskazówek, które powinny Ci w tym pomóc.
P(ciastko) = 3/4
P(kawa | ciastko') = 1/3
P(ciastko n kawa) = 9/20
P(kawa I ciastko) = Pft
Kawa
= 3 /5 To m u si s u m o w a ć
C ia s tk o
s ię do 1'
Kawa'
To m usi sum ować s ię do 1.
Kaw a
To m u s i s u m o w a ć
C ia s tk o '
s ię do 1-
Kaw a'
200
Rozdział 4.
Prawdopodobieństwo zdarzeń
jesteś tutaj ► 201
Ćwiczenie: Rozwiązanie
To jeszcze nie wszystko, jeśli chodzi o naszą cukiernię! Teraz, kiedy skończyłeś już pracę nad drzewkiem stochastycznym, możesz go użyć do odczytania innych prawdopodobieństw.
Ćwiczenie Rozwiązanie
1. P(ciastko’)
2. P(ciastko’ n kawa)
1/4
1/12 To p ra w d o p o d o b ie ń stw o m ożem y
1
s z u k a n e p ra w d o p o d o b ie ń stw o w y n o s.
o b lic z y liś m y
0 / 4 ) , drugie odczytujem y z drzewk% (1/ 3 )
1/4.
S zu ka n e prawdopodobieństwo wynosi 1/12
3.
P(kawa’ | ciastko) 2 /5
8 /1 5
O dczytujem y je bezpośrednio z drzewka.
5.
P(ciastko | kawa) 2 7 /3 2
S tą d : ( 9 /2 0 ) / (8 /1 5 ) = 2 7 /3 2 .
202
Rozdział 4.
4. P(kawa)
O bliczenie tego n ie j e s t fatw e, w ię c n ie prze jm u j się , jeśli sprawia Ci trudność. A b u je wyznaczyć, m usim y dodać do sieb ie P(kawa n ciastko) oraz P(kawa n cia stko ). Stąd: 1/12 + 9 / 2 0 = 8 /1 5 .
Prawdopodobieństwo zdarzeń
Podstawowe terminy Prawdopodobieństwo warunkowe P(A I B ) -
P(A n B) P(B)
i Nie.is+nieja.
głupie pytania
-----
: Nadal nie rozumiem różnicy między P(A n B) a P(A | B).
^ : Czy P(A | B) jest równe P(B | A)? Wyglądają podobnie.
0 : P(A n B) jest prawdopodobieństwem
0 : Jest to jeden z częściej popełnianych
^ : Czy jest jakieś ograniczenie liczby poziomów gałęzi drzewka stochastycznego?
zajścia jednocześnie zdarzeń A ¡ B.
błędów. Choć wyglądają podobnie,
0 : Teoretycznie nie ma. W praktyce
Nie ma przy tym znaczenia, czy któreś
są to różne zdarzenia. P(A | B) jest
jednak niektóre bardziej rozbudowane
zaszło wcześniej. Po prostu szukamy
prawdopodobieństwem zajścia
drzewka mogą być mniej czytelne. M im o to
prawdopodobieństwa zajścia obu
zdarzenia A przy warunku, że wcześniej
obliczanie niektórych prawdopodobieństw
zdarzeń, nie czyniąc żadnych założeń
zaszło zdarzenie B. P(B | A) jest
jest łatwiejsze, gdy można rzucić okiem
co do przeszłości.
prawdopodobieństwem zajścia zdarzenia B,
na drzewko.
P(A | B) jest prawdopodobieństwem
pod warunkiem że zaszło zdarzenie A.
zajścia zdarzenia A przy założeniu,
W obu przypadkach przyjmujesz więc
że zaszło zdarzenie B. Innymi słowy,
zupełnie inne założenia.
zakładamy, że zdarzenie B zaszło i szukamy prawdopodobieństwa zajścia zdarzenia A, biorąc pod uwagę zajście zdarzenia B.
^ : Czy drzewka stochastyczne są lepsze niż diagramy Venna?
^ : Jeśli zdarzenia A i B są rozłączne, ile wynosi P(A | B)? 0 : Jeśli A i B są rozłączne, wówczas P ( A n B ) = 0 ,a z a te m P(A| B) = 0. Ma to sens, ponieważ jeśli oba zdarzenia są
^ : Czy więc P(A | B) jest tym samym co P(A)?
0 : Oba rodzaje diagramów nadają
rozłączne, nie mogą zajść jednocześnie.
się do wizualizacji prawdopodobieństw,
Jeśli przyjmiemy, że zdarzenie B zaszło,
ale każdy na swój sposób. Diagramy
wówczas zdarzenie A na pewno nie zajdzie.
0 : Nie, są to różne prawdopodobieństwa.
Venna sprawdzają się wtedy, gdy
S tą d P (A |B ) = 0.
Wyznaczając P(A | B) musisz przyjąć,
trzeba przedstawić podstawowe
że zdarzenie B zaszło. Gdy obliczasz P(A)
relacje między zdarzeniami i proste
nie robisz żadnych założeń co do zajścia
prawdopodobieństwa, jakie się z nimi wiążą.
innych zdarzeń.
Drzewka stochastyczne sprawdzają się lepiej w przypadku prawdopodobieństw warunkowych. To, które z nich wybierzesz, zależy od Twoich potrzeb w danej sytuacji.
jesteś tutaj ► 203
Nowe prawdopodobieństwo warunkowe
Co za pech! Obstawiłeś zakład, ze kulka zatrzyma się na numerze parzystym, wiedząc, ze zatrzymała się na polu czarnym. Niestety, kulka wylądowała na polu oznaczonym num erem 17, przez co straciłeś kilka kolejnych żetonów.
I 00 L I
Może w końcu uda się odrobić straty w kolejnej serii. Tym razem krupier podpowiedział Ci, że kulka zatrzymała się na polu oznaczonym liczbą parzystą. Jakie jest prawdopodobieństwo tego, że pole to jest jednocześnie koloru czarnego? Tym razem < ^ J w,am y odw rotny zaktad
Ten zakład je s t p rz e c ie ż bardzo podobny do poprzedniego. Czy chcesz pow iedzieć, ż e musimy wykreślić nowe drzewko i wyznaczyć wszystkie prawdopodobieństwa? Czy nie możemy wykorzystać te g o , c o ju ż zrobiliśmy?
Możemy posłużyć się obliczeniami, które już wykonaliśmy. Poprzednio chcieliśmy wyznaczyć P(parzyste | czarne). Teraz możemy wykorzystać te szacunki do wyznaczenia P(czarne | parzyste). O to drzewko stochastyczne, które stworzyliśmy poprzednio:
N ie p a r z y s te C z a rn e P a r z y s te
10/18
N ie p a r z y s te
C z e rw o n e P a r z y s te
0 Z ie lo n e
00 204
Rozdział4.
Prawdopodobieństwo zdarzeń
Możemy wyznaczyć P(czarne | parzyste), korzystając z wcześniejszych obliczeń Jak więc znajdziemy P(czarne | parzyste)? Istnieje sposób na obliczenie tej wartości przy wykorzystaniu istniejącego drzewka, choć na pierwszy rzut oka nie musi to być takie oczywiste. Możemy więc posłużyć się prawdopodobieństwami, które już znamy, i przekształcić je w pewien sposób, tak by otrzymać odpowiedź na nasze pytanie. Przyjrzyjmy się bliżej formułom, które pozwolą nam wyznaczyć szukane P(czarne | parzyste). Z e wzoru na prawdopodobieństwo warunkowe otrzymujemy:
P ( c z a r n e n p a r z y s te ) P ( c z a r n e | p a r z y s te ) = P ( p a r z y s te ) Gdybyśmy znali wartości prawdopodobieństw P(czarne n parzyste) oraz P(parzyste), moglibyśmy łatwo wyznaczyć nieznane prawdopodobieństwo według tej formuły. Musimy więc znaleźć sposób na policzenie wartości nieznanych prawdopodobieństw. Brzmi niezbyt przyjemnie? Nie martw się, przejdziemy ten proces wspólnie, krok po kroku.
Krok 1: Znajdujemy P(czarne
Korzystaj ze znanych prawdopo dobieństw przy liczeniu prawdopodo bieństw nieznanych
n parzyste)
Zacznijmy od pierwszego z nieznanych prawdopodobieństw — P(czarne n parzyste).
_
^Zaostrz ołówek
__________________________________ Spójrz na drzewko stochastyczne zamieszczone na poprzedniej stronie. Jak mógłbyś je wykorzystać do znalezienia P(czarne n parzyste)? Wskazówka: P(czarne n p a rzyste) ■ . = P (parzyste n czarne)
jesteś tutaj ► 205
Zaostrz ołówek: Rozwiązanie
_
*
Zaostrz ołówek _____ Rozwiązanie
Spójrz na drzewko stochastyczne zamieszczone na poprzedniej stronie. Jak mógłbyś je wykorzystać do znalezienia P(czarne n parzyste)?
PCczarne n parzyste) możemy wyznaczyć jako iloczyn PCczarne) oraz PCparzyste I czarne). Stąd: PCczarne n parzyste) = PCczarne) x P(parzyste I czarne) =
yf
10
38
yg
10 38 5 19
Co więc nam to d ało ? Chcemy znaleźć prawdopodobieństwo P(czarne | parzyste). Możemy to zrobić, obliczając:
P ( c z a r n e n p a r z y s te )
Te d w ie w ielkości sobie ró w n e -
P ( c z a r n e | p a r z y s te ) = P ( p a r z y s te ) Jak dotąd, znaleźliśmy jedynie wartość licznika P(czarne n parzyste), korzystając z faktu, że:
P ( c z a r n e n p a r z y s te ) = P ( c z a r n e ) * P ( p a r z y s te | c z a r n e ) Stąd otrzymujemy:
P ( c z a r n e ) * P ( p a r z y s te | c z a r n P ( c z a r n e | p a r z y s te ) = P ( p a rz y s te ) Ale jak znaleźć kolejny elem ent naszej formuły — P(parzyste)?
^ WYSIL
_________
...m ożem y w ięc podstawić P(czam e) x P (parzyste / czarne) za P(czam e n pa rzyste) w naszej w yjściowej formule.
SZARE K O M Ó R K I Spójrz jeszcze raz na drzewko stochastyczne zamieszczone na stronie 204. W jaki sposób m oglibyśm y je wykorzystać do policzenia P(parzyste)?
206
Rozdział 4.
Prawdopodobieństwo zdarzeń
Krok 2 : Znajdujemy P(parzyste) Teraz kolej na obliczenie prawdopodobieństwa wypadnięcia num eru parzystego. Możemy znaleźć jego wartość, rozpatrując wszystkie możliwe drogi prowadzące do uzyskania na kole liczby parzystej. Kulka może się zatrzymać na polu oznaczonym liczbą parzystą wtedy, gdy zatrzyma się na polu czarnym oznaczonym num erem parzystym bądź na polu czerwonym oznaczonym liczbą parzystą. Nie m a innej możliwości uzyskania na kole liczby parzystej. Oznacza to, że P(parzyste) znajdziemy, dodając do siebie P(czarne n parzyste) oraz P(czerwone n parzyste). Innymi słowy, musimy dodać do siebie prawdopodobieństwo tego, że kulka zatrzyma się na polu czarnym oznaczonym liczbą parzystą, oraz tego, że zatrzyma się na polu czerwonym oznaczonym liczbą parzystą. N a poniższym drzewku zaznaczyliśmy linią ciągłą odpowiednie prawdopodobieństwa: 8/18
N ie p a r z y s te
P(czarne) X P(parzyste | czarne) + fP(czerwone) X P(parzyste | czerwone) 10
18
„ ¿ 6 -8
p a rz y s te j.
38 9_ 19
jesteś tutaj ► 207
Prawdopodobieństwo zdarzenia odwrotnego
Krok 2: Znajdujemy P(czam e | parzyste) Czy pam iętasz jeszcze, czego tak naprawdę szukamy? Chcieliśmy znaleźć P(czarne | parzyste) za pom ocą formuły:
P ( c z a r n e n p a r z y s te ) P ( c z a r n e | p a r z y s te ) = -------------------------------------P (p a r z y s te ) Zaczęliśmy od znalezienia wartości licznika:
P ( c z a r n e n p a r z y s te ) = P ( c z a r n e ) x P ( p a r z y s te | c z a r n e )
W drugim kroku znaleźliśmy wartość mianownika, według formuły:
P ( p a r z y s te ) = P ( c z a r n e ) x P ( p a r z y s te | c z a r n e ) + P ( c z e r w o n e ) x P ( p a r z y s te | c z e r w o n e )
Teraz możemy już wyznaczyć szukane prawdopodobieństwo, korzystając z informacji zawartych na drzewku. Podstawiając wyniki uzyskane w poprzednich krokach do wyjściowej formuły, otrzymujemy:
. " » • ¿ M
P(czarne n parzyste) P(czarne | parzyste) = ------------------------------ = P(parzyste) P(czarne) X P(parzyste | czarne) P(czarne) X P(parzyste | czarne) + P(czerwone) X P(parzyste | czerwone) tylko 19
19
5
Jó
^
^octetaw iam y to do w zoru.
9 5 9 Tym samym znaleźliśmy sposób na wyznaczenie nowego prawdopodobieństwa warunkowego w oparciu o prawdopodobieństwa, które już znamy — przyda się to szczególnie do wyznaczania wartości bardziej skomplikowanych prawdopodobieństw. Spójrzmy teraz, jak to działa w ogólnym przypadku.
208
Rozdział 4.
N
korzystając S - * -
Prawdopodobieństwo zdarzeń
Nasze wyniki możemy łatwo uogólnić Wyobraź sobie, ze dysponujesz drzewem stochastycznym, takim jak poniżej. Przyjmijmy też, że wszystkie prawdopodobieństwa są nam znane.
A
B
Wyobraźmy sobie teraz, że chcemy znaleźć P(A | B), mając do dyspozycji wyłącznie nasze drzewko i zawarte na nim informacje. Jak moglibyśmy je wykorzystać do znalezienia naszego prawdopodobieństwa? Moglibyśmy rozpocząć jak poprzednio, od zapisania definicji prawdopodobieństwa warunkowego:
P (A n B ) ^
M u s im y znać obu w a r to śŁc\i o b u tych
Musimy teraz znaleźć P(A n B), korzystając z informacji zawartych na naszym drzewku. Policzymy je według formuły: P(A n B) = P(A) x P(B | A)
Jak jednak znajdziemy P(B)?
WYSIL SZARE K O M Ó R K I Przyjrzyj się dobrze powyższemu drzewku. Jak mógłbyś je wykorzystać do obliczenia P(B)?
jesteś tutaj ► 209
Twierdzenie o prawdopodobieństwie całkowitym
Wykorzystaj prawdopodobieństwo całkowite, by znaleźć P(B) Aby znaleźć P(B), postąpimy w ten sam sposób, jak przy wyznaczaniu P(parzyste) wcześniej; musimy dodać do siebie prawdopodobieństwa wszystkich zdarzeń, które prowadzą do zajścia naszego zdarzenia. W naszym przykładzie zdarzenie B może zajść na dwa sposoby: albo wraz ze zdarzeniem A, albo bez niego. Oznacza to, ze P(B) wyznaczymy jako: P(B) = P(A n B) + P(A ’ n B) ^
^ \
opodoLeństwa obu iloczynów.
Wzór ten możemy rozpisać, posługując się prawdopodobieństwami, które odczytamy z drzewka. Otrzymamy wtedy: P(A n B) = P(A) x P(B | A) P(A ’ n B) = P(A ’) x P(B | A ’)
/
W efekcie otrzymujemy:
P(B) = P(A) x P(B | A) + P(A’) x P(B | A’) Uzyskaliśmy formułę, którą często określa się jako wzór na prawdopodobieństwo całkowite, ponieważ pokazuje sposób na obliczenie całkowitego prawdopodobieństwa zajścia danego zdarzenia w oparciu o prawdopodobieństwa warunkowe.
Teraz, kiedy już umiemy policzyć licznik i mianownik wyjściowej formuły, możemy łatwo wyznaczyć szukane prawdopodobieństwo P(A | B).
210
Rozdział 4.
Prawdopodobieństwo zdarzeń
Twierdzenie Bayesa
Spokojnie Twierdzenie Bayesa jestjedną z bardziej złożonych koncepcji w teorii prawdopodobieństwa.
Przypomnijmy: naszym ostatnim celem było wyznaczenie prawdopodobieństwa P(A | B) na podstawie informacji zawartych na drzewku stochastycznym. Znaliśmy zarówno P(A), jaki P(B | A) czy też P(B | A ’). D obrze byłoby jednak znać ogólny sposób postępowania, który pozwoliłby nam znaleźć P(A | B).
Nie martw się zbytnio, jeśli wydaje Ci się mocno skomplikowane — to naprawdę nie jest łatwa sprawa. Choć już sama formuła jest dość skomplikowana, wszystko staje się bardziej jasne, gdy wykreślimy drzewo stochastyczne.
Zaczęliśmy od zapisania definicji prawdopodobieństwa warunkowego: P(A n B) P(A | B) =
P(B)
¿ ¿ f r'enń*
a’ ta fb,
'rfnukra.._
N a stronie 195 odkryliśmy, że P(A n B) = P(A) X P(B | A). Z kolei na poprzedniej stronie zapisaliśmy: P(B) = P(A) X P(B | A) + P(A ’) X P(B | A ’). Gdy uwzględnimy to w pierwotnej formule, otrzymamy:
P(A) x P(B | A)
p rzyjm u je taką p o stać -
P(A | B) = P(A) x P(B | A) + P(A’) x P(B | A’) Równość ta przedstawia treść tak zwanego twierdzenia Bayesa. Pozwala ono znaleźć prawdopodobieństwo warunkowe po zamianie zdarzeń miejscami, co m a szczególnie duże znaczenie wtedy, gdy nie znamy z góry wszystkich prawdopodobieństw potrzebnych do jego znalezienia.
... podziel iloczyn praw dopodobieństw
lezą pych na tej g a tę z i-
.. przez su w ę praw dopodobieństw wyznaczonych dla obu tych g atęzi.
P (B '|A ')
B1
jesteś tutaj ►
211
Ćwiczenie [nieco dłuższe) Ćwiczenie ________________________________________________________________________________________ I Ł , (nieco dłuższe)
m
Producent gier komputerowych, firma Manie Mango, zacząt testy rynkowe dwóch całkiem nowych gier. Zaproponowano grupie ochotników wybór jednej z nich i poproszono, by podzielili się swoimi wrażeniami po rozegraniu kilku rund gry. 80% ochotników zdecydowało się na grę 1, a tylko 20% na grę 2. Spośród zwolenników gry 1 60% było zadowolonych z gry, a 40% nie. Wśród grających w grę 2 70% miało pozytywne zdanie o grze, a 30% negatywne. Pierwszym z Twoich zadań będzie wykreślenie drzewka stochastycznego dla tego scenariusza.
212
Rozdział 4.
Prawdopodobieństwo zdarzeń
Pracownicy Manic Mango wybrali losowo jednego z graczy i zapytali go, czy jest zadowolony z gry, którą testował. Odpowiedział twierdząco. Zakładając, że ten gracz jest zadowolony z gry, odpowiedz, jakie jest prawdopodobieństwo tego, że grał on w grę 2. Posłuż się twierdzeniem Bayesa.
Wskazówka: ja kie j e s t prawdopodobieństw tego, że ktoś, kto wybrat grą 2, byt z niej zadowolony? Jakie j e s t prawdopodobieństwo tego, że dowolnie wybranu gracz bądzie zadowolony z gry? Kiedy odpow iesz na te pytania, m ożesz wykorzystać tw ierdzenie B ayesa, by rozwiązać zadanie.
jesteś tutaj ► 213
Ćwiczenie (nieco dłuższe): Rozwiązanie
J
#
Ćwiczenie _ (nieco dłuższe) Rozwiązanie
:
Producent gier komputerowych, firma Manic Mango, zaczął testy rynkowe dwóch całkiem nowych gier. Zaproponowano grupie ochotników wybór jednej z nich i poproszono, by podzielili się swoimi wrażeniami po rozegraniu kilku rund gry. 80% ochotników zdecydowało się na grę 1, a tylko 20% na grę 2. Spośród zwolenników gry 1 60% było zadowolonych z gry, a 40% nie. Wśród grających w grę 2 70% miało pozytywne zdanie o grze, a 30% negatywne. Pierwszym z Twoich zadań będzie wykreślenie drzewka stochastycznego dla tego scenariusza.
214
Rozdział 4.
Prawdopodobieństwo zdarzeń
Pracownicy Manic Mango wybrali losowo jednego z graczy i zapytali go, czy jest zadowolony z gry, którą testował. Odpowiedział twierdząco. Zakładając, że ten gracz jest zadowolony z gry, odpowiedz, jakie jest prawdopodobieństwo tego, że grał on w grę 2. Posłuż się twierdzeniem Bayesa. M usim y wykorzystać tw ierdzenie B ayesa, by wyznaczyć P(gra 2 I zadowolony). Oznacza to, że m usim y obliczyć: P(gra 2 ) PCzadowolony I gra 2) P(gra 2 I zadowolony) = ---------------------------------------------------------------------------------------------------------------P(gra I) PCzadowolony I gra I) + P(gra 2) PCzadowolony I gra 2) Zacznijm y od obliczenia wartości licznika.
Z tre ś c i wynika, że P(gra 2) = 0,2 oraz że PCzadowolony I gra 2 ) = 0,7. Oznacza to, że: P(gra 2 ) PCzadowolony I gra 2) = 0 ,2 x 0,7 = = 0,14 M usim y je s z cze znaleźć P(gra I) PCzadowolony I gra I), Wiemy, że PCzadowolony I gra I) = 0,3 oraz pam iętam y, że P(gra 2) = 0 ,2 . Stąd: P(Gra I) PCzadowolony I gra I) = 0 ,8 x 0,3 = 0,48
Podstawiając te dane do wzoru Bayesa, otrzymujemy: P(gra 2) PCzadowolony I gra 2) P(gra 2 I zadowolony) = ------------------------------------------------------------------------------------------------------------------- = P(gra I) PCzadowolony I gra I) + P(gra 2) PCzadowolony I gra 2) 0,14 0,48+0,14 0,14
0,62 = 0,26 (zaokrąglone do 2 m iejsc po przecinku)
jesteś tutaj >
215
Podstawowe terminy
Podstawowe terminy Wzór na prawdopodobieństwo catkowite Gdy mamy do czynien ia z dwoma zda rzen iam i: A i B, wówczas: P (B )
= P (B
n
A ) t P(B
n A ")
=
= P (A ) P(B | A ) + P (A ’ ) P(B I A ')
Podstawowe terminy Twierdzenie Bayesa Kiedy mamy do czynienia z dwoma zdarzeniami A i 8 , wówczas:
| w
216
Rozdział4.
1 B) =
P (A ) P (8
| A ) __________
’^ ^ J ’p c b ^ ^ ’^ ^ ^ Ó b ' i ' ^ ' )
Prawdopodobieństwo zdarzeń
^ : Kiedy więc powinienem stosować twierdzenie Bayesa? 0 : Zawsze wtedy, gdy musisz wyznaczyć
^ : Kiedy obliczaliśmy P(czarne | parzyste) zignorowaliśmy zupełnie możliwość wypadnięcia pola zielonego. Czy nie popełniliśmy błędu?
prawdopodobieństwo warunkowe zamieniając kolejności zdarzeń.
^ : Czy zawsze muszę wykreślać drzewka stochastyczne?
mogłoby Clę kosztować kilka punktów
ruletki są tylko dwa pola zielone: O i 00, przy czym żadnego z tych num erów nie
ze statystyki. Zawsze stosuj w zór Bayesa,
zaliczyliśmy do liczb parzystych. Innymi
by mleć pewność, że dobrze policzyłeś
słowy, P(parzyste | kolor zielony) = 0,
prawdopodobieństwa warunkowe.
ze wzoru Bayesa albo też posłużyć
obliczenia.
się drzewkiem. Korzystanie ze wzoru
się prawdopodobieństwa występujące we wzorze. Wykreślenie drzewka przyda się wtedy, gdy nie pamiętamy wzoru Bayesa.
przyjmowanie podobnych założeń w teście sprawdzającym Twoją wiedzę
zatem nie m a to w pływ u na nasze
przy tym pewność, że poprawnie liczy
równe P(B | A). Są to prawdopodobieństwa dwóch różnych zdarzeń, więc
0 : Nie, wszystko jest w porządku. Na kole
0 : Możesz skorzystać bezpośrednio
jest dużo szybsze, ale trzeba mleć
Kiedy mamy dwa zdarzenia: A i B, nie możemy zakładać, że P(A | B) jest
^ : Prawdopodobieństwo P(czarne | parzyste) jest równe prawdopodobieństwu P(parzyste | czarne): oba są równe S/9. Czy tak jest zawsze?
^ : Czy twierdzenie Bayesa jest naprawdę użyteczne w codziennym życiu? 0 : Oczywiście, nawet bardzo. Na przykład można się nim posłużyć do wyznaczenia prawdopodobieństwa tego, żeTwój e-mall jest pewną form ą spamu. Dość często
Tym sposobem otrzym am y Identyczny wynik, ale nie będziemy się musieli obawiać
0 : Rzeczywiście, tak się złożyło, że oba
jest też wykorzystywane w badaniach
tego, że pominiemy jakąś ścieżkę dojścia
prawdopodobieństwa są równe, ale nie jest
medycznych.
do prawdopodobieństwa występującego
to regułą i nie zdarza się zawsze.
w mianowniku.
Mamy zwycięzcę! Gratulacje, tym razem kulka zatrzymała się na polu z num erem 10, który jest liczbą parzystą, a samo pole m a kolor czarny. Odzyskałeś kilka żetonów.
jesteś tutaj ► 217
Zdarzenia zależne
Czas na ostatni zakład Zanim odejdziesz od stołu gry, spróbuj szczęścia po raz ostatni. K rupier proponuje Ci dobry zakład: potrójna stawka albo nic. Jeśli założysz się, ze kulka zatrzyma się na czarnym polu dwa razy z rzędu, możesz odzyskać wszystkie swoje żetony. Oto drzewko stochastyczne dla takiego scenariusza. Zauważ, że wartości prawdopodobieństw tego, że kulka zatrzyma się dwa razy z rzędu na polu czarnym, są nieco inne od wyznaczonych na stronie 196, gdzie obliczaliśmy prawdopodobieństwo wypadnięcia liczby parzystej, pod warunkiem że pojawił się kolor czarny.
218
Rozdział 4.
— 'v Czy cŁujesŁ, ( ¿ e s z c z ę ś c ie f Ci sp rz y ja ? V __,
O O
Prawdopodobieństwo zdarzeń
Gdy zdarzenia wpływają na siebie, są zdarzeniami zależnymi Zdarzenie polegające na wyrzuceniu dwa razy z rzędu pola czarnego jest nieco innej natury niż to, ze wypadnie liczba parzysta, pod warunkiem ze wypadło pole czarne. Spójrz na poniższy wzór:
P (p arzyste | czarn e) = 10/18 r " W przypadku P(parzyste | czarne) m wpływa w pewnym sensie to, że wypa> się na polu czarnym, i robimy użytek oznaczono liczbą parzystą, ale tylko s Gdybyśmy nie wiedzieli, że kulka zati prawdopodobieństwo przyjęłoby oczy wystarczy zliczyć liczbę wszystkich pó pól na kole ruletki:
P(parzyste) = 18/38 = 0,474 P(parzyste | czarne) nie jest tym samym co r^parzysiey mnymi siowy, nasza wieuza o tym, że wypadło pole czarne, wpływa na wartość prawdopodobieństwa. D latego te dwa zdarzenia nazywamy zdarzeniami zależnymi. Uogólniając to wszystko, możemy powiedzieć, że zdarzenia A i B są zależne, gdy P(A | B) jest różne od P(A). Jest to inny sposób na stwierdzenie, że zdarzenia A i B wpływają nawzajem na siebie.
B
Spójrz ponow nie na drzewo stochastyczne zamieszczone na poprzedniej stronie. Czy możesz coś powiedzieć o kolejnych poziomach drzewka? Czy zdarzenia polegające na otrzym aniu pola czarnego za pierwszym I za drugim razem są zależne? Dlaczego?
jesteś tutaj ► 219
Zdarzenia niezależne
Jeśli zdarzenia nie wpływają na siebie, są niezależne Nie wszystkie zdarzenia są zależne. Niekiedy zajście jednego zdarzenia w najmniejszym stopniu nie wpływa na zajście innego zdarzenia, a prawdopodobieństwo jego zajścia pozostaje takie samo bez względu na to, czy to zdarzenie zaszło, czy nie. Jako przykład spójrzmy na prawdopodobieństwa P(czarne) oraz P(czarne | czarne). Co można o nich powiedzieć?
P(czarne) = 18/38 = 0,474
6
■
T. -
' niezależne
P(czarne | czarne) = 18/38 = 0,474 O ba prawdopodobieństwa m ają tę samą wartość. Innymi słowy, zdarzenie polegające na otrzymaniu koloru czarnego za pierwszym razem nie ma wpływu na szanse otrzymania koloru czarnego w drugim rzucie. Te zdarzenia są zdarzeniami niezależnymi. Zdarzenia niezależne nie podlegają wpływowi innych zdarzeń. Prawdopodobieństwa ich zajścia nie zależą od siebie nawzajem. Gdy jedno z nich realizuje się, prawdopodobieństwo pojawienia się drugiego pozostaje bez zmiany.
Czy myślisz, że obchodzi mnie twój wynik? Nie ma na mnie żadnego wpływu. Tak jakby cię tu nie było.
Gdy dwa zdarzenia A i B są niezależne, prawdopodobieństwo zajścia jednego z nich (np. A) nie zależy od zajścia drugiego (np. B). Innymi słowy, dla zdarzeń niezależnych zachodzi:
P(A | B) = P(A) Tę równość możemy wykorzystać jako swego rodzaju test na niezależność. Jeśli mamy do czynienia z dwoma zdarzeniami A i B, przy czym P (A |B ) = P(A), zdarzenia A i B muszą być niezależne.
220
Rozdział 4.
O
Cóż, ty rów nież na mnie nie wpływasz. Nie obchodzi mnie to , czy tu je s te ś , czy nie. Sądzę, ż e jesteśm y od siebie n ie za le żn e .
Prawdopodobieństwo zdarzeń
Kilka słów o liczeniu prawdopodobieństw dla zdarzeń niezależnych D la zdarzeń niezależnych łatwo można policzyć także inne prawdopodobieństwa, na przykład P(A n B). Wiemy już, że: P(A n B) P(A | B)
P(B) Jeśli zdarzenia A i B są niezależne, P(A | B) jest dokładnie równe P(A). Oznacza to, że: P(A n B)
P(A) P(B) czyli dla zdarzeń niezależnych:
P(A n B) = P(A) x P(B) Innymi słowy, jeśli dwa zdarzenia są niezależne, możesz łatwo wyznaczyć prawdopodobieństwo tego, że zajdą one jednocześnie, mnożąc przez siebie prawdopodobieństwo zajścia każdego z nich.
_
J e ś li A i B t o z d a r z e n ia w z a je m n ie s ię w y k lu c z a ją c e , n ie m o g ą b y ć n ie z a le ż n e . J e ś li z a ś A i B s ą n ie z a le ż n e , n ie m o g ą w z a je m n ie s ię w y k lu c z a ć . Jeśli A i B wzajemnie się wykluczają, wtedy gdy zajdzie zdarzenie A, zdarzenie B na pewno nie zajdzie. Oznacza to, że zajście zdarzenia A wpływa na realizację zdarzenia B. To oznacza, że są to zdarzenia zależne. Podobnie, je ś li A i B są niezależne, nie mogą się wzajemnie wykluczać.
^Zaostrz ołówek Czas policzyć kolejne prawdopodobieństwo. Jakie jest prawdopodobieństwo pojawienia się koloru czarnego dwa razy z rzędu?
jesteś tutaj ► 221
Zaostrz ołówek: Rozwiązanie
_
» Zaostrz ołówek ____________________________________________________ \
Rozwiązanie
Czas policzyć kolejne prawdopodobieństwo. Jakie jest prawdopodobieństwo pojawienia się koloru czarnego dwa razy z rzędu?
M usim y znaleźć PCczarne w grze 1 n czarne w grze 2). Ponieważ te zdarzenia s ą niezależne:
18/38 x 18/38 = 32 4/1444 = 0,224 (z dokładnością do trzech m iejsc po przecinku)
i Nie.is+nieja.
głupie pytania ^ : Jaka jest różnica między zdarzeniami niezależnymi a wzajemnie się wykluczającymi?
(P
: Czy kolejne partie gry w ruletkę są od siebie niezależne? Dlaczego? 0 : Tak, są niezależne. Kolejne wprawienia
0 : Załóżmy, że mamy dwa zdarzenia: A i B.
koła w ruch nie mają w pływ u na siebie.
Jeśli A i B wzajemnie się wykluczają, wtedy
W każdej partii prawdopodobieństwa
zajście zdarzenia A oznacza, że nie zajdzie
zatrzymania się kulki na polu czarnym,
zdarzenie B. I odwrotnie. Innymi słowy, oba
czerwonym czy zielonym są zawsze takie
te zdarzenia nigdy nie zajdą jednocześnie.
same.
Jeśli A i B są niezależne, w tedy zajście zdarzenia A nie ma zupełnie wpływ u na zdarzenie B. I odwrotnie. Zdarzenia te nie w pływają wzajemnie na szanse swojej realizacji.
^ : Czy oba zdarzenia muszą być niezależne? Czy może się zdarzyć, że jedno będzie zależało od drugiego, a drugie nie będzie zależało od pierwszego? 0 : Nie. Dwa zdarzenia są niezależne
względem siebie i nie może się zdarzyć tak, że jedno będzie zależne od drugiego, a to drugie nie będzie zależne od pierwszego.
222
Rozdział 4.
P
: Pokazaliście mi, jak na drzewku stochastycznym można przedstawić zdarzenia niezależne. Czy mógłbym wykorzystać diagramy Venna do zilustrowania zdarzeń niezależnych? 0 : Diagram Venna nie jest najlepszą m etodą prezentowania informacji o niezależności zdarzeń. Sprawdza się on świetnie, gdy trzeba pokazać części wspólne zdarzeń i sprawdzić, czy zdarzenia wzajemnie się wykluczają. Ale nie nadaje się najlepiej do badania zależności.
Podstawowe terminy Niezależność zdarzeń Jeśli dwa zdarzenia, A i B, są niezależne, wówczas P(A I B ) = P(A) Jeśli ta równość je s t spełniona dla dowolnych dwóch zdarzeń, muszą być one niezależne od siebie. Wówczas: P(A n B ) = P(A) x P(B).
Prawdopodobieństwo zdarzeń
Przypadek dwóch zajęć The H ead First H ealth Club jest dumny z tego, ze potrafi znaleźć odpowiednią grupę ćwiczeniową dla każdego klienta. D latego właśnie cieszy się tak dużą popularnością zarówno wśród starszych, jak i młodszych klientów.
I
Iro n ie
W te llc ie j a \je m r% ic y
j
Pracownicy klubu pracują właśnie nad przygotowaniem optymalnej strategii marketingowej zajęć jogi. Szef działu m arketingu zastanawia się, czy fakt, że dany klient uczęszcza na zajęcia pływania, zwiększa szanse na to, że będzie on zainteresowany zajęciami jogi. „Być może w arto zaoferować jakąś zniżkę uczestnikom zajęć W pływ ania by zachęcić ich do spróbowania jogi” Szef klubu nie zgadza się. „Myślę, że się mylicie” — powiedział. „Wydaje mi się, że ludzie, którzy przychodzą do nas na zajęcia pływania, i ludzie, którzy ćwiczą jogę, to dwie zupełnie niezależne grupy. Nie wydaje mi się, by ludzie chodzący na zajęcia pływania byli bardziej zainteresowani zajęciami jogi niż ktokolwiek inny”. Zapytano więc grupę 96 klientów firmy, czy chodzą na zajęcia pływania bądź jogi. Spośród 96 klientów 32 chodzi na zajęcia jogi, a 72 na zajęcia pływania. 24 klientów korzysta z zajęć obu rodzajów.
Kto ma rację? Czy chodzenie na zajęcia zjo g i i chodzenie na zajęcia pływ ania to zdarzenia zależne czy niezależne?
jesteś tutaj ► 223
Pogawędki przy kominku: Zdarzenia Zależne i Niezależne
Pogawędki pzzy kominku Dzisiejszy tem at: Zdarzenia Zależne i Niezależne mówią o tym, co je różni
Zdarzenie Zależne:
Zdarzenie Niezależne:
Z darzenie Niezależne, miło cię widzieć. Chciałem zamienić z tobą słowo od jakiegoś czasu. Doprawy, Zdarzenie Zależne? Dlaczegóż to? Słyszałem, że nadal sprawiasz spore problem y młodym adeptom statystyki. Idzie im całkiem nieźle, dopóki nie pojawisz się ty. Bo wtedy wszystko zaczyna się psuć, żadne prawdopodobieństwo nie jest policzone dobrze! Zwłaszcza gość nazywany n m a o tobie szczególnie złe zdanie. Cóż, jest mi przykro, że n mówi o mnie takie rzeczy; wydawało mi się, że znacznie upraszczam mu życie. Chcesz wyznaczyć prawdopodobieństwo zajścia dwóch niezależnych zdarzeń? Nic prostszego! Po prostu pomnóż przez siebie prawdopodobieństwo zajścia każdego z nich. I nie musisz robić nic więcej. Ale to właśnie to nadm ierne upraszczanie pewnych rzeczy wpędza ludzi w kłopoty. Myślą sobie: „O, ten gość wygląda całkiem przyjaźnie. Wykorzystam go do policzenia tego prawdopodobieństw a”. Z resztą, jak pewnie wiesz, n wcale nie jest łatwy do policzenia. Nie jest to najlepszy sposób postępow ania ze zdarzeniami zależnymi.
Z daje się, że rzeczywiście nie rozumiesz powagi sytuacji. Gdy ludzie wykorzystują ciebie do policzenia prawdopodobieństwa n i jeśli są one zależne, z całą pewnością otrzymają zły wynik. Przyznasz, że to niedobrze. D la zdarzeń zależnych dajesz prawidłowe wyniki tylko wtedy, gdy weźmiesz dodatkowo pod uwagę gościa nazywanego |, czyli warunek.
224
Rozdział4.
W porządku, tylko że ty za bardzo wyolbrzymiasz ten problem . N aw et jeśli ludzie decydują się skorzystać z mojej pomocy zamiast z twojej, nie wydaje mi się, by miało to aż tak duże znaczenie.
N ie mogę powiedzieć, bym przywiązywał do niego szczególną uwagę. D la zdarzeń niezależnych takie prawdopodobieństwa są niezmienne.
Prawdopodobieństwo zdarzeń
Zdarzenie Zależne:
Zdarzenie Niezależne:
Widzisz, znów to robisz; zbytnio upraszczasz te sprawy. Cóż, mam tego dość. Myślę, że ludzie najpierw powinni pomyśleć o mnie, nim skierują się ku tobie; to by rozwiązało wszystkie tego typu problemy. Tak? A niby jak? Dzięki temu, że ludzie zaczęliby się zastanawiać, czy zdarzenia są zależne, czy nie. O to przykład. Wyobraź sobie, że masz talię 52 kart, spośród których 13 to karo. Załóżmy, że losowo wybierasz jedną kartę i jest nią właśnie karo. Jakie jest prawdopodobieństwo takiego zdarzenia? To proste. 13/S2, czyli V4A co, gdybyś wybrał drugą kartę? Jakie jest teraz prawdopodobieństwo tego, że i tym razem będzie to karo? Prawdopodobieństwo jest takie samo, prawda? Czyli V4.
Nieprawda! Te zdarzenia są zależne. Przecież w talii nie ma już 13 kar. Wylosowałeś już jedno, zatem pozostało 12 kar wśród 51 kart. Prawdopodobieństwo spadło więc do 12/S1, czyli 4/17. To n ie /a ir, bo ja przyjąłem założenie, że włożyłeś tę kartę z powrotem do talii! W tedy prawdopodobieństwo wyciągnięcia karty tego koloru byłoby dokładnie takie samo jak poprzednio, więc miałbym rację. O ba ciągnięcia byłyby niezależne. Ale nie były. Gdy ludzie myślą najpierw o tobie, mają tendencję do przyjmowania szeregu fałszywych założeń. Nic dziwnego, że i n się w tym wszystkim pogubił.
Cóż, dziękuję za rozmowę, Zdarzenie Zależne. Cieszę się, że mieliśmy możliwość wyjaśnić sobie parę spraw. Nie m a sprawy. Następnym razem po prostu lepiej zastanów się nad podobnymi problemami.
jesteś tutaj ► 225
Wielka tajemnica rozwiązana
Przypadek dwóch zajęć: Rozwiązanie Czy zajęcia zjogi i zajęcia pływania to zdarzenia zależne czy niezależne? Szef klubu miał rację — oba zdarzenia są niezależne. O to, skąd to wiedział. 32 klientów spośród ankietowanych 96 chodzi na zajęcia jogi, zatem: P(joga) = 1/3
ro z w i^ z ^ n a
72 klientów chodzi na zajęcia pływania, stąd: P(pływanie) = 3/4 24 klientów korzysta z obu rodzajów zajęć, zatem: P(joga n pływanie) = 1/4. Ale skąd wiemy, ze oba zdarzenia są niezależne? Gdy przemnożysz P(joga) przez P(pływanie), otrzymasz: P(joga) x P(pływanie) = 1/3 x 3/4 = = 1/4. A to jest równe P(joga n pływanie). Stąd wiadomo, że oba zdarzenia są niezależne.
226
Rozdział 4.
Prawdopodobieństwo zdarzeń
Zależne _______ czy niezależne? Poniżej zamieszczono opisy kilku sytuacji z życia codziennego. Twoim zadaniem jest stwierdzenie, które z nich opisują zdarzenia zależne, a które niezależne.
Zależne
Niezależne
□
□
□
□
Uzyskanie orzełka w wyniku rzutu m onetą dwa razy z rzędu.
Wyjmowanie kolejnych skarpetek z szuflady aż do znalezienia tych do pary.
Wybranie dwa razy z rzędu czekoladki deserowej z pudełka czekoladek.
Pobranie dwóch kart z talii, jedna po drugiej.
Pobranie karty z talii kart, zwrócenie jej do puli, a następnie pobranie karty po raz kolejny.
O pady deszczu, jeśli dziś jest czwartek.
jesteś tutaj ► 227
Zależne czy niezależne: tozwiqzanie
Zależne czy niezależne?
Rozwiązanie
Poniżej zamieszczono opisy kilku sytuacji z życia codziennego. Twoim zadaniem jest stwierdzenie, które z nich opisują zdarzenia zależne, a które niezależne. W ynik drugiego rz u tu nie za le ży od w yn iku pierw szego.
Uzyskanie orzełka w wyniku rzutu m onetą dwa razy z rzędu.
Zależne
Niezależne
□
S
praw dopodobieństw a.
Wyjmowanie kolejnych skarpetek z szuflady aż do znalezienia tych do pary.
□
Wybranie dwa razy z rzędu czekoladki deserowej z pudełka czekoladek.
□
Pobranie dwóch kart z talii, jedna po drugiej.
S
Pobranie karty z talii kart, zwrócenie jej do puli, a następnie pobranie karty po raz kolejny.
Opady deszczu, jeśli dziś jest czwartek.
228
'
Rozdział 4.
'
□
□ S '
To, czy spadnie deszcz, nie j e s t ani mniej, s ani bardziej prawdopodobne tylko dlatego, źe d ziś j e s t czw artek. Dlatego te zdarzenia s ą niezależne.
□
S '
Prawdopodobieństwo zdarzeń
Zwycięzcą je s t... W obu seriach kulka zatrzymała się na polu czerwonym o numerze 30, a zatem wygrałeś! Podwoiłeś swoją wygraną. Przy okazji pobytu w kasynie Fat D an’s dowiedziałeś się sporo na tem at prawdopodobieństwa. Jak się przekonałeś, wiedza ta jest bardzo użyteczna w tego rodzaju przybytku. Szkoda jednak, że nie udało Ci się wygrać więcej żetonów, niż przyniosłeś ze sobą. [Kom entarz szefa kasyna:
Co za ulga!]
To wspaniale, ¿e umiemy oszacować nasze szanse na wygraną w tych wszystkich zakładach, ale czy to naprawdę wszystko, co powinniśmy wiedzieć, by dokonywać bardziej świadomych wyborów?
Oprócz informacji o tym, jakie są szanse na wygraną w grze, powinieneś jeszcze wiedzieć, jak wiele obstawić, by wygrać, biorąc po uwagę ryzyko, jakie się z tym wiąże. Obstawianie zdarzeń o małym prawdopodobieństwie realizacji może mieć sens jedynie wtedy, gdy wiąże się z nimi dość wysoka wygrana, która skompensowałaby zwiększone ryzyko porażki. W następnym rozdziale przyjrzymy się tem u, jak można uwzględnić oczekiwaną wypłatę w naszych obliczeniach, by podejmować jeszcze bardziej świadome decyzje.
jesteś tutaj ► 229
Łamigłówka
Trzej roztargnieni przyjaciele Trzech roztargnionych przyjaciół chciało się spotkać na wspólnym obiedzie, jednak żaden z nich nie pam iętał, w którym lokalu mieli zjeść posiłek. Fred zdecydow ał się rzucić m onetą. Gdy w ypadnie orzełek, p ostanow ił Iść do taniej knajpy, gdy reszka — do włoskiej restauracji Również George rzucił m onetą. Gdy w ypadnie orzełek, zdecydow ał się Iść do włoskiej restauracji, gdy reszka — do taniej knajpki. Ron zdecydował, że pójdzie po prostu do włoskiej restauracji, ponieważ uwielbia włoską kuchnię. Jakie są w tej sytuacji szanse na to, że wszyscy przyjaciele spotkają się na obiedzie? Jakie jest praw dopodobieństw o tego, że jeden z nich zje obiad samotnie?
230
Rozdział4.
Prawdopodobieństwo zdarzeń
Spróbuj znaleźć prawdopodobieństwo wygranej w paru innych zakładach ruletki.
1.
2.
3.
4.
Prawdopodobieństwo wypadnięcia liczby 17, jeśli wiadomo, że kulka zatrzymała się na polu czarnym.
Prawdopodobieństwo wypadnięcia liczby 22 dwa razy z rzędu.
Prawdopodobieństwo wypadnięcia liczby większej niż 4, jeśli wiadomo, że kulka zatrzymała się na polu czerwonym.
Prawdopodobieństwo wypadnięcia liczby 1, 2, 3 lub 4.
jesteś tutaj ► 231
Łamigłówka: Rozwiązanie
Trzej roztargnieni przyjaciele: Rozwiązanie Trzech roztargnionych przyjaciół chciało się spotkać na wspólnym obiedzie, jednak żaden z nich nie pam iętał, w którym lokalu mieli zjeść posiłek. Fred zdecydow ał się rzucić m onetą. Gdy w ypadnie orzełek, postanow ił iść do taniej knajpy, gdy reszka — do włoskiej restauracji. Również George rzucił m onetą. Gdy w ypadnie orzełek, zdecydow ał się iść do włoskiej restauracji, gdy reszka — do taniej knajpki. Ron zdecydował, że pójdzie po prostu do włoskiej restauracji, ponieważ uwielbia włoską kuchnię. Jakie są w tej sytuacji szanse na to, że wszyscy przyjaciele spotkają się na obiedzie? Jakie jest praw dopodobieństw o tego, że jeden z nich zje obiad samotnie? George
Tania
Fred
Tania
Wtoska
Ron
. Wtoska
Tania
Wtoska Trzej przyjaciele mogą s ię sp o tkać tylko w jednym m ie js cu : we włoskiej restauracji. M usim y znaleźć P(Ron wtoska O Fred wtoska O George wtoska) = = 1 x 0,5 x 0,5 = 0,25 Jedna osoba będzie jadta sam otnie, je śli Fred i George pójdą do knajpy albo gdy Fred pójdzie do knajpy, a George do restauracji, albo te ż gdy George pójdzie do knajpy, a Fred do restauracji... (0,5 x 0,5) + (0,5 x 0,5) + (0,5 x 0,5) = 0,75
232
Rozdział 4.
Wtoska
Prawdopodobieństwo zdarzeń
Spróbuj znaleźć prawdopodobieństwo wygranej w paru innych zakładach ruletki.
Ćwiczenie Rozwiązanie
1. Prawdopodobieństwo wypadnięcia liczby 17, jeśli wiadomo, że kulka zatrzymała się na polu czarnym. Na kole j e s t 18 czarnych pól i jedno z nich oznaczone j e s t numerem 17. PC17 I czarne) = 1/18 = 0 ,0 5 5 6 (z dokładnością do czterech m iejsc po przecinku)
2.
Prawdopodobieństwo wypadnięcia liczby 22 dwa razy z rzędu. M usim y znaleźć P(22 n 22). Ponieważ oba zdarzenia s ą niezależne, prawdopodobieństwo j e s t równe: P(22) x P(22). P(22) wynosi 1 /3 8 , zatem P(22 n 2 2 ) = 1 /3 8 x 1 /3 8 = 1/1444 = 0 ,0 0 0 6 9 (z dokładnością do pięciu m ie jsc po przecinku)
3.
Prawdopodobieństwo wypadnięcia liczby większej niż 4, jeśli wiadomo, że kulka zatrzymała się na polu czerwonym. PCpowyżej 4 ( czerwone) = 1 - P(4 lub mniej I czerwone) = ... S ą 2 czerwone liczby m niejsze od 4, zatem: ... = ! -
4.
(1/1 8 + 1/1 8) = 8 /9 = 0 ,8 8 9 (z dokładnością do trzech m iejsc po przecinku)
Prawdopodobieństwo wypadnięcia liczby 1, 2, 3 lub 4. Prawdopodobieństwo wypadnięcia każdego z tych pól wynosi 1 /3 8 , zatem szukane prawdopodobieństwo wynosi: 4 x 1 /3 8 = 4 /3 8 = 0,105 (z dokładnością do trzech m ie jsc po przecinku)
jesteś tutaj ► 233
234
Rozdział 4.
5. Dyskretne rozkłady prawdopodobieństwa
Zarządzamy oczekiwaniami
+
Zdarzenia mało prawdopodobne czasem się zdarzają, ale jakie są ich konsekwencje? W poprzednim rozdziale przekonaliśmy się, jak rachunek praw dopodobieństw a może pom óc nam ocenić szanse zajścia pewnych zdarzeń. Jednak nie pow ie nam on nic na te m a t w p ły w u tych zdarzeń na nasze życie. Choć przy stole ruletki czasem pada spora wygrana, to jednak — czy jest ona w a rta tych wszystkich pieniędzy, jakie przy okazji m ożna stracić? W tym rozdziale pokażem y Cl, jak m ożna posłużyć się rachunkiem praw dopodobieństw a do p rze w id y w a n ia skutków pow tarzalnych zdarzeń w długich seriach, a także jak m ożna ocenić dokładność takich prognoz.
to jest nowy rozdział ► 235
Jednoręki bandyta
Wracamy do kasyna Dana Czy i Ty poddajesz się hipnotyzującemu wpływowi migających światełek autom atu do gry zwanego „jednorękim bandytą”? A zatem jesteś prawdziwym szczęściarzem. W Fat D an’s Casino znajduje się cały rząd automatów do gry, które tylko czekają na to, by ktoś na nich zagrał. Spróbujmy więc i my (pociągnięcie dźwigni kosztuje 1 dolara). Kto wie, może rozbijemy bank! Jednoręki bandyta posiada trzy okienka, w których pojawiają się różne symbole. Gdy pojawią się one w odpowiedniej kombinacji, z umieszczonego poniżej otworu posypią się monety. Kwota.,jaką można wygrać, wygląda zachęcająco, ale najpierw chciałbym się dowiedzieć, ja k ie mam szanse na wygraną.
Cóż, wydaje się, że szanse te można by łatwo policzyć. Poniżej zamieszczono prawdopodobieństwo pojawienia się danego symbolu w okienku:
$
w is ie n k a
0,1
0 ,2
c y try n k a
W szystkie trzy okienka są od siebie niezależne, zatem pojawienie się danego symbolu w jednym z nich nie m a wpływu na to, co pojawi się w pozostałych okienkach. Prawdopodobieństwo pojawienia s ię wisienki w tym okienku wynosi 0,2
236
Rozdział 5.
in n e 0 ,5
Dyskretne rozkłady prawdopodobieństwa
Wczuj się w rolę gracza Spójrz na planszę z wygranymi zamieszczoną na poprzedniej stronie. Wyobraź sobie, że jesteś graczem, który chce poznać prawdopodobieństwo pojawienia się każdej z kombinacji gwarantujących wygraną. Uzupełnij tabelkę. Jakie jest prawdopodobieństwo tego, że nie wygrasz nic?
prawdopodobieństwo
***
prawdopodobieństwo
prawdopodobieństwo (kolejność dowolna)
prawdopodobieństwo
<ŚP <ŚP "
"
\'n :- -'n :- \'Q-
prawdopodobieństwo braku wygranej
jesteś tutaj ► 237
Wczuj się w rolę gracza: Rozwiązanie
Wczuj się w rolę gracza: Rozwiązanie Spójrz na planszę z wygranymi zamieszczoną na poprzedniej stronie. Wyobraź sobie, że jesteś graczem, który chce poznać prawdopodobieństwo pojawienia się każdej z kombinacji gwarantujących wygraną. Uzupełnij tabelkę. Jakie jest prawdopodobieństwo tego, że nie wygrasz nic?
prawdopodobieństwo (kolejność dowolna)
prawdopodobieństwo
P(t, t, t ) = P (t) X P (t) X P (t) =
S ą trzy możliwości uzyskania takiego wyniku:
= 0,1 x 0,1 x 0,1 = =
P ra w d o p o d o b ie ń stw o p o ja w ie n ia s i ę sy m b o lu dolara w y n o s i 0 ,1 .
0,001
P($, $, w isienka) + P($, wisienka, t ) + P(wisienka, $, $) ■ = (0,12 x 0,2 ) + (0,12 x 0,2 ) + (0,12 x 0,2 ) =
= 0,006
prawdopodobieństwo
prawdopodobieństwo
PCcytrynka, cytrynka, cytrynka) = = P(cutrunka) x P(cutrunka) x P(cutrunka) ■ . Pojawienie s ię c y try n k i w jednym z okienek \ = 0,2 x 0 ,2 x 0 ,2 = nie wptywa na je j ^ Z p o ja w ie n ie s ię
PCwisienka, wisienka, w isienka) = = P(wisienka) x PCwisienka) x P(wisienka)
= 0,2 x 0,2 x 0,2 =
= 0 ,0 0 8
= 0 ,0 0 8
w dwóch pozostałych. Dlatego mnożymy przez siebie te prawdopodobieństwa.
prawdopodobieństwo braku wygranej _ i _ p(w ygrana). To oznacza, że nie uzyskam y żadnej z wygrywających kombinacji. ,
P(przegrana) = 1 - P(t, t , t ) - P($, $, wisienka (kolejność dowolna)) - P(wisienka, wisienka, w isienka) + - PCcytrynka, cytrynka, cytrynka) = 1 - 0,001 - 0,0 0 6 - 0 ,0 0 8 - 0 ,0 0 8 = = 0,977
238
Rozdział 5.
To są prawdopodobieństwa ' w ygranej obliczone wyżej.
Dyskretne rozkłady prawdopodobieństwa
Twofzgmg rozkład prawdopodobieństwa wygranej na autom acie io„ie prawdopodobieństw,
O to prawdopodobieństwa pojawienia się wszystkich kombinacji symboli gwarantujących wygraną:
b ra k
K o m b in a c ja
które pr
c y try n k i
w is ie n k i
0,977
d o la r y
w is ie n k i
w y g ra n e j P r a w d o p o d o b ie ń s t w o
d o la r y /
0 ,0 0 8
0 ,0 0 8
0 ,0 06
0,001
Pewnie takie zestaw ienie może się do czegoś przydać. Czy jednak nie moglibyśmy pójść o krok dalej? b o b rze , z e znamy t e prawdopodobieństwa, ale nadal nie wiemy, ile możemy wygrać.
Chcielibyśmy znać nie tylko prawdopodobieństwo wygranej, ale również to, jak w iele moglibyśmy wygrać. N a razie znamy jedynie prawdopodobieństwa pojawienia się na automacie poszczególnych kombinacji symboli, ale nie wiemy nic o wysokości ewentualnej wygranej. D latego nieco zmodyfikujemy naszą tabelkę, przyporządkowując kolejne prawdopodobieństwa do odpowiadającej im wygranej. Wysokość wygranej odczytaną z informacji umieszczonej na automacie pomniejszymy o kwotę 1 dolara, którą musimy zapłacić, by wziąć udział w grze.
K o m b in a c ja
b ra k w y g ra n e j
c y try n k i
w is ie n k i
d o la r y / d o la r y
d o la r y
W y p ła ta
1 $
4 $
9 $
14 $
19 $
P r a w d o p o d o b ie ń s t w o
0,977
0 ,0 0 8
0 ,0 0 8
0 ,0 06
0,001
Tracimy 1 dolara, je śli nie p o ja w i s ię żadna z kombinacji gwarantujących wygraną.
To te sam e
(
Wyptata przy każdej kombinacji:
wygranej, jaka się z niml wiąże.
W tabeli tej zawarto tak zwany rozkład prawdopodobieństwa wypłat z gry na automacie, bowiem każdej wygranej pomniejszonej o koszt wzięcia udziału w grze przyporządkowano prawdopodobieństwo, z jakim może ona paść.
jesteś tutaj k
239
Rozkłady prawdopodobieństwa : bliska
y
o z
{ s r a \ w ^^ oo {ks oo ^^ oo Pk ii©e n ss lhw ą
z
M i s k a»
Aby stworzyć rozkład prawdopodobieństwa wypłat z gry na automacie, dla każdej możliwej kwoty wypłaty obliczyliśmy prawdopodobieństwo, z jakim może ona paść. Przy opisie tego rodzaju zdarzeń statystycy posługują się tak zwaną zmienną losową, czyli taką zmienną, która może przyjmować różne wartości z pewnego zbioru z określonym prawdopodobieństwem. W naszym przykładzie zmienna losowa reprezentuje wypłatę z gry, a więc wielkość, jaką mamy szansę zarobić, pociągając raz za dźwignię autom atu. Zm ienne losowe oznaczamy zwykle wielkimi literami alfabetu łacińskiego, na przykład X czy Y. Poszczególne wielkości, jakie może przyjąć zm ienna (tak zwane realizacje), oznaczamy odpowiadającymi im małymi literami, na przykład x czy y. T ak więc zapis P(X = x) odczytujemy: „Prawdopodobieństwo, że zmienna X przyjmie wartość x”. T u ta j x * y n0S'
Oto nasz rozkład prawdopodobieństwa zapisany przy wykorzystaniu tej notacji:
1°i
dolarów-
Wartość wy p t a t y N dla każdej kom bin acji s y m b o li j e s f s p r e z e n to w a n a
K o m b in a c ja X
b ra k w y g ra n e j -1 $
P (X = x )
0,977
w is ie n k i
d o la r y /w is ie n k i
d o la r y
4 $
c y try n k i
9 $
14 $
19 $
0 ,0 0 8
0 ,0 0 8
0 ,0 06
0,001
przez x.
- To j e s t P(x =
/
X t0 l o s o w a , zmienna
dolarów.
yskarny 9
T a zmienna losowa jest zmienną dyskretną. Oznacza to, że przyjmuje ona tylko wybrane, dokładne wartości. Rozkład Poissona też jest dyskretny, ale nie jest skończony. O prócz przedstawienia rozkładu prawdopodobieństwa w formie tabelarycznej możemy przedstawić go na wykresie, co znacząco ułatwia dalszą analizę rozkładu. Poniżej zamieszczono przykładowy wykres (słupkowy) dla rozkładu naszej zmiennej.
(Rozkład prawdopodobieństwa wyptaty w grze
x u x
Na tego rodzaju w ykresie s fu p k i są, na ty/e cienkie, że przypominają linie.
ST
P r a w d o p o d o b ie ń s tw a w y g r a n e j g( 1 4 lub 19 dolarów) s ą tak
' ^
mate, że niemal niew idoczne
S - 3!
na w ykre sie .
p ra w d o p o d o b ie ń stw o s tr a ty 1 d o l a r a je s t b lis k ie je d n o ści.
i -1
0
4
9
14
19
X
240
Rozdział 5.
Dyskretne rozkłady prawdopodobieństwa P lacteg o powinnam się prŁejmować roikfadami prawdopodobieństwa? Ja chcę tylko w ie d iie ć , ile mogę wygrać. C ty możemy to po prostu polictyć?
Gdy wyznaczymy już rozkład prawdopodobieństwa, możemy posłużyć się nim do oszacowania oczekiwanej realizacji zmiennej losowej. W naszym przykładzie moglibyśmy wykorzystać wyznaczony rozkład prawdopodobieństwa do oszacowania, jakiej wypłaty moglibyśmy oczekiwać w długiej serii powtórzeń gry na automacie.
^ : Dlaczego zamiast symboli do budowy rozkładu wykorzystujemy liczby? Czy naprawdę tak wiele na tym zyskujemy?
^ : Czy mogę wykorzystać dowolną literę do oznaczenia zmiennej losowej? 0 : Oczywiście że tak, pod warunkiem
0 : Oczywiście moglibyśmy posługiwać
Najczęściej wykorzystuje się litery z końca
się różnymi symbolami, jednak mają one
alfabetu: X ,Y czy Z.
podstawową wadę — nie nadają się że na bazie rozkładu opisanego za pomocą
bandytą" wiem y z góry, jaką wypłatę gwarantują poszczególne kombinacje
że nie będzie to prowadziło do nieporozumień.
do obliczeń. Już niedługo przekonasz się,
0 : Nie jest. W przykładzie z „jednorękim
^ : Czy zmienną i jej realizacje powinienem oznaczać tą samą literą?
symboli. Nigdy nie uda nam się uzyskać kombinacji Innej niż przewidziana przez konstruktora automatu. Czasami mamy do czynienia ze zmiennymi losowymi, które mogą przyjmować dowolną wartość z pewnego przedziału.* Średnica jabłka może przyjmować dowolną
liczb można wyznaczyć różne parametry
wartość na przykład z przedziału 5 - 1 5 cm.
zmiennej losowej. Nie byłoby to możliwe,
0 : W zasadzie mógłbyś użyć różnych
gdybyśmy posługiwali się wyłącznie
liter, ale jak się jeszcze nieraz przekonasz,
Na razie nie musisz się jednak za bardzo
symbolami.
mogłoby to nadmiernie utrudnić rozeznanie
tym przejmować. W rócimy do tego
w danych. Lepiej więc pozostać przy tej
zagadnienia w dalszej części książki. Każda
^ : Czy mogę przedstawić rozkład prawdopodobieństwa na diagramie Venna?
samej literze.
zmienna, którą będziemy się zajmować
0 : Diagramy Venna raczej nie nadają się do tego celu. Zarówno one, jak i drzewa
w tym rozdziale, będzie zmienną dyskretną.
^ : Stwierdziliście, że zmienna dyskretna może przyjmować tylko wybrane, dokładne wartości. Czy nie jest to regułą?
* Liczb naturalnych też jest nieskończenie
stochastyczne są pomocne przy obliczaniu
wiele, ale zmienna losowa przyjmująca
prawdopodobieństw, niekoniecznie przy ich
wartości naturalne jest nadal dyskretna.
wizualizacji.
jesteś tutaj k
241
Wartość oczekiwana i wariancja rozkładów dyskretnych
Wartość oczekiwana pozwala przewidzieć wynik... Znam y już rozkład prawdopodobieństwa wypłaty w grze na automacie, ale nie wiemy, jakiej tak naprawdę wygranej moglibyśmy oczekiwać. Odpowiedź na to pytanie da nam wartość oczekiwana. Jest to jeden z param etrów rozkładu prawdopodobieństwa, mówiący o tym, jakiej przeciętnej wartości zmiennej losowej należy się spodziewać w długiej serii jej realizacji.
Jestem wartością octekiwaną. MoźesŁ mnie tra k to w a ć ja k średnią arytm etycżną.
W artość oczekiwana zmiennej X przypomina nieco średnią arytmetyczną, tyle że jest wyznaczana na podstawie rozkładu prawdopodobieństwa. Liczymy ją w bardzo podobny sposób: wartość każdej realizacji x zmiennej losowej X mnożymy przez jej prawdopodobieństwo, a następnie sumujemy otrzym ane iloczyny. W artość oczekiwaną zmiennej losowej X oznaczamy zwykle symbolem E(X ), jednak równie często wykorzystuje się symbol którym wcześniej oznaczaliśmy średnią arytmetyczną.
E (X ) = M
Oto wzór na policzenie wartości oczekiwanej E(X): Pomnóż każdą wartość x przez jej p r a w d o p o d o b ie ń stw o .
E(X ) = £ x p (X = x) m n o ż e n ie , do d a j do s ie b ie o tr z y m a n e
iloczyny-
Posłużymy się tym wzorem do policzenia wartości oczekiwanej naszej zmiennej. O to jej rozkład (pominęliśmy jednostki):
x
-1
4
9
14
19
P (X = x )
0,977
0 ,0 0 8
0 ,0 0 8
0 ,0 06
0,001
E(X ) = (-1 X 0,977) + (4 x 0,008) + (9 x 0,008) + (14 X 0,006) + (19 X 0,001) = -0,977 + 0,032 + 0,072 + 0,084 + 0,019 = = -0 ,7 7 ^ _ _
Oto wy piata (w dolarach), jakiej możesz oczekiwać, grając na naszym autom acie — jak w id z is z ,je s t ujem na.
Innymi słowy, przy dużej liczbie powtórzeń gry powinieneś oczekiwać, że w każdej z nich stracisz przeciętnie 0,77 dolara. Czyli grając 100 razy, możesz oczekiwać straty na poziomie 77 dolarów.
242
Rozdział 5.
Dyskretne rozkłady prawdopodobieństwa
...a wariancja mówi o tym , ja k bardzo je s t on zmienny W a r t o ś ć o c z e k iw a n a m ó w i o t y m , ja k i e j p r z e c i ę t n i e w y p ła t y p o w in n iś m y o c z e k iw a ć w p o je d y n c z e j g r z e . P o n ie w a ż w n a s z y m p r z y k ł a d z ie je s t o n a u je m n a , z a s t a n a w ia s z s ię z a p e w n e , d la c z e g o lu d z ie d e c y d u ją s ię n a g r ę . O d p o w ie d ź je s t p r o s t a : t o , ż e p o w in ie n e ś o c z e k iw a ć r a c z e j s t r a t n iż z y s k ó w z g r y n a a u t o m a c ie , n ie o z n a c z a je s z c z e , ż e n ie m a s z w o g ó le s z a n s n a w y g r a n ą . T a k j a k ś r e d n ia a r y t m e t y c z n a , w a r t o ś ć o c z e k iw a n a n ie m ó w i n a m w s z y s t k ie g o o d a n y m r o z k ła d z ie . W y n i k i k o le jn y c h p o d e jś ć d o g r y m o g ą s ię d o ś ć z n a c z ą c o r ó ż n ić . J a k s ą d z is z , c z y m o ż e m y z m ie r z y ć t ę z m ie n n o ś ć ?
R o z k ła d p ra w d o p o d o b ie ń stw a w y p ła ty w g rz e
x u
X & wyptata , Skusisz sięO to n a jw y ź s 2 0
-1
0
4
9
14
19
Suma, j ak% mS s liSoś<5 (lub s t r a c ić ) , ro żn i s ię
x
z n a c z n ie .
Tak właśnie myślę... skoro wartość oczekiwana przypomina średnią, to może spróbowalibyśmy wyznaczyć również coś w rodzaju wariancji? Jak p oprzednio...
Dla zmiennych losowych również wyznaczamy wariancję. W a r t o ś ć o c z e k iw a n a p o z w a la o s z a c o w a ć t y p o w ą , p r z e c ię t n ą r e a liz a c ję z m ie n n e j lo s o w e j, a le n ie m ó w i n ic o t y m , j a k b a r d z o j e j w a r t o ś c i m o g ą s ię z m ie n ia ć . W n a s z y m p r z y k ł a d z ie w a r ia n c ja p o z w o l i n a m o s z a c o w a ć , j a k b a r d z o m o g ą r ó ż n i ć s ię o d s ie b ie w y p ła t y w k o le jn y c h p o d e jś c ia c h d o g r y . P o d o b n ie j a k w r o z d z i a l e 3 ., t a k i t u t a j p o s łu ż y m y s ię w ariancją ja k o m ia r ą r o z p r o s z e n ia . Z o b a c z m y , j a k t o w y g lą d a w p r a k t y c e .
jesteś tutaj k
243
Liczymy wariancję dla rozkładów dyskretnych
Wariancja a rozkład prawdopodobieństwa W rozdziale 3. wyznaczaliśmy wariancję dla pewnego zbioru liczb. W pierwszym kroku obliczaliśmy wartość wyrażenia (x-,u )2 dla każdej liczby ze zbioru danych, a następnie wyznaczaliśmy ich średnią arytmetyczną. Podobnie możemy postąpić w przypadku zmiennej losowej. Nie będziemy jednak liczyć średniej wyrażenia (X -,u)2, ale jego wartość oczekiwaną, tak jak w poniższej formule:
V ar(X ) = E(X - m)2 Musimy H u S - u i ^ raier" a Tylko jak? Powstał jednak problem : jak policzyć wartość oczekiwaną (X-ju,)2?
Jak więc wyznaczyć E(X—^ ) 2? Obliczanie E (X -,u )2 przypomina bardzo liczenie zwykłej E(X). Aby policzyć E(X ), musimy przemnożyć każdą wartość zmiennej losowej przez odpowiadające jej prawdopodobieństwo, a następnie dodać do siebie otrzymane iloczyny. Innymi słowy, postępujemy według wzoru:
E(X ) = 2 x P (X = x)
Aby policzyć wariancję zmiennej losowej X, wyznaczamy wartość wyrażenia (x-/n )2 dla każdej wartości x zmiennej X, mnożymy tę wartość przez odpowiadające jej prawdopodobieństwo, a następnie dodajemy otrzymane iloczyny: D la
każdej
w a r to ś c i x w y z n a c z
p r z y p is a n e x -
E(X - m)2 = S(x - M)2P(X = x) . ,■dodaj do siebie wyznaczone iloczyny.
Innymi słowy, zamiast mnożyć x przez odpowiadające mu prawdopodobieństwo, mnożymy przez nie wyrażenie o postaci (x-,u)2.
244
Rozdział 5.
eniem
Dyskretne rozkłady prawdopodobieństwa _ Oto rozktad prawdopodobieństwa dla naszego przyktadu.
Obliczamy wariancję dla naszego przykładu II X,
-1 ><
x
■0
Zobaczmy, jak możemy wykorzystać tę formułę do wyznaczenia wariancji naszej zmiennej losowej. Najpierw odejmiemy wartość oczekiwaną tej zmiennej od każdej z jej realizacji, podniesiemy tę różnicę do kwadratu, a następnie pomnożymy ją przez prawdopodobieństwo przypisane każdej realizacji. D la przypomnienia: E(X ), czyli p , wynosi -0,77 dolara. ^
4
9
14
19
0 ,0 0 8
0 ,0 0 8
0 ,0 06
0,001
0,977
stronje 242 obliczyliśmy = - 0, 77.
£ (X )
V ar(X ) = E ( X - iu )2 = = ( - l + 0,77)2 X 0,977 + (4+0,77 )2 X 0,008 + (9+0,77 )2 X 0,008 + (14+0,77)2 X 0,006 + (19+0,77)2 X 0,001 = = (-0,23)2 X 0,977 + 4,772 X 0,008 + 9,772 X 0,008 + 14,772 X 0,006 + 19,772 X 0,001 =
^
^
(X_u)2 x P(X = x)
= 0,0516833 + 0,1820232 + 0,7636232 + 1,3089174 + 0,3908529 = = 2,6971 Oznacza to, że wariancja zmiennej losowej X (wypłaty w grze) wynosi 2,6971.
A co ł odchyleniem standardowym? C ty ta k ie moiem y j e policzyć?
Podobnie jak wariancję, dla zmiennych losowych możemy także wyznaczyć odchylenie standardowe. Pełni ono podobną rolę jak odchylenie standardow e, które wyznaczyliśmy w rozdziale 3. dla pewnego zbioru liczb. O kreśla ono, jak daleko od centrum rozkładu znajdują się przeciętnie wartości zmiennej. T ak jak poprzednio, wyznaczamy je jako pierwiastek kwadratowy z wariancji:
a = >|Var(X)
oznaczyć tym samym co poprzednio.
Oznacza to, że odchylenie standardowe wypłaty w grze na naszym automacie wynosi V2,6971, czyli 1,642 dolara. M ożna powiedzieć, że wypłata w grze różni się przeciętnie o 1,642 dolara od wartości oczekiwanej, wynoszącej -0,77 dolara.
^ WYSIL SZARE K O M Ó R K I Czy wolałbyś grać na automacie, który charakteryzuje duża, czy mała zmienność wypłat? Dlaczego?
jesteś tutaj ► 245
Nie istniejq głupie pytania i Nie.is+nieja.
głupie pytania ^ : Czyli wartość oczekiwana jest czymś w rodzaju średniej. Czy dla rozkładów prawdopodobieństwa istnieją również odpowiedniki mediany i dominanty?
^ : Czy wariancja i odchylenie standardowe to te same miary, które wyznaczaliśmy dla zbiorów liczb w rozdziale 3.?
^ : Jaka jest więc różnica między automatem o małej wariancji a tym o dużej wariancji wypłat?
0 : W zasadzie tak, z wyjątkiem tego,
generalnie bardziej zróżnicowane kwoty.
0 : M ożna wyznaczyć wartość zmiennej,
że tym razem operujemy na rozkładach
Sumę, jaką w ogólnym przypadku
która ma najwyższe prawdopodobieństwo
prawdopodobieństwa. I wariancja,
otrzymasz, trudniej jest przewidzieć.
realizacji, a więc coś w rodzaju dominanty.
i odchylenie standardowe pozostają
Zapamiętaj, że im mniejsza wariancja,
Zwykle jednak nie robi się tego.
jednak nadal miarami rozproszenia.
tym bliżej oczekiwanej wypłaty będą się
0 : A utom at o dużej wariancji wypłaca
W przypadku rozkładów statystycy najczęściej posługują się wartością oczekiwaną jako miarą tendencji centralnej.
^ : Czy wartość oczekiwana nie powinna znajdować się w zbiorze możliwych realizacji zmiennej losowej?
znajdować kw oty rzeczywiście wypłacone.
^ : Nie do końca rozumiem, dlaczego liczymy E ( x - p ) 2. Czy to nie to samo, jak byśmy policzyli E (x -p ) i podnieśli wynik do kwadratu?
Decydując się na grę na automacie o większej wariancji, będziesz musiał się liczyć z wynikiem, który trudniej przewidzieć.
0 : Nie, to dwie różne wartości. W przypadku E ( x - p ) 2 podnosimy do potęgi drugiej wyrażenie ( x - p )
0 : Niekoniecznie. Tak jak średnia nie
dla każdego x, a następnie wyznaczamy
musi znajdować się w zbiorze danych,
wartość oczekiwaną takich potęg.
dla którego została wyznaczona, tak
Gdy najpierw wyznaczymy E (x -p ),
i wartość oczekiwana nie musi znajdować
a następnie podniesiemy ją do potęgi
się w zbiorze realizacji zmiennej losowej.
drugiej, otrzym amy zupełnie inny wynik. Tak naprawdę w pierwszym przypadku liczymy więc E ( ( x -p ) 2), ale upraszczamy zapis.
Podstawowe terminy Wartość oczekiwana P oniższą formułę w ykorzystujem y do wyznaczania wartości oczekiwanej zm iennej losowej X: £ ( X ) = 2 x P ( X = x)
2 46
Rozdział 5.
Podstawowe terminy Wariancja Wedtug tej formuły wyznaczamy wariancję zm iennej X: Var(X) = E(X - u)2
Dyskretne rozkłady prawdopodobieństwa
Oto rozkład prawdopodobieństwa zmiennej losowej X:
II X,
><
x ■o
Ćwiczenie
1
2
3
4
5
0,1
0,25
0,35
0,2
0,1
1. Ile wynosi E(X)?
2. Ile wynosi Var(X)?
jesteś lulaj ► 247
Ćwiczenie: Rozwiązanie
Oto rozkład prawdopodobieństwa zmiennej losowej X:
Ćwiczenie Rozwiązanie
x
1
2
3
4
5
P (X = x )
0,1
0,25
0,35
0,2
0,1
- i kazoą k a ż d ą w a r to ś ć pomnoz
1.
Ile wynosi E(X)? E(X) = ZxP(X = x) =
2 X “
«»
iloczyny-
= 1x0,1 + 2 x 0 ,2 5 + 3 x 0 ,3 5 + 4 x 0 ,2 + 5x0,1 = = 0,1 + 0,5 + 1,05 + 0,8 + 0,5 = = 2,95
w
s i X » « * T f 3 3 > j * s" bl*
B & S S i 2.
Ile wynosi Var(X)? V ar(Xf = E (X -u )2 = = S( x - u ) 2P(X = x) = = (1 -2 ,9 5 )2x0,1 + (2 -2 ,9 5 ) 2x 0 ,2 5 + ( 3 - 2 ,9 5 ^ x 0 ,3 5 + ( 4 - 2,95)2x 0 ,2 + (5 - 2 ,9 5 ) 2x0,1 = = (-1,95)2x0,1 + ( - 0 ,9 5 ^ x 0 ,2 5 + 0,052x0 ,3 5 + 1,052x 0 ,2 + 2,052x0,1 = = 3,8025 x 0,1 + 0,9025 x 0,25 + 0,0025 x 0,35 + 1,1025 x 0,2 + 4,2025 x 0,1 = = 0,38025 + 0,225625 + 0,000875 + 0,2205 + 0,42025 = = 1,2475
2 48
Rozdział 5.
Dyskretne rozkłady prawdopodobieństwa
Przypadek średnich ruchomych
ro ^ ie w ie lk ie j ta je m n ic y
Lokalna stacja telewizyjna w Statsville nadaje kilka popularnych teleturniejów, z których największą widownią cieszy się „Idź na całość”. K ażdemu uczestnikowi zabawy prezentow ane są skrzynki z umieszczonymi wewnątrz pieniędzmi. Jego zadaniem jest wybór jednej z nich bez zaglądania do środka. N astępnie skrzynki, które nie zostały wybrane przez zawodnika, są stopniowo otwierane. Po ujawnieniu zawartości każdej kolejno otwieranej skrzynki zawodnik musi zdecydować, czy chce pozostać przy swoim pierwotnym wyborze (dokonanym w ciemno), czy też wybrać inną ofertę, którą w międzyczasie złożył mu gospodarz programu. Każda wygrana zawodnika wiąże się z datkiem na miejscowe towarzystwo opieki nad fokami. Uczestnik dzisiejszego teleturnieju jest statystykiem-amatorem. Zdaje sobie sprawę z tego, że znalazłby się w dużo lepszym położeniu, gdyby poznał wartość oczekiwaną kwot zamieszczonych w poszczególnych skrzynkach. Właśnie skończył ją obliczać, gdy podszedł do niego producent teleturnieju. „Wchodzi pan na antenę za 3 minuty” — powiedział producent. „Zmieniliśmy zawartość poszczególnych skrzynek. Zaw ierają one teraz niemal dwa razy tyle pieniędzy co do tej pory. Bez 10 dolarów”. Zawodnik spojrzał na producenta z wyrzutem. Czy to oznacza, że jego obliczenia poszły na m arne? W ątpił w to, by w ciągu trzech minut udało m u się przeprowadzić wszystkie obliczenia od początku. Co więc powinien zrobić?
Czy nasz zawodnik mógłby w prostszy sposób wyznaczyć wartość oczekiwaną, tak by nie zajęło mu to więcej niż 3 m inuty?
jesteś tutaj ► 249
Nowy ’ozkład prawdopodobieństwa
Gdy ceny id | w górę W ciągu kilku ostatnich minut właściciel kasyna podniósł cenę zakładu w grze na autom atach, zwiększając jednocześnie wygrane. O to plansza z nowymi stawkami:
Udziat w grze kosztuje 2 dolary, a nie 1 dolar, jak dotąd.
Stawki wygranych wzrosty p ię c io k ro tn ie .-y
Koszt udziału w grze (pociągnięcia za dźwignię autom atu) wzrósł do 2 dolarów, ale w ślad za tym poszły w górę stawki wygranych — są teraz pięć razy wyższe. Jeśli więc szczęście będzie nam sprzyjać, zarobimy dużo więcej niż poprzednio. Oto nowy rozkład prawdopodobieństwa wypłat w tej grze:
-2 II
<
<
■o
y
0,977
23
48
73
98
0,008
0,008
0,006
0,001
T , V, nie A'
250
Rozdział 5.
Gdybyśmy w iedzieli, jaka je s t wartość oczekiwana i wariancja te j zmiennej, moglibyśmy oszacować wypłatę w długiej serii p ow tórzeń.
Dyskretne rozkłady prawdopodobieństwa
Zaostrz ołówek Jaka jest wartość oczekiwana i wariancja zmiennej losowej Y? Jak się mają te wartości do wyznaczonych poprzednio: wartości oczekiwanej wynoszącej -0,77 dolara oraz wariancji równej 2,6971?
-2 II
<
<
■o
y
0,977
23
48
73
98
0,008
0,008
0,006
0,001
jesteś lulaj ► 251
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
-2
II
<
<
■o
y
0,977
Jaka jest wartość oczekiwana i wariancja zmiennej losowej Y? Jak się mają te wartości do wyznaczonych poprzednio: wartości oczekiwanej wynoszącej -0,77 dolara oraz wariancji równej 2,6971?
23
48
73
98
0,008
0,008
0,006
0,001
ECY) = ( - 2 ) x 0,977 t 2 3 x 0,008 + 48 x 0,008 + 73 x 0,0 0 6 + 98 x 0,001 = = -1,954 + 0,184 + 0,384 + 0,438 + 0,098 = = -0 ,8 5
VaKY) = ECY-u)2= T ,(y -Uy P ( Y = y ) = = (~ 2 + 0 ,8 5 y x 0,977 + (23+0,85P x 0,008 + (48+0,85P x 0,008 + (73+0,85P x 0,006 + (98+0,85P x 0,001 = = f —1,15)2 x 0,977 + 23,852 x 0,008 + 48,852 x 0,008 + 73,852 x 0,006 + 98,852 x 0,001 = = 1,3225 x 0,977 + 568,8225 x 0,008 + 2386,3225 x 0,008 + 5453,8225 x 0,006 + 9771,3225 x 0,001 = = 1,2920825 + 4,55058 + 19,09058 + 32,722935 + 9,7713225 = = 67,4275
Wartość oczekiwana j e s t nieco niższa, a zatem w długiej serii powtórzeń oczekujem y przeciętnej stra ty na poziomie 85 centów w każdej grze. Wariancja je s t dużo większa niż poprzednio. Przeciętnie spodziew am y s ię więc większej stra ty w każdej grze, choć mamy co do tego m niejszą pewność.
O
C zy t o OŁnacŁa., z e p r z y k a id e j ¿mianie stawek p r z e z Pana b ę d z ie m y musieli prŁeprow adiać t e skomplikowane oblicŁenia od pocŁątku?
Stare i nowe stawki wygranych są ze sobą powiązane. Koszt udziału w grze zwiększył się do 2 dolarów, zaś stawki wygranych poszły w górę pięciokrotnie. Skoro jest między nimi tak prosta i bezpośrednia zależność, to warto się przekonać, czy podobne zależności istnieją również między param etram i rozkładów zmiennych X i Y. Przekonajmy się zatem.
252
Rozdział 5.
Dyskretne rozkłady prawdopodobieństwa
Łamigłówka Czas na odrobinę algebry. Uzupełnij luki w poniższych obliczeniach odpow iednim i wartościam i znajdującymi się w basenie. Każdą w artość możesz w ykorzystać tylko
jeden raz,
choć niektóre nie będą Ci potrzebne w ogóle. Jeśli to zadanie wykonasz bezbłędnie, otrzym asz form ułę pokazującą relację między starym i (X) i now ym i (Y) staw kam i w yp ła t w grze na autom acie w kasynie Dana.
X = (stara stawka wygranej) - (stary koszt gry) = = (stara stawka wygranej) - .......................... (stara stawka wygranej) =
+ ...
Y = 5 (stara stawka wygranej) - (nowy koszt gry) = 5 (.............+
)- ........................=
= 5 ...............+ ................ - .......................= =
+
Uwaga: każda wartość
jesteś lulaj ► 253
Łamigłówka: Rozwiązanie
Łamigłówka: Rozwiązanie Czas na odrobinę algebry. Uzupełnij luki w poniższych obliczeniach odpow iednim i wartościam i znajdującymi się w basenie. Każdą w artość możesz w ykorzystać tylko
jeden raz, choć
niektóre nie będą Ci potrzebne w ogóle. Jeśli to zadanie wykonasz bezbłędnie, otrzym asz form ułę pokazującą relację m iędzy starym i (X) i now ym i (Y) staw kam i w yp ła t w grze na autom acie w kasynie Dana.
X = (stara stawka wygranej) - (stary koszt gry) = ^ ------ Koszt
gry
wynosif przedtem 1 dolar.
= (stara stawka wygranej) - ......................... , X 1 W ten sposób (stara stawka wygranej) = X................+ ............. 1......:vC Z s t a r ą sta w k ą /
p rz ed staw iliśm y w yp taty jako
funkcję X. Podstawiamy Y = 5 (stara stawka wygranej) - (nowy koszt gry) wartości starych stawek = 5 (" ^ X + 1 )2 = wygranej.
=5
X
+
15........- .........2............ = x A zatem Y = 5X + 3. M iędzy X i Y istn ieje ściśle określony zw iązek.
Uwaga: każda wartość
254
Rozdział 5.
Dyskretne rozkłady prawdopodobieństwa
Między E(X) i E(Y) istnieje związek liniowy Wiemy już, ze między zmiennymi X (stara wypłata) i Y (nowa wypłata) istnieje zależność liniowa postaci Y = 5X + 3. Chcielibyśmy się teraz dowiedzieć, czy podobna zależność istnieje między E(X ) i E(Y ) oraz V ar(X ) i Var(Y). Gdyby udało nam się potwierdzić istnienie takiej zależności, kolejne zmiany stawek w kasynie D ana nie byłyby dla nas problem em. Potrafilibyśmy bowiem łatwo wyznaczyć nową wartość oczekiwaną i wariancję na podstawie ich wartości sprzed zmiany.
Zaostrz ołówek Spróbujmy sprawdzić, czy istnieje zależność między E(X) i E(Y) oraz Var(X) i Var(Y). 1.
E(X) = -0,77, zaś E(Y) = -0,85. Ile wynosi 5 * E(X)? A ile 5 * E(X) + 3? Jak się to ma do E(Y)?
2.
Var(X) = 2,6971, zaś Var(Y) = 67,4275. Ile wynosi 5 * Var(X)? A ile 52 * Var(X)? Jak się to ma do Var(Y)?
3.
Czy dałoby się uogólnić zaobserwowane zależności dla dowolnych zmiennych losowych pozostających w relacji: Y = aX + b?
jesteś tutaj ► 255
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek _____ Rozwiązanie
Spróbujmy sprawdzić, czy istnieje zależność między E(X) i E(Y) oraz Var(X) i Var(Y).
1. E(X) = -0,77, zaś E(Y) = -0,85. Ile wynosi 5 * E(X)? A ile 5 * E(X) + 3? Jak się to ma do E(Y)? 5 X E(X) = -3 ,8 5
5 x E(X) + 3 = - 0 ,8 5 E(V) = 5 x E(X) + 3
2. Var(X) = 2,6971, zaś Var(Y) = 67,4275. Ile wynosi 5 * Var(X)? A ile 52 * Var(X)? Jak się to ma do Var(Y)? 5 X Var(X) = 13,4855 52 x Var(X) = 67,4275
VarCV) = 52 x Var(X)
3. Czy dałoby się uogólnić zaobserwowane zależności dla dowolnych zmiennych losowych pozostających w relacji: Y = aX + b? E(aX + b )= a E(X) + b Var(aX + b) = a2 Var(X)
Podsumujmy nasze rozważania Podsumujmy to, czego dowiedziałeś się na kilku ostatnich stronach. Najpierw obliczyłeś wartość oczekiwaną i wariancję zmiennej losowej X, która reprezentuje wypłatę w pojedynczej grze na automacie. N astępnie chciałeś się przekonać, jaki wpływ na param etry rozkładu zmiennej X wywrze zm iana stawek zarządzona przez D ana, właściciela kasyna. Nie chciałeś jednak liczyć wszystkiego od początku, dlatego spróbowałeś znaleźć relację między param etram i starego i nowego rozkładu prawdopodobieństwa. Przekonałeś się, ze: E(5X + 3) = 5E(X ) + 3 V ar(5X + 3) = 52Var(X )
2 56
Rozdział 5.
Dyskretne rozkłady prawdopodobieństwa
Ogólne wzory na przekształcenia liniowe Nasze rezultaty możemy uogólnić na dowolną zmienną losową. D la każdej zmiennej losowej X zachodzą poniższe równości:
1
^
E (a X + b) = aE(X ) + b
„ n n a s tę p n i® dodaj o.
P o m n ó ż w a r ia n c ję
p rzez
kw a d ra t
a ( p o m ija ją c b ;.
V ar(aX + b) = a 2Var(X) Tego rodzaju transformacje nazywamy przekształceniami liniowymi, ponieważ zm ienna X występuje w pierwszej potędze, a o zmiennej Y mówimy, że jest funkcją X. Zmieniam y tu jedynie potencjalne wartości X, przekształcając je do postaci aX + b, lecz nie zmieniając prawdopodobieństwa ich realizacji.
^ : Czy a i b muszą być stałymi liczbami? 0 : Muszą. Jeśli a i b nie są stałe, powyższe wzory nie są
^ : Czy naprawdę muszę pamiętać wzory na przekształcenia liniowe parametrów? Czy są one aż tak ważne?
prawdziwe. 0 : Tak, są ważne. Dzięki nim możesz zaoszczędzić m nóstwo czasu,
^ : Co się stało z b w e wzorze na wariancję?
który musiałbyś przeznaczyć na wyznaczanie wartości param etrów rozkładu za każdym razem, gdy zmieniają się wartości zmiennej
0 : Dodanie ustalonej wartości do zmiennej losowej nie zmienia jej
losowej. Zamiast więc wyznaczać rozkład nowej zmiennej, obliczać
wariancji, a jedynie wartość oczekiwaną.
od nowa jej wartość oczekiwaną i wariancję, musisz podstawić
Spowoduje ono przesunięcie środka rozkładu w pewnym
jedynie do odpowiedniego wzoru stare wartości parametrów.
kierunku, ale nie zmieni ogólnego kształtu jego wykresu. Oznacza
Znajomość tych w zo rów może się też przydać w czasie
to, że zmieni się wartość oczekiwana, ale rozrzut danych, a więc
egzaminów ze statystyki. Znajomość tego rodzaju skrótów
i wariancja, pozostanie niezmieniony.
pozwoli Ci oszczędzić sporo cennego czasu. Musisz też pamiętać, że na egzaminach nie zawsze podawane są pełne rozkłady
^ : Zaskoczyło mnie to, że wariancję trzeba pomnożyć przez a2. Dlaczego nie przez a? 0 : M nożąc zmienną losową przez stałą, każdą jej wartość mnożymy przez tą stałą.
prawdopodobieństwa, a jedynie pewne ich charakterystyki. Niekiedy więc możesz nie mieć wyjścia.
^ : Próbowałem wyznaczyć oba parametry na piechotę, ale otrzymałem inne wartości. Dlaczego?
We wzorze na wariancję wartości zmiennej losowej podnoszone są do potęgi drugiej. Dlatego gdy pomnożym y je przez a, wariancja
0 : A zatem przekonałeś się, że liczenie na piechotę może być
zwiększy się a2 razy.
ryzykowne. Po drodze masz bowiem wiele okazji do popełnienia błędów. Zawsze, kiedy masz taką możliwość, powinieneś korzystać ze znanych Ci skrótów.
jesteś tutaj ► 257
Wielka tajemnica rozwiązana!
Przypadek średnich ruchomych: Rozwiązanie Czy nasz zawodnik mógłby w prostszy sposób wyznaczyć wartość oczekiwaną, tak by nie zajęło mu to więcej niż 3 m inuty? Przez krótką chwilę nasz zawodnik rozglądał się nerwowo dokoła, jednak szybko się uspokoił. Zm iana stawek wygranej to w końcu nie taki duży problem. Już raz policzył wartość oczekiwaną kwot znajdujących się w kolejnych skrzynkach, co dało mu jakiś ogląd tego, ile może wygrać w tym teleturnieju.
ro z w i^ z ^ n a
P roducent program u powiedział, że nowe kwoty pieniędzy ukryte w skrzynkach są niemal dwa razy wyższe od dotychczasowych, z dokładnością do 10 dolarów. Oznacza to, że między nowymi (Y) i starymi (X) kwotami istnieje linowy związek, który m ożna by zapisać jako Y = 2X -10. To pozwala szybko obliczyć E(Y ) przy wykorzystaniu faktu, że E (2 X -1 0 ) = 2E(X) - 10. Z atem jedyne, co powinien zrobić nasz zawodnik, to pomnożyć obliczoną wcześniej wartość oczekiwaną wygranej przez 2 i od tego wyniku odjąć 10 dolarów.
Podstawowe terminy przekształcenia
liniowe Dla każdej zm iennej losowej X i sta łych w a rto ść, a ■ < = > pra w d ziw e są rów ności:
E(aX ♦ b) = oE(X) ♦ b V a K a X + b) = a2V d r(X )
CELNE SPOSTRZEŻENIA
Rozkład praw do po do bień stw a przypisuje każdej
Odchylenie standardow e zmiennej losowej dane jest
wartości zmiennej losowej praw dopodobieństw o jej
wzorem : o = W a r ( X )
realizacji. Z przekształceniem liniow ym zmiennej losowej W artość oczekiw ana inform uje o przeciętnej realizacji
X m am y do czynienia wtedy, gdy jej wartości
zmiennej losowej w długiej serii pow tórzeń. Oznacza się
przekształcam y do ogólnej postaci: aX + b, gdzie
ją jako E(X) lub p I oblicza ze wzoru: E(X) = ExP(X = x).
a I b są wartościam i ustalonymi. W artość oczekiwana
W artość oczekiw ana funkcji zmiennej losowej X dana jest wzorem : E (f(X )) = E f(x )P (X = x). W ariancję zmiennej losowej X wyznacza się w edług w z o ru :V a r(X ) = E ( X - |j) 2.
2 58
Rozdział 5.
I wariancja przekształconej zmiennej są równe: E(aX + b) = aE(X) + b Var(aX + b) = a2Var(X)
Dyskretne ozkłady prawdopodobieństwa Ą Latem przedstawiając je d n ą im ienną losow ąjako funkcję innej im ie n n e j, b ędę mogła łatwo wyinacŁyć param etry rozkładu ta k ie wtedy, gdy Łagram w ięcej n ii ra i?
Przekształcenia liniowe nie sprawdzą się wtedy, gdy zmienia się prawdopodobieństwo realizacji zmiennej. W wyniku liniowego przekształcenia zmiennej losowej zmieniają się jedynie wartości, jakie może ona przyjąć. Prawdopodobieństwa ich realizacji nie ulegają zmianie. Nie zmienia się również liczba potencjalnych wartości. Gdy myślimy o rozegraniu kilku gier z rzędu, rozkład prawdopodobieństwa wypłaty będzie całkowicie inny: zmienią się zarówno wartości samej zmiennej, jak i prawdopodobieństwa ich realizacji. Nie wystarczy więc policzyć wyłącznie nowe wartości rozkładu, ale i ich prawdopodobieństwa, co nie musi być zadaniem łatwym. Spójrzmy na przykład. Załóżmy, że gra toczy się na bardzo prostym automacie, który oferuje wypłaty według poniższego rozkładu:
x
-1
P (X = x )
Teraz
5
0,1
0,9
p ła c ?
I podwójnie!
w ,.,o *
Aby znaleźć rozkład prawdopodobieństwa zmiennej 2X, wystarczy pomnożyć przez 2 wszystkie wartości zmiennej X:
śr
2x
-2
P (2 X = 2 x )
^
10
0,9
t
s' z s &
-n ie zmienity się-
9
0,1
Jak wyglądałby rozkład prawdopodobieństwa wypłaty z gry przy założeniu, że zagralibyśmy dwukrotnie? Tym razem wszystkie prawdopodobieństwa musimy obliczyć od nowa, rozpatrując wszystkie możliwe kombinacje wygranej (przegranej) w obu grach: = - 2 , gdy przegrasz obu grach.
S ą to tączne wyniki uzyskane w obu grach
II
<
-2 <
■o
w
0,81
4
10
0,18
0,01
7
Tym razem zarówno wartości zmiennej, jak i ich prawdopodobieństwa są nieco inne. Czy istnieje jakiś sposób na skrócenie obliczeń w podobnych przypadkach?
y = 10, gdy wygrasz w obu grach. ■
4, gdy przegrasz w jednej grze, ale
11 $ y p
19 •$ } --
cdIL
^
wygrasz w drugiej.
jesteś tutaj ► 259
Wprowadzamy 'mienne niezależne
Każde pociągnięcie dźwigni je s t niezależnym zdarzeniem Każdą grę możemy traktować jako niezależne zdarzenie, opisywane za pom ocą oddzielnej zmiennej losowej, a jej wynik jako oddzielną obserwację. Wszystkie obserwacje będące realizacjami zmiennych losowych o tym samym rozkładzie, mają tę samą wartość oczekiwaną i wariancję, choć same w sobie mogą się od siebie różnić — za każdym razem możemy uzyskać nieco inną kwotę.
K a ż d a g ra t o
jedno zdarzenie. W ynik każdej gry to jedna obserwacja.
Przydałby nam się jakiś sposób na to, by łatwo odróżnić od siebie poszczególne zdarzenia czy obserwacje. Jeśli wypłatę w pojedynczej grze oznaczyliśmy przez X, to zmienne opisujące wygrane w poszczególnych kolejkach moglibyśmy oznaczyć na przykład poprzez X p X 2 itd. Mamy tę samą
w a rto ść o czekiw aną Zm ienna op;s ,,;
q
Pierwszej gri/ Jąca ^ynu
S i
'y
i wariancję, ale jesteśm y innymi zmiennymi.
wymik drugiej 9 V
o
X
X
i
2
Obie zmienne: X t i X 2 mają te same prawdopodobieństwa realizacji oraz tę samą wartość oczekiwaną i wariancję co zm ienna X. Innymi słowy, mają one ten sam rozkład, choć w rzeczywistości są to oddzielne zmienne, których zaobserwowane wartości mogą się różnić.
■o >< II X,
Ix W aśnie stąd wziął się nasz rozkład prawdopodobieństwa.
-1
■o
-a>< II -aX
x1
0,9
5
-1 1°'9
/
0,1
Jeśli więc chcemy znaleźć wartość oczekiwaną i wariancję łącznej wypłaty w obu grach, tak naprawdę musimy policzyć je dla sumy zmiennych X Ł + X2. Spójrzmy, jak możemy tego dokonać jak najmniejszym kosztem.
260
Rozdział 5.
5 In 10,1 * |
\
X2 P ( X = x 2)
-1
5
0,9
0,1
Dyskretne ozkłady prawdopodobieństwa
Przydatne skróty Spróbujmy znaleźć wartość oczekiwaną i wariancję dla sumy zmiennych X x + X2.
X 1 + X 2 to n ie to s a m o c o 2 X .
Wartość oczekiwana
Sumując zmienne X 1 i X 2, musisz się oprzeć na realizacjach każdej z nich. 2X oznacza tylko jedną realizację, tyle że podwojoną w stosunku do X.
Policzmy najpierw E (X x + X2): E (X 1 + X2) = E (X 1) + E(X 2) = = E(X ) + E(X ) =
Z ? ró wno
r /v x
k i E ( X 2) E X ) , pjaew a. ^
ró w n e E W ' P
są
Mad taki
zmierme m ają ja k X.
= 2E(X) Innymi słowy, aby wyznaczyć E (X x + X2), wystarczy pomnożyć E(X ) przez 2. Gdybyśmy więc dwukrotnie zagrali na automacie, dla którego E(X ) = -0,77 dolara, moglibyśmy oczekiwać straty na poziomie -0 ,7 7 x 2 , czyli -1,54 dolara.
, n zm iennych, mnożymy
Wynik ten możemy uogólnić na dowolną liczbę zmiennych. Gdybyśmy chcieli wyznaczyć wartość oczekiwaną n zmiennych tego rodzaju, moglibyśmy wykorzystać wzór:
E(X i + X 2 + ... Xn) = nE(X) Wariancja A jak policzyć V ar(X Ł + X2)? Odpowiedź poniżej: V ar(X 1 + X2) = V ar(X 1) + V ar(X 2) = = V ar(X ) + V ar(X ) = *--------^ ponieważ = 2Var(X)
“ “
*'
D latego wariancja wypłaty w przypadku dwukrotnej gry na automacie o wariancji równej 2,6971 wyniosłaby 2 x 2,6971, czyli 5,3942. Wynik ten możemy uogólnić na dowolną liczbę niezależnych obserwacji. Gdybyśmy chcieli wyznaczyć wariancję n obserwacji tego rodzaju, moglibyśmy wykorzystać wzór:
w » * « » (X ) ( « “ o bserw acji n.
V ar(X 1 + X 2 + ... X n) = nVar(X) Podsumowując: aby znaleźć wartość oczekiwaną i wariancję w przypadku wielokrotnej gry, pom nóż E(X ) i V ar(X ) przez liczbę obserwacji (kolejek gry).
jesteś lulaj ► 261
Nie istniejq głupie pytania i Nie.is+nieja.
głupie pytania ^ : Czy E(X, + X 2) to nie to samo, co E(2X)?
: Rozumiem więc, że X, i X 2 są tym samym?
^ : Dlaczego wariancja w przypadku n zmiennych wynosi nVar(X), a nie n2Var(X), jak dla zmiennych przekształconych liniowo?
0 : Nie, choć rzeczywiście wyglądają
V : Niezupełnie. Obie zmienne mają
podobnie.
ten sam rozkład prawdopodobieństwa,
E(2X) jest wartością oczekiwaną zmiennej
choć są to dwie różne zmienne. X, może
0 : Tym razem mamy do czynienia z szeregiem niezależnych zmiennych
losowej, której wartości zostały podwojone
oznaczać wygraną w jednej kolejce, a X2
względem zmiennej X. M am y więc
w drugiej. Choć mają ten sam rozkład
losowych o tym samym rozkładzie
do czynienia z wartościami jednej zmiennej.
prawdopodobieństwa, to wygrane
prawdopodobieństwa. Całkowitą wariancję
w każdej kolejce mogą się od siebie
możemy wyznaczyć jako sumę wariancji
znacząco różnić.
poszczególnych zmiennych. Ponieważ
E(X, + X2) to wartość oczekiwana sumy dwóch różnych zmiennych losowych: X, i X2. Jeśli X, oznacza wygraną w jednej grze, a X2
mamy n zmiennych niezależnych, wynosi ona nVar(X).
w drugiej, X, + X2 oznaczać będzie łączną wygraną w obu grach.
W przypadku zmiennej nX każdą z wartości zmiennej X mnożymy przez n. Ponieważ w form ule na wariancję występują kwadraty tych wartości, stąd w wyniku n2V a r(X ),a n ie nVar(X).
Podstawowe terminy Zmienne niezależne Dla niezależnych zmiennych losowych prawdziwe s ą wzory: E(X, + X 2 + ... + Xn) = nE(X) Var(X, + X? + ... + Xn) = nVar(X)
CELNE SPOSTRZEŻENIA
Rozkład praw dopodobieństw a opisuje
Odchylenie standardow e
praw dopodobieństw o realizacji każdej m ożliwej
kw adratow ym z wariancji.
wartości zmiennej losowej.
ct jest
Przekształcenie liniowe polega na przekształceniu
W artość oczekiwana zmiennej losowej X opisuje
zmiennej X w zmienną aX + b, gdzie a i b są stałymi.
przeciętny w yn ik m ożliw y do uzyskania w długiej serii
W artość oczekiwaną i wariancję nowej zmiennej m ożna
p ow tórzeń. Oznaczamy ją jako E(X) lub p i obliczamy
obliczyć ze w zorów :
ze w zoru: E ( X ) = !x P ( X = x ) Wariancja zmiennej losowej X dana jest w zorem : Var(X) = E(X - p )2
262
pierwiastkiem
Rozdział 5.
E(aX + b) = aE(X) + b Var(aX + b) = a2Var(X)
Dyskretne rozkłady prawdopodobieństwa
Z m ien n e p rz e k sz ta łc o n e ________ czy n iezależne? Poniżej zamieszczono opisy kilku sytuacji z życia codziennego. Zakładając, że znasz rozkład zmiennej X, zdecyduj, czy występujące w opisach zdarzenia m ożna opisać za pom ocą przekształcenia liniowego (funkcji) zmiennej X, czy też występują w nich zmienne niezależne.
Przekształcenie liniowe
Zmienne niezależne
Ilość kawy, która składa się na dużą porcję; X — ilość kawy zawarta w standardowej porcji.
□
□
Spożywanie dodatkowego kubka kawy każdego dnia; X — ilość kawy w jednym kubku.
□
□
Wypłata możliwa do uzyskania po nabyciu 10 losów na loterii; X — wypłata możliwa do uzyskania po nabyciu jednego losu.
Q
Wypłata możliwa do uzyskania po nabyciu pojedynczego losu, którego cena poszła w górę; X — wypłata możliwa do uzyskania po nabyciu pojedynczego losu w starej cenie.
Kupno dodatkowych kur znoszących jajka; X — liczba znoszonych jaj w zależności od gatunku kury.
□
□
jesteś tutaj ► 263
Zmienne przekształcone czy niezależne: Rozwiązanie
Z m ien n e p rze k szta łco n e czy n iezależne? Poniżej zamieszczono opisy kilku sytuacji z życia codziennego. Zakładając, że znasz rozkład zmiennej X, zdecyduj, czy występujące w opisach zdarzenia m ożna opisać za pom ocą przekształcenia liniowego (funkcji) zmiennej X, czy też występują w nich zmienne niezależne.
Przekształcenie liniowe
Ilość kawy, która składa się na dużą porcję; X — ilość kawy zawarta w standardowej porcji.
Zmienne niezależne
___^ |
Spożywanie dodatkowego kubka kawy każdego dnia; X — ilość kawy w jednym kubku.
□
Wypłata możliwa do uzyskania po nabyciu 10 losów na loterii; X — wypłata możliwa do uzyskania po nabyciu jednego losu.
Q
|
'c i
Wygrane z każdego losu są niezależne od siebie.
Wypłata możliwa do uzyskania po nabyciu pojedynczego losu, którego cena poszła w górę; X — wypłata możliwa do uzyskania po nabyciu pojedynczego losu w starej cenie.
-T ~ 7 \
^¿J
I— I '— '
Zm iana ceny losu wpływa na wartość i" " '- --------- ------------- w yptaty, ale nie na prawdopodobieństwo wygranej, dlatego mamy do czynienia znoszących jajka; z przekształceniem liniowym.
Kupno dodatkowych kur X — liczba znoszonych jaj w zależności od gatunku kury.
264
Rozdział 5.
ł\7T
Dyskretne rozkłady prawdopodobieństwa
jesteś lutaj ► 265
Ćwiczenie: Rozwiązanie
Lokalna cukiernia włączyła do swojej oferty ciasteczka z niespodzianką. Ich cena to 0,5 dolara za sztukę. Większość ciasteczek zawiera pomyślną wróżbę na przyszłość, ale w niektórych kryją się pieniądze. Prawdopodobieństwo wygrania 2 dolarów wynosi 0, 1 , 5 dolarów — 0,07, zaś 10 dolarów — 0,03.
. . Rozwiązanie
Niech X oznacza wypłatę (wygrana pomniejszona o koszt ciasteczka) z tej „gry”. Sporządź rozkład prawdopodobieństwa zmiennej X. Ile wynosi E(X) i Var(X)? Oto rozktad prawdopodobieństwa zm iennej X:
X
- 0 ,5
1,5
4,5
9,5
P(X = x)
0,8
0,1
0,07
0,03
E(X) = (-0 ,5 )x O ,8 + 1,5 x 0,1 + 4,5 x 0,07 + 9,5 x 0,03 = = - 0 , 4 + 0,15 + 0,315 + 0,285 = = 0,35
V a r(X ) = E ( X - u
)2 =
= Z ( * - u m x = x) = = ( - 0 ,5 - 0 ,3 5 j^ x 0 ,8 + (1 ,5 -0 ,3 5 )2x0,1 + ( 4 ,5 -0 ,3 5 ^ x 0 ,0 7 + (9,5 - 0 ,3 5 ^ x 0 ,0 3 = = (~ 0,85)2x 0 ,8 + 1,152x0,1 + 4,152x 0 ,0 7 + 9,152x 0 ,0 3 = = 0,7225 x 0,8 + 1,3225 x 0,1 + 17,2225 x 0,07 + 83,7225 x 0,03 =
= 0,578 + 0,13225 + 1,205575 + 2,511675 = = 4,4275
Cukiernia zdecydowała się podnieść cenę ciasteczek do 1 dolara za sztukę. Ile teraz wynosi wartość oczekiwana i wariancja wypłaty? Cukiernia podniosła ceną ciasteczek o 0,5 dolara, a zatem w ypłatę po podwyżce można przedstaw ić jako X - 0 ,5 . E (X -0 ,5 ) = E(X) - 0,5 = = 0,35 - 0,5 = = -0 ,1 5
V a K X -0 ,5 )= Var(X) = = 4,4275
2 66
Rozdział 5.
Dyskretne rozkłady prawdopodobieństwa N ow e a u to m a ty w ch o d zą do g ry ! Właściciel kasyna sprowadził całkiem nowy model automatów do gry. Każda gra kosztuje teraz więcej, ale jeśli szczęście będzie Ci sprzyjać, będziesz mógł liczyć na naprawdę spore pieniądze. O to nowy rozkład prawdopodobieństwa:
x
-5
395
P (X = x )
0,99
0,01
a/e spdbz nU °matach’ ° e Wygrane! Wiemy już, jak wyznaczyć wartość oczekiwaną i wariancję zarówno w pojedynczej grze, jak i w przypadku kilku gier rozegranych na tym samym automacie. Co by się jednak stało, gdybyśmy chcieli rozegrać kilka kolejek i na starych, i na nowych urządzeniach? W tej sytuacji mamy do czynienia z dwoma niezależnymi rozkładami prawdopodobieństwa — dla maszyn starego i nowego typu:
x
-5
395
P (X = x )
0,99
0,01
II
<
<
■o
y
Oto wygrane możliwe do uzyskani . na automatach nowego typu.
ć -
-2
23
48
73
98
0,977
0 ,0 0 8
0 ,0 0 8
0 ,0 06
0,001
Czy możemy łatwo policzyć wartość oczekiwaną i wariancję wypłaty w przypadku wielokrotnej gry na obu rodzajach automatów?
Oto w yg^ne U, autom starego typu-
Moglibyśmy wytnacŁyć ro ik ła d sumy X+Y., ale byłoby to dośe cŁasocbłonne. Zastanawiam się, e ty moglibyśmy pójść na skróty.
jesteś tutaj k
267
Suma i różnica zmiennych D o d a j E (X ) do E ( Y ) , by u z y s k a ć E ( X + Y ) ... Chcemy znaleźć wartość oczekiwaną i wariancję wypłaty przy założeniu, ze gramy raz na autom acie starego typu i raz na automacie nowego typu. Innymi słowy, interesuje nas wartość E (X + Y ) i V ar(X + Y ), gdzie X i Y są zmiennymi losowymi opisującymi grę na starych i nowych urządzeniach. Są to zmienne niezależne. W tym celu moglibyśmy wyznaczyć rozkład prawdopodobieństwa sumy X + Y , a następnie znaleźć jego wartość oczekiwaną i wariancję.
x
y
\
Nie martw się , nie będziesz m u sia t tego liczyć.
/
\kluobraiasz
x +y
N a szczęście nie musimy tego robić. Aby znaleźć E (X + Y ), możemy po prostu dodać do siebie E(X ) i (Y).
E (X + Y ) = E(X) + E(Y)
Przyznasz sam, że m a to sens. Gdybyś grał w dwie gry, przy czym w pierwszej oczekiwałbyś wygranej w wysokości 5 dolarów, a w drugiej 10 dolarów, łącznie spodziewałbyś się wygrać 5+ 10 = 15 dolarów.
Var(X + Y ) = Var(X) + Var(Y)
Podobnie możemy postąpić w przypadku wariancji. Aby znaleźć V ar(X + Y ), możemy dodać do siebie wariancje obu zmiennych. Jednak tylko wtedy, gdy X i Y są zmiennymi niezależnymi.
E (X + Y) . E (X ) E (Y )
: ^
£
—i---
+
0
0
V a r(X )
0
V a r (Y )
<=—
?
V a r (X + Y )
S w o b o d n ie m o żn a d o d a w a ć ty lk o w a r ia n c je z m ie n n y c h n ie z a le ż n y c h . Jeśli X i Y nie są zmiennymi niezależnymi, wtedy Var(X+Y) nie je s t równa Var(X) + Var(Y).
2 68
Rozdział 5.
Dyskretne ozkłady prawdopodobieństwa
.«lub odejmij E(Y) od E(X), by uzyskać E(X—Y) W podobny sposób możemy również wyznaczyć param etry zmiennej będącej różnicą dwóch zmiennych losowych, czyli X -Y . Równie łatwo jak w przypadku sumy zmiennych można wyznaczyć E (X -Y ). Wystarczy odjąć E(Y ) od E(X).
E (X - Y ) = E(X) - E(Y) V ar(X - Y) = Var(X) + Var(Y)
f
Form uła na wariancję jest nieco mniej intuicyjna. Aby znaleźć V a r(X -Y ), musimy... dodać do siebie V ar(X ) i Var(Y).
Tutaj wariancje sum ujem y, więc bądź ostrożny!
W y z n a c z a ją c w a r ia n c ję r ó ż n ic y z m ie n n y c h lo s o w y c h , z s u m u j ic h w a r ia n c ję .
P rŁ e c ie i t o nie ma sensu. P lacteg o mielibyśmy dodawać wariancje?
Ponieważ w tym przypadku zmienność również się zwiększa. Chociaż odejmujemy od siebie dwie zmienne losowe, to wariancja rozkładu wynikowego nie zmniejsza się, ale zwiększa.
E (X ) E (Y )
:: 1
Łatwo tu o pomyłkę, ponieważ w pierwszej chwili wydaje się to sprzeczne z intuicją. Zapamiętaj jednak, że je ś li X i Y są niezależnymi zmiennymi losowymi, to V a r(X - Y) = V a(X ) + Var(Y).
E (X - Y)
£ SI
zmienne-
0
0
V a r(X )
V a r (Y )
W ariancja zmiennej będącej różnicą dwóch niezależnych zmiennych losowych jest dokładnie taka sama, jak wariancja zmiennej będącej ich sumą. W obu przypadkach zmienność może jedynie wzrosnąć.
V a r(X - Y )
Odjęcie od siebie dwóch zmiennych losowych zwiększą wariancję. jesteś tutaj k
269
Suma i różnica zmiennych przekształconych
Podobne operacje możesz wykonywać na zmiennych przekształcanych liniowo To jeszcze nie wszystko. Oprócz dodawania i odejmowania samych zmiennych losowych te same operacje można wykonywać na ich przekształceniach liniowych. Zastanów się, co by się stało, gdyby właściciel kasyna zmienił stawki opłat i wygranych w maszynach starego i nowego typu. O statnią rzeczą, jaką chcielibyśmy robić, to tworzyć od początku jeszcze jeden rozkład prawdopodobieństwa i wyznaczać jego parametry.
X —► aX
N a szczęście istnieje wygodna droga na skróty. Załóżmy, że D an zmienił stawki wygranych na wszystkich maszynach dostępnych w kasynie, tak że wypłata z maszyn starego typu zmieniła się z X na aX, zaś z Y n a bY, gdzie a i b są ustalonymi wartościami. a i b mogą być dowolnymi liczbami.
Aby znaleźć wartość oczekiwaną i wariancję liniowej kombinacji aX i bY, możemy postąpić w opisany niżej sposób. C u m u je m y aX i b Y W artość oczekiwaną i wariancję zmiennej aX + bY znajdziemy, korzystając ze wzorów:
E (a X + bY) = aE(X ) + bE(Y) Var(aX + bY) = a 2Var(X) + b2Var(Y) ksztatcenia W formule na wariancję występują kwadraty, ponieważ mamy tutaj do czynienia z przekształceniem liniowym.
Odejmujemy aX i bY Jeśli chcemy znaleźć E (X -Y ) lub V ar(X -Y ), możemy skorzystać z poniższych formuł:
E (a X - bY) = aE(X ) - bE(Y) V ar(aX - bY) = a 2Var(X) + b2Var(Y) T ak jak poprzednio, dodajemy wariancje obu zmiennych, choć szukamy wariancji ich różnicy.
2 70
Rozdział 5.
k w a d r a ty .
Dyskretne rozkłady prawdopodobieństwa
^ : Skoro X i Y oznaczają wypłaty w dwóch grach, to czy aX + bY oznacza łączną wygraną w a grach X i b grach Y?
^ : Dlaczego przy liczeniu V a r(X - Y ) musimy dodać wariancje zmiennych X i Y? Czy nie powinniśmy ich odjąć?
^ : Czy te same obliczenia możemy wykonywać dla zmiennych, które nie są niezależne?
0 : Choć z pozoru może się to wydawać
0 : Nie, form uły dla wariancji zachowują
0 : Zapis aX + bY przedstawia właściwie
sprzeczne z intuicją, to jednak odejmując
ważność tylko w przypadku zmiennych
sumę dwóch przekształceń liniowych
od siebie dwie zmienne losowe,
niezależnych. Jeśli chcesz wyznaczyć
zmiennych X i Y. Innymi słowy, zmianie
zwiększamy zmienność wartości zmiennej
Var(X+Y) dla zmiennych, które są zależne,
wynikowej, dlatego jej wariancja rośnie.
musisz najpierw wyznaczyć rozkład
Wariancja sumy dwóch zmiennych
prawdopodobieństwa zmiennej X+Y.
ulegają zarówno wartości zmiennej X, jak i Y
^ : Nie wiem, czy kiedykolwiek przyda mi się znajomość rozkładu X - Y . Czy ma on w ogóle jakiś sens? 0 : X -Y przydaje się wówczas, gdy interesują nas różnice między dwiema wielkościami. E (X -Y ) daje odpowiedź na pytanie: „Jakiej różnicy między X i Y oczekujesz?". V a r(X -Y ) inform uje o wariancji takiej różnicy.
niezależnych jest taka sama jak wariancja ich różnicy. M ożna to wyjaśnić jeszcze inaczej: przy liczeniu wariancji podnosimy do kwadratu wartości zmiennych losowych. Var(X + bY) jest rów na Var(X) + b2Var(Y). Podstawiając b = -1, otrzym amy szukaną V a r(X -Y ). Ponieważ (-1)2 = 1, zatem
^ : Wygląda na to, że te same zasady, które stosują się do X+Y, są również prawdziwe w przypadku X , + X 2. Nam rację? 0 : Oczywiście. Możesz je stosować do wszystkich zmiennych losowych, pod warunkiem że są one niezależne.
V a r(X -Y ) = V a r(X ) + Var(Y).
CELNE SPOSTRZEŻENIA
Przez
niezależne obserwacje zmiennej X rozum ieć
W artość oczekiwaną i wariancję liniowych funkcji
należy kolejne realizacje zmiennej X. M ożna je opisać
zm iennych losowych X i Y m ożna wyznaczyć
oddzielnymi zm iennym i losowym i, z których każda ma
ze w zorów :
ten sam rozkład praw dopodobieństw a co X. Jeśli X,, X2, X3, ..., X n są zm iennym i niezależnymi o rozkładzie takim jak X, wówczas: E(X1+ X 2 + ... + X n) = nE(X)
E(aX + bY) = aE(X) + bE(Y) E(aX - bY) = aE(X) - bE(Y) Var(aX + bY) = a2Var(X ) + b2Var(Y) Var(aX - bY) = a2Var(X ) + b2Var(Y)
V ar(X 1+ X 2 + ...X n) = nVar(X)
Jeśli X i Y są niezależnymi zm iennym i losowym i, praw dziw e są wzory: E ( X + Y ) = E(X) + E(Y) E ( X - Y ) = E (X )-E (Y ) V a r(X + Y )= V a r(X )+ V a r(Y ) Var(X - Y) = Var(X ) + Var(Y)
jesteś tutaj k
271
Ćwiczenie
Ćwiczenie
Parametr E(aX + b)
Var(aX + b)
E(X)
E(f(X))
Var(aX - bY)
Var(X)
E(aX - bY)
E(X + X2 + X3)
Var(X1 + X2 + X3)
E(X2)
Var(aX - b)
272
Rozdział 5.
W poniższej tabeli zamieszczono wartości oczekiwane i wariancje różnych zmiennych losowych. Spróbuj podać najprostszy sposób na wyznaczenie każdej z tych wartości. W razie potrzeby przyjmij założenie o niezależności zmiennych losowych.
Sposób obliczenia
Dyskretne rozkłady prawdopodobieństwa
20
25
0,2
0,5
0,2
0,1
y
15
20
25
30
0,15
0,6
0,2
0,05
II
15
<
10
■o >< II X, W eekend:
x
<
D ni ro b o c z e :
■o
Ćwiczenie
Pewna restauracja oferuje dwa menu: jedno przeznaczone na dni robocze, drugie ważne w weekendy. Każde z nich zawiera potrawy w czterech różnych kategoriach cenowych. Rozkłady prawdopodobieństw wydatków klientów zamieszczono w poniższych tabelkach:
Kto, Twoim zdaniem, wyda więcej pieniędzy na posiłek w tej restauracji: grupa 20 klientów weekendowych czy 25 klientów odwiedzających restaurację w pozostałe dni?
jesteś lulaj ► 273
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Parametr
2 74
W poniższej tabeli zamieszczono wartości oczekiwane i wariancje różnych zmiennych losowych. Spróbuj podać najprostszy sposób na wyznaczenie każdej z tych wartości. W razie potrzeby przyjmij założenie o niezależności zmiennych losowych.
Sposób obliczenia
E(aX + b)
aE(X) + b
Var(aX + b)
a2Var(X)
E(X)
J /xP(X = x)
E(f(X))
'2/(x)P (X = x)
Var(aX - bY)
a2Var(X) + b2VarCV)
Var(X)
E(X - u)2 = E(X2) - u2
E(aX - bY)
aE(X) - bE(Y)
E(X1 + X2 + X3)
3E(X)
Var(X1 + X2 + X3)
3Var(X)
E(X2)
2/ W
Var(aX - b)
a2Var(X)
Rozdział 5.
= x)
Dyskretne rozkłady prawdopodobieństwa
15
20
25
P (X = x )
0,2
0,5
0,2
0,1
y
15
20
25
30
0,15
0,6
0,2
0,05
II
10
<
W eekend:
x
<
D ni r o b o c z e :
■o
Ćwiczenie Rozwiązanie
Pewna restauracja oferuje dwa menu: jedno przeznaczone na dni robocze, drugie ważne w weekendy. Każde z nich zawiera potrawy w czterech różnych kategoriach cenowych. Rozkłady prawdopodobieństw wydatków klientów zamieszczono w poniższych tabelkach:
Kto, Twoim zdaniem, wyda więcej pieniędzy na posiłek w tej restauracji: grupa 20 klientów weekendowych czy 25 klientów odwiedzających restaurację w pozostałe dni?
Zacznijm y od wyznaczenia wartości oczekiwanej kwoty, jaką wyda przeciętny klient odwiedzający restaurację w weekend (Y ) oraz w pozostałe dni (X). E(X) = 1 0 x0 ,2 + 15 x0,5 + 2 0 x 0 ,2 + 25x0,1 = = 2 + 7,5 + 4 + 2,5 =
= 16 E(Y) = 15x0,15 + 2 0 x 0 ,6 + 2 5 x 0 ,2 + 3 0 x 0 ,0 5 = = 2,25 + 12 + 5 + 1,5 = = 20,75
Wydatek każdego klienta można opisać za pomocą niezależnej obserwacji. A by wyznaczyć łączne wydatki klientów zaliczonych do obu grup, pomnożymy E(X) i E(Y) przez liczebność każdej grupy. 25 klientów w dni robocze wyda razem: 2 5 xE (X ) = 25x16 = 400 20 klientów weekendowych wyda zaś: 20x.E(Y) = 2 0 x 2 0 ,7 5 = 415
Możemy więc oczekiwać, że 2 0 klientów odwiedzających restaurację w ciągu weekendu wyda więcej niż 25 klientów odwiedzających ją w tygodniu.
jesteś lutaj ► 275
Jesteś mistrzem w zarządzaniu oczekiwaniami!
Rozbiłeś bank! W tym rozdziale poruszyliśmy całkiem sporo zagadnień. Dowiedziałeś się, jak można posłużyć się rozkładem prawdopodobieństwa, wartością oczekiwaną i wariancją zmiennej losowej do przewidywania wygranej w starciu z „jednorękim bandytą”. Dowiedziałeś się również, jak za pomocą przekształceń liniowych wyznaczyć nowe wartości param etrów , gdy zmienia się profil wypłaty w grze. Dzięki wiedzy o tym, czym są zmienne niezależne, umiesz już wyznaczać param etry rozkładu w przypadku gier złożonych z wielu kolejek.
276
Rozdział 5.
Dyskretne rozkłady prawdopodobieństwa
Poniższe tabelki prezentują rozkłady prawdopodobieństw wydatków Sama w obu restauracjach. Jak mógłbyś scharakteryzować różnicę w poziomie cen między restauracją A i B? Ile wynosi jej wariancja? 30
40
45
P (X = x )
0,3
0 ,4
0,2
0,1
y
10
15
18
0,2
0,6
0,2
II
20
<
R e s t a u r a c ja B :
x
<
R e s t a u r a c ja A :
■o
Ćwiczenie
Sam zwykł jadać w dwóch restauracjach. Restauracja A jest droższa niż B, ale serwuje znacznie lepsze jakościowo dania.
jesteś lulaj ► 277
Ćwiczenie: Rozwiązanie
Poniższe tabelki prezentują rozkłady prawdopodobieństw wydatków Sama w obu restauracjach. Jak mógłbyś scharakteryzować różnicę w poziomie cen między restauracją A i B? Ile wynosi jej wariancja? R e s t a u r a c ja A :
R e s t a u r a c ja B :
x
20
30
40
45
P (X = x )
0,3
0 ,4
0,2
0,1
y
10
15
18
■o < II <
Ćwiczenie Rozwiązanie
Sam zwykł jadać w dwóch restauracjach. Restauracja A jest droższa niż B, ale serwuje znacznie lepsze jakościowo dania.
0,2
0,6
0,2
z m ie n n y c h
X i Y: £(Y, = 10x0,2 + 15x0,6
£(X) = 20x0,3 + 30x0,4 + 40x0,2 + 45x0,1 = = 6 + 12 + 8 + 4,5 = = 30,5 VaKX) = (20-30,5)2x0,3 + (30-30,5^x0,4 + + (40-30,5)2x0,2 + (45-30,5)2x0,1 =
= 2 + 9 +3,6 = = 14,6 Var(Y)= (10-14,6^x0,2 + (15-14,6^x0,6 + . (18-14,6^x0,2 = = (-4,6)2x0,2 + 0,42x0,6 + 3,42x0,2 =
= (-1 0 ,5 )2x 0 ,3 + (—0,5)2x 0 ,4 + 9,52x 0 ,2 + 14,52x0,1 =
= 21,16x0,2 + 0,16x0,6 + 11,56x0,2 =
= 110,25x0,3 + 0,25x0,4 + 90,25x0,2 + 210,25x0,1 =
= 4,232 + 0,096 + 2,312 =
= 33,075 + 0,1 + 18,05 + 21,025 =
= 6,64
= 72,25
R ó ż n ic ę m ię d z u p o z io m a m i c e n w o b u r e s ta u r a c ja c h m o żn a p r z e d s ta w ić ja k o X - Y :
V a r(X -Y )= Var(X) . Var(Y) = E (X -Y )= E (X )-E (Y ) =
= 30,5 - 14,6 = = 15,9
278
Rozdział 5.
= 72,25 .6,64 = = 7g g9
6. Podstawy kombinatoryki
Porządkujemy obiekty
Czasami kolejność ma znaczenie.
Policzenie w szystkich m ożliw ych
sposobów grupow ania czy porządkowania pewnego zbioru o b ie któw może być niezwykle pracochłonne. Często jednak nie m am y wyjścia, bo takie inform acje są kluczow e dla rachunku praw dopodobieństw a. W tym rozdziale poznam y szybki i e fe k ty w n y sposób na zdobycie tego rodzaju inform acji, który nie w ym aga od nas znajomości wszystkich m ożliwych w y n ik ó w doświadczenia losowego. Zostań więc z nami, a przekonasz się, jak ła tw o m ożna zliczać w szystkie możliwości g ru po w an ia i porząd kow an ia o biektó w .
to jest nowy rozdział ► 279
Na torze wyścigów konnych
Derby £tatsville Jednym z najważniejszych wydarzeń sportowych w Statsville jest doroczna gonitwa koni czystej krwi. Biorą w niej udział dżokeje z najdalszych zakątków kraju, którzy ujeżdżając swoje konie, starają się ukończyć wyścig w jak najkrótszym czasie. Typowanie zwycięzcy jest przedm iotem zakładów. M ożna wygrać całkiem sporą sumę za odgadnięcie trzech pierwszych koni w każdej gonitwie. W pierwszej serii gonitw biorą udział konie debiutujące w wyścigach. Nie istnieją więc żadne statystyki z wcześniejszych zawodów, na podstawie których można by ocenić szanse na wygraną każdego z nich. Trzeba więc założyć, że wszystkie konie m ają takie same szanse na zwycięstwo, i zastosować prosty rachunek prawdopodobieństwa. Z a chwilę zacznie się pierwsza gonitwa dzisiejszego dnia, w której weźmie udział trójka koni. Właśnie rozpoczęło się przyjmowanie zakładów. Ponieważ w kasynie D ana wygrałeś 500 dolarów, możesz spróbować swojego szczęścia i w tej grze. Jeśli poprawnie wytypujesz kolejność, w jakiej konie dotrą do mety, możesz wygrać siedmiokrotność stawki zakładu, czyli 3500 dolarów. Czy powinieneś obstawić wynik tej gonitwy? Spróbujmy oszacować kilka prawdopodobieństw, które pomogą Ci w podjęciu decyzji. ChcesŁ się dobrŁe Łabawić? Jeśli masł jako takie p ojęcie o rachunku prawdopodobieństwa, m oiesŁ p rty tym całkiem n ie ile Łarobić, Staw ka 15:1 oznacza, z e w przypadku wygrane) otrzym asz piętnaście razy tyle, He wptaciteś!
Stawki wygranych w g :mit wach: Wygrana: I Wyścig trójki koni I Wyścig nowicjuszy 15:1 1 Gonitwa dwudziestu 1500:1
280
Rozdział 6.
Podstawy kombinatoryki
Wyścig trójki koni W pierwszej gonitwie biorą udział tylko trzy konie, więc nasze zadanie jest całkiem proste. Aby wygrać jak najwięcej pieniędzy, musimy przewidzieć dokładną kolejność przybycia koni do mety. Oto konie biorące udział w wyścigu:
Grzywacz _
Rosynant
Wicherek
^ Zaostrz ołówek Ile jest wszystkich możliwości ukończenia wyścigu przez trzy konie? (Zakładamy, że każdy koń dobiegnie do mety i nie będzie remisu). Jakie jest prawdopodobieństwo wygranej, czyli wskazania poprawnej kolejności dobiegnięcia koni do mety? Oblicz, ile mógłbyś wygrać, gdybyś obstawił właściwą kolejność. ■Wskazówka: znajdź rozktad
prawdopodobieństwa wygrane) ' oblicz jej wartość oczekiwaną.
jesteś lutaj ► 281
Zaostrz ołówek: Rozwiązanie
^ Zaostrz ołówek ______ Rozwiązanie Ile jest wszystkich możliwości
_
ukończenia wyścigu przez trzy konie? (Zakładamy, że każdy koń dobiegnie do mety i nie będzie remisu). Jakie jest prawdopodobieństwo wygranej, czyli wskazania poprawnej kolejności dobiegnięcia koni do mety? Oblicz, ile mógłbyś wygrać, gdybyś obstawił właściwą kolejność.
Trzy konie mogą ukończyć wyścig na jeden z sześciu możliwych sposobów: Grzywacz, Rosynant, Wicherek Grzywacz, Wicherek, Rosynant OcŁywiście m o ż e s z się spodiiewać wygranej w wysokości 168 dolarów, ale musisŁ pamiętać, ¿e w 5 na 6 gonitw wygrywa organiŁator gonitwy. C zy cŁujesŁ się sŁcŁęściarŁem?
Rosynant, Grzywacz, Wicherek Rosynant, Wicherek, Grzywacz Wicherek, Grzywacz, Rosynant Wicherek, Rosynant, Grzywacz Dlatego prawdopodobieństwo odgadnięcia poprawnej kolejności na mecie wynosi 1/ 6. Oto rozktad prawdopodobieństwa wyptaty przy założeniu stawki 7:1 i zakładu w wysokości 500 dolarów. Wyścig trójki koni:
X
-500
3500
P(X = x)
0,833
0,167
E(X) = -500x0,833 + 3500x0,167 = = 168 M o ż e m y o c z e k iw a ć w y p ta t y w w y s o k o ś c i 168 d o la ró w w t e j g o n itw ie .
Wyścig trójki koni? Jak często się on zd a rza ? W więksŁości gonitw b ie r z e chyba u d iia ł więksta lic ib a koni, prawda?
Dokładnie. W większości wyścigów bierze udział więcej niż trójka koni. Potrzebujemy więc sposobu na to, by łatwo oszacować liczbę wszystkich możliwych sposobów ukończenia wyścigu, w którym bierze duża liczba koni, bez względu na to, ile ich dokładnie jest. W naszym przykładzie nie mieliśmy z tym problemów, ponieważ trzy konie mogą dobiec do mety tylko na sześć różnych sposobów. Gdy jednak liczba ścigających się koni ulega zwiększeniu, obliczenia takie stają się dużo bardziej skomplikowane i zabierają znacznie więcej czasu. Przyjrzyjmy się więc bliżej możliwym kolejnościom ukończenia gonitwy przez trzy konie i spróbujmy znaleźć jakiś wzorzec, który pozwoliłby nam uogólnić ten przypadek na dowolną liczbę koni. D la ułatwienia rozpatrzymy oddzielnie każdą z trzech końcowych lokat.
282
Rozdział 6.
Podstawy kombinatoryki
Na ile sposobów konie mogą przekroczyć linię m ety ? Zajmijmy się najpierw pierwszym miejscem w wyścigu. Każdy wyścig ma jakiegoś zwycięzcę. Może być nim każdy z trójki koni. Jeśli założymy, że konie dobiegają do mety pojedynczo, będziemy mieli trzy możliwości zajęcia pierwszego miejsca.
3
sposoby
Tul ko jeden koń może dobiec do mety jako pierwszy, przy czym może to być każdy tró jki koni.
sposoby
Co zatem z drugą pozycją?
Jeden koń ukończyt wyścig na pierw S26j
Skoro mamy już jednego zwycięzcę wyścigu, pozostały dwa konie, którym musimy przyporządkować klasyfikację końcową. Każdy z nich może dobiec do mety jako drugi. Mamy więc dwa sposoby zajęcia drugiego miejsca w wyścigu, bez względu na to, który koń zajął pierwszą lokatę.
pozycji i tylko dwa < pozostate mają szansę zająć drugie m iejsce.
Kiedy dwa pierwsze miejsca są już obsadzone, pozostaje jeszcze trzecia pozycja. Może ją zająć tylko T yikojejjęnjtoń nie dobiegł je s z c z e do m ety, jeden koń, który dobiegnie do mety jako ostatni. więc tylko on zajm ie pozycją trzecią.
^
Jak powyższe wnioski mogą się nam przydać przy liczeniu wszystkich możliwych sposobów ukończenia gonitwy?
jesteś lulaj ► 283
Porządkujemy obiekty
Zliczamy możliwe ustawienia zwycięzców Wiemy już, ze istnieją trzy sposoby na zajęcie pierwszego miejsca w naszej gonitwie, a każdy z nich wiąże się z dwoma możliwościami zajęcia drugiej pozycji. Niezależnie od tego, jak zostaną zapełnione dwie pierwsze lokaty, jako trzeci może ukończyć bieg tylko jeden koń. Całkowitą liczbę możliwych sposobów ukończenia wyścigu możemy więc obliczyć jako:
1 sposób zajęcia trzeciego miejsca Możemy więc powiedzieć, że trzy konie mogą ukończyć bieg na sześć różnych sposobów, nie wskazując konkretnie, jaką ich kolejność mamy na myśli.
A gdyby było n koni? Wiemy już, że trzy miejsca możemy zapełnić na 3 x 2 x 1 sposobów. Zapewne domyślasz się, że podobną formułę możemy zapisać dla dowolnej liczby koni. Jeśli chcesz obliczyć, na ile sposobów można uporządkować n obiektów, możesz skorzystać z poniższej formuły:
n x (n - 1) x (n - 2) x ... x 3 x 2 x 1 Oznacza to, że gdy tylko potrzebujesz informacji na tem at liczby możliwych sposobów uporządkowania n obiektów, możesz ją dość łatwo wyznaczyć bez potrzeby rozpatrywania każdego z możliwych sposobów ich uporządkowania oddzielnie. Tego rodzaju uporządkowanie nazywamyperwwtac/ą bez powtórzeń. Takie obliczenia wiążą się z liczeniem tak zwanej silni. W notacji matematycznej silnia jest reprezentow ana przez wykrzyknik. N a przykład silnię liczby 3 zapisujemy 3!, a silnię liczby n — n! (czytaj: trzy silnia, n silnia). Zapis n! jest więc skrótowym sposobem powiedzenia: „Pomnóż przez siebie wszystkie liczby od 1 do n ”. Innymi słowy, prawdziwa jest równość:
n! = n x (n - 1) x (n - 2) x ... x 3 x 2 x 1 N a szczęście nie musisz liczyć silni ręcznie, ponieważ większość kalkulatorów wyposażono w odpowiednią funkcję, która policzy ją za Ciebie. Gdybyś chciał na przykład poznać wartość 4!, wystarczyłoby skorzystać z odpowiedniej funkcji, zamiast mnożyć 4 x 3 x 2 x l . W wyniku otrzymasz zawsze 24.
284
Rozdział 6.
Podstawy kombinatoryki
Ustawiamy obiekty w okrąg Istnieje jeden wyjątek od tej ogólnej reguły porządkowania. Dotyczy on sytuacji, gdy ustawiamy obiekty w okrąg. Spójrzmy na przykład. Załóżmy, ze chcemy ustawić w okrąg cztery konie, zatem chcielibyśmy się dowiedzieć, na ile sposobów możemy tego dokonać. Rozpatrzmy najpierw sytuację, w której Rosynant znajduje się na prawo od Wicherka, mającego po swojej lewej stronie Grzywacza. Poniżej przedstawiono dwa z czterech możliwych sposobów ustawienia koni według tego scenariusza.
Inny
Rosynant
Grzywacz
Rosynant
Z n !? przypadkach ^ s y n a n t
Grzywacz
k tó ly Z a po Z o T J T ° d
Grzywacza,
JJ
ej stronie
V 3 ^
Wicherek
N a pierwszy rzut oka oba ustawienia różnią się od siebie, ale tak naprawdę nie m a między nimi różnicy. Wszystkie konie znajdują się dokładnie w takim samym położeniu względem swoich sąsiadów, tyle że w drugim ustawieniu zrobiły jakby obrót o kilka kroków względem środka okręgu. Wynika stąd, że w przypadku ustawiania obiektów w okrąg niektóre schematy ustawień mogą się powtarzać, choć pozornie się od siebie różnią. Jak możemy rozwiązać ten problem ? Pomoże nam w tym ustalenie pozycji jednego z koni, która będzie służyła za pewien punkt odniesienia. Niech na przykład W icherek zajmuje w każdym ustawieniu to samo miejsce. W ten sposób łatwo policzymy wszystkie możliwe sposoby uporządkowania trzech pozostałych koni. Mówiąc ogólnie, jeśli n różnych obiektów ustawiamy w okrąg, liczba wszystkich możliwych ustawień wynosi: ,
L jc z b a w s z y s tk ic h u s t a w i e *
(n - 1)! jesteś tutaj ► 285
Nie istniejq głupie pytania i Nie.is+nieja.
głupie pytania U ' : Jak wymówić „n!” ?
^ : Czy silnia może być kiedyś liczbą nieparzystą?
0 : Zapis ten czytamy „n silnia". Symbol „!" oznacza w tym przypadku jedno z działań
0 : Tylko w dwóch przypadkach silnia
matematycznych i nie pełni roli znaku
przyjmuje wartość, która nie jest liczbą
wykrzyknlenla.
parzystą: O! i 1!, kiedy to silnia jest ró w n a ł.
^ : Czy silnię wykorzystujemy tylko przy okazji porządkowania obiektów?
parzystą. Dzieje się ta k dlatego, że dla
Dla wszystkich pozostałych n, n! jest liczbą
0 : Nie tylko. Silnia jest wykorzystywana w wielu działach m atematyki, na przykład w analizie matematycznej. Jest ona bardzo użytecznym skrótem na oznaczenie szczególnego rodzaju mnożenia i ma wiele zastosowań. Symbol silni należy rozumieć jako następujące działanie: „Pomnóż przez siebie wszystkie liczby od 1 do n".
^ : Chcę uporządkować n obiektów w okrąg, zatem mogę to robić na ( n - 1 ) ! sposobów. Czy będzie tak również wtedy, gdy uznam, że uporządkowanie zgodne z ruchem wskazówek zegara i przeciwne do niego niczym się nie różnią? 0 : W takim przypadku liczba możliwych
każdego n większego od lub równego
uporządkowań będzie wynosiła (n -1 )!/2 .
2, liczba 2 jest uwzględniana w Iloczynie. Tymczasem dowolna liczba przemnożona przez 2 będzie zawsze liczbą parzystą, n! jest liczbą parzystą dla każdego n większego od lub równego 2.
Obliczając (n -1 )! dostaniesz dwa razy tyle wyników, Ile potrzebujesz, ponieważ znajdą się wśród nich zarówno uporządkowania zgodne z ruchem wskazówek zegara, jak i przeciwne do niego, które z Twojego punktu widzenia są jednym i tym samym.
^ : Obliczanie silni dużych liczb wydaje się niełatwym zadaniem. Gdybym chciał policzyć na przykład 10!, musiałbym wykonać mnożenie
Dlatego ich łączną liczbę musisz dodatkowo podzielić przez 2.
uzyskując w wyniku bardzo dużą liczbę. Czy jest może łatwiejszy sposób?
A co jeśli chcę uporządkować obiekty w okrąg, przy czym chcę wziąć pod uwagę ich absolutne położenie względem środka okręgu?
się wydawać dziwny, można przyjąć,
0 : Właściwie nie, ale prawie wszystkie
0 : W tym przypadku liczba możliwych
że oznacza on liczbę możliwych sposobów
kalkulatory mają klawisz pozwalający
uporządkowań wynosi n!, bowiem mamy
uporządkowania zera obiektów.
ła tw o wyznaczyć silnię (zwykle oznaczony
tu do czynienia z porządkowaniem
symbolem „n i") I właściwie policzą ją
n obiektów.
(1 0 x 9 x 8 x 7 x 6 x J x 4 x J x 2 x 1 ) , ^ : A jeśli wśród moich wartości pojawi się zero? Ile wynosi Ot? 0 : O! jest rów ne 1. Choć wynik ten może
^ : A gdybym chciał znaleźć silnię liczby ujemnej? Albo dla jakiegoś ułamka? 0 : Silnię można wyznaczać tylko dla dodatnich liczb całkowitych. W Innym przypadku nie jest ona określona. M ożna to uzasadnić w ten sposób, że nie ma sensu myśleć o porządkowaniu obiektów, których jest niecałkowita liczba. Każdy obiekt stanowi pewną całość. Nie można też mleć ujemnej liczby obiektów.
2 86
Rozdział 6.
za Ciebie.
Podstawowe terminy Wzory przydatne przy porządkowaniu obiekfow Jeśli chcesz wyznaczyć liczbę możliwych uporządkowań zbioru n obiektów, oblicz ni, gdzie: n! = n x ( n - 1) x ... x 3 x 2 x 1 Innymi stów y, przemnóż przez sieb ie w szystkie liczby od 1 do n. Jeśli chcesz u staw ić n obiektów w okrąg, m ożesz tego dokonać na (n—D! różnych sposobów.
Podstawy kombinatoryki
Ćwiczenie
Paula chciałaby zadzwonić do ośrodka odnowy Statsville Heath Club, ale nie pamięta numeru, a nie ma przy sobie zbyt wiele pieniędzy. Pamięta, że zawiera on cyfry 1, 2, 3, 4, 5, 6 i 7, ale nie pamięta, w jakiej kolejności powinna je wybrać. Jakie są szanse na to, że losowo wybrany przez Paulę numer będzie prawidłowy?
Paula właśnie przypomniała sobie, że pierwsze trzy pozycje numeru są jakimś uporządkowaniem cyfr 1, 2, 3, zaś na cztery ostatnie składają się cyfry 4, 5, 6 i 7. Nie pamięta jednak kolejności cyfr w każdej z grup. Jakie są teraz szanse Pauli na wybranie prawidłowego numeru? Wskazówka: tym razem będziesz porządkowat dwie grupy cyfr.
_
Zaostrz ołówek Organizator derby Statsville ma zamiar zorganizować uroczystą paradę na koniec sezonu. Ma w niej wziąć udział 10 koni, które będą spacerowały po torze wyścigowym, jeden za drugim. Dokładna kolejność zostanie ustalona w drodze losowania. Dla osoby, która odgadnie prawidłowy porządek, przewidziano nagrodę. Z jakim prawdopodobieństwem mógłbyś wygrać nagrodę, jeśli wziąłbyś udział w konkursie?
jesteś lulaj ► 287
Ćwiczenie: Rozwiązanie
. . Rozwiązanie
Paula chciałaby zadzwonić do ośrodka odnowy Statsville Heath Club, ale nie pamięta numeru, a nie ma przy sobie zbyt wiele pieniędzy. Pamięta, że zawiera on cyfry 1, 2, 3, 4, 5, 6 i 7, ale nie pamięta, w jakiej kolejności powinna je wybrać. Jakie są szanse na to, że losowo wybrany przez Paulę numer będzie prawidłowy? Mamy siedem cyfr, zatem 7! możliwości ich uporządkowania. 7! = 7 x 6 x 5 x 4 x 3 x 2 x 1 = 5040. Dlatego prawdopodobieństwo odgadnięcia poprawnego numeru wynosi 1/5040 = 0,0 0 0 2 .
Paula właśnie przypomniała sobie, że pierwsze trzy pozycje numeru są jakimś uporządkowaniem cyfr 1, 2, 3, zaś na cztery ostatnie składają się cyfry 4, 5, 6 i 7. Nie pamięta jednak kolejności cyfr w każdej z grup. Jakie są teraz szanse Pauli na wybranie prawidłowego numeru? Zaczniem y od podziatu wszystkich cyfr na dwa podzbiory, tzn. {1, 2, 3} i {4, 5, 6, 7}. M ożemy teraz zapisać: Liczba uporządkowań cyfr 1, 2, 3 wynosi 3! = 3 x 2 x 1 = 6 Liczba uporządkowań cyfr 4, 5, 6, 7 wynosi 41 = 4 x 3 x 2 x 1 = 24 A by znaleźć całkowitą liczbę uporządkowań, m usim y pomnożyć przez sieb ie liczbę możliwych u staw ień w każdej z grup: Całkowita liczba uporządkowań wynosi 31x4! = 6 x 2 4 = 144 A zatem prawdopodobieństwo odgadnięcia prawidłowego numeru wynosi teraz 1/144 = 0,0069
_
^ Zaostrz ołówek
V
Rozwiązanie
Organizator derby Statsville ma zamiar zorganizować uroczystą paradę na koniec sezonu. Ma w niej wziąć udział 10 koni, które będą spacerowały po torze wyścigowym, jeden za drugim. Dokładna kolejność zostanie ustalona w drodze losowania. Dla osoby, która odgadnie prawidłowy porządek, przewidziano nagrodę. Z jakim prawdopodobieństwem mógłbyś wygrać nagrodę, jeśli wziąłbyś udział w konkursie?
W paradzie w eźm ie udział 10 koni, które będą ustaw ione w okrąg. Mamy więc 9! = 362 880 możliwości ich ustaw ienia.
1
Prawdopodobieństwo odgadnięcia prawidłowej kolejności w y n o s ić , a więc j e s t bliskie O.
2 88
Rozdział 6.
Podstawy kombinatoryki
Czas na wyścig nowicjuszy Derby Statsville są dość nietypowe, bowiem nie wszystkie startujące w nich zwierzęta muszą być końmi. W następnej z serii gonitw troje uczestników to zebry, które staną w szranki z trzem a końmi. W tym wyścigu chodzi bardziej o odgadnięcie gatunku zwierząt, które wygrają zawody, niż o wskazanie z imienia konkretnej jednostki. Innymi słowy, chodzi nam o to, by poprawnie wytypować kolejność przybywania na m etę poszczególnych grup zwierząt uczestniczących w gonitwie. Chcielibyśmy się dowiedzieć, na ile sposobów możemy uporządkować wszystkie zwierzęta według ich gatunku. Stawka wygranej w tych zakładach jest dużo wyższa niż poprzednio: za poprawne wskazanie, w jakiej kolejności przybędą do mety konie i zebry, wypłacana jest wygrana będąca 15-krotnością wpłaconej stawki. N adal jednak można zadać pytanie, czy w arto w to wejść?
WYSIL SZARE K O M Ó R K I Jak byś podszedł do rozwiązania tego typ u problemu? Zanotuj poniżej swoje propozycje.
jesteś tutaj ► 289
Porządkujemy obiekty
Porządkowanie klas to cos innego niż porządkowanie ich elementów Jak możemy oszacować liczbę wszystkich możliwych uporządkowań koni i zebr w dzisiejszym wyścigu, jeśli wiemy, że biorą w nim udział trzy konie i trzy zebry?
P rŁecież to p ro s te . Jest 6 Ł w ie rtą t, więc 6! sposobów ich uporŁądkowania.
Tym razem musimy się skupić jedynie na gatunku zwierzęcia, a nie na poszczególnych jednostkach jako takich. Jak dotąd zajmowaliśmy się jedynie porządkowaniem unikalnych obiektów, takich jak na przykład poszczególne konie biorące udział w wyścigu (dlatego posługiwaliśmy się ich imionami). W tedy odpowiedź 6! byłaby prawidłowa. Tym razem jednak chodzi nam o coś innego. Nie interesuje nas, który koń czy zebra ukończy wyścig na danej pozycji, ale to, czy daną lokatę zajmie koń czy zebra. Zastanówmy się na przykład, na ile sposobów wyścig może się zakończyć następującym wynikiem: zebry dobiegają do mety przed końmi. W tedy nie miałoby znaczenia to, która zebra czy który koń dobiegnie do mety na konkretnej pozycji. Istotne byłoby tylko to, czy jest to koń, czy zebra.
W ty m przypadku musimy odgadnąć, czy na danej
pozycji uplasuje się kon, c z y zebra. Nieważne, czy będzie to w taśn le to, czy inne zwierzę.
290
Rozdział 6.
Podstawy kombinatoryki
Porządkujemy zwierzęta według gatunku Sześć zwierząt m ożna uporządkować na 6! sposobów, ale tylko wtedy, gdy każde zwierzę traktujem y indywidualnie — jako obiekt różny od wszystkich pozostałych. Tymczasem przyjrzyjmy się zebrom. Trzy zebry można uporządkować na 3! sposobów, które zawarte są w ogólnej liczbie uporządkowań 6!. Jednak z naszego punktu widzenia nie m a znaczenia, w jakiej kolejności dobiegną do mety zebry, dlatego też wszystkie te uporządkowania stanowią dla nas jedno. Aby wyeliminować wpływ takich powtórzeń, możemy podzielić ogólną liczbę uporządkowań przez 3!. ig ó lr n liczbą
u p o rz ą d k o w a ń
przez 3!.
Zajmijmy się teraz końmi. Mamy 3! sposobów uporządkowania trzech koni, które — podobnie jak wcześniej — są zawarte w liczbie 6!. Podobnie jak w przypadku zebr, liczbę tę dzielimy przez 3! w celu wyeliminowania powtórzeń. Ti/m razem traktujem y konie ■
l
i o r i n a a rap®- M o żem y J®
C o r i ą Ł V a ć na 3! s p o s o b y dlatego dzielimy ogólną liczbą uporządkowań przez 3..
Wynika stąd, że liczba uporządkowań wszystkich zwierząt z uwzględnieniem ichi gatunku wynosi: \cznie mamy 6! sposobów ___ ^ ...
n
, /^ > 3 !3 ! 6 x 6 !e 3 zebry i 3 konie y :tujemy jako pojedyncze 720 = = dzielimy przez liczbą 36 ,rządkowa* w ramach każdej ich. = 20
Prawdopodobieństwo wygranej wynosi 1 /2 0 , a wygrana to tylko 15:1. Kaczej nie wejdę w te n zakład.
Innymi słowy, prawdopodobieństwo wygranej w przypadku obstawiania kolejności przybycia do mety zwierząt danego gatunku wynosi V2(|. N a następnej stronie przyjrzymy się tem u wynikowi z bliska.
jesteś tutaj y
291
Ogólna formuła na liczbę >errnutacji z powtórzeniami
Ogólna formuła na liczbę uporządkowań w przypadku powtórzeń Załóżmy, ze mamy do czynienia z n obiektami, wśród których k jest nierozróżnialnych (wszystkie są sobie równe). Będziemy je nazywać powtórzeniami. Ich uporządkowanie nazywamy permutacją z powtórzeniami. Aby znaleźć całkowitą liczbę uporządkowań tych obiektów, zaczniemy od wyznaczenia n!, tak jakby pośród tych obiektów nie było powtórzeń. N astępnie wyznaczymy liczbę możliwych uporządkowań obiektów powtarzających się, czyli k!. Dzieląc przez siebie oba wyniki, otrzymamy odpowiedź na nasze pytanie: Mamy tącznie n obiektów.
¡zystkich możliwych
Wśród nich
Możemy pójść o krok dalej. Załóżmy, że wśród tych n obiektów jest k obiektów powtarzających się jednego typu i j powtórzeń obiektów drugiego typu. Wówczas liczbę wszystkich możliwych uporządkowań wyznaczymy ze wzoru:
Mamy tącznie n obieh4~t—
tym przypadku liczba wszystkich możliwych uporządkowań
Wśród nich je s t obiektów jednego typu i j drugiego typu.
Podsumowując, gdy mamy do czynienia z n obiektów, wśród których znajdują się obiekty powtarzające się, całkowitą liczbę ich możliwych uszeregowań wyznaczamy, dzieląc liczbę uporządkowań obiektów bez powtórzeń (n!) przez liczbę uporządkowań samych powtórzeń (k!, j! itd.).
Podstawowe terminy Porządkowanie obiektów powtórzeniami
z
Liczba uporządkowań n obiektów, wśród których w ystęp u je j powtórzeń obiektów jednego typu, k powtórzeń drugiego typu, m powtórzeń trzeciego typ u itd., wynosi
292
Rozdziałó.
Podstawy kombinatoryki
Organizator derby Statsville postanowił nieco zmodyfikować zasady dotychczas rozgrywanych zawodów. Postanowił zorganizować wyścig, w którym wezmą udział 3 konie, 2 zebry i 5 wielbłądów. Każde ze zwierząt ma równe szanse wygrania gonitwy.
1. Na ile sposobów zwierzęta te mogą przybiec do mety, jeśli przyjmiemy, że każde z nich jest oddzielną jednostką?
2. Na ile sposobów mogą ukończyć one wyścig przy założeniu, że interesuje nas jedynie gatunek zwieręcia na każdej pozycji
3. Jakie jest prawdopodobieństwo tego, że pięć wielbłądów dobiegnie do mety jeden po drugim, przy założeniu, że wszystkie zwierzęta mają równe szanse na wygraną? (Ograniczamy się jedynie do gatunku zwierząt, a nie konkretnych uczestników gonitwy).
jesteś lulaj y
293
Ćwiczenie: Rozwiązanie
. . Lwiczenie^
Organizator derby Statsville postanowił nieco zmodyfikować zasady dotychczas rozgrywanych gonitw. Postanowił zorganizować wyścig, w którym wezmą udział 3 konie, 2 zebry i 5 wielbłądów. Każde ze zwierząt ma równe szanse wygrania gonitwy.
1. Na ile sposobów zwierzęta te mogą przybiec do mety, jeśli przyjmiemy, że każde z nich jest oddzielną jednostką? Mamy łącznie 10 zw ierząt, a więc 10! = 3 628 8 0 0 różnych uporządkowań.
2. Na ile sposobów mogą ukończyć one wyścig przy założeniu, że interesuje nas jedynie gatunek zwieręcia na każdej pozycji Mamy 3 konie, 2 zebry i 5 wielbłądów. TO!
¿ r '— J e s t 10 zw ierząt.
Liczba uporządkowań = 3I2ISI
Ą
“
J« *"
po dobniejak 2 zebry
3 628 800 6x2x120 3 628 800 1440 = 2520
3. Jakie jest prawdopodobieństwo tego, że pięć wielbłądów dobiegnie do mety jeden po drugim, przy założeniu, że wszystkie zwierzęta mają równe szanse na wygraną? (Ograniczamy się jedynie do gatunku zwierząt, a nie konkretnych uczestników gonitwy). Przede w szystkim m usim y wiedzieć, na ile sposobów 5 wielbłądów może dobiec do m ety jeden po drugim. W tym celu w szy stk ie wielbłądy uznam y za jeden obiekt, dzięki czem u będziem y mieli pewność, że w szy stk ie przybędą razem. Mamy więc 6 obiektów do uporządkowania: 3 konie, 2 zebry i 1 zbiór wielbłądów. Liczba uporządkowań = J L = 312!
^
, zfafdr Mielbtądów + 3 konie + 2 zebry
720 “
6x2 72Q
Zarówno konie, ja k i zebry traktujem y jako powtórzenia. Nie dzielim y dodatkowo p rzez 5< poniew aż w szystkie wielbłądy traktujem y jako 1 obiekt.
12
= 60 A by znaleźć szukane prawdopodobieństwo, m usim y podzielić ten wynik przez liczbę wszystkich sposobów, na które w szystkie zw ierzęta mogą ukończyć wyścig, z uwzględnieniem ich powtórzeń. Dlatego prawdopodobieństwo dobiegnięcia do m ety przez 5 wielbłądów jeden po drugim wynosi 6 0 /2 5 2 0 = 6 /2 5 2 = 1/42.
294
Rozdziałó.
Podstawy kombinatoryki
^ : Dlaczego S wielbłądów potraktowaliście jako jeden obiekt? Przecież każdy z nich jest żywym zwierzęciem?
^ : Wydaje mi się, że szukanie liczby wszystkich uporządkowań elementów powtarzających się ma jakiś związek z grupowaniem obiektów w jednorodne zbiory.
0 : Rzeczywiście, są to indywidualne
^ : Czy w rzeczywistości są takie wyścigi, w których biorą udział konie, zebry i wielbłądy? 0 : Jest to mało prawdopodobne. Pamiętaj jednak, że to są derby Statsvllle, które
obiekty, ale dzięki temu mieliśmy pewność,
0 : Zgadza się. Tego rodzaju obliczenia
że rozpatrujemy sytuację, gdy wszystkie
to niewątpliwie umiejętność wymagająca
przybiegają do m ety jeden po drugim.
wyobraźni.
Dlatego właśnie dokonaliśmy ich
W ymaga ona skupienia uwagi
zgrupowania i potraktowaliśm y je jako
na rozwiązywanym problemie, dokładnego
jeden obiekt.
jego przemyślenia i zrozumienia.
rządzi się swoimi prawami.
Czas na wyścig dwudziestu koni Wyścig nowicjuszy dobiegł końca, przynosząc zasłużoną wygraną zebrom.
c W ^ W Y S IL SZARE K O M Ó R K I Jak sądzisz, jak m ożna by wyznaczyć liczbę wszystkich m ożliw ych uporządkowań 3 spośród 20 obiektów?
jesteś tutaj y
295
Poznajemy wariacje
Na ile sposobów możemy zapełnić trzy miejsca medalowe? Z a chwilę zacznie się najważniejsza gonitwa dnia. Weźmie w niej udział 20 koni, a naszym zadaniem jest oszacowanie, na ile sposobów może dobiec do mety trójka zwycięzców. Dzięki tem u dowiemy się, jakie jest prawdopodobieństwo zgarnięcia wygranej w tej gonitwie. Możemy to zrobić podobnie, jak w przypadku wcześniejszych gonitw, to znaczy sprawdzając, na ile sposobów możemy zapełnić trzy pozycje medalowe. Zacznijmy od pozycji pierwszej. W wyścigu bierze udział 20 koni, zatem mamy 20 sposobów wypełnienia tego miejsca. Drugie miejsce możemy więc wypełnić jedynie na 19 sposobów, zaś trzecie — na 18 sposobów.
Tym razem nie interesuje nas zupełnie to, które konie zajmą miejsca od czwartego do dwudziestego. Musimy odgadnąć jedynie popraw ną kolejność zajęcia miejsc medalowych. Miejsca te mogą zostać obsadzone na 2 0 x 1 9 x 1 8 = 6840 sposobów. A zatem prawdopodobieństwo poprawnego wskazania zwycięzców tej gonitwy wynosi 1/6840.
Znaleźliśmy więc odpowiedź. A le je ś li w wyścigu weźmie udział większa liczba koni lub t e ż b ę d zie więcej miejsc medalowych, będziemy mieli problem.
Potrzebny jest nam bardziej ogólny sposób radzenia sobie w podobnych przypadkach. W naszym przykładzie musieliśmy pomnożyć przez siebie zaledwie trzy liczby. A gdyby było ich więcej? D latego musimy poszukać ogólnej formuły, która pozwoli nam znajdować ogólną liczbę uporządkowań pewnej liczby obiektów, które losujemy z większego zbioru obiektów.
2 96
Rozdział 6.
Mamy 2 0 koni, z których każdy może dobiec ja k pierwszy, 19 kom, które mogą zająć druga pozycją, i 18, które mogą zając trzecie miejsce.
Podstawy kombinatoryki
Obliczamy wariacje W jaki sposób moglibyśmy zapisać ostatnio wykonane mnożenie za pom ocą silni? Obliczyliśmy, ze w tamtym przypadku liczba możliwych uporządkowań wynosiła 2 0 x 1 9 x 1 8 . Gdybyśmy chcieli zapisać ten iloczyn przy założeniu, że kontynuujemy mnożenie, otrzymalibyśmy:
20 X 19 X 18
20 x 19 x 18 x (17 x 16 x ... x 3 x 2 x 1)
Jeśli pomnożymy to przez 171/17!, -uzyskam y ten sam wynik.
(17 x 16 x ... x 3 x 2 x 1) 20!
17!
^ Oto nasz poprzedni re zu lta t zapisany za pomocą. si/ni.
Jest to ten sam wynik, tyle że zapisany za pom ocą silni. Gdy mamy do czynienia z porządkowaniem pewnej liczby obiektów wybranych z większego zbioru, mówimy o tak zwanych wariacjach bezpowrórzeń (istnieją też wariacje z powtórzeniami, ale nie omawiamy ich w tej książce). W naszym przypadku dokonaliśmy uszeregowania 3 obiektów spośród 20, a więc stworzyliśmy wariację bez powtórzeń. Liczbę wszystkich tego rodzaju uporządkowań obliczyliśmy jako: 20!
(20 - 3)! To ten sam wynik co uzyskany
w cześniej
2 432 902 008 176 640 000 355 687 428 096 000 6840
W ogólnym przypadku liczba wariacji r obiektów spośród n obiektów (n>r) oznacza liczbę możliwych sposobów wyboru r obiektów spośród n, przy czym kolejność m a znaczenie. Zwykle oznacza się ją jakoV”r i wyznacza ze wzoru: Liczba w szystkich obiektów
które wybieramy ^ i porządkujemy
V" = n! r (n - r)! '
Liczba wariacji to całkowita liczba możliwych uszeregowań pewnej liczby obiektów (r) pochodzęcych z większego zbioru (n) obiektów.
Zatem gdy chcemy oszacować, na ile sposobów możemy wybrać uporządkowany zbiór (czyli ciąg) r obiektów spośród n, powinniśmy policzyć V(.
Nigdy nie mówiłem, ż e in te re s u je mnie kolejność wszystkich koni. Wystarczy, ż e odgadniesz poprawnie konie w pierw szej tró jc e , a na pewno nie p o ża łu je s z...
jesteś tutaj y
297
Poznajemy kombinacje
Gdy kolejność nie ma znaczenia Wiemy już, jak wyznaczyć liczbę wszystkich uporządkowań 3 koni wybranych spośród 20. Tym samym potrafim y wskazać, na ile sposobów mogą one przybiec do mety, jeden po drugim. Załóżmy jednak, ze nie interesuje nas dokładna klasyfikacja zwycięzców. Nie będziemy szacowali liczby wariacji, ale kombinacji bez powtórzeń (istnieją też kombinacje z powtórzeniami, ale nie omawiamy ich w tej książce). Chcemy wiedzieć, na ile sposobów 3 konie spośród 20 mogą wygrać gonitwę, bez względu na to, w jakiej kolejności dobiegną do mety.
Nie interesuje nas to, w jakiej kolejności trzech zw ycięzców przybiegnie do m ety, a jedynie to, które to będą konie.
Co możemy zrobić w tym przypadku? Obliczona wcześniej liczba wariacji uwzględnia kolejność, w jakiej 3 zwycięzców dobiegnie do mety. Kolejność tę można wyznaczyć na 3! sposobów. Jeśli więc podzielimy poprzednio wyznaczoną liczbę wariacji przez 3!, uzyskamy liczbę wszystkich możliwych klasyfikacji medalowych, jednak bez wskazywania dokładnych lokat zajętych przez poszczególnych zawodników. Będzie ona równa: 20 !
6840
3!17!
3!
= 1140 Mamy zatem aż 6840 możliwych sposobów ukończenia wyścigu na 3 pierwszych miejscach, lecz tylko 1140, jeśli pominiemy dokładną kolejność zajmowanych pozycji przez zwycięskie konie.
Seanse na wygraną są raczej niewielkie (1/1140), ale wyplata w stosunku 1500:1 sprawia, ¿e powinieneś w yjśćjednak na swoje. Wstystko Ł a le iy od Twojego ap e ty tu na rytyko.
2 98
Rozdział 6.
Podstawy kombinatoryki
Liczymy kombinacje Nieco wcześniej znaleźliśmy sposób szacowania liczby wariacji. Przydałoby się zatem znaleźć podobną formułę dla liczby kombinacji. W ogólnym przypadku liczba kombinacji mówi o tym, na ile sposobów możemy wybrać r obiektów ze zbioru liczącego n obiektów ogółem, gdy kolejność ich wyboru nie ma znaczenia. Liczbę kombinacji oznaczamy zwykle jako C i obliczamy ze wzoru:
M
Łączna liczba obiektów.
C" =
" !
y ^
Tą część liczymy dokładnie tak samo, ja k w przypadku wariacji...
r! (n - r)!
Liczba obiektów, które ^
wybieramy ze zbioru.
■■■dzieląc dodatkowo przez r> by uzyskać liczbą kombinacji’.
Czym więc różnią się wariacje od kombinacji?
Wariacje i permutacje Wariacja to sposób wyboru pewnej liczby uporządkowanych obiektów wybranych z większego zbioru. Kolejność tych obiektów m a znaczenie. Jest to więc działanie inne niż w przypadku kombinacji, ponieważ musimy dodatkowo wziąć pod uwagę uporządkowanie obiektów. Gdy porządkujemy wszystkie obiekty, mamy do czynienia z permutacjami.
Wariacje: kolejność ma znaczenie.
Kombinacje Kombinacja to sposób wyboru pewnej liczby nieuporządkowanych obiektów z większego zbioru. Kolejność wyboru nie m a znaczenia. Jest to działanie inne niż w przypadku wariacji, ponieważ nie interesuje nas kolejność, w jakiej obiekty zostaną uporządkowane. Wystarczy, że wiemy, które obiekty zostały wybrane.
Kombinacje: kolejność nie ma znaczenia. To są te s a m e Q
To są różne
jesteś tutaj y
299
Wywiad z Kombinacją
Cała prawda o kombinacjach W yw iad tygodnia:
Czy kolejność naprawdę ma znaczenie? H ead First: Kombinacjo, miło gościć cię w studiu.
H ead First: Odtwarzacze MP3?
K ombinacja: M nie również jest miło, H ead First. Dziękuję za zaproszenie.
K ombinacja: Tak. Większość z nich ma specjalną listę odtwarzania, która pozwala ci wybrać utwory, jakich chcesz słuchać.
H ead First: A zatem przejdźmy od razu do rzeczy. Wiele osób dostrzega uderzające podobieństwo między tobą a Wariacją. Czy zgadzasz się z tą opinią?
H ead First: Chyba wiem, do czego zm ierzasz...
K ombinacja: Ludzie najprawdopodobniej mają problem y z rozróżnieniem nas obu, ponieważ zwykle korzystają z naszej pomocy w podobnych sytuacjach. Obie włączamy się do gry, gdy trzeba wybrać pewną liczbę obiektów z danego zbioru. T u jednak podobieństw a między nami się kończą.
K ombinacja: Nie, to nie tak ... I dla Wariacji, i dla mnie zawartość listy odtwarzania m a znaczenie, jednak nieco inne. Mnie wystarczy wiedza o utworach, które są na liście, tymczasem W ariacja idzie o krok dalej. Nie wystarczy jej wiedza o tym, które utwory mają być odtwarzane, ale chce również wiedzieć, w jakiej kolejności. Zm iana kolejności utworów nie ma dla mnie znaczenia, ale m a znaczenie dla Wariacji.
H ead First: Co więc was odróżnia? K ombinacja: Cóż, przede wszystkim mamy zupełnie inne podejście do wyboru obiektów. W ariacja zwraca baczną uwagę na to, w jakiej kolejności obiekty te są dobierane ze zbioru. O na nie tylko więc wybiera obiekty, ale również je porządkuje. Ale to już jest przesada! H ead First: Rozumiem więc, że ty tego nie robisz? K ombinacja: W żadnym razie! Wiem, że W ariacja chce jak najlepiej, ale bez przesady — życie jest zbyt krótkie, by marnować je w ten sposób. Moim zdaniem wystarczy, gdy dokona się wyboru obiektów ze zbioru. To wszystko. H ead First: Czy więc na tym polega twoja przewaga nad W ariacją? K ombinacja: Nie powiedziałabym raczej, że któraś z nas m a nad drugą przewagę, wszystko bowiem zależy od konkretnej sytuacji. Weźmy chociażby odtwarzacze MP3.
300
Rozdziałó.
H ead First: Powiedzmy teraz coś o samych obliczeniach. Czy liczenie Kombinacji jest podobne do liczenia Wariacji? K ombinacja: Tak, choć nie do końca takie samo. Szacując liczbę wariacji, liczysz najpierw n!, a następnie dzielisz je przez (n-r)!. Aby oszacować liczbę kombinacji, musisz podzielić n! dodatkowo przez r!. D latego ja mam zwykle mniejsze wartości niż Wariacja. Zauważ, że m a to sens — ja jestem mniej grymaśna niż ona. H ead First: Zwykle mniejsze wartości? K ombinacja: Powiem to więc inaczej. Liczba wariacji nigdy nie jest mniejsza niż liczba kombinacji. H ead First: Rozumiem. Kombinacjo, dziękuję za odwiedzenie nas w studiu. K ombinacja: Cała przyjemność po mojej stronie.
Podstawy kombinatoryki i Nie.isŁnieja.
głupie pytania ^ : Czy liczba wariacji może być mniejsza niż liczba kombinacji? 0 : Nie, nigdy. Szacując liczbę kombinacji, dzielisz liczbę wariacji przez liczbę całkowitą,
^ : Nadal czegoś nie rozumiem. Gdybym chciał znaleźć liczbę sposobów, na które mogę wybrać r obiektów spośród n ogółem, powinienem zapisać ją jako C" czy Cj,?
^ : Kombinacje i wariacje zdają się mieć coś wspólnego z powtórzeniami. Czy mam rację? 0 : Rzeczywiście, są one w pewien sposób powiązane. Gdy pracujesz z obiektami
dlatego zawsze jest ona mniejsza niż liczba 0 : Poprawną odpowiedzią jest Cn. Łatwo
wariacji. Obie liczby mogą być sobie co najwyżej równe. M a to miejsce tylko wtedy,
powtarzającymi się, dzielisz liczbę
to zapamiętać, bowiem większa liczba
możliwych uporządkowań wszystkich
powinna znaleźć się wyżej w tym zapisie.
obiektów przez liczbę uporządkowań obiektów powtarzających się.
gdy wybieramy O lub 1 obiektów.
^ : Czy można zapisać to jeszcze inaczej? Wydaje mi się, że widziałem już gdzieś symbol kombinacji, ale wyglądał on zupełnie inaczej.
^ : Co więc jest wariacją, a co kombinacją? Chyba się w tym pogubiłem. 0 : Z w ariacją mamy do czynienia wtedy, gdy dokonujemy porządkowania
W przypadku wariacji wszystkie obiekty, które nie zostają wybrane, traktujem y tak, jakby były jednakowe, dlatego n! dzielimy przez (n—r)!. W przypadku kombinacji
0 : Oczywiście. Istnieje alternatywny
jest podobnie, tyle że również obiekty
sposób zapisu kombinacji w postaci
wybierane traktujem y jako takie same. Dlatego liczbę wariacji dzielimy dodatkowo
wybranych obiektów. Z kombinacją zaś
przez ri.
(?)
wtedy, gdy jedynie wybieramy obiekty, nie dbając o Ich porządek.
^ : Czy wariacje i kombinacje mają dla nas duże znaczenie? 0 : Oczywiście, zwłaszcza kombinacje. Przekonasz się o tym w dalszej części książki.
Podstawowe terminy Wariacje Liczba wariacji, to znaczy możliwych sposobów uporządkowania r obiektów wybranych spośród n elementów, wynosi: V =
(n -r)l
Kombinacje Liczba kombinacji, to znaczy możliwych sposobów wyboru r obiektów ze zbioru n elem entów, wynosi:
c=.
n! rl(n-r)!
jesteś tutaj y
301
Ćwiczenie
302
Rozdziałó.
Podstawy kombinatoryki
Nadszedł czas, byś wyznaczył kilka prawdopodobieństw dotyczących gry w pokera. Załóżmy, że talia kart liczy 52 elementy, spośród których wybieramy jednorazowo 5 kart. Na ile sposobów możemy tego dokonać?
Poker królewski to rozdanie, w którym znajdują się: dziesiątka, walet, dama, król i as, wszystkie tego samego koloru. Jakie jest prawdopodobieństwo takiego rozdania?
Z karetą mamy do czynienia wtedy, gdy mamy w ręku cztery karty o tej samej wartości. Piąta karta nie ma w tym przypadku znaczenia. Jakie jest prawdopodobieństwo otrzymania karety?
Z kolorem mamy do czynienia wtedy, gdy wszystkie pięć kart w naszym ręku jest tego samego koloru. Jakie jest prawdopodobieństwo takiego zdarzenia?
jesteś lulaj y
303
Ćwiczenie: Rozwiązanie
- .
.
Ćwiczenie Rozwiązanie 1.
Drużyna Statsville All Stars przygotowuje się do rozegrania kolejnego meczu. Drużyna liczy 12 zawodników, spośród których tylko 5 bierze jednocześnie udział w meczu.
Na ile różnych sposobów można wybrać skład drużyny na dany mecz? Mamy do dyspozycji 12 graczy, z których m usim y sformować pięcioosobową drużynę. Nie ma znaczenia kolejność doboru graczy, dlatego możemy postużyć s ię wzorem na liczbę kombinacji.
CK
12!
5
51(12-5)1
_ 12! _ 517! = 792
2.
Trzech zawodników trener określa mianem „superstrzelców”. Jakie jest prawdopodobieństwo tego, że wszyscy trzej znajdą się na boisku w tym samym czasie, jeśli zakładamy, że ich wybór odbywa się losowo? Zacznijm y od obliczenia liczby w szystkich możliwych sytu a cji, w jakich trzech superstrzelców może pojawić się jednocześnie na boisku.
Gdy 3 superstrzelców znajdzie s ię w tym samym cza sie na boisku, m usim y wybrać dodatkowo 2 graczy spośród pozostatych 9. Szukam y więc liczby kombinacji 2-elem entow ej ze zbioru 9 elementów.
C9 2
9 21(9-2)1 9! 2171 = 36
To oznacza, że prawdopodobieństwo pojawienia s ię 3 superstrzelców w jednym cza sie na boisku wynosi 36/792, czyli 1/22.
304
Rozdziałó.
Podstawy kombinatoryki Nadszedł czas, byś wyznaczył kilka prawdopodobieństw dotyczących gry w pokera. Załóżmy, że talia kart liczy 52 sztuki, spośród których wybieramy jednorazowo 5 kart. Na ile sposobów możemy tego dokonać?
Ćwiczenie
Rozwiązanie ć
wybieramy
5
z talii 52 kart:
C f = 521 = 2 598 960
4715!
Poker królewski to rozdanie, w którym znajdują się: dziesiątka, walet, dama, król i as, wszystkie tego samego koloru. Jakie jest prawdopodobieństwo takiego rozdania? Dla każdego z 4 kolorów tę konfigurację możemy uzyskać tylko w jeden sposób. Dlatego liczba wszystkich możliwych sposobów uzyskania koloru królewskiego wynosi 4. PCpoker królewski) =
2 598 960
= 1/649740 = = 0,0000015
Z karetą mamy do czynienia wtedy, gdy mamy w ręku cztery karty o tej samej wartości. Piąta karta nie ma w tym przypadku znaczenia. Jakie jest prawdopodobieństwo otrzymania karety? Zacznijm y od 4 kart o tej samej wartości. Różnych wartości je s t w talii 13, dlatego liczba wszystkich kombinacji tych 4 kart wynosi 13. Do tych czterech m usim y jeszcze dobrać jedną spośród 48 pozostałych w talii. Liczba sposobów doboru takiego rozdania wynosi więc 13x48 = 624, P(kareta) =
2 598 960
= 1/4165 = = 0 ,00024
Z kolorem mamy do czynienia wtedy, gdy wszystkie pięć kart w naszym ręku jest tego samego koloru. Jakie jest prawdopodobieństwo takiego zdarzenia? A by odpowiedzieć na to pytanie, m usim y obliczyć liczbę możliwych sposobów dobrania danego koloru, a następnie wybrania 5 kart tego samego koloru. W talii je s t 13 kart każdego koloru. Dlatego liczba wszystkich możliwych kombinacji wynosi: 4xC" 5
= 4 x -121.= 8!5! = 4 x 1287 = 5148 =
P(kolor) =
5148
2 598 960
=
= 33/16660 =
= 0,00198
jesteś lulaj ► 305
Brawa dla Rosynanta!
To ju ż koniec zawodów Gonitwa dwudziestu koni właśnie dobiegła końca. Jako pierwszy do mety dobiegł Rosynant, zaraz po nim Grzywacz, a na trzeciej pozycji uplasował się Wicherek. Jeśli obstawiłeś taką właśnie kolejność, przyjmij nasze gratulacje! Wygrałeś całkiem sporo pieniędzy!
Zwycięzca tegorocznych derby Statsville: Rosynant
Drugie miejsce: Grzywacz
W tym rozdziale dowiedziałeś się, jak rozwiązywać problem y związane z kolejnością uporządkowania obiektów z pewnego zbioru. Nauczyłeś się obliczać perm utacje, wariacje i kombinacje bez potrzeby rozpatrywania każdej możliwości uszeregowania obiektów z osobna. Zdobyłeś więc bardzo potężne narzędzie, które szczególnie przyda Ci się w dalszej nauce statystyki. Czytaj dalej, a przekonasz się, że możesz łatwo zdobyć jeszcze większą biegłość w tej dziedzinie.
306
Rozdziałó.
Trzecie miejsce: Wicherek
7 . Poznajemy rozkłady: geometryczny, dwumianowy i Poissona
+
Stajemy się dyskretni
^
Wyznaczanie rozkładów prawdopodobieństwa zabiera sporo czasu. W iem y już, jak wyznaczać rozkłady praw dopodobieństw a, choć nie zawsze jest to łatw e. Pewnie więc zgodzisz się z nami, że byłoby dobrze, gdyby istniały ogólne, bardziej uniwersalne rozkłady praw dopodobieństw a, którym i ła tw o m ożna by się posługiwać na co dzień. W tym rozdziale zaprezentujem y kilka standardow ych ro zk ła d ó w praw do po do bień stw a, o ściśle określonych charakterystykach. Gdy zrozumiesz, jak to działa, będziesz w stanie w rekordow o szybkim czasie obliczać praw do po do bień stw a, w artości oczekiw ane i w ariancje. Przygotuj się więc na poznanie rozkładów : geometrycznego, dw um ianow ego I Poissona. M iłej lektury.
to jest nowy rozdział ►
307
Uważaj na Jrzewo!
Poznaj Chada, pechowego snowboardzistę Chad uwielbia snowboard, ale m a dziwną skłonność do wypadków na stoku. Jeśli na stoku rośnie drzewo, na pewno znajdzie się ono dokładnie na trasie zjazdu Chada. Marzy on o tym, by wreszcie przełam ać ciążące nad nim fatum, bo koszty ubezpieczenia pochłaniają fortunę.
Wiele rzeczy zależy od tego, jak Chad radzi sobie na stoku: stan jego ego czy zniżki u ubezpieczyciela. Gdyby się bowiem okazało, że uda mu się pokonać trasę w mniej niż dziesięciu próbach, mógłby zacząć bardziej szarżować, narażając się na ryzyko połam ania kości i wyższe stawki z tytułu ubezpieczenia. Prawdopodobieństwo tego, że Chadowi uda się bez przeszkód pokonać całą trasę, wynosi 0,2. Mimo to Chad nie zamierza się poddawać, dopóki nie ukończy trasy z sukcesem. Gdy mu się to wreszcie uda, zamierza rzucić snowboard, by oddać się innym, mniej ryzykownym sposobom spędzania wolnego czasu.
308
Rozdział7.
Chad
Poznajemy rozkłady: geometryczny, Jwumianowj i Poissona
_
^ Zaostrz ołówek
Chad j e s t niesam ow ici^
wytrzymaty, tak że jeśli w danej próbie zdarzy mu s/ę wypadek, nie wptynie on na wyniki Chada w kolejnych podejściach.
Nadszedł chyba dobry moment na to, byś sprawdził w praktyce swoją wiedzę z zakresu rachunku prawdopodobieństwa. Szanse na to, że Chad ukończy z sukcesem dany zjazd, wynoszą 0,2 (załóżmy, że kolejne próby pokonania trasy są niezależne). Jakie jest prawdopodobieństwo tego, że uda mu się to przy drugim podejściu? A ile wynosi prawdopodobieństwo tego, że dokona tego za pierwszym lub za drugim razem? Pamiętaj, że gdy raz uda mu się pokonać stok, pożegna się na zawsze ze snowboardem. Wskazówka: być może zrozumieniu tego zadania pomoże Ci wykreślenie drzewka stochastycznego.
jesteś lulaj ► 309
Zaostrz ołówek: Rozwiązanie
_
^
Zaostrz ołówek Rozwiązanie
Nadszedł chyba dobry moment na to, byś sprawdził w praktyce swoją wiedzę z zakresu rachunku prawdopodobieństwa. Szanse na to, że Chad ukończy z sukcesem dany zjazd, wynoszą 0,2 (załóżmy, że kolejne próby pokonania trasy są niezależne). Jakie jest prawdopodobieństwo tego, że uda mu się to przy drugim podejściu? A ile wynosi prawdopodobieństwo tego, że dokona tego za pierwszym lub za drugim razem? Pamiętaj, że gdy raz uda mu się pokonać stok, pożegna się na zawsze ze snowboardem.
Oto drzewko stochastyczne przy założeniu dwóch podejść do pokonania trasy, które pomoże nam wyznaczyć szukane prawdopodobieństwa. Chad u k o rz y
Podejście 1
s —
*St
» o “* “ "1-
S u kces
Jeśli przez X oznaczymy zm ienną losową mówiącą o liczbie podejść potrzebnych do pokonania stoku, możemy zapisać: P(X = 1) = P (sukces w podejściu 1) = =
0,2
P(X = 2 )= P (sukces w podejściu 2 n porażka w podejściu 1) =
= 0,2 x 0,8 = = 0,16 P ( X < 2 )= P(X = 1) +P(X = 2 ) = = 0,2 + 0,16 = = 0,36
310
Rozdział7.
.. . m ożem y dodać te Pf^dopodobieństwa, ponieważ kolejne próbu S<1 niezależne.
Poznajemy rozkłady: geometryczny, Jwumianow) i Poissona
Znajdujemy rozkład prawdopodobieństwa dla osiągnięć Chada Znam y już prawdopodobieństwo tego, ze Chad pokona stok w nie więcej niż dwóch podejściach. Co jednak w przypadku, gdybyśmy chcieli poznać jego szanse na to, że do pokonania trasy wystarczy mu nie więcej niż 10 podejść (czym mógłby być zainteresowany jego ubezpieczyciel), 100 lub nawet 200? Z am iast obliczać te prawdopodobieństwa za każdym razem od początku, byłoby lepiej wyznaczyć pełen rozkład prawdopodobieństwa. Aby jednak znaleźć rozkład dla osiągnięć Chada, musielibyśmy wyznaczyć prawdopodobieństwo osiągnięcia pierwszego sukcesu dla każdej możliwej liczby podejść, które Chad m a szansę wykonać.
Cbwilecikę. Gdybyśmy mieli w ytnaciać t e wszystkie prawdopodobieństwa, trwałoby to całą wieciność!
O o
Mamy więc problem, ponieważ liczba przypadków, które należałoby rozpatrzyć, jest praktycznie nieskończona. Chad zdecydował się ponawiać próby pokonania trasy aż do osiągnięcia sukcesu. Sukcesu, który może się pojawić za pierwszym podejściem, dziesiątym, setnym, a być może i tysięcznym. N ikt nie jest nam w stanie powiedzieć, kiedy to nastąpi.
C iy sąd iicie, ¿e będę w y in a c ia ła ro ikład prawdopodobieństwa dla \ q nieskońcionej lic ib y wartości im ien n ej losowej? C iy to jakiś ia r t?
Choć może się wydawać, że nie mamy wyjścia, istnieje dużo prostszy sposób na wyznaczenie takiego rozkładu. Istnieje bowiem pewien szczególny rozkład prawdopodobieństwa, o ściśle określonych charakterystykach, dzięki którem u łatwo policzymy szukane prawdopodobieństwa, wartość oczekiwaną czy wariancję. Zobaczmy, o jaki rozkład chodzi.
jesteś tutaj ► 311
Drzewo stochastyczne dla osiqgnięć Chada
Istnieje rozkład prawdopodobieństwa, który dobrze opisuje nasz problem Oznaczmy przez X zm ienną losową mówiącą o liczbie podejść (prób) niezbędnych do ukończenia z sukcesem trasy zjazdu przez Chada. Pamiętajmy, ze po pierwszej udanej próbie pokonania stoku Chad przestaje zajmować się snowboardem. Przeanalizujmy możliwe wyniki czterech pierwszych podejść do pokonania stoku, dla których wyznaczymy prawdopodobieństwa ich realizacji. Być może ud a nam się zaobserwować jakąś prawidłowość w sposobie wyznaczania prawdopodobieństw, która pomoże nam policzyć prawdopodobieństwa realizacji pozostałych wartości zmiennej X.
^prawdopodobieństwo odniesienia sukcesu w pierwszym podejściu.
P o d e jś c ie 1
S ukces odniesienia sukces
P o d e jś c ie 2
¿e dwa
p^erwsze^padejścia ¿kośczyty s i,
S ukces
« T
porażką.
P o d e jś c ie 3
S ukces P o d e jś c ie 4
S ukces
P o ra ż k a
P o ra ż k a
O to tabelka z wartościami prawdopodobieństw dla czterech realizacji zmiennej losowej X:
x
P (X = x )
1
0,2
2
0,8 X 0,2 = 0,16
3
0,8 X 0,8 X 0,2 = 0,128
4
0,8 X 0,8 X 0,8 X 0,2 = 0,1024
312
Rozdział 7.
Te p r a w d o p o d o b n a
Zauw aż, że każde prawdopodobieństwo j e s t wynikiem mnożenia liczb 0 ,8 i 0 ,2 przez sieb ie, przy czym 0 ,2 j e s t za w sze mnożone tylko raz.
Poznajemy rozkłady: geometryczny, Jwumianow^ i Poissona
Uzupełnij poniższą tabelkę o wartości prawdopodobieństw P(X = x) dla podanych x (liczba prób do osiągnięcia sukcesu). Podaj, w której potędze wystąpiła liczba 0,8, a w której 0,2, czyli ile razy każda z tych liczb pojawia się w iloczynie składającym się na P(X = x). x
P (X = x )
P o tę g a 0 ,8
P o tę g a 0 ,2
1
0,2
0
1
2
0,8 x 0,2
1
1
3
0,82 x 0,2
2
4 5 r
jesteś lutaj ► 313
Ćwiczenie: Rozwiązanie
„
.
.
Rozwiązanie
Uzupełnij poniższą tabelkę o wartości prawdopodobieństw P(X = x) dla podanych x (liczba prób do osiągnięcia sukcesu). Podaj, w której potędze wystąpiła liczba 0,8, a w której 0,2, czyli ile razy każda z tych liczb pojawia się w iloczynie stanowiącym P(X = x).
x
P (X = x )
P o tę g a 0 ,8
P o tę g a 0 ,2
1
0,2 0,8 x 0,2
0 1
1
2 3
0,82 x 0,2
2
1
4
0,83 x 0,2
3
1
5
0,84 x 0,2
4
1
r
0 ,8 r-1 x 0,2
r —1
1
1
W przypadku gdy X = 4, Chad trzykrotnie poniósł porażkę i dopiero w czwartym podejściu odniósł su kces. Dlatego P(X = 4; obliczymy jako 0 ,8 x 0,8 x 0,8 x 0 ,2 — ponieważ prawdopodobieństwo ukończenia zjazdu ze stoku przez Chada wynosi 0,2, więc prawdopodobieństwo porażki wynosi 0,8.
W przypadku gdy X = 5, Chad ponosi porażkę cztery razy z rzędu i dopiero w piątym podejściu odnosi su kces. Dlatego: P(X = 5 )= 0,8 x 0,8 x 0,8 x 0,8 x 0,2 A co z P(X = r)? Jeśli Chad ma odnieść su kc e s dopiero w r-tej próbie, w cześniej r — 1 razy m usi ponieść porażkę. Dlatego też: P(X = r) = 0,8 x 0,8 x ... x 0,8 x 0,2, co oznacza, że liczbę 0 ,8 m usim y podnieść do potęgi o wykładniku (r -1 ).
o
O
Oba zapisy oznaczają cos innego. Pisząc P(X = x), mamy na myśli ogólną sytuację, gdy zmienna losowa X przyjmuje jakąś (dowolną) wartość x. W zamieszczonej wyżej tabeli umieściliśmy wiele różnych wartości x, a następnie wyznaczyliśmy prawdopodobieństwa ich realizacji. Gdy piszemy P(X = r), chcemy zaznaczyć to, że zm ienna losowa X przyjęła konkretną wartość x = r. Chodzi nam wówczas o prawdopodobieństwo przyjęcia przez zmienną X tej konkretnej wartości. Nie chcemy jednak utożsam iać r z żadną konkretną liczbą, ponieważ chcielibyśmy znaleźć bardziej ogólną formułę wyznaczania prawdopodobieństwa dla rozkładu zmiennej X. Innymi słowy, zmienna X może przyjąć dowolną wartość x, w tym r, jeśli tylko będzie to liczba całkowita większa od 0.
314
Rozdział 7.
Poznajemy rozkłady: geometryczny, Jwumianow) i Poissona
Prawdopodobieństwo możemy przedstawić za pomocą wzoru Jak już wiemy, prawdopodobieństwa realizacji kolejnych wartości zmiennej X można wyznaczyć według pewnego schematu. Każde z nich jest iloczynem odpowiedniej potęgi liczby 0,8 oraz liczby 0,2. D la dowolnej wartości r można je wyznaczyć, korzystając ze wzoru: P(X = r) = 0,8r4 X 0,2 Gdybyśmy więc chcieli znaleźć P(X = 100), nie musielibyśmy wykreślać bardzo rozbudowanego drzewka ani też rozważać szczegółowo, jak zakończy się każda kolejna próba pokonania stoku. Moglibyśmy po prostu skorzystać ze wzoru: P(X = 100) = 0,8" X 0,2 Co więcej, możemy pójść jeszcze o krok dalej. Jeśli p rze zp oznaczymy prawdopodobieństwo sukcesu w pojedynczej próbie, to odpowiadające mu prawdopodobieństwo porażki będzie wynosiło 1-p. Jeśli oznaczymy je przez q, to prawdopodobieństwo realizacji kolejnych wartości zmiennej X będziemy mogli zapisać jako:
, P ( X = r ) = q r ■1 p
porażek i 1 sukces. _ _ W naszym przykładzie, p = 0,2,
a ą = 0,8. Jest to tak zwana funkcja rozkładu prawdopodobieństwa. Zdefiniowany za pom ocą powyższego wzoru rozkład prawdopodobieństwa nazywamy rozkładem geometrycznym.
L i Nte.tstmeia, Nie.istniej.
głupie pytania ^ : Jaki jest sens takiego uogólniania? Przecież mieliśmy się zająć tylko rozkładem osiągnięć Chada.
^ : Dlaczego wykorzystaliście literę r, a nie jakąś inną? 0 : M ogłaby to być dowolna litera, choć
0 : Dzięki uogólnieniu rozwiązania
przyjęło się używać r. Ważne jest tylko to,
naszego problemu będziemy mogli
by ta litera zawsze oznaczała to samo.
przez to wiele czasu i wysiłku, gdy spotkamy się z podobnym zagadnieniem w przyszłości.
0 : Być może jest to uproszczenie nie do końca uzasadnione. Ponieważ jednak
wykorzystać je do rozwiązywania podobnych problemów. Zaoszczędzimy
^ : Czy rozsądnie jest zakładać, że umiejętności Chada, a więc i szanse na pokonanie stoku, nie zmieniają się w każdej próbie?
^ : Jak można wyznaczyć rozkład prawdopodobieństwa, jeśli zbiór wartości zmiennej losowej jest nieograniczony?
Chad nie ma raczej szczęścia do tego sportu, przyjmujemy, że jego umiejętności nie zmienią się Istotnie mimo licznych prób. To pozwala nam posłużyć się rozkładem geometrycznym.
^ : Szukaliśmy formuły dla P(X = r). Czym jest r?
0 : Nie musimy prezentować rozkładu prawdopodobieństwa w form ie tabeli zawierającej wszystkie wartości
0 : P(X = r) jest prawdopodobieństwem
zmiennej losowej o nlezerowym
przyjęcia przez zmienną X wartości r, gdzie
prawdopodobieństwie realizacji. Równie
r oznacza liczbę prób pokonania stoku
dobrze możemy posłużyć się wzorem,
aż do osiągnięcia sukcesu.
który pozwoli nam wyznaczyć to
Gdybyś chciał obliczyć P(X = 20), mógłbyś
prawdopodobieństwo dla dowolnej
podstawić za r liczbę 20. Jest to sposób
wartości.
na skrócenie zapisu, gdy rozpatrujemy przypadek ogólny.
jesteś tutaj ► 315
Rozkład geometryczny z bliska R oz
g e o m e try c z n y
z M is k ^
-------------------------------
Wiemy już, ze osiągnięcia Chada na stoku możemy opisać za pom ocą rozkładu geometrycznego. Sprawdza się on wtedy, gdy spełnione są poniższe warunki: Mamy do czynienia z serią niezależnych prób. 3
Każda próba może się zakończyć albo sukcesem, albo porażką, przy czym prawdopodobieństwo sukcesu jest jednakowe w każdej próbie. Chcemy się dowiedzieć, w której próbie po raz pierwszy pojawi się sukces.
Gdy więc problem , z którym mamy do czynienia, spełnia powyższe warunki, przy próbie jego rozwiązania możemy się posłużyć rozkładem geometrycznym. Musimy tylko pam iętać, że „sukces” oznacza tu realizację zdarzenia, które stanowi istotę naszego problem u. N aw et jeśli będzie to zdarzenie o negatywnym zabarwieniu (np. śmierć), z tego punktu widzenia będzie to nadal sukces. Niech zm ienna losowa X oznacza liczbę prób, ja k ą należy wykonać, by odnieść sukces (po raz pierwszy). Innymi słowy, jest to liczba prób, jakie należy wykonać, by zaszło zdarzenie, które nas interesuje. Aby znaleźć prawdopodobieństwo tego, że zmienna X przyjmie wartość r, możemy posłużyć się poniższym wzorem:
P(X = r) = p q r -1 gdzie^ jest prawdopodobieństwem sukcesu, zaś q = 1 - p jest prawdopodobieństwem porażki w pojedynczej próbie. Oznacza to, że sukces, który pojawi się dopiero w r-tej próbie, poprzedziło ( r - 1) porażek.
Rozkład geometryczny m a dość charakterystyczny kształt. P(X = r) przyjmuje wartość największą dla r = 1 i stopniowo maleje wraz ze wzrostem r. Oznacza to, że z największym prawdopodobieństwem sukces zrealizuje się już w pierwszej próbie. Tym samym dom inanta rozkładu geometrycznego jest zawsze rów na 1. Choć może się to wydawać sprzeczne z intuicją, przy spełnieniu opisanych wyżej warunków sukces pojawi się z największym prawdopodobieństwem w pierwszej próbie.
316
Rozdział7.
X II X ST
Oto wykr Ib ień stw a
iT
prawdopod etrycZnego. rozkładu t zawsze Domwantą J® war’■tość 1 •
Poznajemy rozkłady: geometryczny, Jwumianow) i Poissona
Rozkład geometryczny pozwala operować także na nierównościach Korzystając z funkcji prawdopodobieństwa rozkładu geometrycznego, możemy równie łatwo znaleźć prawdopodobieństwo tego, że zmienna X przyjmie wartości mniejsze bądź większe od r. Zacznijmy od P (X > r). P (X > r) jest prawdopodobieństwem tego, że dla osiągnięcia sukcesu (po raz pierwszy) będziemy musieli wykonać więcej niż r prób. Oznacza to, że to r pierwszych prób musi się zakończyć porażką. D latego szukane prawdopodobieństwo znajdziemy łatwo, mnożąc przez siebie r i prawdopodobieństwo porażki q: ■ł oic w próbie o numerze większym niż r,
» i » ' i » 1“* * * ^ P (X
>
r)
=
q r nie pytamy o to, k t o r P by byta ^¿ szym niż r.
N a podstawie tego wzoru możemy bardzo łatwo oszacować P (X < r), to znaczy sUkcesem, a i prawdopodobieństwo tego, że co najwyżej r-ta próba zakończy się sukcesem, to próba o Wiemy już, że suma P(X > r) i P (X < r) musi się równać 1, ponieważ zdarzenia X > r i X < r są jedynie możliwe i wzajemnie się wykluczają. Stąd: P (X sr) + P ( X > r ) = l lub też: K
j est tak dlatego, że X >r i X
P ( X s r ) = l - P(X > r) Możemy więc ostatecznie zapisać: P (X
<
.
r)
=
1 ■ q r
~
„r
daje taki wynik.
Jeśli zm ienna losowa X podlega rozkładowi geometrycznemu z param etrem p (prawdopodobieństwo sukcesu), zwykle zapisuje się to w skrócie jako: X
.w , ,
Powużej zapisaliśmy, ze P (X > r) = q , co po podstawieniu do ostatniego wzoru
G e o (p )
y
Wartość oczekiwana dla rozkładu geometrycznego
Wartość oczekiwana dla rozkładu geometrycznego Dla przypomnienia, wartość N a kilku poprzednich stronach zajmowaliśmy się obliczaniem prawdopodobieństwa oczekiwana to wartość tego, ze Chad osiągnie pierwszyJ sukces w danej liczbie podejść. N adal nic jednak O ’ w r Jr J rzeciętnej realizacji .„ e rZ 6 C ł^ in 6 j nie wiemy o wartości oczekiwanej czy wariancji tego rozkładu. Znajomość w a r t o ś c i / ^ —zmiennej losowej — coś dla jakby oczekiwanej pozwoliłaby nam odpowiedzieć na pytanie Chada: ile przeciętnie podejść ¡akby średnia, tyle że dl konkretnego rozktadu. będzie musiał wykonać, nim osiągnie sukces.
Pamiętasz, jak liczyliśmy wartość oczekiwaną w poprzednich rozdziałach? By wyznaczyć E(X ), korzystaliśmy ze wzoru ExP(X = x). Tym razem x, czyli wartości zmiennej losowej X, rosną w nieskończoność. Spróbujemy jednak policzyć wartości wyrażenia xP(X = x) dla kilku początkowych x, by przekonać się, czy i one nie układają się w jakiś wzorzec. Oto obliczenia dla naszego przykładu, gdzie X ~ Geo(0,2).
Wariancja m ó w io tym, jak faktycznie zrealizowane wartości będą. się
przeciętnie rćźnity od wartości oczekiwanej.
To są skumulowane wartości xP(X = x)
x
P (X = x )
x P (X = x )
x P (X < x )
1
0,2
0,2
0,2
2
0 , 8 x 0 , 2 = 0,16
0,32
0,52
3
0 , 8 2 x 0 ,2 = 0,128
0 ,3 8 4
0 ,9 0 4
4
0,83 x 0,2 = 0,1024
0,4 09 6
1,3136
5
0 ,8 4 x 0,2 = 0,08192
0,4 09 6
1,7232
6
0,85 x 0,2 = 0,065536
0,393216
2,116416
7
0 ,8 6 x 0,2 = 0,0 52 4 2 8 8
0,3670016
2,4834176
8
0,87 x 0,2 = 0,04194304
0,33554432
2,81894608
Czy zauważyłeś, jak zmieniają się wartości xP(X = x)? Rosną od stosunkowo małych aż do x = 5, po czym zaczynają maleć. D la x > 5 maleją już stale wraz ze wzrostem x — tak, że dla odpowiednio dużych x ich wpływ na wartości skumulowane jest praktycznie zerowy. Możemy to łatwo zauważyć na wykresie skumulowanych wartości xP(X = x), który staje się coraz bardziej płaski:
318
Rozdział7.
x
ru u iiA w y ; 1
Poznajemy rozkłady: geometryczny, dwumianowy i Poissona
Wartość oczekiwana wynosi 1/p Gdybyśmy wykreślili bardziej precyzyjny wykres skumulowanych wartości xP(X = x), przekonalibyśmy się, ze wartości xP(X = x) zbliżają się coraz bardziej do 5. Nieprzypadkowo, tyle właśnie bowiem wynosi skumulowana suma xP(X = x). Oznacza to, ze: E (X ) = 5 Zgodzisz się, ze m a to sens? Pamiętamy, ze prawdopodobieństwo sukcesu w pojedynczej próbie wynosi 0,2. M ożna więc powiedzieć, że przeciętnie 1 na 5 prób zakończy się sukcesem. D latego możemy się spodziewać, że przeciętnie w piątej próbie Chad osiągnie upragniony sukces. Rozważania te możemy uogólnić na dowolną wartość p. Jeśli X ~ G eo(p), to: Wartość oczekiwana je s t _ odwrotnością, prawdopodobieństwa sukcesu.
E
= p
Teraz, gdy znamy już formułę na wartość oczekiwaną zmiennej o rozkładzie geometrycznym, możemy przystąpić do szukania jej wariancji.
_
^ Zaostrz ołówek Zastanówmy się, czy w podobny sposób jak w przypadku wartości oczekiwanej, uda nam się znaleźć wariancję zmiennej X o rozkładzie geometrycznym. Uzupełnij poniższą tabelkę. Co zauważyłeś? x
P (X = x )
1
0,2
2
0 , 8 x 0 , 2 = 0,16
3
0 , 8 2 x 0 ,2 = 0,128
4
0,83 x 0,2 = 0,1024
5
0 , 8 4 x 0,2 = 0,08192
6
0 ,8 5 x 0,2 = 0,065536
7
0 ,8 6 x 0,2 = 0,052 4 2 8 8
8
0 ,8 7 x 0,2 = 0,04194304
9
0 ,8 8 x 0,2 = 0,033554432
10
0 ,8 9 x 0,2 = 0,0 26 8 4 3 5 4 5 6
x 2P (X = x )
x 2P (X < x ) ¿ .^W a rto ść oczekiwana ^ je s t odwrotnością prawdopodobieństwa sukcesu.
jesteś tutaj ► 319
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
Zastanówmy się, czy w podobny sposób jak w przypadku wartości oczekiwanej, uda nam się znaleźć wariancję zmiennej X o rozkładzie geometrycznym. Uzupełnij poniższą tabelkę. Co zauważyłeś?
x
P (X = x )
x 2P (X = x )
x 2P (X < x )
1
0,2
0,2
0,2
2
0 , 8 x 0 , 2 = 0,16
0,64
0,84
3
0 , 8 2 x 0 ,2 = 0,128
1,152
1,992
4
0,83 x 0,2 = 0,1024
1,6384
3,630 4
5
0 ,8 4 x 0,2 = 0,08192
2,048
5,6784
6
0,8 5 x 0,2 = 0,065536
2,359296
8,037696
7
0 ,8 6 x 0,2 = 0,0 52 4 2 8 8
2,5690112
10,6067072
8
0 ,8 7 x 0,2 = 0,04194304
2,68435456
13,29106176
9
0 ,8 8 x 0,2 = 0,033554432
2,717908992
16,00897075
10
0,8 9 x 0,2 = 0,0 26 8 4 3 5 4 5 6
2,68435456
18,69332531
Tym razem wartości x2P(X = x) rosną dla x
Chyba Łactynam roŁumieć. Wartości x 2P(X = x) p rte Ł jakiś ctas rosną, ale p o tn ie j tactynają maleć wrat te wŁrostem K.
o o
Właśnie tak. W artości x2P(X = x) rosną do pewnego m om entu, po czym zaczynają maleć. Ostatecznie stają się bardzo bliskie 0.
x u X ST N X
x 320
.
Poznajemy rozkłady: geometryczny, Jwumianowj i Poissona
Wariancja dla rozkładu geom etrycznego Jak ta obserwacja może nam pom óc w znalezieniu wariancji dla naszego przykładu? W ariancję każdego rozkładu prawdopodobieństwa możemy wyznaczyć ze wzoru:
V ar(X ) = E (X 2) - E 2(X) Musimy więc policzyć sumę wyrażeń w postaci x2P(X = x), a następnie odjąć od niej wartość oczekiwaną podniesioną do kwadratu. Gdybyśmy wykreślili rezultaty tych obliczeń względem x, otrzymalibyśmy obraz zbliżony do zamieszczonego niżej:
x Wynika z niego jednoznacznie, że wraz ze wzrostem x wartość x2P (X < x) - E 2(X) w coraz większym stopniu zbliża się do pewnej wartości. Tym razem jest to 20. Podobnie jak w przypadku wartości oczekiwanej, możemy uogólnić nasze rozważania na przypadek dowolnej zmiennej X ~ G eo(p). Wówczas:
q Var(X) = — P2
jesteś tutaj ► 321
Krótki przewodnik po rozkładzie geometrycznym ---------------------------------------------------------------------------------------------------------------------------------------------
Krótki przewodnik po rozkładzie geometrycznym Oto krótkie podsumowanie wszystkiego, co, naszym zdaniem, powinieneś wiedzieć o rozkładzie geometrycznym.
Kiedy stosujemy? Rozkład geometryczny możemy wykorzystać zawsze wtedy, gdy chcemy się dowiedzieć, w której z serii niezależnych prób możemy po raz pierwszy spodziewać się wyniku nazwanego „sukcesem”. Każda z takich prób może się zakończyć albo „sukcesem”, albo „porażką”, z jednakowym prawdopodobieństwem w każdej próbie.
Jak liczymy prawdopodobieństwo? Możemy wykorzystać poniższe formuły, w których p oznacza prawdopodobieństwo sukcesu w pojedynczej próbie, q = 1 - p , a X jest zmienną losową oznaczającą kolejny num er próby, która jako pierwsza zakończy się sukcesem, co zapisujemy skrótowo: X ~ Geo(p).
P(X = r) = p q r -1 Prawdopodobieństwo tego, s?ę /^Sr0 zak°ńczy
P(X > r) = qr Prawdopodobieństwo tego, że r pierwszych prób zakończy się porażką.
Jak liczymy wartość oczekiwaną i wariancję?
P(X < r) = 1 - qr
T
P ra w d o p o d o b ie ń s tw o
tego, _ . .
że sukces pojawi się najpóźniej w r-tej próbie.
Wykorzystujemy poniższe, proste wzory:
E(X) = 1/p
^ : Czy na pewno mogę ufać tym wzorom? Czy mogę je wykorzystać w przypadku każdej zmiennej losowej? 0 : Są one prawdziwe, jeśli tylko masz
Var(X) = q/p2
^ : A jeśli te założenia nie są spełnione? Albo gdybym chciał się dowiedzieć, ile z podjętych przeze mnie prób ma szanse zakończyć się sukcesem?
do czynienia ze zmienną o rozkładzie geometrycznym. Jeśli warunki niezbędne do tego, by móc stosować rozkład
rozkładem geometrycznym. Nie m artw się jednak — i d la te go scenariusza istnieje
korzystaj z tych wzorów.
specjalny rozkład.
Pamiętaj, że rozkład geometryczny do czynienia z wielom a niezależnymi próbami, z których każda może się zakończyć sukcesem lub porażką (zawsze
^ : Czy muszę zapamiętać te wszystkie wzory? 0 : Ich znajomość pozwoli Ci zaoszczędzić sporo czasu, który musiałbyś przeznaczyć
z tym samym prawdopodobieństwem ),
na bardzo szczegółowe obliczenia.
i gdy chcemy się dowiedzieć, ile prób
Może się też przydać w czasie egzaminu.
będziemy musieli wykonać, by po raz pierwszy odnieść sukces.
322
Rozdział 7.
0 : Litera p to skrót od „prawdopodobieństwa". W tym przypadku oznacza prawdopodobieństwo
0 : W tedy nie możesz posługiwać się
geometryczny, nie są spełnione, nie
sprawdza się tylko wtedy, gdy mamy
^ : Dlaczego posługiwaliśmy się literami p i q?
sukcesu w pojedynczej próbie. Z kolei q jest bardzo często używane na oznaczenie 1 -p . Spotkamy się z tym wielokrotnie na kartach tej książki.
Poznajemy rozkłady: geometryczny, Jwumianowj i Poissona
Wciel się w rolę snowboardzisty Prawdopodobieństwo tego, że pewien snowboardzista pokona stok w jednym podejściu, wynosi 0,4. Wyobraź sobie, że jesteś takim snowboardzistą i chciałbyś oszacować szanse na sukces w poniższych przypadkach:
1.
Prawdopodobieństwo tego, że pierwsze podejście zakończy się porażką, a drugie sukcesem.
2.
Prawdopodobieństwo tego, że najpóźniej czwarte podejście zakończy się sukcesem.
3.
Prawdopodobieństwo tego, że w pierwszych czterech podejściach nie osiągniesz sukcesu.
4.
Oczekiwana liczba podejść, jaką będziesz musiat wykonać, nim osiągniesz sukces.
5. Wariancja liczby podejść, które będziesz musiat wykonać, nim osiągniesz sukces.
jesteś tutaj ► 323
Wciel się w rolę snowboardzisty: Rozwiązanie
Wciel się w rolę snowboardzisty: Rozwiązanie Prawdopodobieństwo tego, że pewien snowboardzista pokona stok w jednym podejściu, wynosi 0,4. Wyobraź sobie, że jesteś takim snowboardzistą i chciałbyś oszacować szanse na sukces w poniższych przypadkach:
Niech X - Geo(0,4), gdzie X_ oznacza num er podejścia, które jako p ierw sze zakończy się sukcesem.
1. Prawdopodobieństwo tego, że pierwsze podejście zakończy się porażką, a drugie sukcesem. P(X = 2) = p x ą = = 0,4 x 0,6 = = 0,24
2. Prawdopodobieństwo tego, że najpóźniej czwarte podejście zakończy się sukcesem. P(X<4)=1 - ą« =
= 1 - 0,6’ = = 1 - 0,1296 =
= 0,8704
3. Prawdopodobieństwo tego, że w czterech pierwszych podejściach nie osiągniesz sukcesu. P(X >4) = q* =
= 0,6ł =
e T
_______ Równie dobrze mógłbyś policzyć to w ten sposób: P(X>4) = 1 - P(X<4) = 1 - 0,8704 = 0,1296
= 0,1296
4. Oczekiwana liczba podejść, jaką będziesz musiał wykonać, nim osiągniesz sukces. E(X) = 1/p = = 1/0,4 = = 2,5
5. Wariancja liczby podejść, które będziesz musiał wykonać, nim osiągniesz sukces. Var(X) = ą /p 2 =
= 0 ,6 /0 ,42 = = 0 ,6 /0 ,1 6 = = 3,75
324
Rozdział 7.
Poznajemy rozkłady: geometryczny, dwumianowy i Poissona
W łaśnie poznałeś rozkład geometryczny Dzięki Twojej pomocy Chad dowiedział się nie tylko tego, jakie są jego szanse na ukończenie trasy w danej liczbie prób, ale również tego, przy którym podejściu powinien spodziewać się upragnionego sukcesu (po raz pierwszy) i jak bardzo rzeczywistość może się różnić od tych szacunków. Dowiedziawszy się, że pierwszy sukces powinien osiągnąć przeciętnie w piątej próbie, z dużo mniejszą trem ą podchodzi do tego, jak jego wyczyny zostaną odebrane przez towarzyszące mu dziewczyny. A m y _ idziemy dalej...
Panie I Panowie ! P rzerywamy N asze Rozważania, By O bejrzeć E kscytu jący O dcinek N ajlepszego TE le tu rn ie ju W H isto rii TE le w izji — A rcy fra je rzy . jesteś tutaj ► 325
3 26
Rozdział 7.
C zekają nas wielkie emocje, więc nie traćmy d łu żej czasu. W rundzie pierw szej zadam ci t r z y pytania oraz podam cŁtery warianty odpowiedzi na k a ż d e z nich. G d y je poznasz, b ędziesz mógł zrezygnować z udziału w g rze i zadowolić się nagrodą pocieszenia. Jeśli jednak zdecydujesz się zostać i pokonasz swoich przeciwników, p rze jd zie s z do rundy drugiej, przybliżając się o krok do nagrody głównej — obrotow ego fo te la ! Runda pierwsza nosi ty tu ł „Wszystko na mój te m a t". Powodzenia!
_
*
Zaostrz ołówek Oto pytania z rundy pierwszej. Wszystkie dotyczą osoby gospodarza teleturnieju. Zaznacz odpowiedź, którą uważasz za poprawną. Jaki jest jego ulubiony kolor?
a
A: czerwony
B: niebieski
C: zielony
D: żółty
Wktórym miesiącu obchodzi urodziny? A: w styczniu a
B: w lutym
i
C: w marcu
»
a
^ i
D: w kwietniu
Co najbardziej cenią w nim ludzie? A: atrakcyjny wygląd a
i
C: poczucie humoru
>
i a
B: urok osobisty D: inteligencję
^ i
^
iNie.istnieia,
głupie pytania ^ : Co ten teleturniej robi w tym rozdziale? Myślałem, że będziemy rozmawiali o rozkładach prawdopodobieństwa.
^ : Nie znam odpowiedzi na te pytania. Co więc mam zrobić?
0 : Ależ ciągle rozmawiamy. Opisana tu sytuacja dobrze się nadaje
0 : Jeśli nie znasz odpowiedzi, nie masz wyjścia — musisz strzelać.
jako wprowadzenie do kolejnego rozkładu, który om ówim y w tym
Wybierz losowo jeden z w ariantów — zawsze przecież jest szansa,
rozdziale. Za chwilę wszystko stanie się jasne.
że trafisz.
3 28
Arcyfrajerzy
Lepiej grać czy jednak zrezygnować? Jest mało prawdopodobne, by ktokolwiek znał gospodarza programu na tyle dobrze, aby móc trafnie odpowiedzieć na zadane pytania. Spróbujmy zatem wyznaczyć rozkład prawdopodobieństwa dla liczby poprawnych odpowiedzi przy założeniu, ze wybieramy je losowo. Powinno pomóc Ci to podjąć decyzję o ewentualnym wzięciu udziału w grze. P y ta n ie
O to drzewko stochastyczne dla naszego przykładu: P y ta n ie 2
0,25
Odpowiedź praw idłowa
0,25
0,25
Odpowiedź praw idłowa
0,75
Odpowiedź błędna
0,25
Odpowiedź praw idłowa
0,75
Odpowiedź błędna
0,25
Odpowiedź praw idłowa
0,75
Odpowiedź błędna
0,25
Odpowiedź praw idłowa
0,75
Odpowiedź błędna
Odpowiedź praw idłowa
P y ta n ie I
0,75
3
Odpowiedź błędna
Odpowiedź praw idłowa
Odpowiedź błędna Odpowiedź błędna
» Zaostrz ołówek Jak wygląda rozkład prawdopodobieństwa w tym przypadku? Jakie wzorce dają się tu zaobserwować? Przyjmij, że X jest zmienną losową oznaczającą, ile pośród trzech odpowiedzi jest poprawnych. x
0
■o >< II X,
_
p o tę g a 0 ,7 5
p o tę g a 0 ,2 5
0,753
3
0
1 2 3
jesteś tutaj ► 329
_
^ Zaostrz ołówek % Rozwiązanie
*
\
Jak wygląda rozkład prawdopodobieństwa w tym przypadku? Jakie wzorce dają się tu zaobserwować? Przyjmij, że X jest zmienną losową oznaczającą, ile pośród trzech odpowiedzi jest poprawnych.
x
P (X = x )
p o tę g a 0 ,7 5
p o tę g a 0 ,2 5
0
0,753 = 0 ,4 2 2
3
0
1
3 x 0,752 x 0,25 = 0,422
2
1
2
3 x 0,75 x 0,252 = 0,141
1
2
3
0,253 = 0,015
0
3
Wytącznie jedną odpowiedź poprawną można wskazać na 3 sposoby, za każdym razem z p r ^dopodobieństwem
P y ta n ie P y ta n ie 2
P y ta n ie i
0,25
Odpowiedź praw idłowa
0,75
Odpowiedź błędna
Odpowiedź praw idłowa
Odpowiedź praw idłowa Odpowiedź błędna
Odpowiedź praw idłowa Odpowiedź błędna Odpowiedź błędna
O
Masn 4 2 % stans na u b ie le n ie je d n e j poprawnej odpowiedni i 14% snans na dwie poprawne odpowiedni. Nie je s t więc ań tak nie. Na Twoim miejscu wsnedłbym w to .
3
Odpowiedź praw idłowa Odpowiedź błędna Odpowiedź praw idłowa Odpowiedź błędna Odpowiedź praw idłowa Odpowiedź błędna
WYSIL SZARE K O M Ó R K I W róć myślami do rozdziału 6., w którym m ów iliśm y o wariacjach i kombinacjach. Czy myślisz, że m ogłyby się one przydać przy rozw iązyw aniu tego problemu?
330
Arcyfrajerzy
Uogólniamy rozkład na więcej niż trzy przypadki N a p o p r z e d n ie j s t r o n ie z n a le ź liś m y r o z k ł a d p r a w d o p o d o b ie ń s t w a z m ie n n e j X , c z y li lic z b y p o p r a w n y c h o d p o w i e d z i n a t r z y z a d a n e p y t a n ia . P o d o b n ie j a k w p r z y p a d k u r o z k ł a d u g e o m e t r y c z n e g o , t a k ż e i t y m r a z e m d a ją s ię z a u w a ż y ć p e w n e p r a w id ł o w o ś c i w s p o s o b ie w y z n a c z a n ia p r a w d o p o d o b ie ń s t w . K a ż d e z n ic h s k ła d a s ię z p o t ę g lic z b 0 ,7 5 i 0 ,2 5 — o r ó ż n y c h w y k ła d n ik a c h . W r a z z e w z r o s t e m x z m n ie js z a s ię w y k ł a d n i k p o t ę g i p r z y p o d s t a w ie 0 ,7 5 i z w ię k s z a p r z y p o d s t a w ie 0 ,2 5 . W o g ó ln y m p r z y p a d k u m o ż e m y w i ę c z a p is a ć :
P (X
=
P r a w d o p o d o b ie ń s tw o u dzielenia praw idtow j
r) =
?
x
^ r 0 ,2 5 r x
r j e s t lic z b ą , popraw nych o d p o w .e d z .
^
^
P
Zadano trzu p ufania
0 ,7 5 3 /p
^
r
o d p o S ^ 3 ^ 0 u d zi^ i a
b t& n e j
I n n y m i s ło w y , p r a w d o p o d o b ie ń s t w o u d z i e l e n i a d o k ł a d n ie r p o p r a w n y c h o d p o w i e d z i n a t r z y p y t a n i a m o ż e m y w y z n a c z y ć , m n o ż ą c 0 ,2 5 r p r z e z 0 ,7 5 3'r , a n a s t ę p n ie m n o ż ą c t e n ilo c z y n p r z e z p e w n ą lic z b ę . T y l k o ja k ą ?
Czymjest nasza niewiadoma? K o l e j n e w a r t o ś c i z m ie n n e j lo s o w e j X m o g ą s ię z r e a liz o w a ć n a k i l k a s p o s o b ó w . N a p r z y k ł a d je d n e j p o p r a w n e j o d p o w i e d z i n a t r z y p y t a n i a m o ż e m y u d z i e l ić łą c z n ie n a t r z y s p o s o b y ( o d p o w ia d a ją c p o p r a w n i e a lb o n a p y t a n ie p ie r w s z e , a lb o n a d r u g ie , a lb o n a t r z e c ie ) . M a m y t u w ię c d o c z y n ie n ia z t r z e m a kombinacjami. D l a p r z y p o m n ie n ia , lic z b a r - e le m e n t o w y c h k o m b i n a c ji z e z b io r u n - e le m e n t o w e g o , o z n a c z a n a s y m b o le m C ” , t o lic z b a w s z y s t k ic h m o ż liw y c h s p o s o b ó w w y b o r u r s p o ś r ó d n e le m e n t ó w , k ie d y k o le jn o ś ć w y b o r u je s t n ie is t o t n a . D o k ła d n i e z t a k ą s y t u a c ją m a m y t u t a j d o c z y n ie n ia . M u s i m y u d z i e l ić r p o p r a w n y c h o d p o w i e d z i n a t r z y p y t a n ia . O z n a c z a t o , ż e p r a w d o p o d o b ie ń s t w o u d z i e l e n i a r p o p r a w n y c h o d p o w i e d z i n a t r z y p y t a n i a m o ż n a o b lic z y ć n a s t ę p u ją c o :
P(X = r) = c 3 X 0,25r X 0,753-r Z g o d n i e z t ą f o r m u ł ą p r a w d o p o d o b ie ń s t w o u d z i e l e n i a je d n e j p o p r a w n e j o d p o w i e d z i n a t r z y p y t a n i a w y n o s i: P (X = 1) = Q
x 0 ,2 5 x 0 ,7 5 '
=
= 3 ! / ( 3 - l ) ! x 0 ,2 5 x 0 ,5 6 2 5 = = 6 /2 x 0 ,0 6 2 5 x 0 ,7 5 = = 0 ,4 2 2 ^
Ten sam wynik uzyskaliśm y strom 'e°C^ drzewka na poprzedniej
Mówiliśmy o tym w ro z d z ia le 6.; mozef *
wrócić do niego w razie potrzeby.
_
» Zaostrz ołówek ______________________________________________________ Rozwiązanie
Oto pytania z rundy pierwszej. Wszystkie dotyczą osoby gospodarza programu. Zaznacz poprawną — Twoim zdaniem — odpowiedź.
1. Jaki jest jego ulubiony kolor?
» a » <2
A: czerwony
B: niebieski
C: zielony
D: żółty
2.
Wktórym miesiącu obchodzi urodziny?
I A: w styczniu
B: w lutym
a
C: w marcu
D: w kwietniu
3. A: atrakcyjny wygląd I C: poczucie humoru
Co najbardziej cenią w nim ludzie? B: urok osobisty
<3D: inteligencję
^
Runda druga nosi ty tu ł „Jesncne więcej na mój te m a t". Tym ranem nadam Ci ań pięć pytań. T akjak poprnednio, kańde n nich unupełnione nostało o cntery warianty odpowiedni, n których t y lk o je d e n je s t prawdniwy. Cny wchodnisn do gry?
Zaostrz ołówek ____ Oto pytania z rundy drugiej. Wszystkie dotyczą osoby gospodarza programu. 1. ^
Jak ma na imię jego dziewczyna?
a
A: Mary C: Maggie
D: May
2.
Jaki prezent sprawiłby mu największą przyjemność?
A: kolejka
B: ołowiany żołnierzyk D: poduszkowiec
3.
Cojest jego największym życiowym sukcesem?
a a
B: zdobycie tytułu Mistera Statsville za 2008 rok
A: prowadzenie teleturnieju
D: wydanie albumu płytowego z własnymi utworami
4.
Co jest jego największą ambicją?
a
B: wydanie instruktażowej płyty DVD
C: wprowadzenie na rynek własnej marki odzieży męskiej
5.
a a
D: posiadanie dobrze utrzymanej fryzury
Wktórym roku został porwany przez kosmitów?
a a T e pytania są równie trudne jak w pierwszej rundzie, zatem znów musisz się zdać na ślepy los i udzielić przypadkowych odpowiedzi. Spróbujmy więc wyznaczyć rozkład prawdopodobieństwa również i dla tego przypadku.
jesteś tutaj ► 333
Uogólniamy nasze wzory jeszcze bardziej Odkryliśmy już, że prawdopodobieństwo udzielenia r poprawnych odpowiedzi na trzy pytania m ożna opisać wzorem:
3
P(X = r) = C X 0,25
rx
0,75
3 -r
gdzie prawdopodobieństwo udzielenia poprawnej odpowiedzi na jedno pytanie wynosi 0,25 (zatem prawdopodobieństwo udzielenia odpowiedzi błędnej wynosi 0,75). W drugiej rundzie naszego teleturnieju zadano nam pięć pytań zamiast trzech. Spróbujmy jednak nie ograniczać się tym razem do wyznaczenia rozkładu dla tych pięciu pytań, ale dla bliżej nieokreślonej liczby n. Dzięki tem u uzyskane tutaj wyniki będziemy mogli wykorzystać w każdej rundzie tego teleturnieju.
Zastąp 3 literą n.
Ile zatem wynosi prawdopodobieństwo udzielenia r poprawnych odpowiedzi na n zadanych pytań? O tóż m ożna je wyznaczyć ze wzoru:
P(X = r) = C X 0,25
rx
0,75
n-r
Co się s ta n ie ,je ś li
zm ieni się prawdopodobieństwo udzielenia poprawnej odpowiedzi na pojedyncze pytanie? Czy możemy to uwzględnić w naszej form ule?
Oczywiście ze tak. Załóżmy, że prawdopodobieństwo udzielenia poprawnej odpowiedzi na pojedyncze pytanie wynosi p, zaś prawdopodobieństwo udzielenia błędnej odpowiedzi q = 1 - p . Prawdopodobieństwo udzielenia r prawidłowych odpowiedzi na n pytań zadanych ogółem można wyznaczyć ze wzoru:
P(X = r) = cn X pr X qn-r Przedstawia on funkcję rozkładu prawdopodobieństwa zmiennej losowej X o rozkładzie dwumianowym. Przyjrzyjmy się tem u rozkładowi z bliska.
334
Arcyfrajerzy
^ w u m i^ n o w y
(
Szanse na udzielenie danej liczby poprawnych odpowiedzi na serię pytań podobną do tej, jaka padła w każdej z rund naszego teleturnieju, można opisać za pom ocą rozkładu dwumianowego. Muszą być jednak spełnione następujące warunki: Mamy do czynienia z serią niezależnych prób.
z
Te
,uz ?rZl s'% j ,etryc: Qeo^'
^ -----
X
ro S ^ e
Każda z nich może się zakończyć albo sukcesem, albo porażką, przy czym prawdopodobieństwo sukcesu jest jednakowe w każdej próbie. To zatożenie je s t
Liczba wykonanych prób jest skończona.
z u p ę tn ie n o w e .
Podobnie jak w przypadku rozkładu geometrycznego, wykonujemy serię niezależnych prób, z których każda może się zakończyć sukcesem lub porażką. Tym razem jesteśmy jednak zainteresowani liczbą sukcesów uzyskanych łącznie w danej liczbie prób. Niech zm ienna losowa X oznacza liczbę sukcesów otrzym anych w ram ach n prób. Aby znaleźć prawdopodobieństwo tego, że przyjmie ona wartość r, korzystamy ze wzoru:
P(X = r) = cn pr qn-r
c
gdzie
n = r! (nn! - r)!
p jest stałym prawdopodobieństwem sukcesu w pojedynczej próbie, n oznacza liczbę prób. Możemy zapisać w skrócie:
X ~ B(n, p)
Kształt rozkładu dwumianowego nie jest stały i zmienia się wraz ze zm ianą param etrów n i p. Im p jest bliższe 0,5, tym bardziej staje się on symetryczny. W ogólnym przypadku jest on rozkładem praw ostronnie skośnym dla p mniejszego od 0,5 i lewostronnie skośnym dla p większego od 0,5.
X II
'SSSS^X od n i
X ST
X
jesteś tutaj ► 335
Ile wynosi wartość oczekiwana i wariancja dla tego rozkładu Wiemy już, jak zdefiniowano funkcję rozkładu prawdopodobieństwa dla zmiennej o rozkładzie dwumianowym, dzięki czemu możemy oszacować nasze szanse na udzielenie określonej liczby poprawnych odpowiedzi na zadane nam pytania. Chcielibyśmy jednak dodatkowo wiedzieć, na ile poprawnych odpowiedzi możemy liczyć, gdy na wszystkie pytania odpowiadamy w sposób czysto losowy. Byłaby to podstawa do podjęcia decyzji o ewentualnym starcie w kolejnej rundzie teleturnieju. Spróbujmy więc znaleźć ogólne formuły na wartość oczekiwaną i wariancję dla rozkładu dwumianowego Zaczniemy od wyznaczenia tych param etrów dla pojedynczej próby, a następnie zastanowimy się nad uogólnieniem uzyskanego wyniku na większą liczbę niezależnych prób. Oto rozkład prawdopodobieństwa
-zmiennej .X -8 (1 , p)-
Zacznijmy od pojedynczej próby Rozpatrzmy na początek wynik pojedynczej próby. Może się ona zakończyć albo sukcesem, albo porażką. Innymi słowy, możemy mieć albo 0, albo 1 sukcesów. Jeśli X ~ B (l, p), prawdopodobieństwo uzyskania 1 sukcesu wynosi p, zaś 0 sukcesów — q
V/
x
0
1
P (X = x )
q
p
W oparciu o tę obserwację możemy wyznaczyć wartość oczekiwaną i wariancję zmiennej X:
E(X ) = 0q + lp = = P
V ar(X ) = E (X 2) - E 2(X)
E(X) = p< więc
" P2
= ( 0q + lp ) - p 2= = P - P 2^
E(X2)
= p(l-p) = = pq
Widzimy więc, że dla pojedynczej próby E(X ) = p, zaś V ar(X ) = pq. Czy tak samo jest w przypadku n prób?
^ WYSIL SZARE K O M Ó R K I Jak zmienią się powyższe fo rm u ły dla przypadku n niezależnych prób? Czy pow inniśm y się nimi sugerować?
336
Arcyfrajerzy
Łamigłówka Sprawdźmy, czy potrafisz znaleźć wartość oczekiwaną I wariancję dla zmiennej X - B(n, p). Korzystając z elem entów
Wskazówka-, każda zmienna X t oznacza niezależną próbę. E(Xi) = p, var(Xl) = pą M u sisz znaleźć wartość oczekiwaną i wariancję dla n niezależnych prób.
umieszczonych w basenie, uzupełnij luki w poniższych wzorach. Każdy element możesz wykorzystać tylko jeden raz, choć nie wszystkie elem enty będą Cl potrzebne.
E(X) = E(XJ + E(XJ + ... + E(Xn) = =
E(X) =
Var(X) = Var(X1) + Var(X2) + ... + Var(Xn) = =
Var(XJ =
Uwaga: każdy element
jesteś tutaj ► 337
Łamigłówka: Rozwiązanie Sprawdźmy, czy potrafisz znaleźć w artość oczekiwaną i wariancję dla zmiennej X - B(n, p). Korzystając z elem entów
Wskazówka-, każda zmienna X t oznacza niezależną próbę. E(Xi) = p, Var(Xi) = pą M usisz znaleźć wartość oczekiwaną i wariancję dla n niezależnych prób.
umieszczonych w basenie, uzupełnij luki w poniższych wzorach. Każdy element możesz wykorzystać tylko jeden raz, choć nie wszystkie elementy będą Ci potrzebne.
E(X) = E(X,) + E(X2) + ... + E(X) =
Ponieważ kolejne próby s ą niezależne, E(XJ = E(X2) = E(XS) i tak dalej.
= .. . .n. . . . . E(X,) = =
np
Var(X) = Var(X1) + Var(X2) + ... + Var(Xn) = = . . . n . . . . Var(Xl) =
npq
Ponieważ próby s ą niezależne, Var(XJ = V ar(X J = Var(X ) i tak dalej. 3
338
Arcyfrajerzy
J eśli X ~ B (n ,p ), to: E(X) = np Var(X) = npą
Wartość oczekiwana i wariancja rozkładu dwumianowego Spróbujmy podsumować nasze ostatnie dokonania. Najpierw rozpatrzyliśmy przypadek pojedynczej próby, dla której prawdopodobieństwo sukcesu wynosiło p, a zmienna losowa miała rozkład dwumianowy. Wyznaczyliśmy wartość oczekiwaną i wariancję dla pojedynczej próby. N astępnie rozważyliśmy ogólny przypadek n prób, dla którego znaleźliśmy formuły pozwalające wyznaczyć wartość oczekiwaną i wariancję rozkładu. Dowiedzieliśmy się, ze jeśli X ~ B(n, p), prawdziwe są wzory:
E(X) = np "dwumianowym.
Var(X) = npq Są to bardzo użyteczne formuły, które pozwalają w szybki sposób obliczyć param etry rozkładu dla każdej zmiennej o rozkładzie dwumianowym bez potrzeby wykonywania bardzo szczegółowych rachunków.
^ : Rozkład dwumianowy jest bardzo podobny do rozkładu geometrycznego. Czym się różnią? Kiedy powinienem stosować jeden, a kiedy drugi?
^ : Rozkład geometryczny posiada dominantę. Czy rozkład dwumianowy także?
^ : Gdy policzyłem E(X ), otrzymałem wartość, która nie występuje w rozkładzie. Czy popełniłem jakiś błąd?
0 : Tak, jest nią wartość zmiennej losowej 0 : Rzeczywiście, oba rozkłady mają
o największym prawdopodobieństwie
wspólne cechy. W obu przypadkach mamy
realizacji. Jeśli p wynosi 0,5, a n jest
musi być jedną z potencjalnych realizacji
do czynienia z serią niezależnych prób,
parzyste, dom inanta jest tu rów na np.
zmiennej losowej. Może się nigdy nie
które mogą się zakończyć sukcesem
Gdy p jest rów ne 0,5, a n jest nieparzyste,
zrealizować. Twój wynik wcale nie musi
lub porażką. Różnica sprowadza się do tego,
rozkład posiada dwie dominanty: wartości
oznaczać,
jakie zdarzenie za ich pomocą modelujemy.
zmiennej najbliższe iloczynowi np.
że popełniłeś błąd.
Każdy z nich pozwala znaleźć odpowiedź
W pozostałych przypadkach kształtuje
na nieco inne pytanie.
się ona różnie, choć zawsze jest bliska
Kiedy mamy do czynienia z ustaloną liczbą
iloczynowi np.
prób i chcemy wiedzieć, jakie są szanse na to, że określona Ich liczba zakończy się sukcesem, powinniśmy posłużyć się rozkładem dwum ianowym . Jego wartość oczekiwana powie nam o tym , ile sukcesów możemy się spodziewać w n próbach.
^ : Zatem w obu przypadkach mamy do czynienia z serią niezależnych prób. Czy prawdopodobieństwo sukcesu musi być stałe w każdej próbie?
0 : Wartość oczekiwana wcale nie
^ : Czy istnieją jeszcze inne rozkłady prawdopodobieństwa? 0 : Oczywiście. Czytaj dalej, a ła tw o się o tym przekonasz.
0 : Tak, w obu przypadkach szanse
Gdy zaś chcemy się dowiedzieć, ile prób
na sukces w kolejnych próbach muszą
powinniśmy wykonać, by osiągnąć pierwszy
być niezmienne. W przeciwnym razie
sukces, powinniśmy wykorzystać rozkład
nie możemy stosować ani rozkładu
geometryczny.
geometrycznego, ani dwumianowego.
jesteś tutaj ► 339
Krótki przewodnik po rozkładzie dwumianowym O to krótkie podsumowanie wszystkiego, co, naszym zdaniem, powinieneś wiedzieć o rozkładzie dwumianowym.
Kiedy stosujemy? Rozkład dwumianowy stosujemy wtedy, gdy mamy do czynienia ze skończoną serią prób, z których każda może się zakończyć sukcesem lub porażką, i gdy chcemy się dowiedzieć, jakie są szanse na określoną liczbę sukcesów w serii prób.
Jak liczymy prawdopodobieństwo? Korzystamy z poniższych wzorów:
n P(X = r) = c , „ r qn -r
n n! C , = rr^nTTT!
gdzie p jest prawdopodobieństwem sukcesu w pojedynczej próbie, q = 1 - p , n jest liczbą prób, zaś X jest zmienną losową oznaczającą liczbę sukcesów w n próbach.
Jak liczymy wartość oczekiwaną i wariancję?
E(X) = np
340
Arcyfrajerzy
Var(X) = npq
„
.
.
Ćwiczenie
W drugiej rundzie teleturnieju Arcyfrajerzy zadano pięć pytań. Prawdopodobieństwo udzielenia prawidłowej odpowiedzi na każde z pytań wynosi 0,25.
1.
Jakie jest prawdopodobieństwo udzielenia poprawnych odpowiedzi na dwa pytania?
2.
Jakie jest prawdopodobieństwo udzielenia trzech poprawnych odpowiedzi?
3.
Jakie jest prawdopodobieństwo udzielenia dwóch lub trzech poprawnych odpowiedzi?
4.
Jakie jest prawdopodobieństwo udzielenia błędnych odpowiedzi na wszystkie pytania?
5.
Ile wynosi wartość oczekiwana i wariancja dla tego rozkładu prawdopodobieństwa?
jesteś tutaj ► 341
i
.
.
Ćwiczenie Rozwiązanie
W drugiej rundzie teleturnieju Arcyfrajerzy zadano pięć pytań. Prawdopodobieństwo udzielenia prawidłowej odpowiedzi na każde z pytań wynosi 0,25.
1. Jakie jest prawdopodobieństwo udzielenia poprawnych odpowiedzi na dwa pytania? Zatóżmy, ze X je s f zm ienną losową oznaczającą liczbą poprawnych odpowiedzi. W tedy X - B(n, p) oraz: P(X = 2 )= C ? x 0,252 x 0,753 = 5! = -------- x 0,0625 x 0,421875 = 312! = 10 x 0,0264 = = 0,264
2. Jakie jest prawdopodobieństwo udzielenia trzech poprawnych odpowiedzi? P (X= 3) = Ć3 x 0,253 x 0,752= - ^ i - x 0,015625 x 0,5625 =
213!
= 10 x 0,00879 = = 0,0879
3. Jakie jest prawdopodobieństwo udzielenia dwóch lub trzech poprawnych odpowiedzi? P(X = 2 lub X = 3) = P(X = 2) + P(X = 3) = Czy to oznacza, że powinieneś oczekiwać m niej niż dwóch odpowiedzi prawidłowych? Dalsza gra nie je s t więc chyba najlepszym pomysłem. I tak nie masz szans na główną wygraną.
= 0,264 + 0,0879 = = 0,3519
4. Jakie jest prawdopodobieństwo udzielenia błędnych odpowiedzi na wszystkie pytania? P(X= 0 )= 0,755 = = 0,237
5.
Ile wynosi wartość oczekiwana i wariancja dla tego rozkładu prawdopodobieństwa? E(X) = np =
342
Arcyfrajerzy
Var(X) = npą =
= 5 x 0,25 =
= 5 x 0,25 x 0,75 =
= 1,25
= 0,9375
Zaostrz ołówek ____________________________________________________ Rozwiązanie
Oto pytania z rundy drugiej. Wszystkie dotyczą osoby gospodarza programu.
1.
Jak ma na imię jego dziewczyna?
a
A: Mary .: Maggie
D: May
2.
Jaki prezent sprawiłby mu największą przyjemność?
<3iB: ołowiany żołnierzyk
A: kolejka
D: poduszkowiec
3.
Co jest jego największym życiowym sukcesem?
A: prowadzenie teleturnieju
B: zdobycie tytułu Mistera Statsville za 2008 rok D: wydanie albumu płytowego z własnymi utworami
4.
Co jest jego największą ambicją?
c C: wprowadzenie na rynek własnej marki odzieży męskiej
B: wydanie instruktażowej płyty DVD
Qi
D: posiadanie dobrze utrzymanej fryzury
5. Wktórym roku został porwany przez kosmitów?
a a M iło było Cię gościć w nastym studiu. Mamy n a d le ję , ¿ e je s Ł c te nas odw iediisŁ. Ale p r z e d chwilą dostaliśmy te le fo n z kina w Statsville. M ają p o n o ć ja k ie ś problemy z p o p c o r n e m ...
jesteś tutaj ► 343
Poznajemy rozkład Poissona
Kino w R tatsville ma poważny kłopot
Ale kino w Statsville m a problem . A utom at do popcornu od jakiegoś czasu stale się psuje, przez co klienci nie są specjalnie szczęśliwi. W przyszłym tygodniu m a się tutaj odbyć pokaz premierowy długo oczekiwanego filmu, więc m enedżer kina robi, co może, by wszystko było dopięte na ostatni guzik. Boi się, że maszyna znów może się popsuć, a kino straci zainteresowanie części klientów. Średnia liczba awarii urządzenia wynosi 3,4 zdarzeń tygodniowo. Jakie są szanse na to, że przez najbliższy tydzień nie zepsuje się ono ani razu? Gdyby się okazało, że oczekiwana liczba awarii w tym tygodniu będzie duża, kino kupi nowy autom at. Jeśli jednak nie będzie ona aż tak znacząca, raczej pozostanie przy starej maszynie mimo jej awaryjności.
Mamy do czynienia z nowym rozkładem Tym razem mamy do czynienia z przypadkiem innego rodzaju niż do tej pory. Nie m a tutaj serii niezależnych prób. Wiemy za to, że występują w sposób losowy niezależne zdarzenia, których średnia liczba wystąpień w pewnym przedziale czasowym jest nam znana.
Jak znajdziemy prawdopodobieństwo? Cały problem polega na tym, że choć znamy średniotygodniową liczbę awarii urządzenia, to ich rzeczywista liczba nadal pozostaje nieznana i jest różna dla każdego tygodnia. Przeciętnie możemy oczekiwać trzech lub czterech awarii na tydzień, jednak gdy zdarzy się szczególnie pechowy tydzień, może ich być znacznie więcej. Jednak równie dobrze może się nie zdarzyć ani jedna. W naszym przypadku chcemy znaleźć prawdopodobieństwo tego, że w najbliższym tygodniu nie wydarzy się ani jedna awaria. Wydaje się to trudne? N a szczęście i w tym przypadku możemy się posłużyć standardowym rozkładem prawdopodobieństwa, który opisuje właśnie takie sytuacje. Jest nim rozkład Poissona.
344
Rozdział 7.
Poznajemy rozkłady: geometryczny, Jwumianow) i Poissona
Rozkład (Poissona 2 bliska Rozkład Poissona opisuje sytuacje, w których: Mamy do czynienia z losowymi, niezależnymi zdarzeniami, które dzieją się w pewnym przedziale, jakim może być odcinek czasu lub przestrzeni — na przykład w ciągu tygodnia czy na przestrzeni kilometra.
9
Znam y przeciętną liczbę zdarzeń w danym przedziale i jest ona liczbą skończoną. Zwykle oznacza się ją symbolicznie grecką literą X (czytaj: lambda).
Załóżmy, że X oznacza zmienną losową opisującą liczbę zdarzeń w danym przedziale, na przykład liczbę awarii na przestrzeni tygodnia. Jeśli m a ona rozkład Poissona z param etrem X, możemy to zapisać jako:
X ~ Po(A) Choć nie pokażemy wprost, jak m ożna wyznaczyć funkcję rozkładu prawdopodobieństwa dla rozkładu Poissona, możesz nam wierzyć, że dana jest ona wzorem:
P(X = r) =
U/ praktyce liczy się ta two.
W tej formule w ystępujefunkc/a wykładnicza — e1, gdzie x oznacza jakąś liczbę. Jest to jedna z najważniejszych funkcji w matematyce i większość kalkulatorów pozwala policzyć jej wartość dla dowolnego x. Choć więc wzór ten nie wygląda szczególnie zachęcająco, w praktyce nie sprawia większych trudności obliczeniowych. N a przykład jeśli X ~ Po(2), to: P(X = 3) =
e '2 x 23
Skorzystaj z p o d a n o wzoru, ■ podstawiając r - 3
e je s t jedną ze stałych w matematyce, je s t ona równa o koto 2,718, dlatego mozesz podstawić tą liczbą do wzoru wszędzie tam, gdzie widzisz e. U/iele kalkulatorów ma specjalny klawisz, który pozwala obliczać kolejne potęgi liczby e.
3! _ e ~2 x 8 _ 6
= e -2 x 1,333 = = 0,180 Jaka jest zatem wartość oczekiwana i wariancja zmiennej podlegającej rozkładowi Poissona? Prostsza, niż mógłbyś się spodziewać...
jesteś tutaj ► 345
Wartość oczekiwana i wariancja dla rozkładu Poissona
Wartość oczekiwana i wariancja dla rozkładu Poissona Znajdowanie wartości oczekiwanej i wariancji dla zmiennej o rozkładzie Poissona jest dużo prostsze niż dla innych rozkładów. Jeśli X ~ Po(X), to E(X ) będzie oznaczało przeciętną liczbę zdarzeń, jakich należy się spodziewać w danym przedziale. W naszym przykładzie będzie to przeciętna liczba awarii autom atu do popcornu w tygodniu. Innymi słowy, E(X ) jest średnią liczbą zdarzeń w danym przedziale. Ale jeśli X ~ Po(X), to średnia liczba zdarzeń była nam znana już na wstępie. Wynosi ona X. Oznacza to, że E(X ) jest równa X, czyli param etrow i definiującemu rozkład. Ale to jeszcze nie koniec dobrych wiadomości. W ariancja rozkładu Poissona również wynosi X. Jeśli więc X ~ Po(X), to:
E(X) = A
Var(X) = A
Podsumowując, jeśli mamy do czynienia ze zmienną losową o rozkładzie Poissona — Po(X), nie musimy robić nic, by znaleźć jej wartość oczekiwaną lub wariancję. Obie są równe X, czyli wartości param etru, który definiuje rozkład.
Jak wygląda rozkład Poissona? Kształt rozkładu Poissona nie jest stały i zależy od wartości X. Jeśli jest ona mała, dostajemy rozkład praw ostronnie skośny, który jednak zbliża się do rozkładu symetrycznego, gdy X rośnie. Gdy X jest liczbą całkowitą, rozkład ten posiada dwie dominanty: X i X-1 . Gdy zaś nie jest liczbą całkowitą, wówczas dom inantą jest tylko |XJ (|XJ oznacza największą liczbę całkowitą nie większą niż X, np. |3,4J = 3).
X
i . j,, poissona zależy
II
X (L
1/
x
346
Rozdział 7.
Powiem Ci wszystko, co musisz wiedzieć o ro zkład zie poissona. Wartość oczekiwaną, wariancję — słowem, wszystko.
A
Poznajemy rozkłady: geometryczny, Jwumianowj i Poissona
Wciel się w rolę automatu do popcornu Wyobraź sobie, że jesteś automatem do popcornu i zastanawiasz się, co Ci się przydarzy w nadchodzącym tygodniu. Odpowiedz na poniższe pytania, wiedząc, że psujesz się przeciętnie 3,4 raza na tydzień.
1. Jakie jest prawdopodobieństwo tego, że w przyszłym tygodniu nie przydarzy Ci się ani jedna awaria?
2. Jakie jest prawdopodobieństwo tego, że zepsujesz się trzy razy w tym tygodniu?
3. Jaka jest wartość oczekiwana i wariancja zmiennej, która opisuje liczbę Twoich awarii?
jesteś tutaj ► 347
Wciel się w rolę automatu do popcornu: Rozwiązanie
Wciel się w rolę automatu do popcornu: Rozwiązanie Wyobraź sobie, że jesteś automatem do popcornu i zastanawiasz się, co Ci się przydarzy w nadchodzącym tygodniu. Odpowiedz na poniższe pytania, wiedząc, że psujesz się przeciętnie 3,4 raza na tydzień.
Niech X będzie liczbą losową oznaczającą tygodniową liczbę awarii autom atu do popcornu. W tedy X ~ Po(3,4).
1. Jakie jest prawdopodobieństwo tego, że w przyszłym tygodniu nie przydarzy Ci się ani jedna awaria? Jeśli ma s ię nie wydarzyć ani jedna awaria, X m usi być równe 0. P(X = 0) =
r! x 3,4°
“
_ e-™ x 1
Wygląda na to , i e powinniśmy się spodiiewać tylko 3 ,4 awarii w następnym tygodniu. To niew iele. Nie b ędiiem y więc wymieniali autom atu na nowy. Tylko nie mów te g o nasŁym widiom.
1 = 0,033
2. O
0!
Jakie jest prawdopodobieństwo tego, że zepsujesz się trzy razy w tym tygodniu? P(X = 3) = e-3'1 x 3,43 =
3!
e~3'f x 39,304
6 = 0,033 x 6,55 = = 0,216
3.Jaka jest wartość oczekiwana i wariancja zmiennej, która opisuje liczbę Twoich awarii? E(X) = A = = 3,4
348
Rozdział 7.
Var(X) = A = = 3,4
Poznajemy rozkłady: geometryczny, Jwumianow) i Poissona i Nie.istnieją.
głupie pytania
Stała ta jest często stosowana
Dlaczego wartość oczekiwaną rozkładu Poissona oznaczamy symbolem X, a nie p, jak zwykle?
^ : Czym rozkład Poissona różni się od innych rozkładów prawdopodobieństwa?
0
: Korzystamy z symbolu X, ponieważ
0 : Przede wszystkim tym , że nie wiąże się
składanym), po bardziej zaawansowany
dla rozkładu Poissona zarówno wartość
on z wykonywaniem żadnych prób. Opisuje
rachunek prawdopodobieństwa.
oczekiwana, jak I wariancja są równe
on liczbę wystąpień jakiegoś zdarzenia
Dalsze Informacje na tem at e wykraczają
w określonym przedziale.
jednak poza ramy tej książki.
^ : Czy X musi być liczbą całkowitą?
^ : Stale otrzymuję błędne wyniki, gdy próbuję wyznaczać prawdopodobieństwo dla rozkładu Poissona. Co robię źle?
wartości parametru definiującego rozkład.
w matematyce. Znajduje szereg zastosowań praktycznych, od wyznaczania należnych odsetek (przy procencie
Tak jest prościej.
(P : Skąd się wzięła
funkcja prawdopodobieństwa rozkładu Poissona?
0 : Niekoniecznie. X może być dowolną liczbą, byle nie ujemną. Nie może być liczbą ujemną, ponieważ oznacza ona średnią
0 : M ożna ją wyprowadzić z funkcji prawdopodobieństwa Innych rozkładów,
0 : Z dwóch p ow odów jest tu szczególnie
liczbę zdarzeń w danym przedziale, a liczba zdarzeń nie może być ujemna.
upewnij się, że używasz właściwej formuły.
choć wym aga to dość skomplikowanych obliczeń. W praktyce wystarczy nam znajomość samej form uły I opisu sytuacji,
ła tw o o pomyłkę. Dlatego po pierwsze,
^ : Czym jest właściwie to „e” w funkcji rozkładu Poissona?
Łatw o zamienić r z X, więc upewnij się,
0 : e jest stała matematyczną, równą
posługujesz się funkcją ex w swoim
że tu ta j nie popełniłeś błędu. Po drugie, upewnij się, że poprawnie
w których możemy się nią posługiwać. w przybliżeniu 2,718. Możesz podstawić
kalkulatorze. Zostaw na sam koniec
tę liczbę zamiast e w funkcji rozkładu
policzenie e X.
Poissona.
Pracownicy kina mają kolejny problem. Już nie tylko autom at do popcornu sprawia problemy, ale i autom at do napojów nie działa tak, jak powinien. Średnia liczba awarii wynosi 2,3 na tydzień. M enedżer obiektu nie może sobie pozwolić na to, by cokolwiek poszło nie tak w czasie przyszłotygodniowej premiery. Jakie jest prawdopodobieństwo tego, że wszystko pójdzie po jego myśli, czyli nie wydarzy się ani jedna awaria żadnego z tych urządzeń?
WYSIL
________________
SZARE K O M Ó R K I Jaki jest rozkład praw dopodobieństw a liczby awarii autom atu do napojów? Jak znajdziemy praw dopodobieństw o tego, że ani ten a utom at, ani autom a t do popcornu nie zepsują się przez cały tydzień?
jesteś tutaj ► 349
Rozkład Poissona dla sumy zmiennych
Jaki je s t więc rozkład prawdopodobieństwa? Zbadajmy ten przypadek dokładniej. Mamy dwie maszyny: autom at do popcornu i autom at serwujący napoje, których średnie tygodniowe wskaźniki awaryjności znamy. Chcemy znaleźć prawdopodobieństwo tego, że żadna z tych maszyn nie zepsuje się w nadchodzącym tygodniu. Oto rozkłady opisujące awaryjność każdej z maszyn:
A u to m a t
A u to m a t
do popcornu
do napojów
Średnia tygodniowa liczba awarii wynosi 3 , 4 .
Ś r e d n ia tygodniow a aw arii wynosi 2 ,d .
X ~ P o (3 ,4 )
Y ~ P o (2 ,3 )
Oznaczmy przez X zm ienną losową opisującą tygodniową liczbę awarii autom atu do popcornu, zaś przez Y — autom atu do napojów. Obie podlegają rozkładowi Poissona. Co więcej, możemy powiedzieć, że zmienne te są niezależne. Innymi słowy, awaria autom atu do popcornu nie wpływa w żaden sposób na prawdopodobieństwo tego, że zepsuje się również autom at do napojów, i na odwrót — awaria autom atu do napojów nie wpływa na prawdopodobieństwo awarii autom atu do popcornu. Musimy znaleźć prawdopodobieństwo tego, że łączna liczba awarii obu maszyn w nadchodzącym tygodniu będzie wynosiła 0:
P (X + Y = 0)
WYSIL SZARE K O M Ó R K I W róć myślami do rozdziału poświęconego rachunkowi praw dopodobieństw a. Jak m ożem y policzyć P (X + Y ),je ś li X i Y są niezależnymi zm iennym i losowymi?
350
Rozdział 7.
liczba
Poznajemy rozkłady: geometryczny, dwumianowy i Poissona
Liczymy prawdopodobieństwa zdarzeń złożonych dla rozkładu Poissona W poprzednim rozdziale przekonaliśmy się, że jeśli X i Y są niezależnymi zmiennymi losowymi, wówczas: E (X + Y) = E(X ) + E(Y) Oznacza to, że jeśli X ~ Po(Xx), a Y ~ Po(Xy), to:
X + Y ~ Po(Ax + Ay) Innymi słowy, jeśli zmienne X i Y m ają rozkład Poissona, to i zm ienna X + Y , będąca ich sumą, m a rozkład Poissona. Możemy więc wykorzystać naszą wiedzę na tem at rozkładu zmiennych X i Y do wyznaczenia rozkładu prawdopodobieństwa ich sumy.
_
^ Zaostrz ołówek Niech X będzie zmienną losową oznaczającą tygodniową liczbę awarii automatu do popcornu, a Y — automatu do napojów, czyli: X ~ Po(3,4) oraz Y ~ Po(2,3).
1.
Jaki jest rozkład prawdopodobieństwa X + Y?
2.
Posługując się wyznaczonym rozkładem, oblicz P(X + Y = 0).
jesteś tutaj ► 351
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
Niech X będzie zmienną losową oznaczającą tygodniową liczbę awarii automatu do popcornu, a Y — automatu do napojów, czyli: X ~ Po(3,4) oraz Y ~ Po(2,3).
1. Jaki jest rozkład prawdopodobieństwa X+Y? A*
+
A,,
= 3 ,4 + 2,3 =
=5 ,7 X + Y - Po(5,7)
i N ie.is+nieja.
głupie pytania ^ : Czy to oznacza, że również pozostałe formuły na liczenie prawdopodobieństw i wartości oczekiwanych, które poznaliśmy wcześniej, są prawdziwe dla rozkładu Poissona? 0 : Tak, są prawdziwe. X i Y są niezależnymi zmiennymi losowymi, ponieważ awaria jednego z urządzeń nie w pływ a na prawdopodobieństwo zepsucia się drugiego. Oznacza to, że możemy wykorzystać wszystkie wzory, które są prawdziw e dla zmiennych niezależnych.
352
Rozdział 7.
Dlaczego X + Y ma rozkład Poissona?
^ : Czy więc możemy traktować X + Y tak, jak każdą inną zmienną o rozkładzie Poissona?
0 : X + Y ma rozkład Poissona, ponieważ obie zmienne są niezależne i każda z nich
0 : T a k , traktujem y ją ta k samo jak każdą
m a rokład Poissona.
inną zmienną o tym rozkładzie. Jeśli tylko
Oba autom aty psują się losowo,
znasz parametr Xx+y, możesz bez problemu
ale z pewną zaobserwowaną przeciętną
wyznaczyć każde prawdopodobieństwo
liczbą awarii w tygodniu. Oznacza to,
d latego rozkładu.
że rozpatrywane łącznie również psują się losowo z pewną częstotliwością. Razem więc również spełniają kryteria stosowalności rozkładu Poissona.
Poznajemy rozkłady: geometryczny, Jwumianowj i Poissona
Przypadek kruszących się ciasteczek K ate pracuje w lokalnej wytwórni ciasteczek. Jej zadaniem jest dbałość o to, by wyroby schodzące z taśmy produkcyjnej spełniały restrykcyjne przepisy dotyczące jakości.
UN
h ^
. ro fłie
w ie llc ie j I s y je r-c y iM C Y
K ate wie, ze prawdopodobieństwo tego, ze ciasteczko pokruszy się w trakcie produkcji, wynosi 0,1. Jej szefowa poprosiła, by K ate policzyła prawdopodobieństwo tego, że wśród partii 100 ciasteczek znajdzie pokruszonych. „To proste” — powiedziała — „posłuż się M
roz^ ai^em dwumianowym, biorąc n = 100 i p = 0, 1”.
Kate wzięła do ręki kalkulator, lecz gdy za jego pom ocą próbowała policzyć 100!, otrzymała błąd — szukana liczba była za duża. „Cóż” — powiedziała jej szefowa — „będziesz więc musiała policzyć to ręcznie. Ja idę już do domu, zatem miłej pracy”. K ate wpatrywała się w swój kalkulator, zastanawiając się, co m a teraz począć. Nagle na jej twarzy pojawił się uśmiech. „Może jednak wyjdę stąd, jeszcze zanim nastanie wieczór” — pomyślała. M inutę później Kate znała już odpowiedź na pytanie szefowej. U dało jej się wyznaczyć prawdopodobieństwo i to bez potrzeby liczenia 100!. Wzięła więc swój płaszcz i skierowała się w stronę drzwi.
W jak i sposób Kate udało się policzyć szukane prawdopodobieństwo tak szybko i w dodatku bez żadnych błędów?
jesteś tutaj ► 353
Rozkład Poissona w przebraniu
Rozkład Poissona w przebraniu Rozkład Poissona m a jeszcze jedno ważne zastosowanie. Pod pewnymi w arunkami może nam posłużyć do przybliżenia prawdopodobieństwa w rozkładzie dwumianowym.
to w ogóle przy d a ?
Czasami lepiej jest skorzystać z rozkładu Poissona niż z rozkładu dwumianowego. Wyobraź sobie, że musisz wyznaczyć rozkład dwumianowy dla n = 3000. Prędzej czy później będziesz musiał policzyć 3000!, co nie będzie łatwe nawet przy wykorzystaniu najlepszego kalkulatora. Właśnie w takich sytuacjach dobrze jest wiedzieć, że szukane prawdopodobieństwo można z dużą dokładnością przybliżyć rozkładem Poissona. Pod jakimi warunkam i możemy postąpić w taki sposób i jak dokładnie tego dokonać?
Wyobraźmy sobie, że mamy zm ienną X, przy czym X ~ B(n, p). Chcemy poznać zbiór warunków, po spełnieniu których rozkład B(n, p) będzie podobny do Po(X). Zacznijmy od przyjrzenia się ich wartości oczekiwanej i wariancji. Porównanie tych param etrów dla obu rozkładów da nam pierwszy zestaw warunków, przy których rozkład dwumianowy będzie zbieżny do rozkładu Poissona. Innymi słowy, chcemy, by:
Wartość oczekiwana
A m a być równa n p n p m a być równa n p q
W a ria n cja
A ma być równa n p q
np i npq będą w przybliżeniu sobie równe, gdy q będzie bliskie l , a n duże.
rozkład B(n, p) m ożna przybliżyć przez Po(np), gdy n je s t duże, a p m ałe. W praktyce przybliżenie takie okazuje się wystarczająco dokładne, gdy n jest większe niż 50, a p mniejsze niż 0,1.
354
Rozdział 7.
Poznajemy rozkłady: geometryczny, Jwumianow) i Poissona
^ : Kiedy będę musiał przybliżyć rozkład dwumianowy rozkładem Poissona?
^ : Kiedy więc mogę stosować takie przybliżenie?
^ : Dlaczego wykorzystujemy wtedy np jako parametr rozkładu Poissona?
0 : Możesz je stosować wtedy, gdy n jest
0 : Rozkład Poissona ma jeden parametr X,
0 : Kiedy n jest bardzo duże, może
duże (np. powyżej 50), a p jest małe
przy czym E(X) = X. Oznacza to,
być Ci trudno policzyć Cj. Większości
(np. mniejsze niż 0,1). Przy tych warunkach
że gdy przybliżamy rozkład dwum ianowy
kalkulatorów zabraknie pamięci, gdy
rozkład dwum ianowy i rozkład Poissona
rozkładem Poissona, powinniśmy
liczba ta będzie bardzo duża. Korzystanie
praktycznie się od siebie nie różnią.
za X podstawić wartość oczekiwaną
w takich przypadkach z rozkładu Poissona
rozkładu dwumianowego, która wynosi np.
jest sposobem na obejście tego problemu.
jesteś tutaj ► 355
Wielka tajemnica rozwiązana
. . rozwiązanie
Pewien student musi podejść do egzaminu, do którego w ogóle się nie przygotował. Będzie więc musiał udzielać losowych odpowiedzi na zadawane pytania. Prawdopodobieństwo tego, że odpowie poprawnie na każde pojedyncze pytanie, wynosi 0,05. Egzamin składa się z 50 pytań. Jakie jest prawdopodobieństwo tego, że na 5 z nich udzieli poprawnych odpowiedzi? Odpowiedź wyznacz, przybliżając rozkład dwumianowy rozkładem Poissona.
Niech X będzie zm ienną losową oznaczającą liczbę poprawnie udzielonych odpowiedzi na pytania egzaminacyjne. Z treści wynika, że n = 50, p = 0,05, a zatem np = 2,5. M ożemy więc powiedzieć, ż e X ~ Po(2,5), i tatwo wyznaczyć szukane prawdopodobieństwo:
Ar
P(X = 5) = ^ - A-= r! = e~2's x 2 ,5 ' 5! _ e~2'5 x 97,65625 _ 120
= e"2'5 x 0,8138 = = 0,067
Przypadek kruszących się ciasteczek: Rozwiązanie W jak i sposób Kate udało się policzyć szukane prawdopodobieństwo tak szybko i w dodatku bez żadnych błędów? Kate szybko zdała sobie sprawę z tego, że choć powinna posłużyć się rozkładem dwumianowym, to jednak param etry, które go definiują, m ają taką wartość, która pozwala skorzystać z przybliżenia tego rozkładu rozkładem Poissona.
r o p ie w ie lk ie j
Wiele kalkulatorów nie potrafi liczyć silni dużych liczb, co sprawia, że często nie możemy wyznaczyć dokładnych wartości prawdopodobieństwa w rozkładzie dwumianowym. Jeśli jednak wiemy, że możemy je przybliżyć, korzystając z rozkładu Poissona, możemy zaoszczędzić sobie sporo czasu i wysiłku.
356
Rozdział 7.
ta je m n ic y
Poznajemy rozkłady: geometryczny, Jwumianow) i Poissona
£ ę chętni na popcorn? W tym rozdziale dowiedziałeś się całkiem sporo nowych rzeczy. Uzupełniłeś swoją wiedzę z rachunku prawdopodobieństwa i statystyki o trzy rozkłady prawdopodobieństwa dla zmiennych dyskretnych. Dzięki tem u zacząłeś też pewnie lepiej rozumieć, czym jest rozkład prawdopodobieństwa oraz jak korzystać z poznanych wzorów i dróg na skróty, które pozwalają zaoszczędzić sporo czasu i nakładów pracy. Te umiejętności przydadzą się też w dalszej części książki. Usiądź więc wygodnie i zjedz swój popcorn — zasłużyłeś na niego.
Krótki przewodnik po rozkładzie Poissona Oto krótkie podsumowanie wszystkiego, co, naszym zdaniem, powinieneś wiedzieć o rozkładzie Poissona.
Kiedy stosujemy? Rozkład Poissona możemy wykorzystać wtedy, gdy mamy do czynienia z niezależnymi zdarzeniami losowymi (np. awariami) pojawiającymi się w pewnym przedziale, których średnia liczba wystąpienia w danym przedziale (X) jest znana, i gdy chcemy poznać prawdopodobieństwo pojawienia się określonej liczby zdarzeń w tym przedziale.
Jak liczymy prawdopodobieństwo, wartość oczekiwaną i wariancję? Korzystamy z poniższych wzorów:
e -AAr P(X = r) = -----r!
E(X) = A
Var(X) = A
Jak liczymy prawdopodobieństwo dla sumy niezależnych zmiennych losowych? Jeśli X ~ Po(Xx) oraz Y ~ Po(Xy), to
X + Y ~ Po(Ax + Ay) Jaki ma on związek z rozkładem dwumianowym? Jeśli X ~ B(n, p), przy czym n jest duże, a p małe, wtedy rozkład zmiennej X m ożna przybliżyć rozkładem Poissona:
X ~ Po(np)
jesteś lulaj ► 357
Ćwiczenie (nieco dłuższe) Ćwiczenie (nieco dłuższe)'
J
*
;
Poniżej wymieniono scenariusze kilku zdarzeń. Określ, który rozkład prawdopodobieństwa można wykorzystać do ich opisu, jaka jest wartość oczekiwana i wariancja tego rozkładu, oraz wyznacz szukane prawdopodobieństwa.
1. Mężczyzna gra w kręgle. Prawdopodobieństwo strącenia wszystkich kręgli wynosi 0,3. Jakie są szanse na to, że w 10 kolejnych próbach strąci wszystkie kręgle mniej niż 3 razy?
358
Rozdział 7.
Poznajemy rozkłady: geometryczny, Jwumianowj i Poissona
2.Na pewnym przystanku autobus zatrzymuje się przeciętnie raz na kwadrans. Jakie jest prawdopodobieństwo tego, że ani jeden autobus nie pojawi się przez kolejne 15 minut?
3.W 20% opakowań płatków śniadaniowych znajduje się gratisowa zabawka. Jakie jest prawdopodobieństwo tego, że będziesz musiał otworzyć najwyżej 4 opakowania płatków, by znaleźć taką zabawkę?
jesteś tutaj ► 359
Ćwiczenie (nieco dłuższe): Rozwiązanie wiczenie ________________________ (nieco dłuższe) Rozwiązanie Poniżej wymieniono scenariusze kilku zdarzeń. Określ, który rozkład prawdopodobieństwa można wykorzystać do ich opisu, jaka jest wartość oczekiwana i wariancja tego rozkładu, oraz wyznacz szukane prawdopodobieństwa. 1. Mężczyzna gra w kręgle. Prawdopodobieństwo strącenia wszystkich kręgli wynosi 0,3. Jakie są szanse na to, że w 10 kolejnych próbach strąci wszystkie kręgle mniej niż 3 razy? Jeśli przez X oznaczymy liczbą trafień w szystkich kręgli, to X ~ 8 0 0 ; 0,3).
Var(X) = npą =
E(X) = np =
= 10 x 0,3 x 0 , 7 =
= 1 0 x 0,3 =
=
W ogólnym przypadku mamy: P(X = r ) = C ( x p ' x q"_r
P(X = 0 )= Co x 0,3° x 0,7'° = = 1 x l x
0,0 2 8 =
= 0,028
P(X = D = Cj° x 0,3' x 0,7" = = 10 x 0,3 x 0,04035 =
= 0,121
P(X = 2 )= C’° x 0 ,3 2 x 0,78 = = 45 x 0,09 x 0,0576 =
= 0,233
PCX<3) = P(X = 0) + P(X = 1) + P(X = 2) = = 0,028 + 0,121 + 0,233 = = 0,382
360
Rozdział7.
2,1
Poznajemy rozkłady: geometryczny, Jwumianowj i Poissona
2.Na pewnym przystanku autobus zatrzymuje się przeciętnie raz na kwadrans. Jakie jest prawdopodobieństwo tego, że ani jeden autobus nie pojawi się przez kolejne 15 minut? Jeśli przez X oznaczymy liczbę autobusów zatrzym ujących s ię na przystanku w ciągu kolejnych 15 m inut, to X ~ Po(l). Var(X) = A = E(X) = A =
=,
=1
W ogólnym przypadku mamy:
^ _ e"A Ar
r!
P(X = O) = e~' * 1° =
O!
_ e~’ x 1 "
1
"
= 0,368
3.W 20% opakowań płatków śniadaniowych znajduje się gratisowa zabawka. Jakie jest prawdopodobieństwo tego, że będziesz musiał otworzyć najwyżej 4 opakowania płatków, by znaleźć taką zabawkę? Jeśli przez X oznaczymy liczbę opakowań ptatków, które trzeba będzie otworzyć, by znaleźć zabawkę (po raz pierw szy), wówczas X ~ Geo(0,2). Var(X) = ą / p 2 = E(X) = l / p = 0 , 8/ 0 , 22 = =
1/ 0,2
=
0 ,8 /0 ,0 4 = =5 20
W ogólnym przypadku mamy: P(X < r) = 1 - qr
P(X < 3 ) =1 - qj =
= 1 - 0,83 = = 1 - 0,512 = = 0,488
jesteś tutaj >
361
Celne spostrzeżenia
CELNE SPOSTRZEŻENIA
Rozkład geom etryczny
Rozkład d w u m ia n o w y
Rozkład Poissona stosujemy
m ożem y stosować wtedy,
m ożem y stosować wtedy, gdy
wtedy, gdy m am y do czynienia
gdy przeprow adzam y serię
przeprow adzam y skończoną
z niezależnymi zdarzeniami
niezależnych prób, które mogą się
serię niezależnych prób, z których
losowym i, które m ogą się
zakończyć sukcesem lub porażką,
każda m oże się zakończyć
wydarzyć w ramach pewnego przedziału, i gdy znam y średnią
przy czym praw dopodobieństw o
sukcesem lub porażką, przy czym
sukcesu w każdej z prób jest
praw dopodobieństw o sukcesu
liczbę zdarzeń w pojedynczym
stałe. M ó w i on o tym , w której
w każdej próbie jest stałe. M ów i
przedziale (przy czym jest ona
próbie odniesiemy sukces po raz
on o tym , ile sukcesów zdarzy się
skończona). M ó w i on
pierwszy.
w w yniku n kolejnych prób.
o praw dopodobieństw ie zajścia
Jeśli przez X oznaczymy liczbę
Jeśli przez X oznaczymy liczbę
prób niezbędną do uzyskania
sukcesów w n kolejnych próbach,
określonej liczby takich zdarzeń w danym przedziale.
sukcesu (pierwszy raz), a przez
a przez p praw dopodobieństw o
Jeśli przez X oznaczymy liczbę
p praw dopodobieństw o sukcesu
sukcesu w pojedynczej próbie,
zdarzeń w danym przedziale,
w pojedynczej próbie, m ożem y
m ożem y zapisać, że
a przez X — średnią liczbę
zapisać, że
zdarzeń w tym przedziale, to X - B(n, p)
X - G eo(p)
X - Po(X) Funkcja rozkładu
Poniższe w zo ry są prawdziwe
praw dopodobieństw a
dla X - G eo(p):
dla X - B(n, p) m a postać:
P(X = r) = p q r - 1
P(X = r) = cn p r q n- r
P(X > r) = qr P (X < r) = 1 - qr
Jeśli X - Po(X), wówczas:
P( X = r) =
e-X Xr r!
E(X) = X gdzie
Jeśli X - G eo(p), wówczas:
C" =
Var(X ) = X n! r! (n - r)!
Jeśli X - Po(Xx), Y - Po(Xy) oraz X i Y są niezależne, wówczas:
E(X) = 1 /p Var(X) = q / p 2
Jeśli X - B(n, p ), wówczas:
X + Y - Po(X ) ' x + X y'
mal E(X) = np Var(X) = npq
Jeśli X - B(n, p ), przy czym n jest dostatecznie duże, a p małe, m ożem y przybliżyć rozkład zmiennej X przez rozkład Poissona Po(np).
362
Rozdział 7.
8. Poznajemy rozkład normalny
jk
Wybieramy normalność
^
Dyskretne rozkłady prawdopodobieństwa nie w każdej sytuacji się sprawdzają. W poprzednim rozdziale poznaliśmy trzy rozkłady praw dopodobieństw a, dla których byliśmy w stanie wym ienić wszystkie wartości, jakie może przyjąć zm ienna losowa. Nie zawsze jednak jest to możliwe. Niekiedy posiadane przez nas dane w ogóle nie przystają do żadnego z tych trzech rozkładów. W tym rozdziale dow iem y się o Istnieniu rozkładów Innego typu, tak zwanych ciągłych ro zk ła d ó w p raw do po do bień stw a, oraz poznam y jeden z najważniejszych rozkładów w statystyce — rozkład normalny.
to jest nowy rozdział ► 363
Zmienne dyskretne o zmienne ciqgłe e dM^retnS
Zmienne dyskretne przyjmują wybrane w artości...
325*
i
5
D o tej pory zajmowaliśmy się rozkładami dla dyskretnych zmiennych losowych. To znaczy takich, które przyjmują wybrane wartości, których prawdopodobieństwa wystąpienia jesteśmy w stanie policzyć. Gdy na przykład tworzyliśmy rozkład prawdopodobieństwa wypłaty z gry na automacie, wszystkie potencjalne sumy wypłat były nam znane. Ponadto dane liczbowe o charakterze dyskretnym przyjmują z reguły wartości całkowite. Zawsze też można je jakoś policzyć. T ak było w przypadku liczby prawidłowych odpowiedzi na zadane pytania czy też w przypadku liczby awarii urządzenia w danej jednostce czasu.
364
Rozdział 8.
1
2
3
4
5
Poznajemy rozkład normalny
...a le nie wszystkie zm ienne muszą być dyskretne Nie zawsze da się wymienić wszystkie wartości, jakie może potencjalnie przyjąć zmienna losowa. Co więcej, bywają zmienne, które mogą przyjmować praktycznie dowolną wartość. W yobraź sobie na przykład, że poproszono Cię o dokładne zmierzenie długości kawałka nici, która m a około 30 cm. Raz otrzymałbyś 30,1 cm, innym razem dokładnie 30 cm, a jeszcze kiedy indziej 30,01 cm. Tego typu dane liczbowe opisywane są przez zmienne typu ciągłego. Są to często dane będące wynikiem pom iaru, w przeciwieństwie do danych dyskretnych, które są najczęściej wynikiem zliczania.
ci
5
wartości-
4 3 2
2
D ^ cif ej y gtadka ś c ę z
3
4
5
iczym
możesz
do cg!u.
AI& d la c z e g o powinnam się przejmować danymi te g o typu?
Typ danych, jakie posiadasz, ma wpływ na sposób obliczania prawdopodobieństw. Jak dotąd, mieliśmy do czynienia wyłącznie z rozkładami prawdopodobieństwa dla dyskretnych zmiennych losowych. Korzystając z funkcji rozkładu prawdopodobieństwa, mogliśmy wyznaczyć prawdopodobieństwo realizacji każdej możliwej wartości zmiennej losowej. Jednakże w rzeczywistym świecie bardzo często mamy do czynienia z danymi typu ciągłego, których nie da się opisać za pom ocą dyskretnych rozkładów prawdopodobieństwa. D o ich opisu musimy się posłużyć rozkładami innego rodzaju — rozkładami typu ciągłego. W międzyczasie doszły nas słuchy, że ktoś ma ja k iś problem ... Z m ien n e dyskretne też m ogą przyjm ow ać nieskończenie w iele w artości, na przykład X ~ P 0(X).
jesteś tutaj ► 365
Częstość a ozkład ciqgJy
Ile będzie czekać J u lie ? Julie jest studentką. Jej najlepsza przyjaciółka zaproponowała Julie udział w czymś w rodzaju randki w ciemno, licząc na to, ze dzięki tem u Julie pozna wreszcie kogoś, kto będzie jej wart. Niestety, jej partnerzy nie zawsze są punktualni — mówiąc wprost, spóźniają się na umówione spotkania. Julie nie znosi czekać na osobę, z którą się spotyka, dlatego przyjęła zasadę, której sztywno się trzyma: jeśli osoba ta nie pojawi się w ciągu 20 minut, Julie wraca do domu.
PzJs łków mam randkę. Nie zamierzam czekać d łu żej niż 20 minut. Nie znoszę czekać. Jakie są szanse na to., że będę musiała czekać d łu żej niż 5 minut?
Oto przykładowy wykres częstości przedstawiający czas, przez jaki Julie musi czekać na rozpoczęcie każdej randki: M Partnerzy_randkowi Julie nie są
r
tym momencie Julie odchodzi.
C z a s (w m in u ta c h )
poznaj
X
X b ‘e
W/ tym momencie Julie przychodzi na umówione miejsce.
WYSIL SZARE K O M Ó R K I M usim y znaleźć praw dopodobieństw a dla wszystkich m ożliw ych okresów czasu, jaki Julie może potencjalnie czekać na przybycie partnera. Czy czas ten zmienia się w sposób skokowy, czy ciągły? Dlaczego? Jak m oglibyśm y zabrać się do wyznaczania jego rozkładu?
366
Rozdział 8.
Poznajemy rozkład normalny
Musimy znaleźć rozkład prawdopodobieństwa dla danych ciągłych M u s i m y z n a le ź ć p r a w d o p o d o b ie ń s t w o t e g o , z e J u lie b ę d z ie c z e k a ła d łu ż e j n iż 5 m i n u t n a p r z y b y c ie p a r t n e r a i r o z p o c z ę c ie r a n d k i . M a m y j e d n a k p r o b l e m , p o n ie w a ż c z a s t e n z m ie n ia s ię w s p o s ó b c ią g ły , a w i ę c n ie b ę d z ie m y m o g l i w y k o r z y s t a ć t y c h r o z k ł a d ó w , k t ó r e p o z n a liś m y w p o p r z e d n i m r o z d z ia le . G d y m ie l iś m y d o c z y n ie n ia z d a n y m i o c h a r a k t e r z e d y s k r e t n y m , w y z n a c z e n ie ic h r o z k ł a d u p r a w d o p o d o b ie ń s t w a n ie b y ło z a d a n ie m s z c z e g ó ln ie t r u d n y m . M o g l iś m y t o z r o b i ć a lb o w p o s t a c i t a b e la r y c z n e j, a lb o t e ż o d w o ła ć s ię d o f u n k c j i r o z k ł a d u p r a w d o p o d o b ie ń s t w a je d n e g o z o g ó l n i e z n a n y c h r o z k ł a d ó w , j a k n a p r z y k ł a d r o z k ł a d d w u m ia n o w y c z y P o is s o n a . P o z w a la ło n a m t o ła t w o p r z y p o r z ą d k o w a ć k a ż d e j m o ż liw e j w a r t o ś c i z m ie n n e j p r a w d o p o d o b ie ń s t w o j e j r e a li z a c ji . N a p r z y k ł a d g d y o c e n ia liś m y o p ła c a ln o ś ć g r y n a a u t o m a t a c h w k a s y n ie D a n a , ła t w o z n a le ź liś m y r o z k ł a d w y p ła t z g r y , p r z y p is u ją c k a ż d e j z e z n a n y c h s t a w e k w y p ła t y p r a w d o p o d o b ie ń s t w o je j o t r z y m a n ia .
W
obliczyć
prawdopodobieństw o dla każdej w a rto śc i.
x
-1
4
9
14
19
P (X = x )
0 ,9 7 7
0 ,0 0 8
0 ,0 0 8
0 ,0 0 6
0 ,0 0 1
W p r z y p a d k u d a n y c h c ią g ły c h je s t je d n a k in a c z e j. N i e m o ż e m y t u t a j p o d a ć p r a w d o p o d o b ie ń s t w a r e a li z a c ji k a ż d e j p o je d y n c z e j w a r t o ś c i z m ie n n e j lo s o w e j, p o n ie w a ż n ie p o t r a f i m y ic h w s z y s t k ic h w y m ie n ić . N a p r z y k ł a d r a n d k a J u lie m o ż e s ię z a c z ą ć p o 4 m in u t a c h , 4 m in u t a c h i 1 0 s e k u n d a c h c z y t e ż 4 m in u t a c h i 1 0 ,5 s e k u n d y . N i e m o ż li w e je s t z lic z e n ie w s z y s t k ic h p o t e n c j a l n y c h w a r t o ś c i z m ie n n e j lo s o w e j c ią g łe j. D l a t e g o t y m r a z e m s k u p i m y s ię n a p r a w d o p o d o b ie ń s t w i e p r z y ję c ia p r z e z z m ie n n ą lo s o w ą m ie r z o n y c h z u s t a lo n ą d o k ła d n o ś c ią w a r t o ś c i z o k r e ś lo n e g o przedziału je j z m ie n n o ś c i.
*
jesteś tutaj ► 367
Funkcja gęstości srawdopodobieństwa
Dla zmiennych ciągłych możemy wyznaczyć funkcję gęstości Rozkład prawdopodobieństwa zmiennych losowych ciągłych możemy opisać za pom ocąifu n kcji gęstości prawdopodobieństwa. Funkcja gęstości prawdopodobieństwa (zwana też w skrócie gęstością rozkładu), f(x), pozwala wyznaczyć prawdopodobieństwo przyjęcia przez zmienną losową X wartości z określonego przedziału. O d tej funkcji zależy kształt rozkładu. Oto szkic krzywej gęstości wyznaczonej dla czasu, jaki Julie spędzi na oczekiwaniu na przybycie partnera: Ta ¡ a ZTo czekała na r o z p « - ^ - - Ia "'- T
p ierw sze
id zie do domu.
Oba w ykre sy m ają te n sam k s z ta łt.
Czy dostrzegasz, jak bardzo przypomina ona częstość? To podobieństwo nie jest dziełem przypadku. Prawdopodobieństwo mówi o tym, jakie są szanse na zajście określonych zdarzeń, zaś częstość mówi o tym, jak często pewne zdarzenia zachodzą. Im większa jest częstość względna, tym większe jest prawdopodobieństwo zajścia zdarzenia. Ponieważ częstość dla okresu czasu, jaki Julie będzie czekać na partnera, jest stała przez początkowe 20 m inut oczekiwania, zatem i funkcja gęstości rozkładu jest w tym przedziale funkcją stałą.
20
O Halo! Myślałam, ¿e będziemy lic z y lija k ie ś prawdopodobieństwa.
368
Rozdział 8.
C z a s (w m in u ta c h )
Poznajemy rozkład normalny
Prawdopodobieństwo c pole powierzchni W przypadku zmiennych losowych ciągłych prawdopodobieństwa ich realizacji dane są w postaci pola powierzchni pod wykresem funkcji gęstości. Aby oszacować prawdopodobieństwo przyjęcia przez ciągłą zmienną losową wartości z pewnego przedziału, musimy najpierw wykreślić funkcję gęstości. Prawdopodobieństwo to odczytamy jako pole powierzchni wyznaczonej przez tę funkcję i krańce przedziału. D la przykładu znajdziemy prawdopodobieństwo tego, ze Julie będzie czekała na swojego p artnera od 5 do 20 minut. Wykreślimy odpowiednią funkcję gęstości, a następnie zakreślimy obszar wyznaczony przez tę funkcję oraz wartości x leżące między 5 a 20 minut.
P (X > 5 ) j « * , równe p °[u . erzchm •
20
X
Pole całego obszaru pod funkcją gęstości musi być równe 1, ponieważ obszar ten reprezentuje prawdopodobieństwo realizacji każdej możliwej wartości zmiennej losowej. Ponieważ dla każdego rozkładu suma wszystkich prawdopodobieństw musi wynosić 1, nie inaczej jest i w tym przypadku.
. . repredopodobiehstwo, w ie c je j
p o w ie rz c h n ia ^ ^ ¡ t e
C e m E s i b y ć ^ 1-
0
20
X
Tę informację wykorzystamy do znalezienia prawdopodobieństwa tego, że Julie będzie musiała czekać dłużej niż 5 minut na przybycie partnera.
WYSIL
________________________
SZARE K O M Ó R K I Pole powierzchni pod krzywą gęstości musi wynosić 1. Ale ile wynosi w artość samej funkcji f(x)? ^
Wskazówka: j e s t to wartość stata.
jesteś tutaj ► 369
Znajdujemy (x)
Aby obliczyć prawdopodobieństwo, znajdź najpierw f(x). Zanim będziemy mogli obliczyć jakiekolwiek prawdopodobieństwo, musimy znaleźć postać funkcji gęstości f(x). N a razie wiemy tylko, ze f(x) przyjmuje stałe wartości oraz ze pole powierzchni pod krzywą gęstości musi być równe 1. Z poniższego rysunku wynika, ze powierzchnia pod krzywą gęstości ma w tym przypadku kształt prostokąta o długości podstawy 20 (minut). Gdybyśmy znaleźli wysokość prostokąta, znalibyśmy wartość funkcji f(x).
m usi
20
X
Powierzchnię prostokąta wyznaczmy, mnożąc wysokość przez długość podstawy. Oznacza to, że:
1 = 20 X wysokość wysokość = 1/20 = = 0,05 A zatem f(x) musi być równe 0,05, ponieważ tylko wtedy prostokąt wyznaczony przez f(x) będzie miał powierzchnię równą 1. Innymi słowy: f(x) = 0,05
dla x z przedziału od 0 do 20.
Oto szkic wykresu:
Teraz, kiedy znamy już funkcję gęstości rozkładu naszej zmiennej X, możemy wyznaczyć P(X > 5).
370
Rozdział 8.
Poznajemy rozkład normalny
...a następnie oblicz prawdopodobieństwo, wyznaczając pole
ty
Figura wyznaczona przez krzywą gęstości ograniczoną do przedziału od 5 do 20 minut jest prostokątem . Wyznaczając jego pole powierzchni, będziemy więc w stanie obliczyć P (X > 5 ).
P(X > 5) = (2 0 -5 ) x 0,05 = 0,75
x = 5, F(x) = 0,05.
0 ,0 5 -----
5
20
Powierzchnia prostokąta = dtuoość podstawy x wysokość.
A zatem prawdopodobieństwo tego, ze Julie będzie musiała czekać na partnera co najmniej 5 minut, wynosi 0,75.
C zy ŁawsŁe mustę m ie r zy ć p owierŁchnię, gdy ch c ę p o zn a ć prawdopodobieństwo? C zy nie mogę po prostu dodać do siebie prawdopodobieństwa wstystkich ŁdarŁeń, k tó re miesŁcŁą się w tym p r z ę d z ¡ale, ta k ja k dla roikładów dyskretnych?
To się nie sprawdzi w przypadku rozkładów ciągłych. W przypadku zmiennych ciągłych musimy obliczać prawdopodobieństwo jako pole powierzchni pod wykresem funkcji gęstości. Nie możemy po prostu zsumować prawdopodobieństwa każdej wartości z danego przedziału, ponieważ takich wartości jest nieskończenie wiele. Mogłoby nam to zająć całą wieczność. D la ciągłych rozkładów prawdopodobieństwa możemy jedynie wykreślić funkcję gęstości i obliczyć pole powierzchni figury, jaka się pod nią znajduje.
Gdy mamy do czynienia ze zmiennymi ciągłymi, liczymy prawdopodobieństwa dla wartości przedziałowych. jesteś tutaj ► 371
Nie istniejq głupie pytania
^ : Wiem już, że istnieje funkcja zwaną funkcją gęstości prawdopodobieństwa. Ale czym jest sama gęstość prawdopodobieństwa?
^ : Ale czy obliczanie prawdopodobieństw nie staje się przez to bardziej skomplikowane? Przecież funkcja gęstości nie zawsze będzie linią prostą.
^ : No dobrze, ale gdybym mimo wszystko chciał wyznaczyć prawdopodobieństwo dla pojedynczej wartości?
0 : To prawda, jednak obliczenie
to wydawać niezrozumiałe, wynosi ono 0.
0 : Gęstość prawdopodobieństwa mówi o tym , jaka masa prawdopodobieństwa
0 : Choć na pierwszy rzut oka może się
skupiona jest na danym przedziale.
prawdopodobieństwa nadal jest możliwe.
By to lepiej zrozumieć, wyobraź sobie,
Jest to koncepcja bardzo podobna
W ymaga jednak rachunków na dużo
że pytasz o wartość ustaloną
do gęstości częstości, którą poznałeś
wyższym poziomie zaawansowania,
z dokładnością do nieskończonej liczby
w rozdziale 1. Gęstość
dlatego nie będziemy o nich m ówić w tej
miejsc po przecinku.
prawdopodobieństwa posługuje
książce. Wystarczy, że będziesz wiedział,
Wracając do przykładu z nicią, w jaki
się powierzchnią do wyrażenia
skąd się bierze prawdopodobieństwo,
sposób mógłbyś stwierdzić, że trzymasz w ręku nić o długości dokładnie 30 cm?
prawdopodobieństwa, podobnie
o którym mowa.
jak gęstość częstości posługiwała się
Gdybyś był naprawdę zainteresowany
Musiałbyś chyba posłużyć się idealnym
powierzchnią do wyrażenia częstości.
obliczaniem prawdopodobieństw
wzorcem długości, z dokładnością
dla rozkładów ciągłych, nic nie stoi
do pojedynczego atomu, i porównać jego
^ : A zatem prawdopodobieństwo nie jest tym samym co gęstość prawdopodobieństwa?
na przeszkodzie, byś próbował to robić
długość z długością nici, korzystając
na własną rękę. M ożem y Cię tylko zachęcać.
z mikroskopu elektronowego. W praktyce nie jest więc możliwe, że
0 : Gęstość prawdopodobieństwa pozwala wyznaczyć prawdopodobieństwo, ale nie jest prawdopodobieństwem sama w sobie. Funkcję gęstości prawdopodobieństwa można przedstawić
^ : Mówiliście sporo o prawdopodobieństwie wyznaczanym dla wartości przedziałowych. Jednak nadal nie wiem, jak znaleźć prawdopodobieństwo zrealizowania się konkretnej wartości?
na wykresie jako krzywą, zaś reprezentacją prawdopodobieństwa jest pole powierzchni zawartej pod tą krzywą.
0 : W przypadku danych o charakterze ciągłym tak naprawdę jesteśmy zainteresowani pewnym przedziałem
^ : Rozumiem, zatem jeśli dysponuję wykresem gęstości rozkładu, odpowiednie prawdopodobieństwa mogę odczytać jako pola figur zawartych pod wykresem?
wartości wyznaczanych z ustaloną dokładnością. Weźmy przykład.
precyzyjnie podana długość nici. Znając tę dokładność pomiaru, wyznaczysz przedział akceptowalnych długości nici i odpowiadające mu prawdopodobieństwo.
cm. Mógłbyś więc powiedzieć, że ma ona to prawdą. Tak naprawdę trzymasz w ręku nić o długości leżącej gdzieś między
polu powierzchni pod krzywą gęstości.
29,5 cm a 30,5 cm, bo dokładność,
Bezpośrednio z wykresu można odczytać
z jaką dokonywałeś pomiaru, wyniosła 1 cm.
prawdopodobieństwa tylko dla zmiennych
Innymi słowy, trudno jest mówić
dyskretnych.
o konkretnej wartości, jeśli wyrażamy ją tylko z pewną dokładnością.
Rozdział 8.
0 : No dobrze, ale i w tym przypadku znaczenie ma dokładność pomiaru, a nie
30 cm zmierzoną z dokładnością do 1
prawdopodobieństwo jest równe
372
^ : Ale ja jestem pewien, że precyzja pomiaru nie ma znaczenia. Co, gdybyśmy chcieli mierzyć ją z dokładnością do metra?
Załóżmy, że trzymasz w ręku nić o długości
dokładnie 30 cm długości, choć nie byłoby 0 : Dokładnie. Dla zmiennych ciągłych
będziesz trzym ał w ręku nić o długości dokładnie 30 cm.
Poznajemy rozkład normalny
Wciel się w rolę funkcji gęstości prawdopodobieństwa Pewna grupa funkcji gęstości prawdopodobieństwa pogubiła się w liczeniu prawdopodobieństw. Spróbuj pomóc im wyznaczyć prawdopodobieństwa podanych zdarzeń. Naszkicuj wykres, jeśli sądzisz, że pomoże Ci to w obliczeniach.
1. f(x)=0,05, dla 0 < x < 20
2. f(x) = 1, dla 0 < x <1
Znajdź P(X < 5)
Znajdź P(X < 0,5)
3. f(x) = 1, dla 0 < x < 1
4. f(x) = 0,1 - 0,005x, dla 0 < x < 20
Znajdź P(X > 2)
Znajdź P(X > 5)
jesteś tutaj ► 373
Wciel się w rolę funkcji gęstości prawdopodobieństwa: Rozwiązanie
Wciel się w rolę funkcji gęstości prawdopodobieństwa: Rozwiązanie Pewna grupa funkcji gęstości p i u n u u p u u u u i i w u pogubiła |ju y u u iiu prawdopodobieństwa się w liczeniu prawdopodobieństw. Spróbuj pomóc im wyznaczyć prawdopodobieństwa podanych zdarzeń. Naszkicuj wykres, jeśli sądzisz, że pomoże Ci to w obliczeniach.
1. f(x) = 0,05, dla 0 < x < 20
2 . f(x) = 1 , dla 0 < x < 1
Znajdź P(X < 5)
Znajdź P(X < 0,5)
A P(X<5)
p(X<5)j«strÓW;ne te m u po lu ’
= 5 x 0 ,0 5 = 0 ,2 5
0 ,0 5
20
3. f(x) = 1, dla 0 < x < 1
4. f(x) = 0,1 - 0,005x, dla 0 < x < 20
Znajdź P(X > 2)
Znajdź P(X > 5)
Górną granicą dla wartości zm iennej je s t 1, dlatego dalej gęstość
prawdopodobieństwa wynosi 0. P(X>2) = 0
Dla x = 5, f(x) = 0 ,0 75 . Oznacza to, że m usim y znaleźć pole trójkąta prostokątnego o wysokości 0 ,0 7 5 i dtugości p o d sta w y równej 15.
G ę s to ś ć
P™ udopod°b ¡e A s t ^ 0 5 ,
0 , g dy X > i
0 PCX >5)
5
= 1,125/2
0
374
= 0,5625
Rozdział 8.
20
= (0,075 x 1 5 )/2
Pole powierzchni trójkąta j e s t równe potowie dtugości podstawy pomnożonej przez wysokość.
Poznajemy rozkład normalny
CELNE SPOSTRZEŻENIA
Zm ienne losowe dyskretne
Prawdopodobieństwo przyjęcia
przyjm ują tylko pewne w ybrane
przez zmienną losową wartości
wartości.
z danego przedziału jest rów ne polu
Zm ienne losowe ciągłe mogą przyjąć każdą w artość z pewnego przedziału. Często opisują wielkości, które m ożna w jakiś sposób zmierzyć (a nie tylko zliczyć). Rozkłady praw dopodobieństw a zm iennych losowych ciągłych opisuje się za pom ocą funkcji gęstości praw dopodobieństw a.
Znaleźliśmy szukane prawdopodobieństwo Wiemy już, jak wyznaczać prawdopodobieństwo za pom ocą funkcji gęstości w przypadku zmiennych losowych ciągłych. Obliczyliśmy również prawdopodobieństwo tego, że Julie będzie musiała czekać na partnera co najmniej 5 minut. Wynosi ono 0,75.
powierzchni pod krzywą gęstości, ograniczoną krańcami przedziału. Aby więc znaleźć P (a< X < b), należy obliczyć pole powierzchni pod krzywą gęstości m iędzy punktam i a i b. Całkowite pole powierzchni obszaru leżącego pod krzywą gęstości wynosi 1.
Rozkład wzrostu
Szukanie bratniej duszy Julie jest pewna nie tylko tego, ze nie lubi czekać na mężczyznę, ale m a również jasne wyobrażenie tego, jak mężczyzna jej życia powinien wyglądać.
C hcę m ę ż c Ł y tn ę , który byłby ode mnie wyisŁy nawet wtedy, gdy Ł a ło ię buty na wysokim obcasie. Buty są najw ażniejsze.
Julie uwielbia nosić buty na wysokim obcasie — im ten obcas wyższy, tym Julie jest szczęśliwsza. Problem polega jednak na tym, że Julie chce, by mężczyzna jej życia był na tyle wysoki, aby przewyższać ją wzrostem nawet wtedy, gdy założy buty na najwyższym obcasie. A takich mężczyzn nie m a wielu. Niestety, podczas kilku ostatnich randek w ciemno towarzyszący jej mężczyźni nie spełniali tego warunku. Julie zaczęła się więc zastanawiać, ilu mężczyzn jest wyższego wzrostu niż ona (w swym obuwiu) i jakie są szanse na to, że wreszcie któryś sprosta tem u niełatwemu do spełnienia wymaganiu. Jak możemy pom óc Julie tym razem?
376
Rozdział 8.
Poznajemy rozkład normalny
Modelujemy wzrost mężczyzn Jak dotąd, mieliśmy do czynienia z najprostszym spośród ciągłych rozkładów prawdopodobieństwa, tak zwanym m zkładem jednostajnym . Mało praw dopodobne jest jednak, by dobrze opisywał on wzrost mężczyzn, z którymi Julie może umówić się kiedyś na randkę, bo wszyscy oni musieliby być tego samego wzrostu. Powinniśmy raczej oczekiwać, że kilku z nich będzie wzrostu poniżej przeciętnej, p aru naprawdę wysokich, a cała reszta uplasuje się gdzieś pośrodku.
^
W i # sZ0ŚĆ p r o s t u .
średniego wz
fi, paru będzie
naprawdę w ysokich.
©
A
K ilku mężczyzn M z i e dużo niższych od średn
j
1
Przekładając te rozważania na język prawdopodobieństwa, możemy wykreślić funkcję gęstości dla rozkładu wzrostu mężczyzn, która powinna wyglądać mniej więcej tak:
M ężczyzn n iskich je s t stosunkow o n ie w ie lu , dlatego g ę stość . prawdopodobieństw a
f je s t tu m ata.
<©
Taki kształt rozkładu jest dość często spotykany i znajduje zastosowanie w bardzo wielu sytuacjach. Gęstość o tym kształcie opisuje rozkład normalny.
jesteś tutaj ► 377
Poznajemy rozkład normalny
Rozkład normalny stanowi „idealny" model opisu danych ciągłych Nazwa rozkładu norm alnego nie jest przypadkowa. Jest on „normalny”, ponieważ jest postrzegany jako wzorcowy rozkład w świecie idealnym, występujący również często w świecie rzeczywistym. Funkcja gęstości rozkładu norm alnego m a kształt dzwonu. Jest to więc rozkład symetryczny o największej gęstości prawdopodobieństwa umiejscowionej w samym jego centrum. Im dalej od tego środka, tym gęstość prawdopodobieństwa jest coraz mniejsza. Zarówno wartość oczekiwana, jak i m ediana rozkładu normalnego znajdują się pośrodku rozkładu i są to wartości o największej gęstości. Rozkład normalny w pełni określają dwa param etry: p i a 2. Pierwszy z nich to wartość oczekiwana, a drugi to wariancja tego rozkładu. Fakt, że ciągła zm ienna losowa X ma rozkład normalny o wartości oczekiwanej p i wariancji a 2, zapisujemy w skrócie jako: X ~ N (p, a 2).
Największa gęstość prawdopodobieństwa je st skupiona wokót wartości wartości oczekiwanej, zatem te wartości są najbardziej , 7 prawdopodobne
X ~ N(m, a 2) /
i
To wspaniale być normalnym. W idealnym świecie wszystkie rozkłady wyglądałyby tak, jak ja .
V
V
'
/
\
r \
*
- - r
d .w . o c z e k iw a n e j^ ^ s t o ś c
5o V dobiefct" a '
p
Jak wartości param etrów ¡x i a 2wpływają na kształt rozkładu? p jako m iara tendencji centralnej wskazuje na środek rozkładu, a więc i jego wykresu, a 2 zaś jest m iarą rozproszenia. Im więc wyższa jej wartość, tym szersza staje się krzywa dzwonowa.
V o2 je s t mata.
Jestd u ża . Tm w iększa o2, tym szerszy s ta je s ię w ykres rozkfadu norm alnego.
a2
378
Rozdział 8.
V
a2
Poznajemy rozkład normalny
S k o ro g ę s t o ś ć p r a w d o p o d o b ie ń s tw a Ł m n ie js Ł a s ię w ra Ł z. o d d a la n ie m s ię o d p
t o k ie d y
o s ią g n ie 0 ?
Bez względu na to, jak bardzo oddalisz się od centrum rozkładu, gęstość prawdopodobieństwa nigdy nie będzie równa O. Gęstość prawdopodobieństwa rozkładu norm alnego zbliża się co prawda coraz bardziej do 0, ale nigdy go nie osiąga. Gdybyś przyjrzał się dokładniej wykresowi rozkładu normalnego, zauważyłbyś, że krzywa dzwonowa ledwie zbliża się do 0. Musisz bowiem pam iętać, że choć wartości nietypowe (leżące daleko od wartości oczekiwanej) są coraz mniej i mniej praw dopodobne, to jednak zawsze jest jakaś szansa na to, że kiedyś się zrealizują.
Jak znajdować prawdopodobieństwa dla rozkładu norm alnego? T ak jak w przypadku każdego innego rozkładu ciągłego, interesujące nas prawdopodobieństwo możemy odczytać jako pole powierzchni pod wykresem funkcji gęstości. Wykresem funkcji gęstości rozkładu normalnego jest krzywa dzwonowa, dlatego też odpowiednie prawdopodobieństwo możemy odczytać jako pole powierzchni pod tą krzywą. W celu znalezienia P (a < X < b ) powinniśmy więc obliczyć pole powierzchni leżącej pod krzywą dzwonową ograniczoną do przedziału miedzy a i b.
Kolor sza ry pokazuje obszar, którego pole j e s t równe P(a
Brzmi to mocno skomplikowanie? Nie martw się, w praktyce jest to dużo prostsze, niż Ci się wydaje. Obliczanie pól powierzchni pod krzywą gęstości rozkładu normalnego byłoby faktycznie zajęciem dość skomplikowanym, gdyby nie to, że istnieją tablice rozkładu prawdopodobieństwa, które zawierają gotowe wartości. Nasza rola ogranicza się wówczas do dobrania odpowiedniego przedziału i odczytania wartości prawdopodobieństwa bezpośrednio z tablicy odpowiedniego rozkładu.
jesteś tutaj ► 379
Znajdujemy »rawdopodobieństwa zdarzeń o rozkładzie normalnym
Liczymy prawdopodobieństwo w trzech krokach Od znalezienia prawdopodobieństwa w przypadku zmiennej o rozkładzie normalnym dzielą Cię zaledwie trzy kroki. O to plan działania, który szczegółowo omówimy już za chwilę.
Ody rozktad " “ ^ ^ " h ^ s p r ó b u j do o p isu T w o i wartość oczekiw aną oszacować Je9 °s^ ¡"fo rm a cja niezbędna w a ria ncję- ^®S„ rauudopodobieristwa. rzu o bbliczaniu obszarr p rzy l i c z « . rp . j obsza M u s is z te z u ^ śói za jm u je nieznane pod krzyw ą J praw dopodobieństw o.
J W yznacz p aram etry definiujące rozkład.
v
oznacza ♦
£
3 Dokonaj jego standaryzacji.
moze sz ^odczutad 'U rozktadu 'O Wszystko!
norn>alnego.
\f
3 Odczytaj prawdopodobieństwo.
380
Rozdział 8.
Poznajemy rozkład normalny
Krok 1: Wyznacz parametry definiujące rozkład Pierwszą rzeczą, jaką musimy zrobić, jest dokładne określenie rozkładu, z jakim mamy do czynienia. Załóżmy, ze Julie zna wartość oczekiwaną i wariancję wzrostu mężczyzn, którzy mogliby być zainteresowani randką. W artość oczekiwana wynosi 180 cm, zaś wariancja 51 cm2. Jeśli więc przez X oznaczymy zmienną losową reprezentującą wzrost mieszkańców Statsville płci męskiej, możemy zapisać w skrócie: X ~ N(180, 51). _______________________________________________ Jo skrótow y sposób stw ierdzenia, ze ,¿zmienna X ma rozktad
normalny o w artości oczekiwanej iou cm i wariancji 51 cm2".
M = 180 y *‘t !
Oto wukres
X ~ N (1 8 0 , 5 1 )
X - N(180, 51).
'■V.
a 2 = 51
Musimy również wiedzieć, w której części rozkładu kryje się szukane przez nas prawdopodobieństwo. Julie chce oszacować szanse tego, że kolejny kandydat na towarzysza jej życia będzie odpowiednio wysoki.
To p ro s te . Julie chce p artn era, który prŁewyżsŁałby ją w trostem . Możemy więc wykortystać inform ację o w troscie Julie.
O
o
Julie ma 160 cm wzrostu, zatem będziemy chcieli znaleźć prawdopodobieństwo tego, że mężczyzna jej życia będzie miał ponad 160 cm wzrostu. O to obraz tej sytuacji:
Prawdopodobieństw^.^ miaf
M = 180
- -w
\ < - & 3 S &<•>**
160 Tutaj zn a jd u je s i ę x
=
160 cm.
jesteś tutaj ► 381
Standaryzujemy cmienne o rozkładzie normalnym
Krok 2 : Dokonaj standaryzacji, by otrzymać N ( 0 , 1) W następnym kroku powinniśmy dokonać standaryzacji naszego rozkładu, to znaczy przekształcić go w taki sposób, by wartość oczekiwana przyjęła wartość 0, a wariancja była równa 1. W wyniku standaryzacji zmiennej X otrzymujemy nową zmienną Z: Z ~ N ( 0 ,1).
To ma być Łabawne? Po cŁego mi t o j e s t
p o tr z e b n e ?
Tablice rozkładu normalnego zawierają prawdopodobieństwa tylko dla rozkładu N ( 0 ,1). Ponieważ niemożliwe jest przygotowanie tablic dla rozkładu norm alnego o dowolnych param etrach (ponieważ jest ich nieskończenie wiele), przyjęto tworzyć je dla rozkładu N ( 0 ,1), który nazywamy standaryzowanym rozkładem normalnym.
p = 0;
ct2 = 0,2
p = 0,
ct2 = 5,0
: p = -2,
ct2 =
0,5
Is tn ie je p J a m e tró w kom binacji warTo ,gSHkończenie w ie le a więc i " 'esK° " ~ ei g ę s t ś c ,ch k s z ta łtó w krzywej
^ iS n o rm a ln e g o
3
Dzięki wprowadzeniu wystandaryzowanej zmiennej Z możemy posłużyć się tablicami rozkładu N ( 0 ,1) do odczytania wartości prawdopodobieństwa dla rozkładu zmiennej o rozkładzie normalnym o dowolnych param etrach p i ct2. Jest tylko jedno pytanie: jak przekształcić zmienną X w standaryzowaną zmienną Z?
^ W
Y
S
I L
__________________________________
sza r e k o m ó r k i Jak sądzisz, jak m oglibyśm y dokonać standaryzacji zmiennej losowej o rozkładzie norm alnym?
382
Rozdział 8.
Poznajemy rozkład normalny
Aby dokonać standaryzacji, najpierw przesuwamy środek rozkładu. Zacznijmy od takiego przekształcenia zmiennej X, by jej wartość oczekiwana była równa 0, a nie 180. Łatwo zauważyć, ze w tym celu wystarczy przesunąć wykres zmiennej X w lewo o 180 jednostek.
Przesuwam y w lewo o 180 jednostek.
M = 180
W ten sposób otrzymujemy nowy rozkład prawdopodobieństwa: X - 1 8 0 ~ N ( 0 ,5 1 ) .
...a następnie zmieniamy jego szerokość Musimy jeszcze zadbać o to, by wariancja rozkładu wynosiła 1, a nie 51. W tym celu dokonamy „poszerzenia” rozkładu naszej zmiennej poprzez podzielenie jej wartości przez jej odchylenie standardowe. Ponieważ wariancja wynosi 51, zatem odchylenie standardowe jest równe 7,14. .______
poszerzam y"
- Przypomnij sobie, i e odchylenie
Po tym zabiegu otrzymujemy:
X -180 _ 7,14
f T a r im lji * ^
pierwiastkiem
’
M= 0 / T
lub też Z ~ N ( 0 ,1), jeśli przyjmiemy, że Z =
standardowe.
\
X - 180 7,14
Czy to działanie nie wydaje Ci się znajome? Tak, dokładnie. To jest ta sama zmienna standaryzowana Z, z którą zetknąłeś się już w rozdziale 3. Zm ienną Z m ożna wyznaczyć dla dowolnej zmiennej X o rozkładzie normalnym, posługując się wzorem: S^
o = 1
™ iennej r 0ŚĆ °Szekiu,ana zm X.
X j e s f zmienną,
dla której chcemy w yznaczyć prawdopodobieństwo.
Z =X -m o Odchylenie standardowe
zmiennej X.
jesteś tutaj y
383
Znajdujemy Z
Obliczamy Z, dla której będziemy odczytywać prawdopodobieństwo Wiemy już, jak przekształcić zm ienną X ~ N (^, a 2) w zmienną Z ~ N ( 0 ,1). N adal jednak nie wiemy, ile wynosi szukane prawdopodobieństwo. Aby móc odczytać je z tablic rozkładu normalnego, musimy oszacować wartość zmiennej Z dla wartości zmiennej X, będącej granicą przedziału prawdopodobieństwa wyznaczonego w kroku 1. Ponieważ szukamy prawdopodobieństwa tego, że Julie znajdzie mężczyznę o wzroście powyżej 160 cm, czyli P (X >160), to właśnie wartość 160 stanowi tę granicę przedziału prawdopodobieństwa, której odpowiednik dla rozkładu standaryzowanego powinniśmy wyznaczyć.
M= 0 N (1 8 0 ,5 1 )
N (0, 1) dla x = 160.
160
Chcemy przekształcić ten rozkład .............. w te n rozkład
"p z
Wyznaczmy więc wartość standaryzowaną z dla x = 160. x - ¡x z = ■ a 160 -1 8 0 7,14 = -2,80 (z dokładnością do dwóch miejsc po przecinku)
A zatem z = -2,80 jest odpowiednikiem wartości x = 160 po jej wystandaryzowaniu w oparciu o wartość oczekiwaną i wariancję wieku mężczyzn mieszkających w Statsville. Teraz możemy przejść do następnego kroku i odczytać z tablic rozkładu Z szukane prawdopodobieństwo.
384
Rozdział 8.
Podstawowe terminy Zmienna standaryzowana Standaryzacji zm iennej X dokonujemy według wzoru: Z =
X - u a
Poznajemy rozkład normalny i Nie.is+nieja.
głupie pytania ^ : Czy Z to ta sama zmienna standaryzowana, z którą spotkaliśmy się w rozdziale 3.?
^ : Czy prawdopodobieństwo wyznaczone dla zmiennej Z jest faktycznie takie samo jak dla zmiennej X? Jak to możliwe?
0 : Tak, to ta sama zmienna. M a ona kilka zastosowań
0 : Tak, oba prawdopodobieństwa są takie same, przy czym
w statystyce. W tym miejscu pozwoli nam ona wyznaczyć
możemy je odczytać z tablic tylko dla zmiennej Z.
prawdopodobieństwo przy wykorzystaniu tablic prawdopodobieństwa standaryzowanego rozkładu normalnego.
Kiedy dokonujemy standaryzacji zmiennej X, zachowujemy wszystkie zależności i proporcje. Pole powierzchni pod krzywą nie ulega zmianie, nie zmienia się więc pole obszaru wyznaczonego przez konkretny przedział, mimo że zmieniają się jego granice.
_
^ Zaostrz ołówek Czas, byś nabrał wprawy w standaryzowaniu zmiennych. Wyznacz wartości zmiennej Z dla podanych niżej wartości zmiennej X o danym rozkładzie. 1.
N(10, 4) dla x = 6
2. N(6,3; 9) dla x = 0,3
3.
N(2, 4). Jeśli z = 0,5, ile wynosi x?
4. Standaryzowana wartość x = 20 wynosi 2. Wiedząc, że wariancja wynosi 16, oblicz wartość oczekiwaną.
jesteś tutaj y
385
Zaostrz ołówek: Rozwiązanie
_
*
Zaostrz ołówek _____ Rozwiązanie
Czas, byś nabrał wprawy w standaryzowaniu zmiennych. Wyznacz wartości zmiennej Z dla podanych niżej wartości zmiennej X o danym rozkładzie.
1. N(10, 4) dla x = 6
2.
N(6,3; 9) dla x = 0,3
_X- u
_X- u
o
o
6-10 “ =
= 0 ,3 - 6,3
2
3
-2
3. N(2, 4). Jeśli z = 0,5, ile wynosi x? Mamy tu do czynienia z problemem odwrotnym niż do tej pory. Znam y wartość standaryzowaną, ale nie znam y w a rto ści w y jś c io w e j. M ożemy jednak podstawić do wzoru w a rto ści nam znane i wyliczyć niewiadomą x.
=
-2
4. Standaryzowana wartość x = 20 wynosi 2. Wiedząc, że wariancja wynosi 16, oblicz wartość oczekiwaną. Problem j e s t podobny do tego z punktu 3. M u s im y podstawić do formuty na Z znane nam w a rto ś c i, by wyznaczyć niewiadomą u.
x - u
z = --------o
o
2 = * °-:-^ 4 0 ,5 x 2 = x - 2
2
x = 1 +2 =
u = 2 0 -
=3
x 4 =
= 12
20 8 =
u
Poznajemy rozkład normalny
Krok
2:
Odczytaj prawdopodobieństwo z tabeli
T e r a z , k ie d y z n a m y j u ż w y s t a n d a r y z o w a n ą w a r t o ś ć n a s z e j z m ie n n e j lo s o w e j, m o ż e m y w y k o r z y s t a ć j ą d o o d c z y t a n ia n ie z n a n e g o p r a w d o p o d o b ie ń s t w a w p r o s t z t a b e li r o z k ł a d u n o r m a ln e g o . Z a w i e r a o n a p r a w d o p o d o b ie ń s t w a z d a rz e ń P ( Z < z ) .
Spokojnie......................... Wszystkie tabele, jakie mogą Ci się przydać, zamieściliśmy w dodatku B na końcu książki.
/ \
/
T a b e le r o z k ł a d u n o r m a l n e g o , d o k t ó r y c h o d w o ł u je m y s ię w t y m r o z d z ia le , z n a jd z ie s z n a s tro n a c h 6 9 6 - 6 9 7 .
Z ~ N (0, 1) \
/ P(Z
/ * < łV
V
z
Jak odczytać prawdopodobieństwo z tabeli rozkładu normalnego? A b y m ó c p o s łu ż y ć s ię t a b e lą r o z k ł a d u n o r m a ln e g o , m u s im y z a o k r ą g lić w a r t o ś ć z m ie n n e j Z d o d w ó c h m ie js c p o p r z e c i n k u . T a k z a o k r ą g lo n ą w a r t o ś ć p o w in n iś m y b e z p r o b l e m u o d n a le ź ć w t a b e li. N a s z e p o s z u k iw a n ia o g r a n ic z y m y n a j p ie r w d o n a g łó w k ó w w ie r s z y i k o lu m n . W n a g łó w k a c h w ie r s z y z a w a r t o w a r t o ś c i z z d o k ła d n o ś c ią d o je d n e g o m ie js c a p o p r z e c i n k u ( b e z z a o k r ą g le n ia ) , n a t o m i a s t w n a g łó w k a c h k o lu m n u m ie s z c z o n o d o d a t k o w o w a r t o ś c i z n a jd u ją c e s ię n a d r u g i m m ie js c u p o p r z e c i n k u . P r a w d o p o d o b ie ń s t w o P ( Z < z ) z n a jd u je s ię n a p r z e c ię c iu w ie r s z a i k o lu m n y , k t ó r e w s w o ic h n a g łó w k a c h m a ją lic z b y d a ją c e w s u m ie n a s z ą z .
^
N a p r z y k ł a d g d y b y ś m y c h c i e li z n a le z c P ( Z < - 3 , 2 7 ) , m u s ie lib y ś m y o d s z u k a ć - 3 , 2 w p ie r w s z e j k o lu m n i e o r a z 0 ,0 7 w p ie r w s z y m w ie r s z u , a n a s t ę p n ie n a p r z e c ię c iu o d p o w i e d n ie g o w ie r s z j i k o lu m n y o d c z y t a ć p r a w d o p o d o b ie ń s t w o , w y n o s z ą c e 0 ,0 0 0 5 .
W nagtówku tego w iersza znajduje s ię _ - 3 ,2 , w a r t o ś ć ^ Y naszej z z doktadnością do jednego m iejsca po przecinku.
z
0 ,0 0
0,01
0 ,0 2
0 ,0 3
0 ,0 4
0 ,0 5
0 ,0 6
[ ( P ,0 7 l 1
-3 ,4
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
a jr ó
0,0005
0,0005
0,0005
0,0004
0,0004
0,0004
0,0004
qH
^ r 3 ’2
1
1 0,0010
0,0009
- 3 ,0
0,0013
- 2 ,9
0,0019
- 2 ,8 -2 ,7
0,0008
D4
0,0009
0,0008
0,0008
0,0013
0,0013
0,0012
0,0012
0,0011
0,0011
0,0018
0,0018
0,0017
0,0016
0,0016
0,0015
0,0026
0,0025
0,0024
0,0023
0,0023
0,0022
0,0035
0,0034
0,0033
0,0032
0,0031
0,0030
- 2 ,6
0,0047
0,0045
0,0044
0,0043
0,0041
0,0040
- 2 ,5
0,0062
0,0060
0,0059
0,0057
0,0055
- 2 ,4
0,0082
0,0080
0,0078
0,0075
0,0073
kolumny
zn a jd u je s ię 0 ,0 7 , wartość z drugiego m ie jsca po przecinku naszej z.
0 ,0 8
0 ,0 9
0,0003
0,0002
0,0004
" " 0 * 1 . 0,0005 # l p O O O L .
0,0009
^
0,0003 0 0005 0,0005
0,0007
- " S IQQQ7
0,0011
0,0010
0,0010
0,0015
0,0014
0,0014
0,0021
0,0021
0,0020
0,0019
0,0029
0,0028
0,0027
0,0026
0,0039
0,0038
0,0037
0,0036
0,0054
0,0052
0,0051
0,0049
0,0048
0,0071
0,0069
0,0068
0,0066
0,0064
Tutaj krzyżuje s ię wybrany w ie rsz z wybraną,
kolumną. Na ich przecięciu odczytujem y P(Z
jesteś tutaj y
387
Stosujemy tablice rozkładu normalnego
Odczytujemy w tabeli szukane prawdopodobieństwo Wróćmy do naszego wyjściowego problem u. Chcemy pom óc Julie znaleźć prawdopodobieństwo P (Z > -2,8), dlatego musimy znaleźć wartość -2,80 w tabeli rozkładu normalnego. To je s t kolumna dla 0 ,0 0 , poniew aż nasza zm ienna z ma 0 na d ru g im m ie jscu po przecinku.
Tabelą rozktadu normalnego znajdziesz w dodatku na końcu książki.
To j e s t w iersz dla -2 ,8 x , ponieważ zmienna z j e s t równa - 2 , 80 .
z
( 0 ,0 0 ]
0,01
0 ,0 2
0 ,0 3
0 ,0 4
0 ,0 5
0 ,0 6
0 ,0 7
0 ,0 8
0 ,0 9
-3 ,4
0,0 03
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0002
-3 ,3
0,0 005
0,0005
0,0005
0,0004
0,0004
0,0004
0,0004
0,0004
0,0004
0,0003
-3 ,2
0,0 07
0,0007
0,0006
0,0006
0,0006
0,0006
0,0006
0,0005
0,0005
0,0005
-3 ,1
0,0 10
0,0009
0,0009
0,0009
0,0008
0,0008
0,0008
0 0008 - — 0,000/
0,0007
-3 ,0
0,0 013
0,0013
0,0013
0 0012__ — 0,0012
0,0011
0,0011
0,0011
0,0010
0,0010
00
0,0018
— 0,0018
0,0017
0,0016
0,0016
0,0015
0,0015
0,0014
0,0014
^ 1^0,0026 1 1 0,0025
0,0024
0,0023
0,0023
0,0022
0,0021
0,0021
0,0020
0,0019
0,0034
0,0033
0,0032
0,0031
0,0030
0,0029
0,0028
0,0027
0,0026
L - 2 ,8
-2 ,6
0,0047
0,0045
0,0044
0,0043
0,0041
0,0040
0,0039
0,0038
0,0037
0,0036
-2 ,5
0,0062
0,0060
0,0059
0,0057
0,0055
0,0054
0,0052
0,0051
0,0049
0,0048
- 2 ,4
0,0082
0,0080
0,0078
0,0075
0,0073
0,0071
0,0069
0,0068
0,0066
0,0064
- 2 ,3
0,0107
0,0104
0,0102
0,0099
0,0096
0,0094
0,0091
0,0089
0,0087
0,0084
- 2 ,2
0,0139
0,0136
0,0132
0,0129
0,0125
0,0122
0,0119
0,0116
0,0113
0,0110
-2 ,1
0,0179
0,0174
0,0170
0,0166
0,0162
0,0158
0,0154
0,0150
0,0146
0,0143
-2 ,0
0,0228
0,0222
0,0217
0,0212
0,0207
0,0202
0,0197
0,0192
0,0188
0,0183
-1 ,9
0,0287
0,0281
0,0274
0,0268
0,0262
0,0256
0,0250
0,0244
0,0239
0,0233
-1 ,8
0,0359
0,0351
0,0344
0,0336
0,0329
0,0322
0,0314
0,0307
0,0301
0,0294
- 1 ,7
0,0446
0,0436
0,0427
0,0418
0,0409
0,0401
0,0392
0,0384
0,0375
0,0367
-1 ,6
0,0548
0,0537
0,0526
0,0516
0,0505
0,0495
0,0485
0,0475
0,0465
0,0455
- 1 ,5
0,0668
0,0655
0,0643
0,0630
0,0618
0,0606
0,0594
0,0582
0,0571
0,0559
- 1 ,4
0,0808
0,0793
0,0778
0,0764
0,0749
0,0735
0,0721
0,0708
0,0694
0,0681
- 1 ,3
0,0968
0,0951
0,0934
0,0918
0,0901
0,0885
0,0869
0,0853
0,0838
0,0823
- 1 ,2
0,1151
0,1131
0,1112
0,1093
0,1075
0,1056
0,1038
0,1020
0,1003
0,0985
-1 ,1
0,1357
0,1335
0,1314
0,1292
0,1271
0,1251
0,1230
0,1210
0,1190
0,1170
A zatem znaleźliśmy wartość z = -2,8 w tabeli standaryzowanego rozkładu normalnego i odczytaliśmy szukane prawdopodobieństwo, wynoszące 0,0026. Innymi słowy, P (Z < -2 ,8 ) = 0,0026. Oznacza to, że: n d o b ie ris tw o ______ .C a łk o w i t e PrQ" ° ° P
P (Z > -2 ,8 ) = 1 - P(Z < -2 .8 ) = 1 - 0,0026 =
----------------------«8*
^
w ynosi ro z k ła d u
* > ^ S '.s y O
p o n a d to parni tajmy,
= 0,9974 A zatem prawdopodobieństwo tego, że partner Julie będzie wyższy od niej, wynosi 0,9974.
388
Rozdział 8.
U
Na przecięciu wybranego w ie rsza i kolumny z n a jd u je s ię szukane przez nas
praw dopodobieństw o.
Poznajemy rozkład normalny
Jablice rozkładu prawdopodobieństwa z bliska Tablice rozkładu prawdopodobieństwa pozwalają znaleźć prawdopodobieństwo P(Z < z) bez potrzeby wykonywania skomplikowanych i żmudnych obliczeń. N ie zawsze jednak jesteśmy zainteresowani prawdopodobieństwem zdarzenia tego typu (Z < z). Moglibyśmy na przykład szukać prawdopodobieństwa tego, że zmienna losowa przyjmie wartość większą od ustalonej lub wartość z pewnego przedziału liczbowego. Czy i wówczas możemy się posłużyć tą samą tablicą?
Pra^ o p o doybieństwt
Tak, pod warunkiem że znajdziemy sposób na przekształcenie P(Z < z) w prawdopodobieństwo zdarzenia, które nas interesuje. Spójrzmy, jak można tego dokonać.
Znajdujemy P (Z > z ) Doktadnie w ten s P ° ^ obieństwo,
Prawdopodobieństwo typu P (Z > z) możemy wyznaczyć na podstawie znanej już nam zależności:
P (Z > z) = 1 - P (Z < z) - P (Z = z) = 1 - P (Z < z)
od niej.
Pamiętaj, że to
_______________
Innymi słowy, od pola powierzchni pod krzywą rozkładu (które zawsze wynosi 1) odejmujemy pole powierzchni leżącej na prawo od wartości z:
j e s t równe 0.
n p(Z <
i
\ mm
.
/
V .
z
Znajdujemy P ( a < Z < b ) W tym przypadku obliczenia są nieco bardziej złożone, ale nadal możliwe do wykonania. Skorzystamy tutaj ze wzoru:
Tego ^ z o ru m° ^ % ^ odobieństw a tego,
P (a < Z < b) = P (Z < b) - P (Z < a) Innymi słowy, od P (Z < b) odejmujemy P (Z < a): P(Z < b) P(a
P
1 I
b
iwruir
b
i
/
\
V.
a jesteś tutaj y
389
Nie istniejq głupie pytania
iNie.istnieia,
głupie pytania ^ : Słyszałem kiedyś o „rozkładzie Gaussa” . Co to za rozkład? 0 : „Rozkład Gaussa" to inne określenie
^ : Wyznaczanie prawdopodobieństwa typu P(a
rozkładu normalnego, pochodzące od nazwiska jego odkrywcy. Kiedy usłyszysz „rozkład Gaussa", pamiętaj, że chodzi o rozkład normalny.
która dzieli na pół obszar pod krzywą gęstości.
0 : W zasadzie tak, bo przecież prezentują
trzeba je zm odyfikować, by znaleźć to,
prawdopodobieństwa o postaci P(Z < z) podane dla różnych wartości z. Często
0 : Niektóre tabele podają z większą
P (X < a) = 0,5. Jest to więc wartość,
sobie, jaki obszar pod krzywą rozkładów znajdują się najczęściej
^ : Różnić się? Dlaczego?
medianę wyznacza ta wartość a zmiennej
prawdopodobieństwa jest uświadomienie gęstości mu odpowiada. W tablicach
się jednak nieco różnić.
0 : W przypadku rozkładów ciągłych losowej X, dla której zachodzi
0 : Kluczowe dla znalezienia każdego
^ : Czy wszystkie tabele rozkładu normalnego wyglądają tak samo?
tę samą Informację. W szczegółach mogą
A co z medianą?
które nas Interesuje.
W przypadku rozkładu normalnego mediana również będzie rów na p. Pamiętaj jednak, że mediana I dom inanta są raczej rzadko wyznaczane dla rozkładów ciągłych Zwykle wystarcza nam znajomość wartości oczekiwanej I wariancji.
Jeśli chcemy znaleźć P (a < Z < b ) — a więc gdy mamy do czynienia z pewnym przedziałem ograniczonym z obu stron
^ : Czym jest zmienna standaryzowana Z?
— musimy znaleźć prawdopodobieństwa
precyzją wartości zmiennej Z. Inne mogą
dwóch różnych zdarzeń: P (Z
0 : Zmienna standaryzowana to taka
mleć nieco Inny układ niż tabela podana
P (Z < b ), a następnie od większego z nich
zmienna, dla której wartość oczekiwana
w dodatku. Jednak zawierają tę samą
odjąć mniejsze.
Informację co nasza tabela.
^ : Co więc powinienem zrobić, by mieć pewność, że posługuję się nimi właściwie?
wynosi O, zaś wariancja 1. Uzyskuje się ją przez odjęcie od wyjściowej zmiennej
^ : Czy rozkłady ciągłe mają dominantę? Czy możemy znaleźć dominantę dla rozkładu normalnego?
jej wartości oczekiwanej I podzielenie wyniku przez jej odchylenie standardowe. Znajomość zmiennej Z przydaje się zwłaszcza w przypadku zmiennych
0 : Tak, mają. W przypadku rozkładów
o rozkładzie normalnym, ponieważ tablice
0 : Przede wszystkim upewnij się,
ciągłych jest to wartość zmiennej, dla
rozkładu prezentują prawdopodobieństwa
w jakim formacie są tabele, które masz
której gęstość prawdopodobieństwa jest
tylko dla rozkładu N (0 ,1).
do dyspozycji. Spróbuj się zapoznać z Ich
najwyższa. Na wykresie funkcji gęstości
układem. Przeczytaj opis, jaki Im towarzyszy
odpowiada jej punkt na osi poziomej, dla
— pomoże Cl on właściwie zrozumieć Ich zawartość.
którego funkcja ma największą wartość. Dla rozkładu normalnego najwyższy punkt
Rozdział 8.
wielokrotności odchylenia standardowego odległość konkretnej wartości zmiennej
na krzywej gęstości znajduje się dokładnie
losowej od jej wartości oczekiwanej.
w centrum rozkładu. Dlatego dominantą
Ułatwia to ocenę, jak bardzo wartość taka
tego rozkładu jest jego wartość
jest nietypowa dla danego rozkładu.
oczekiwana p.
390
Przydaje się ona również wtedy, gdy chcemy wyrazić w kategoriach
Poznajemy rozkład normalny
_
» Zaostrz ołówek Nadszedł czas, byś sprawdził nowo zdobytą wiedzę w praktyce. Spróbuj rozwiązać poniższe zadania przy założeniu, że Z ~ N(0, 1).
1.
P(Z < 1,42)
2.
P(-0,15 < Z < 0,5)
3.
P(Z > z) = 0,1423. Ile wynosi z?
jesteś tutaj ► 391
Zaostrz ołówek: Rozwiązanie
^ Zaostrz ołówek ______
_
Rozwiązanie 1.
Nadszedł czas, byś sprawdził nowo zdobytą wiedzę w praktyce. Spróbuj rozwiązać poniższe zadania przy założeniu, że Z ~ N(0, 1).
P(Z < 1,42) M ożemy odczytać to prawdopodobieństwo bezpośrednio z tabeli. J e s t ono równe: P(Z<1,42) = 0,9222
1,42
2.
P(-0,15 < Z < 0,5) W tym przypadku m usim y znaleźć P (Z< -0,15) i odjąć je od P(Z<0,5), to znaczy: P(-0,15
= P(Z<0,5) - P (Z< -0,15) = = 0,6915 - 0,4404 = = 0,2511 -0,015
3.
0,5
P(Z > z) = 0,1423. Ile wynosi z? P(Z>z) = 0,1423 Tym razem odwrócono pytanie: mając informację o prawdopodobieństwie, m usim y obliczyć wartość zm iennej losowej. Wiemy, że P(Z>z) = 0,1423, więc możemy zapisać: P(Z
= 1 - 0,1423 = = 0,8577
Posługując s ię tabelą rozkładu normalnego, m usim y odszukać prawdopodobieństwo 0,8577 i sprawdzić, jakiej wartości z odpowiada. Łatwo odczytujem y, że j e s t to:
ł
z = 1,07
/
a zatem: P(Z>1,07) = 0,1423
392
Rozdział 8.
/
\
\
Ł
p a >1.07) = 0,1423
V.
4
Poznajemy rozkład normalny
jesteś tutaj ► 393
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Jak widzisz, Julie znów ma problem. Gdy obliczaliśmy prawdopodobieństwo tego, że jej przyszły partner będzie od niej wyższy, pominęliśmy fakt, że Julie może założyć buty na wysokim obcasie. Zastanów się, czy potrafiłbyś uwzględnić tę informację przy obliczaniu prawdopodobieństwa? Dla przypomnienia, Julie ma 160 cm wzrostu, zaś wzrost jej potencjalnych partnerów opisuje zmienna X ~ N(180, 51).
Gdy Julie zatoży b u ty na 10-centymetrowym obcasie, będzie miała 170 cm w zro stu . M usim y wyznaczyć najpierw odpowiednik x = 170 dla rozktadu N(0, 1). Wartość standaryzowana z wynosi:
Z=-
X - u o
170 -
180
7,14
^ w e j e s t równe 7,H.
-1 0 7 ,1 4' = - 1 ,4 0 (z dokładnością do dwóch m iejsc po przecinku)
Gdy ju ż znam y z, m ożemy zapisać szukane prawdopodobieństwo jako P(Z>-1,40). Z tablicy rozkładu normalnego wynika, że: P (Z > -h JłO) = 1 - PCZ<-1,40) =
-1,44
= 1 - 0 ,0 8 0 8 = = 0,9192
A zatem prawdopodobieństwo tego, że partner Julie będzie m iał ponad 170 cm w zro stu , wynosi 0,9192.
Poznajemy rozkład normalny
Przypadek brakujących parametrów Will z firmy Manie Mango m a problem . Szef poprosił go o podanie wartości oczekiwanej i wariancji dla czasu, jaki klientom firmy zajmuje ukończenie pierwszego poziomu nowo wydanej gry. N ie byłoby w tym nic trudnego, gdyby nie pewien szczegół: pies Willa zżarł kartkę papieru, na której zapisane były dane potrzebne do obliczeń. Will zdołał zapam iętać jedynie trzy szczegóły. Po pierwsze, Will wie, że zmienna losowa opisująca czas, w jakim klienci firmy pokonują pierwszy poziom w nowej grze, ma rozkład normalny. Po drugie, zapam iętał, że prawdopodobieństwo tego, że czas ten będzie nie dłuższy niż 5 minut, wynosi 0,0045. Po trzecie, prawdopodobieństwo ukończenia poziomu pierwszego w czasie nie dłuższym niż 15 m inut wynosi 0,9641. Jak na podstawie tych danych Will może wyznaczyć szukaną wartość oczekiwaną i wariancję?
jesteś tutaj ► 395
Wielka tajemnica rozwiqzana
Przypadek brakujących parametrów: Rozwiązanie Ja k na podstawie tych, danych 'W ill może wyznaczyć szukaną wartość oczekiwaną i wariancję? Na podstawie zapamiętanych przez Willa danych możemy zapisać dwa równania wykorzystujące wzór na zmienną standaryzowaną Z, a następnie wyznaczyć z nich nieznaną wartość oczekiwaną i wariancję. Z opisu problem u wiemy, ze P(X < 5) = 0,0045. Z tablic prawdopodobieństwa standaryzowanego rozkładu normalnego odczytujemy zp dla której P (Z < zŁ) = 0,0045. Wynosi ona -2,61. Korzystając z definicji zmiennej Z, możemy zapisać: 5 -p -2,61 = -------Podobnie obliczymy z2. Ponieważ P (X < 15) = 0,9641, więc z2 = 1,8. Możemy więc zapisać: 15 - u
1,8
=
a
-
Mamy zatem dwa równania z dwiema niewiadomymi. N a ich podstawie możemy łatwo wyznaczyć i a: -2 ,6 1 a = 5 - ^
^
. „
l , 8a = 15 - fi
Musimy rozwiązać ten L
1
k r ------ - uktad równań.
^
Jeśli od drugiego z nich odejmiemy stronam i pierwsze, otrzymamy: l , 8a + 2,61a = 1 5 - / J . - 5 + 4,41 a = 10 a = 2,27 Podstawiając tę wartość do drugiego równania, otrzymamy: 1,8 X 2,27 = 1 5 - ^ 1^ = 1 5 - 4,086 = = 10,914 Szukane wartości param etrów wynoszą więc: ^ =
1 0 ,9 1 4 ^
a = 2,27
396
Rozdział 8.
|
O to szukane w a rto ści U '
^
..... . k lĄ JS fry iM C Ą r o z w ts jZ 2 \r % 2 \
Poznajemy rozkład normalny
I żyli długo i szczęśliw ie... Tak, jak wynikało z naszych obliczeń, randka w ciemno pozwoliła znaleźć Julie wymarzonego partnera. Ponieważ nie zapom niała ona o swoich zasadach, na randkę z nim założyła buty na najwyższym obcasie. Dzięki tem u zyskała przekonanie, że ten chłopak jest tym właściwym. Co więcej, po raz pierwszy nie musiała czekać na przybycie p artnera na miejsce spotkania.
Pierwsze słowa, k tó re padły ł je g o ust, były pochwałą moich butów. Nie m am ju ż wątpliwości, ż e zostaliśmy dla siebie stw orzeni. Nie wiemy, czy ma na m yśli swojego nowego p a rtn e ra, ' czy sw o je buty, ale cie szym y s i ę j e j szczęściem .
Ale tojeszcze nie wszystko To jeszcze nie wszystko, co powinieneś wiedzieć o rozkładzie normalnym. T ak naprawdę zaledwie liznęliśmy ten temat. Czytaj dalej, a przekonasz się sam.
CELNE SPOSTRZEŻENIA
Rozkład norm alny definiują dwa param etry: p i o 2.
Prawdopodobieństwo odczytuje się z tablic
Wykresem funkcji gęstości rozkładu N(p, o 2) jest
standaryzowanego rozkładu norm alnego. Prezentują
krzywa o kształcie dzwonu.
one wartości P (Z < z).
Aby znaleźć praw dopodobieństw o dla zmiennej o rozkładzie norm alnym , ustal, która część pod krzywą dzw o n o w ą się z nim wiąże. Następnie dokonaj standaryzacji zmiennej w edług wzoru:
Z _ X- M a
gdzie Z - N (0 ,1 ).
jesteś tutaj ► 397
3 98
Rozdział 8.
9. Poznajemy rozkład normalny (cd.)
^
Więcej niż normalność
Gdyby tak istniał jedynie rozkład normalny...
^
Życie byłoby o wiele prostsze, gdyby
wszystko dało się opisać rozkładem norm alnym . Nie trzeba by poświęcać m nóstw a czasu na wyznaczanie różnych p ra w dopodobieństw w tak wielu rozkładach — m ożna by przeznaczyć go na dużo przyjemniejsze rzeczy, na przykład na rozrywkę. Na szczęście są sposoby na to, by najbardziej złożone problem y rozw iązywać rów nie ła tw o , jak w przypadku rozkładu normalnego. W tym rozdziale dowiesz się, kiedy jest m ożliwe zastąpienie innego rozkładu przez rozkład norm alny I jak się to robi w praktyce.
to jest nowy rozdział ► 399
Kolejka po miłość
Kolejka po miłość W dzisiejszych czasach branża ślubna rozwija się coraz bardziej dynamicznie. Także Dexter m a własny pomysł na zaistnienie w branży. Pomysł, który uczyni ten szczególny dzień w życiu, jakim jest dzień własnego ślubu, prawdziwie niezapomnianym. Dlaczego bowiem miałbyś wziąć swój ślub na ziemi, skoro mógłbyś to zrobić, siedząc w wagoniku kolejki górskiej? Dexter przygotował biznesplan i jest pewien, że ten pomysł może przynieść całkiem spore zyski, pod warunkiem że spełnione zostaną wszystkie wymogi w zakresie bezpieczeństwa pasażerów.
D e xte r
Zanim Dexter zacznie wdrażać swój pomysł w życie, będzie musiał znaleźć sposób na to, by w łatwy sposób ocenić łączną wagę pary młodej. W tej sprawie zwraca się do Ciebie o pomoc. Wagoniki kolejki, którą chciałby wykorzystać, mogą pomieścić osoby o wadze nie większej niż 170 kg. Jakie jest prawdopodobieństwo tego, że łączna waga panny młodej i pana młodego będzie niższa od tej wartości granicznej?
400
Poznajemy rozkład normalny (cd.)
Wszyscy na pokład Kolejki Miłości! Zanim będziemy mogli cokolwiek policzyć, musimy poznać rozkład wagi panien i panów młodych (wliczając w to wagę ich strojów, które będą mieć na sobie w dniu swojego ślubu). Okazuje się, ze w obu przypadkach waga ta m a rozkład normalny, przy czym w przypadku kobiet jest to rozkład N (7 0 ,180), a w przypadku mężczyzn N(85, 220), a waga jest m ierzona w kilogramach.
Wan młody ~ H(85, 220)
W anna M ło d a ~ H ł7 0 , l$ 0 )
70
85
Mając informacje o rozkładach, będziemy musieli znaleźć sposób na oszacowanie prawdopodobieństwa tego, ze losowo wybranej parze młodej uda się spełnić ograniczenie, które mogłoby uniemożliwić jej skorzystanie z oferty D extera ze względów bezpieczeństwa. Jeśli prawdopodobieństwo to będzie dostatecznie wysokie, D exter będzie miał argum ent za wdrożeniem swojego pomysłu w życie.
Moglibyśmy łatw o policŁyć to prawdopodobieństwo, gdybyśmy Łnali ro tkład łącŁnej wagi pary m łodej, ale skąd go wŁiąć?
WYSIL SZARE K O M Ó R K I Jak sądzisz, w jaki sposób m oglibyśm y wyznaczyć rozkład łącznej wagi pary m łodej w oparciu o posiadane informacje? Jaki rozkład byśmy otrzymali? Dlaczego taki?
jesteś tutaj ► 401
Sumujemy zmienne o rozkładzie normalnym
Cumujemy zm ienne o rozkładzie normalnym Przyjrzyjmy się bliżej rozkładowi wagi panien i panów młodych. Wiemy już, że w obu przypadkach jest to rozkład normalny:
li w a g i p a n ie n Młodycłf
“"«ce/ tyh J
mw a g i p a n ó w Młodycłf
%
/
%
i
V
/
x
—
i r - z
m ężowie m ogą
85
si średm
lub w ię ce j, n iz
»
To, czego tak naprawdę nam potrzeba, to rozkład prawdopodobieństwa wagi pary młodej. Innymi słowy, chcemy wiedzieć, jak rozkłada się suma wagi panny młodej i pana młodego
W aga panny młodej + W aga pana młodego ~ ?
Jeśli założymy, że obie zmienne są niezależne, wówczas możemy oczekiwać, że rozkład ich sumy będzie wyglądał mniej więcej tak, jak na poniższym rysunku:
p
w a g i m ło d e j p a ry Wag« " '^ ^ t a t t o w a t a będzie s ią ks* na m niej w ięcej iy m poziom ie.
...w"
7
IŚĆ Z) Choć je j zm ienność może być dość znaczna.
402
Rozdział 9.
Poznajemy rozkład normalny (cd.)
Nadal je s t to jednak waga C z y p a m ię t a s z , g d y p o r a z p ie r w s z y p r z y g lą d a liś m y s ię d a n y m c ią g ły m i z a s t a n a w ia liś m y s ię n a d m o ż l iw y m k s z t a łt e m r o z k ł a d u t a k ic h z m ie n n y c h , j a k w z r o s t c z y w a g a ? D o s z liś m y d o w n io s k u , z e s ą t o d a n e o c h a r a k t e r z e c ią g ły m , k t ó r e m a ją r o z k ł a d n o r m a ln y . T y m j e d n a k r a z e m in t e r e s u je n a s r o z k ł a d łą c z n e j w a g i p a r y m ło d e j. C z y w p ły n ie t o ja k o ś n a w n io s k i, d o j a k ic h d o s z liś m y ? C h y b a n ie p o w in n o . N a d a l b o w ie m m a m y d o c z y n ie n ia z w a g ą , t y l e z e n ie je d n e j o s o b y , a p a r y o s ó b . T a k j a k w c z e ś n ie j, je s t t o z m ie n n a 0 c h a r a k t e r z e ciągłym, k t ó r a n a d o d a t e k r ó w n ie ż m a rozkład normalny. T o b a r d z o w a ż n y w n io s e k . O z n a c z a o n p r z e c ie ż , ż e t a k , j a k r o b il iś m y t o w p o p r z e d n im r o z d z ia le , t a k i t e r a z b ę d z ie m y m o g l i ła t w o o d w o ły w a ć s ię d o t a b li c r o z k ł a d u n o r m a ln e g o , b y o d c z y t a ć z n ic h s z u k a n e p r a w d o p o d o b ie ń s t w o t e g o , ż e łą c z n a w a g a p a r y m ło d e j n ie p r z e k r o c z y 1 7 0 k il o g r a m ó w — t a k b y n ie u n i e m o ż l iw i ła m ło d e j p a r z e s k o r z y s t a n ia z o fe r ty D e x te ra . J e d n a k z n a jo m o ś ć s a m e g o k s z t a ł t u r o z k ł a d u t o je s z c z e n ie w s z y s t k o , c z e g o n a m p o t r z e b a . M u s i m y p r z e c ie ż p o z n a ć w a r t o ś c i p a r a m e t r ó w , k t ó r e g o d e f in iu j ą — w a r t o ś ć o c z e k iw a n ą 1 w a r ia n c ję . J a k m o ż e m y je w y z n a c z y ć ?
•
a i :z™ ?r"ar'ancią-
W aga panny młodej + W aga pana młodego ~ N(?, ?)
ołówek ________________________________________________ Czas odświeżyć pamięć. Czy pamiętasz, czemu były równe poniższe parametry w przypadku zmiennych dyskretnych? Przyjmij założenie, że zmienne X i Y są niezależne. 1. E(X + Y)
2. Var(X + Y)
3. E(X - Y)
4.
Var(X - Y)
jesteś tutaj ► 403
Zaostrz ołówek: Rozwiązanie
» Zaostrz ołówek _ Rozwiązanie
1.
Czas odświeżyć pamięć. Czy pamiętasz, czemu były równe poniższe parametry w przypadku zmiennych dyskretnych? Przyjmij założenie, że zmienne X i Y są niezależne.
E(X + Y)
2. Var(X + Y)
E(X + Y) = E(X) + E(Y)
3.
Var(X + Y )= Var(X) + VaKY)
E(X - Y)
4. Var(X - Y)
E(X - Y ) = E(X) - E(Y)
Var(X - Y) = VaKX) + Var(Y) Pamięta; ■
'
S S s & z z » * z w *nnyJc l d/a r ó ż n ić /'1
Nie ro iu m ie m ,ja k te w ió ry miałyby nam pomóc.. P r ie c ie i d o ty c ią one imiennych dyskretnych, a my mówimy t e r a i o imiennych ciągłych.
Te formuły zachowują swoją ważność także w przypadku zmiennych ciągłych. Kiedy po raz pierwszy wyprowadziliśmy te wzory, pracowaliśmy z danymi typu dyskretnego. T ak się jednak składa, że zachowują one ważność również w przypadku danych ciągłych.
WYSIL SZARE K O M Ó R K I W jaki sposób wykorzystałbyś te w zo ry do znalezienia param etrów definiujących rozkład łącznej wagi m łodej pary?
404
Rozdział 9.
Poznajemy rozkład normalny (cd.)
Jaki je s t więc rozkład wagi młodej p ary ? Zauważyliśmy już, że waga pary młodej powinna mieć rozkład normalny, dzięki czemu będziemy mogli posłużyć się tablicami prawdopodobieństwa dla tego rozkładu do wyznaczenia prawdopodobieństwa tego, że jej wartość będzie mniejsza od ustalonego progu. Zapiszmy wagę panny młodej i pana młodego w kategoriach zmiennej losowej. Niech X będzie zmienną losową opisującą wagę panny młodej, zaś Y — wagę pana młodego. Przyjmijmy również, że obie zmienne są niezależne. Nasze zadanie polega więc na znalezieniu i a dla następującego rozkładu: mtodej
Innymi słowy, zanim będziemy mogli ruszyć dalej, będziemy musieli znaleźć sposób na obliczenie wartości oczekiwanej i wariancji tego rozkładu. Tylko jak? Spójrz na rozwiązanie ostatniego ćwiczenia. Gdy mówiliśmy o dyskretnych rozkładach prawdopodobieństwa, doszliśmy do wniosku, że jeśli tylko zmienne X i Y są niezależne, możemy wyznaczać E (X + Y ) i V ar(X + Y ) według poniższych wzorów:
E (X + Y ) = E(X ) + E(Y ) i V ar(X + Y ) = V ar(X ) + Var(Y )
Jeśli więc tylko znamy wartość oczekiwaną i wariancję każdej ze zmiennych X i Y, możemy łatwo wyznaczyć je również dla ich sumy X + Y .
0 o
Ł
Opierając się na tym, co już wiemy, możemy wyznaczyć to, co pozostaje dla nas niewiadome. Ponieważ znamy rozkład zarówno wagi panien młodych, jak i wagi ich przyszłych mężów, jesteśmy w stanie znaleźć rozkład łącznej wagi pary młodej. Przyjrzyjmy się tem u z bliska.
ii jesteś tutaj ► 405
Rozkład X+Y i X-Y z bliska
z M i s k Q\ U m iejętność znalezienia rozkładu X + Y i świadomość jego związków z rozkładami zmiennych X i Y jest szczególnie przydatna wtedy, gdy zmienne X i Y mają rozkład normalny. Jeśli niezależne zmienne losowe X i Y mają rozkład normalny, również ich suma X + Y m a rozkład normalny. Co więcej, wartości param etrów definiujących rozkład X + Y można wyprowadzić bezpośrednio z wartości param etrów rozkładów zmiennych X i Y.
P a m ię ta j',
b e z m ie r n e
są niezależne, Jeśli zad z nich ni® ma wpływu na rozktad d ru g ie j.
Przy wyliczaniu wartości oczekiwanej i wariancji zmiennej X + Y możemy się posłużyć dokładnie tymi samymi wzorami, które poznaliśmy przy okazji wprowadzenia dyskretnych rozkładów prawdopodobieństwa. Innymi słowy, jeśli X ~ N ( u i, a 2)
i
Y ~ N G u y, a / )
to
X + Y ~ N(m, a 2)
J e ś li dodasz wa rto ś c i o c z o k , ^ X x +Y. i V , otrzym asz ^ ^ ¡ ^ T m i o n n y c h X Podobnie, s u m u ją c w a ria j i Y , uzyskasz w a ria n cję X+Y.
gdzie
a 2 = a x 2 + a y2
H = H + Mv
Te formuły możemy wykorzystać, gdy zm ienne X i Y s ą niezależne. To bardzo ułatw ia nam życie...
Innymi słowy, w artość oczekiwana sumy zmiennych X i Y jest równa sumie wartości oczekiwanych zmiennych X i Y. Podobnie jest w przypadku wariancji. Przedstawmy to na wykresie. Co możesz powiedzieć o wariancji X + Y po zapoznaniu się z poniższym rysunkiem?
Y ~ N(Hy, a y 2)
X ~ N (H x> a x2)
X + Y ~ N (H x + Hy, a x2 + a y2)
+
\ \
Hx
Hy
Hx + Hy
W ariancja X + Y jest większa niż wariancja X i większa niż wariancja Y, co spowodowało poszerzenie (wydłużenie) wykresu X i Y w p o ró w n an iu do wykresu zmiennej X czy zmiennej Y. To samo można powiedzieć o każdej zmiennej o rozkładzie normalnym. D odanie do siebie dwóch zmiennych powoduje zwiększenie zmienności zmiennej wynikowej, przez co jej wykres staje się bardziej „rozciągnięty”. N ie zmienia to jednak pola powierzchni pod krzywą rozkładu, ponieważ wraz z wydłużeniem wykresu następuje jego spłaszczenie w centrum rozkładu.
406
Rozdział 9.
Poznajemy ’ozkład normalny (cd.)
Czasami jesteśmy zainteresowani poznaniem nie tyle sumy, ile różnicy zmiennych X i Y. Musimy wtedy znaleźć rozkład zmiennej X -Y . Również X - Y ma rozkład normalny, jeśli tylko X i Y są niezależnymi zmiennymi losowymi o rozkładzie normalnym. D okładnie tak, jak w przypadku sumy X + Y . Aby znaleźć wartości param etrów definiujących rozkład X -Y , ponownie posłużymy się wzorami, które wyznaczyliśmy wcześniej dla rozkładów dyskretnych. Jeśli
X ~ N ( u i, a 2)
i
Y ~ N ( u y, a 2)
to
X - Y ~ N(m, a 2)
Obie w a ria n cje SUM UJEM , podobnie ja k dla zmiennych dyskretnych.
gdzie
M = Mx - My
a 2 = a x 2 + a y2
Możemy więc powiedzieć, że wartość oczekiwana różnicy zmiennych X i Y jest równa różnicy wartości oczekiwanych X i Y, zaś wariancja różnicy X i Y jest równa sumie wariancji tych zmiennych (jeśli są niezależne). ^
X ~ N (Mx> a x2)
Mx
Y ~ N ( u , a y 2)
My
Sumowanie wariancji w tym przypadku może się w pierwszej chwili wydawać sprzeczne z intuicją, ale opiera się dokładnie na tym samym rozumowaniu co w przypadku zmiennych dyskretnych. Choć odejmujemy wartości zmiennej Y od wartości zmiennej X, to zwiększamy w ten sposób rozproszenie wartości zmiennej wynikowej, czego obrazem jest zwiększona wariancja. Podobnie jak w przypadku rozkładu X + Y , powoduje to wydłużenie i spłaszczenie rozkładu X - Y w porównaniu do rozkładów X i Y.
O d e jm ij w a rto ści oczekiwane i dodaj
^w ariancje
X - Y ~ N(M x - My, a x2 + a y2)
^
Mx - My
Z a u w a ż, ż e ton
,.
jak w l i Z ^ taki sam ^ I Ż /^ y p a d k u ■Jego cer.fr s ie n n e j s ' \ w > inny im y m m i e Z u y znajduje r°zktadów nir.r, J . •U- Kszta ttr oobu ■—-n.adów nicruń —są, t o d w Z^ / e . róiniPonieważ samej wariancji. * norrna/ne
Jeśli przyjrzysz się dokładniej wykresowi rozkładu zmiennej X -Y , przekonasz się, że m a on dokładnie ten sam kształt co wykres X + Y , z wyjątkiem położenia jego środka. O ba rozkłady mają bowiem tę samą wariancję, choć różną wartość oczekiwaną.
jesteś tutaj ► 407
Liczymy prawdopodobieństwo dla X+Y
Znajdujemy prawdopodobieństwo Kiedy znamy już rozkład zmiennej X + Y , możemy przejść do wyznaczania szukanego prawdopodobieństwa. Oto lista kroków, jakie trzeba wykonać, by móc je wyznaczyć:
j)
W iem y, że
j®rafim y
O kreśl rozkład praw dopodobieństw a i jeg o param etry. P
Dokonaj sta n d a ry za cji zm iennej losow ej.
prawdopodobieństwa, powinniśmy przeprowadzić jego s Ł d a r ^ . Teraz w ystarczy odczytać szukane prawdopodobieństwo w tablicach standaryzowanego
O d czytaj praw dopodobieństwo z ta b licy rozkładu norm alnego.
rozktadu normalnego.
Czy ta lista nie wydaje Ci się znajoma? Tak, jest to dokładnie ta sama lista kroków, które przeszliśmy w poprzednim rozdziale, kiedy szukaliśmy prawdopodobieństwa dla zmiennej o rozkładzie normalnym. iNie.istnieia,
głupie pytania ^ : Przypomnijcie mi, proszę, po co wyznaczaliśmy rozkład X+Y? 0 : Chcemy się dowiedzieć, jakie są szanse
Znajdowanie w ten sposób prawdopodobieństwa X + Y nie różni się w żaden sposób od szukania prawdopodobieństwa innych zmiennych
^ : Czy możecie mi przypomnieć, co to znaczy, że zmienne są niezależne?
na to, że łączna waga pary młodej
o rozkładzie normalnym. Znajdujemy
ze Statsville nie przekroczy 170
wartość zmiennej standaryzowanej
rozkład prawdopodobieństwa żadnej
kilogramów. W przełożeniu na język
w tablicy i odczytujemy
z nich nie zależy od rozkładu drugiej.
statystyki: chcielibyśmy znaleźć rozkład
prawdopodobieństwo, na które
W naszym przykładzie oznacza to,
prawdopodobieństwa łącznej wagi pary
ona wskazuje.
że waga panien młodych nie zależy od wagi panów młodych (i odwrotnie).
młodej. Wagę panny młodej oznaczyliśmy przez X, a pana młodego przez Y. Łączną wagę pary młodej opisuje więc zmienna X+Y .
^ : Powiedzieliście, że szukane prawdopodobieństwo dla zmiennej X + Y możemy odczytać z tablic. W jaki sposób?
0 : Dokładnie w ten sam sposób, jak
^ : Czy więc wszystkie pozostałe wzory, jakie poznaliśmy dla zmiennych dyskretnych, są prawdziwe również dla zmiennych ciągłych? 0 : Tak, są prawdziwe. Dzięki tem u mamy
wykonać znacznie więcej pracy, by znaleźć rozkład X + Y , ponieważ musielibyśmy
sumy lub różnicy zmiennych o rozkładzie
przyjrzeć się z bliska dokładnej relacji,
normalnym, co pozwoli nam rozwiązywać
jaka łączy zmienne X i Y.
bardziej złożone problemy.
naszej zmiennej, dokonując jej standaryzacji i odczytując prawdopodobieństwo
wyjściowe muszą być od siebie niezależne.
Rozdział 9.
0 : W tedy nie moglibyśmy wykorzystać
ła tw y sposób na znajdowanie rozkładów
Trzeba jedynie pamiętać, że zmienne
408
^ : A jeśli X i Y nie byłyby niezależne? Co wtedy?
tych wszystkich wzorów. Musielibyśmy
w poprzednim rozdziale: znajdując rozkład
w tablicy rozkładu normalnego.
0 : Dwie zmienne są niezależne, gdy
Poznajemy rozkład normalny (cd.)
_
C(r Zaostrz ołówek _________________________________________________________ v
1.
Postępując według zamieszczonej niżej listy działań, znajdź prawdopodobieństwo tego, że łączna waga pary młodej nie przekroczy 170 kilogramów.
Niech X oznacza wagę panny młodej, a Y wagę pana młodego, przy czym X ~ N(70, 180), a Y ~ N(85, 220). Opierając się na tych informacjach, wyznacz rozkład łącznej wagi pary młodej.
2.
Po wyznaczeniu tego rozkładu oblicz wartość standaryzowanej zmiennej Z, będącą odpowiednikiem x + y = 170.
3.
Wykorzystaj obliczoną wartość z do odczytania z tablic prawdopodobieństwa P(X + Y < 170).
jesteś tutaj ► 409
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
1.
Postępując według zamieszczonej niżej listy działań, znajdź prawdopodobieństwo tego, że łączna waga pary młodej nie przekroczy 170 kilogramów.
Niech X oznacza wagę panny młodej, a Y wagę pana młodego, przy czym X ~ N(70, 180), a Y ~ N(85, 220). Opierając się na tych informacjach, wyznacz rozkład łącznej wagi pary młodej. Chcemy znaleźć rozktad prawdopodobieństwa X + Y. A by znaleźć w a rto ść oczekiwaną i w a ria n cję X+Y, dodamy do sieb ie wartości oczekiwane i w a ria n cje zmiennych X i Y . Dostajemy: X + Y - NCI55, 4 0 0 )
2.
Po wyznaczeniu tego rozkładu oblicz wartość standaryzowanej zmiennej Z, będącą odpowiednikiem x + y = 170. _ (x + y ) - u
o
.
...
x ~u
P am iętasz, ja k poprzednio p is a liś m y z = -
170 - 155 20
^
Tym razem za jm u je m y s ię rozkfadem X +Y , dlatego J ' (x ł y ) - u wzór na z ma postać, z
15 ~
20
~
= 0,7 5 (z dokładnością do dwóch m ie jsc po przecinku)
3.
Wykorzystaj obliczoną wartość z do odczytania z tablic prawdopodobieństwa P(X + Y < 170). Z tablicy standaryzowanego rozkładu normalnego odczytujem y prawdopodobieństwo dla z = 0,75, które wynosi 0,7734. A zatem P fX + Y < 1 7 0 ) = 0,7734
410
Rozdział 9.
Poznajemy rozkład normalny (cd.)
jesteś tutaj ►
411
Ćwiczenie: Rozwiązanie
„
.
Swatka Julie nie daje za wygraną. Chciałaby wiedzieć, jakie jest prawdopodobieństwo tego, że przeciętny mieszkaniec Statsville będzie przynajmniej o 10 centymetrów wyższy od kobiety mieszkającej w Statsville.
.
R o zw iązan ie
Wzrost mężczyzn mieszkających w Statsville jest zmienną losową o rozakładzie N(180, 50), zaś wzrost kobiet ma rozkład N(160, 40). Czy potrafisz jej pomóc? Niech X oznacza w zrost męźczuznu, za ś Y — w z ro s t kobietą. Moźemu zapisać, że X - N(180, 50), zaś Y - NCI60, 40).
M usim y znaleźć prawdopodobieństwo tego, że w z ro s t m ężczyzny będzie w iększy od w zro stu ko b ie ty o co najmniej 10 centym etrów . M usim y więc znaleźć: PCX>Y+10) czyli P fX - Y > 1 0 )
A by znaleźć wartość oczekiwaną i w a ria n cję X - Y , m usim y odjąć E(Y) od E(X) oraz dodać do sieb ie Var(X) i Var(Y). W wyniku otrzymujemy: X - Y - N(20, 9 0 ) Standaryzowana wartość x - y = 10 wynosi: z
(x-y) - u _ a
10
-
20
9,49 = - 1 ,0 5 (z dokładnością do dwóch m iejsc po przecinku)
W ykorzystujem y ją do policzenia PCX-Y>10): PCX-Y>10) = 1 - PCX-Y<10) = = 1 - 0,1469 = = 0,8531
412
Rozdział 9.
Poznajemy rozkład normalny (cd.)
Więcej ludzi chce skorzystać z Kolejki Miłości Wszystko wskazuje na to, ze z całkiem dużym prawdopodobieństwem łączna waga młodej pary nie przekroczy limitu, który uniemożliwiłby jej skorzystanie z oferty Dextera. Dlaczego więc Dexter miałby ograniczyć swoją ofertę tylko do pary młodej?
Klienci ocŁeku.ją, ¿e roŁSŁetŁymy nasŁą o fe r t ę ta k ie na poŁostafych ucŁestników wesela, i chętnie ł a to zapłacą. To wspaniale, tylko e ty wagoniki kolejki udiwigną dodatkowych pasaierów ?
Zobaczmy, co się stanie, gdy dodamy do składu kolejki jeszcze jeden wagonik, który pomieści czterech dodatkowych gości przyjęcia weselnego, jakich p ara młoda zechce mieć za towarzyszy. Wagonik ten będzie w stanie przyjąć pasażerów, których waga nie przekroczy 360 kilogramów. Zakładamy, że rozkład wagi dorosłego mieszkańca Statsville jest następujący:
X ~ N (8 0 , 2 2 5 ) gdzie X oznacza wagę osoby dorosłej. Ponieważ w wagoniku zmieszczą się aż cztery osoby, musimy znaleźć rozkład łącznej wagi czterech dorosłych osób. Tylko jak?
WYSIL SZARE K O M Ó R K I W róć myślami do miejsca, gdzie wyprow adziliśm y w zo ry na liczenie wartości oczekiwanej i wariancji. Czym różniło się nasze podejście w przypadku zmiennych niezależnych od tego dla przekształceń liniowych zm iennych losowych? Jak w yglądały w zory dla każdego z tych podejść? Które z nich lepiej się nadaje do rozwiązania naszego problemu?
jesteś tutaj ► 413
Przekształcenia liniowe a zmienne niezależne
Przekształcenia liniowe odnoszą się do zmian wartości. Spróbujmy najpierw wyznaczyć rozkład prawdopodobieństwa dla zmiennej 4X, gdzie X jest zmienną losową oznaczającą wagę osoby dorosłej. Czy 4X dobrze opisuje kształtowanie się wagi czterech pasażerów dodatkowego wagonika kolejki? Z m ienna 4X jest w rzeczywistości przekształceniem liniowym zmiennej X. Zauważysz to łatwo, gdy w ogólnej definicji przekształcenia liniowego a X + b podstawisz a = 4 i b = 0. Jest to dokładnie takie samo przekształcenie, z jakim mieliśmy do czynienia wcześniej, gdy omawialiśmy dyskretne rozkłady prawdopodobieństwa. Zapis w postaci aX + b opisuje zmiany, jakie zajdą w potencjalnych wartościach, które może przyjąć nowa, przekształcona zmienna losowa. Możemy więc powiedzieć, że zmienna 4X reprezentuje wagę osoby dorosłej po jej czterokrotnym wzroście. IX
Z m ie n n a 4X o p is u je wag«
£ n ie ich lic z b a -
4X
2X
Jakijest rozkład liniowo przekształconej zmiennej? Załóżmy, że interesuje nas przekształcenie liniowe zmiennej w ogólnej postaci aX + b , przy czym X ~ N(,u, a 2). Ponieważ zmienna X m a rozkład normalny, zatem również zmienna a X + b m a rozkład normalny. A le z jakimi param etram i?
w a g iT °sóbela ™ ? / f l l aĆ c* ° r y razy c i ę ż Z j ' OS° by
Zacznijmy od wartości oczekiwanej. D la zmiennych losowych dyskretnych znaleźliśmy wzór postaci E (aX + b ) = aE(X ) + b. Jak się pewnie domyślasz, zachowuje on ważność także w przypadku zmiennych ciągłych. Ponieważ teraz X m a rozkład normalny i E(X ) = y , a zatem E (a X + b ) = a/x + b. Podobnie jest z wariancją. W przypadku zmiennych dyskretnych posługiwaliśmy się wzorem: V ar(aX + b) = a2Var(X ). Jeśli przyjmiemy, że X m a rozkład normalny o wariancji a 2, będziemy mogli zapisać V ar(aX + b) = a V . Podsumowując, możemy zapisać:
w a r ia n c ji.
a X + b ~ N(ap + b, a 2a 2) Innymi słowy, wartość oczekiwana przekształconej liniowo zmiennej wynosi ay + b, zaś wariancja — a 2a 2. A co w przypadku zmiennych niezależnych?
414
Rozdział 9.
Poznajemy rozkład normalny (cd.)
...zm ienne niezależne mówię o tym , ile różnych wartości posiadasz Domyśliłeś się zapewne, ze przekształcenie w postaci 4X nie pozwoli nam wyznaczyć rozkładu prawdopodobieństwa, na którym nam zależy. Chcemy bowiem poznać rozkład łącznej wagi czterech różnych osób, nie zaś wagi pojedynczej osoby, czterokrotnie zwiększonej. Innymi słowy, chcemy znaleźć rozkład prawdopodobieństwa sumy czterech niezależnych zmiennych losowych X.
X jp "
X + X Wagą k a fe j X, niezależna od wagi
x + x +x
x + x + x + x
o
W aga każdej z czterech osób jest opisywana przez niezależną zmienną losową o tym samym rozkładzie, zgodnym z rozkładem zmiennej X. Ponieważ chcemy znaleźć prawdopodobieństwo tego, że łączna waga czterech osób nie przekroczy ustalonej wartości granicznej, musimy wyznaczyć rozkład prawdopodobieństwa X, + X + X, + X. gdzie X1, X2, X 3 i X 4 są niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym.
n ieza leżn e
Wagę. ^ych oS° b o^rozktadzie
^
identycznym z ro
©
jesteś tutaj ► 415
Znajdujemy wartość oczekiwaną i wariancję
Wartość oczekiwana i wariancja dla niezależnych zmiennych losowych Kiedy szukaliśmy wzoru na wartość oczekiwaną i wariancję dla sumy niezależnych zmiennych losowych dyskretnych, doszliśmy do wniosku, ze są one równe: E (X 1 + X 2 + . . . X ) = nE(X ) oraz V ar(X Ł + X 2 + ... + Xn) = nV ar(X ) Jak się zapewne domyślasz, wzory te są również prawdziwe dla zmiennych losowych ciągłych. Oznacza to, że jeśli X. ~ N(,u, a 2) dla i = 1,2, 3, 4, to:
X , + X 2 + ... + X n ~ N(np, n a 2)
i Nie.istnieją.
głupie pytania CELNE SPOSTRZEŻENIA ^ : Na czym więc polega różnica między liniowym przekształceniem zmiennej a sumą zmiennych niezależnych?
( P : Czy naprawdę muszę umieć odróżniać oba przypadki? Jakie to ma dla mnie znaczenie?
Jeśli X - N (px, a 2x)
0 : Musisz umieć odróżnić obie sytuacje,
te są niezależne, to:
i Y - N (py, a 2y), przy czym zmienne
0 : Przekształcenie liniowe zmienia
ponieważ od tego zależy poprawność Twoich
wartości, jakie może przyjąć zmienna losowa.
obliczeń. Chociaż wartość oczekiwana
Na przykład jeśli wyznaczasz rozkład
jest liczona w ten sam sposób w obu
zmiennej opisującej dokładną długość nici
przypadkach, to jednak wariancja znacznie
o teoretycznej długości 10 cm, to po liniowym
się różni. Wariancja dla sumy n niezależnych
przekształceniu takiej zmiennej otrzymasz
zmiennych losowych jest n razy większa
rozkład badający długość nici o teoretycznej
od wariancji każdej z tych zmiennych.
długości na przykład 35 cm.
Zaś w przypadku zmiennej przekształconej według wzoru aX +b wariancja jest a2 razy
Gdy interesuje Cię bardziej łączny rozkład
X+Y-N(px X-Y-N(p
a
My. a .
- My. a .
a
Jeśli X - N(p, a 2), zaś a i b są stałym i, to: aX + b - N(ap + b, a2a 2)
większa od wariancji zmiennej X.
cechy dla pewnej liczby obiektów, każdy z nich powinieneś opisywać za pomocą oddzielnej zmiennej losowej. Na przykład gdybyś badał łączną długość n nici,
^ : Czy w jednym rozkładzie prawdopodobieństwa mogą się pojawić oba rodzaje przekształceń?
opisujących długość każdej z nich.
oczekiwaną i wariancję w tym przypadku, wyżej wzory. Te same zasady stosują się zarówno do zmiennych losowych dyskretnych, jak i ciągłych.
Rozdział 9.
losowym i o rozkładzie
0 : Oczywiście. Aby wyznaczyć wartość wystarczy ostrożnie zastosować zapisane
416
, X n są
niezależnymi zm iennym i N (p, a 2), to:
powinieneś wyznaczyć rozkład dla sumy n niezależnych zmiennych losowych
Jeśli X ,,X 2,X
X. + X? + ... + X - N ( n p , n a 2)
Poznajemy rozkład normalny (cd.)
jesteś tutaj ► 417
Ćwiczenie: Rozwiązanie
Spróbuj rozwiązać dylemat Dextera. Ile wynosi prawdopodobieństwo tego, ze łączna waga czterech dorosłych uczestników wesela nie przekroczy wartości 360 kilogramów? Przyjmij założenie, ze waga pojedynczej osoby m a rozkład N(80, 225).
Ćwiczenie R o zw iązan ie
Jeśli wagę dorosłego człowieka oznaczymy przez X, to X ~ N(80, 22.5). M usim y zacząć od wyznaczenia rozkładu łącznej wagi czterech osób. Ponieważ s ą to zm ienne niezależne, będzie ona miała rozkład normalny. Parametry definiujące ten rozkład (wartość oczekiwaną i w a ria n c ję ) wyznaczymy, mnożąc param etry rozkładu X przez 4. M amy więc: X , + X 2 + X 3 + X, - N(320, 9 0 0 )
Obliczanie P(Xt + X 2 + X 3 + X t < 360) zaczniem y od znalezienia w a rto ś c i standaryzowanej dla x = 360.
o 360 - 320 30 _ 40
_
30 = 1,33
Po odszukaniu tej wartości w tablicy standaryzowanego rozkładu normalnego znajdujem y szukane prawdopodobieństwo, które równe j e s t 0 ,9 0 8 2 . A zatem:
P(X, + X . , + X , + X „ < 360) = 0,9 08 2
418
Arcyfrajerzy
Przerywamy rozdział, by przedstawić Ci
jesteś tutaj ► 419
o
o
D zisiejszy wieczór dostarczy nam \ wszystkim wielu emocji. W t e j rundzie zadam ci czterdzieści pytań, przy czym warunkiem przejścia do kolejnej ru n d y je s t poprawna odpowiedź na co najmniej trzydzieści z nich. M o żesz t e ż zrezygnować z dalszej gry, odbierając nagrodę pocieszenia. Tytuł te j rundy brzmi: „Jeszcze więcej na mój te m a t". Powodzenia! j-
» Zaostrz ołówek _ Oto pięć pierwszych pytań z bieżącej rundy teleturnieju. Wszystkie dotyczą osoby gospodarza programu.
Rozwiązanie
1. Jaki jest jego ulubiony film?
a a
a
A: Dzień Szakala C: Lawrence z Arabii
B: Włoska robota D: Wszyscy ludzie prezydenta
2. Jaki jest ulubiony film jego kota? A: Rybka zwana Wandą
B: Klątwa królika
C: Polowanie i
D: Ptaszek na uwięzi
3. Ile przeciętnie wydaje co miesiąc na zakup garniturów?
a a
a a
A: 1000 dolarów C: 3000 dolarów
4.
Arcyfrajerzy
D: 4000 dolarów
Jak często chodzi do fryzjera?
A: raz w miesiącu
B: dwa razy w miesiącu
C: trzy razy w miesiącu
D: cztery razy w miesiącu
5.
420
B: 2000 dolarów
Jaka jest jego ulubiona strona internetowa?
A: www.fatdanscasino.com
J
B: www.gregs-list.net
J
C: www.you-cube.net
J
D: www.starbuzzcoffee.com
J
Wejść do gry czy zrezygnow ać? T ak jak poprzednio, nie wydaje nam się, byś znał gospodarza program u na tyle dobrze, aby bezbłędnie odpowiedzieć na pytania dotyczące jego osoby. Znów będziesz musiał raczej strzelać. Oszacujmy więc prawdopodobieństwo tego, ze przynajmniej na 30 spośród 40 pytań ud a Ci się odpowiedzieć prawidłowo. Pomoże Ci to podjąć decyzję, czy wziąć udział w grze, czy też zrezygnować, zachowując prawo do nagrody pocieszenia.
ołówek _______________________________________________________ Od czego byś zaczął obliczanie prawdopodobieństwa tego, że na co najmniej 30 z 40 pytań odpowiesz poprawnie? Jakie kroki musiałbyś wykonać, by uzyskać poprawną odpowiedź? Jak wyznaczyłbyś wartość oczekiwaną i wariancję nowego rozkładu? Nie musisz obliczać szukanego prawdopodobieństwa. Wystarczy, że opiszesz, jak byś się do tego zabrał.
jesteś tutaj ► 421
_ » Zaostrz ołówek ________________________________________________________ \
Rozwiązanie
Od czego byś zaczął obliczanie prawdopodobieństwa tego, że na co najmniej 30 z 40 pytań odpowiesz poprawnie? Jakie kroki musiałbyś wykonać, by uzyskać poprawną odpowiedź? Jak wyznaczyłbyś wartość oczekiwaną i wariancję nowego rozkładu? Nie musisz obliczać szukanego prawdopodobieństwa. Wystarczy, że opiszesz, jak byś się do tego zabrał.
Ponieważ mamy 40 pytań, możemy powiedzieć, że mamy do czynienia z 40 próbami udzielenia odpowiedzi. Każda próba m oże s ię zakończyć su kcesem (odpowiedź prawidłowa) bądź porażką. M usim y więc znaleźć prawdopodobieństwo uzyskania określonej liczby sukcesów w danej liczbie prób. W ykorzystamy do tego rozkład dwumianowy z parametrami n = 40 i p = 1 /4 (ponieważ spośród czterech podanych wariantów odpowiedzi na każde pytanie jeden j e s t poprawny). Jeśli przez X oznaczymy liczbą poprawnie udzielonych odpowiedzi, będziem y szukali P(X > 30) albo te ż sum y prawdopodobieństw od P(X = 30) do P(X = 40). Wartość oczekiwaną i wariancję możemy znaleźć, korzystając z informacji o n, p i ą, gdzie ą = 1 -p . Wartość oczekiwana j e s t równa np, za ś wariancja npą. To daje nam wartość oczekiwana równą 40 x 0 ,2 5 = 10 i w a ria n cję 40 x 0 ,2 5 x 0 ,7 5 = 7,5.
No d o b r z e , ale te o b liczen ia będą koszmarnie skomplikowane. Nie ma p ro stszej metody?
Korzystanie z rozkładu dwumianowego jest zwykle dość pracochłonne. Aby znaleźć prawdopodobieństwo udzielenia poprawnej odpowiedzi na co najmniej 30 spośród 40 pytań, musielibyśmy wyznaczyć i zsumować 11 prawdopodobieństw. Każde z nich wymaga niełatwych rachunków, nietrudno więc byłoby o pomyłkę gdzieś po drodze. Dlatego przydałby nam się prostszy sposób na liczenie prawdopodobieństwa w rozkładzie dwumianowym.
422
Arcyfrajerzy
jesteś tutaj ► 423
Rozkład normalny przychodzi nam z pomocą Już jakiś czas tem u zauważyliśmy, że życie z rozkładem dwumianowym nie należy do najłatwiejszych. Wymaga on skomplikowanych i monotonnych obliczeń, przez co bardzo łatwo popełnić błąd, a następnie spędzić mnóstwo czasu na jego poprawianiu. Wydaje się, że nie ma dla nas ratunku? N ie martw się, jest bardzo proste wyjście. Pod pewnymi warunkam i możemy zastosować rozkład normalny do przybliżenia rozkładu dwumianowego.
Chcecie
p o w ie d z ie ć , że rozkład normalny może przybliżać rozkład dwumianowy? Myślałam, ż e robi to rozkład poissona. W ię c ja k t o je s t ?
Rozkład Poissona może przybliżyć rozkład dwumianowy w ściśle określonych sytuacjach, zaś rozkład normalny — w nieco innych. Znajomość metod przybliżania rozkładu dwumianowego innymi rozkładami prawdopodobieństwa jest niezwykle użyteczna, ponieważ pozwala ominąć wszystkie te pułapki, które czyhają na nas przy obliczaniu prawdopodobieństw w rozkładzie dwumianowym. W niektórych sytuacjach może nam w tym pomóc rozkład Poissona. W niektórych innych sytuacjach możemy wykorzystać do tego rozkład normalny. M a to liczne zalety, ponieważ oznacza, że zamiast wykonywać skomplikowane obliczenia, będziemy mogli odczytywać szukane prawdopodobieństwa z tablic rozkładu normalnego. N ie znamy jednak jeszcze warunków, przy których takie przybliżenie jest możliwe.
WYSIL SZARE KOMÓRKI M inęło już trochę czasu, odkąd próbow aliśm y określić, pod jakim i warunkam i rozkład Poissona nadaje się do przybliżenia rozkładu dwum ianowego. Czy pamiętasz, jakie to były warunki?
't '0 > d v '05
424
Arcyfrajerzy
Wciel się w rolę rozkładu prawdopodobieństwa Poniżej znajdziesz wykresy rozkładu dwumianowego dla różnych wartości parametrów n i p. Wyobraź sobie, że jesteś jednym z tych rozkładów i szukasz dla siebie towarzysza w postaci rozkładu normalnego. Do którego z poniższych wykresów najlepiej pasuje rozkład normalny? Przyjrzyj się kształtowi każdego z wykresów i powiedz, który z nich mógłbyś najlepiej przybliżyć tym rozkładem. A
n=5
0,4
p = 0,5 0,3
0,2
0,1
0
2
3
4
A 0,3
n = 10 p = 0,1
0,2
0,1
0
1
2
3
4
5
6
7
8
9
10
jesteś tutaj ► 425
Wciel się w rolę rozkładu prawdopodobieństwa Rozwiązanie Poniżej znajdziesz wykresy rozkładu dwumianowego dla różnych wartości parametrów n i p. Wyobraź sobie, że jesteś jednym z tych rozkładów i szukasz dla siebie towarzysza w postaci rozkładu normalnego. Do którego z poniższych wykresów najlepiej pasuje rozkład normalny? Przyjrzyj się kształtowi każdego z wykresów i powiedz, który z nich mógłbyś najlepiej przybliżyć tym rozkładem.
normalny móg g ¿otfadnościąz w ystarczającą doKTaon
A
n=5
0,4
p = 0,5 0,3
0,2
0,1
X
1 0
2
4
5
Z e w szystkich tych rozkładów ten p o w in ie n najlepiej rozkładem normalnym. Przy parametrach n = 2 0 , p - 0 ,5 jego kszTan bardzo przypom ina rozkład normalny.
Kiedy stosować przybliżenie rozkładu dwumianowego rozkładem normalnym Pod pewnymi warunkami kształt rozkładu dwumianowego może bardzo przypominać rozkład normalny. W takich sytuacjach m ożna by stosować rozkład normalny zamiast rozkładu dwumianowego do obliczania przybliżonych wartości prawdopodobieństw. Z am iast obliczać i sumować prawdopodobieństwa pojawienia się kolejnych sukcesów, moglibyśmy posłużyć się wartością wyznaczoną w tablicach. ■ t liczb ą pow tórzeń (prób).
0 jakich więc warunkach mówimy?
nDJ- p ?a“ d o p o ^ iefetWem W ostatnim przykładzie przekonaliśmy się, że rozkład dwumianowy wygląda bardzo podobnie do rozkładu normalnego, gdy p jest bliskie 0,5, a n wynosi około 20. W praktyce okazuje się, że przybliżenie takie jest wystarczająco dokładne, gdy zarówno np, jak i nq są większe niż 5.
sukcesu, a
=
P'
Obliczanie parametrów rozkładu normalnego Zanim jednak będziemy mogli posłużyć się rozkładem normalnym do aproksymacji rozkładu dwumianowego, musimy określić wartość definiujących go param etrów , to znaczy wartości oczekiwanej 1wariancji. N a szczęście oba param etry możemy wziąć bez problem u z rozkładu dwumianowego. Pamiętając, że E(X ) = np, zaś V ar(X ) = npq dla zmiennej X o rozkładzie dwumianowym, możemy zapisać: oraz
5 = npq
Możemy je wykorzystać jako param etry rozkładu normalnego.
np d w u m ia n o w y 0 Je dzwonowej.
Podstawowe terminy Aproksymacja rozktadu dwumianowego J e ś li X ~ B (n, p), np>5 i ną > 5 , m o żem y przyb liżyć rozkład X rozkładem N(np, npą).
W n ie k t ó r y c h k s ią ż k a c h m o że sz s ię sp o tk a ć z w a ru n k a m i w p o s ta c i np > 1 0 , nq > 10 . Gdy będziesz podchodził do egzaminu, upewnij się, które z tych warunków akceptuje egzaminator.
jesteś tutaj ► 427
Ćwiczenie (nieco dłuższe) J
*
;
Zanim wykorzystamy rozkład normalny do przybliżenia prawdopodobieństwa udzielenia 30 prawidłowych odpowiedzi na pytania z teleturnieju, sprawdźmy na nieco prostszym przykładzie, jak to działa w praktyce. Spróbujmy znaleźć prawdopodobieństwo tego, że udzielimy co najwyżej 5 prawidłowych odpowiedzi na 12 pytań, gdy każdemu z nich towarzyszą dwa warianty odpowiedzi. Zacznijmy od policzenia tych prawdopodobieństw przy wykorzystaniu rozkładu dwumianowego. Oblicz P(X < 6), wiedząc, że X ~ B(12; 0,5).
428
Arcyfrajerzy
A teraz spróbuj wyznaczyć to samo prawdopodobieństwo przy wykorzystaniu rozkładu normalnego. Porównaj wyniki uzyskane obiema metodami. Najpierw jednak określ, jakie są wartości parametrów definiujących rozkład normalny, jeśli X ~ B(12; 0,5)? Gdy już to określisz, policz P(X < 6), zakładając, że X ma rozkład normalny.
jesteś tutaj ► 429
Ćwiczenie (nieco dłuższe) "Rozwiązanie Zanim wykorzystamy rozkład normalny do przybliżenia prawdopodobieństwa udzielenia 30 prawidłowych odpowiedzi na pytania z teleturnieju, sprawdźmy na nieco prostszym przykładzie, jak to działa w praktyce. Spróbujmy znaleźć prawdopodobieństwo tego, że udzielimy co najwyżej 5 prawidłowych odpowiedzi na 12 pytań, gdy każdemu z nich towarzyszą dwa warianty odpowiedzi. Zacznijmy od policzenia tych prawdopodobieństw przy wykorzystaniu rozkładu dwumianowego. Oblicz P(X < 6), wiedząc, że X ~ B(12; 0,5). A by znaleźć prawdopodobieństwa uzyskania su kcesu w kolejnych próbach, skorzystam y z poniższych wzorów:
P(X = r) = C"prq""r
gdzie
M usim y znaleźć P(X<6), przy czym X ~ 8(12, 0,5). A by je poznać, m usim y wyznaczyć P(X = O), P(X = 1) i tak dalej, aż do P(X = 5), a następnie je zsumować. Prawdopodobieństwa te s ą równe: P(X = 0 )= ,2C0 x 0 ,5 “ = 0 ,5 “ P(X = 1) = ,2C, x 0 ,5 x 0 ,5 " = 12 x 0,5'2 P(X = 2) = ,2C2x 0 ,5 2 x 0 ,5 '° = 6 6 x 0,5'2 P(X = 3 )= ,2C3x 0 ,5 3 x 0 ,5 9= 2 2 0 x 0 ,5 “ P(X =
4) = >2C, x 0 ,5 ’ x 0 ,5 8= 495 x 0 ,5 '2
P(X = 5 )= ,2CSx 0 ,5 5 x 0 ,5 7= 792 x 0 ,5 ’2
Po ich zsum ow aniu otrzym ujem y tączne prawdopodobieństwo równe:
P( X< 6) = (1 + 12 + 66 + 22 0 + 495 + 792) x 0,5'2 =
= 1586 x 0,5'2 = = 0 ,3 87 (z dokładnością do trzech m ie jsc po przecinku)
430
Arcyfrajerzy
A teraz spróbuj wyznaczyć to samo prawdopodobieństwo przy wykorzystaniu rozkładu normalnego. Porównaj wyniki uzyskane obiema metodami. Najpierw jednak określ, jakie są wartości parametrów definiujących rozkład normalny, jeśli X ~ B(12; 0,5)? Gdy już to określisz, policz P(X < 6), zakładając, że X ma rozkład normalny. X ~ B(12, 0,5), co oznacza, że n = 12, p = 0 ,5 i q = 0,5. Dobrym przybliżeniem będzie rozkład N(np, npą), czyli X ~ N(6, 3). M usim y znaleźć P(X<6), więc zaczniem y od wyznaczenia w a rto ś c i standaryzowanej dla x = 6.
x - u z = -------- = 5
6 -6
= VT = =o Po rzucie oka na tablicę rozkładu normalnego możemy zapisać: P ( X < 6 ) = 0 ,5
C t y j a dobrze
roŁumiem? To ma być dobre prŁybliienie?
Obie metody szacowania prawdopodobieństwa dały dość znacznie różniące się wyniki. Dokładne rachunki pozwoliły nam otrzymać wartość P(X < 6) równą 0,387, zaś po przybliżeniu jej rozkładem normalnym otrzymaliśmy aż 0,5. Prawdopodobnie spodziewałeś się dużo większego przybliżenia, skoro spełniliśmy warunki pozwalające zastąpić rozkład dwumianowy rozkładem normalnym. Tymczasem wartości te dość mocno się różnią.
WYSIL SZARE KOMÓRKI Jak sądzisz, co m ogło pójść nie tak? Czy istnieje jakiś sposób na popraw ę dokładności przybliżenia?
jesteś tutaj ► 431
Ponowny rzut oka na problem aproksymacji C o w ię c p o s z ło ź le ? P r z y j r z y j m y s ię z b li s k a p r o b l e m o w i a p r o k s y m a c ji i z a s t a n ó w m y s ię , c o s ię t a k n a p r a w d ę w y d a r z y ło i j a k m o g lib y ś m y s o b ie z t y m p o r a d z ić . P r z e d e w s z y s t k im p o w in n iś m y w y k r e ś lić o r y g i n a l n y r o z k ł a d z m ie n n e j X ~ B ( 1 2 ; 0 ,5 ) . Z a z n a c z y m y n a n im s z u k a n e p r a w d o p o d o b ie ń s t w o u d z i e l e n i a c o n a jw y ż e j 5 p o p r a w n y c h o d p o w i e d z i n a 1 2 p y t a ń , c z y li P ( X < 6 ) .
Znaleźliśmy P (X < 6 ) przez _ dodanie do sie b ie tych w szystkich praw dopodobieństw
2
3
4
5
6
7
8
9
10
11
P r z y b liż a ją c s z u k a n e p r a w d o p o d o b ie ń s t w o P ( X < 6 ) , p o s łu ż y liś m y s ię r o z k ła d e m n o r m a ln y m N ( 6 , 3 ):
%X<6) j e s t równe polu eJ powierzchni.
'—
2
3
4
5
6
8
9
10
11
P r z y jr z y j s ię d o k ł a d n ie w y k r e s o m o b u r o z k ł a d ó w . C h o ć n ie je s t ła t w o t o d o s t r z e c , is t n i e je m ię d z y n i m i z a s a d n ic z a r ó ż n i c a — p o w ie r z c h n i a z a k r e ś lo n y c h o b s z a r ó w w o b u p r z y p a d k a c h n ie c o s ię r ó ż n i . W p r z y p a d k u r o z k ł a d u n o r m a l n e g o m a m y d o c z y n ie n ia z n ie c o w ię k s z ą p o w ie r z c h n i ą , c o d o p r o w a d z ił o d o u z y s k a n ia w ię k s z e g o p r a w d o p o d o b ie ń s t w a w w y n ik u . P r z y jr z y m y s ię b li ż e j t e j r ó ż n i c y n a n a s t ę p n e j s tr o n ie .
432
Arcyfrajerzy
Rozkład dw um ianowyjest rozkładem dyskretnym , a normalny — ciągłym Dokonując przybliżenia rozkładu dwumianowego rozkładem normalnym, pominęliśmy co najmniej jeden istotny szczegół — nie wzięliśmy pod uwagę tego, ze jeden z rozkładów jest rozkładem dyskretnym (dwumianowy), a drugi ciągłym (normalny). Jest to bardzo istotna różnica, ponieważ powoduje ona różnice w wartościach prawdopodobieństw nawet dla tych samych wartości zmiennej losowej. N a poniższym rysunku przedstawiliśmy rozkład dwumianowy B(12, 0,5) oraz będący jego przybliżeniem rozkład N ( 6, 3). Szary słupek na tym rysunku wskazuje obszar, o który różni się prawdopodobieństwo odczytane z tablicy rozkładu norm alnego od prawdopodobieństwa wyznaczonego dla rozkładu dwumianowego. P ż X < 6 ) dla ro zk ła d u d w u m ia n o w e g o ,
2
3
4
5
7
6
8
9
10
11
Czy rozumiesz, na czym polega problem ? Gdy naniesiemy wartości dyskretnych realizacji zmiennej losowej o rozkładzie dwumianowym na wykres rozkładu ciągłego, jakim jest rozkład dwumianowy, nie możemy pom inąć znajdujących się między nimi wartości, należących do rozkładu ciągłego. Przyjrzyjmy się tem u bliżej na przykładzie dyskretnej wartości 6. Gdy naniesiemy ją na wykres rozkładu ciągłego, będziemy musieli uwzględnić wszystkie wartości, jakie znajdują się w jej najbliższym sąsiedztwie — te, które zaokrąglają się do 6, a więc wszystkie liczby z przedziału od 5,5 do 6,5.
zaokrgghc do 6.
5
5 ,5
6
6 ,5
7
Jak się to przekłada na problemy, jakie napotkaliśmy? Kiedy próbowaliśmy przybliżyć prawdopodobieństwo uzyskania mniej niż 6 poprawnych odpowiedzi na 12 pytań prawdopodobieństwem opartym na rozkładzie normalnym, nie zastanawialiśmy się w ogóle, jak dyskretna wartość 6 zostanie odwzorowana na wykresie zmiennej ciągłej. T ak naprawdę wartość ta pokrywa przedział od 5,5 do 6,5, dlatego zamiast wyznaczać P(X < 6) dla rozkładu normalnego, powinniśmy raczej spróbować policzyć P(X < 5,5). Tego rodzaju korekty nazywamy poprawką na ciągłość. Brać poprawkę na ciągłość powinniśmy zawsze wtedy, gdy przybliżamy rozkład dyskretny rozkładem ciągłym.
jesteś tutaj ► 433
Bierzemy poprawkę na ciągłość Spróbujmy więc znaleźć P(X < 5,5) przy założeniu X ~ N ( 6, 3) i przekonajmy się, czy poprawka rzędu 0,5 pomoże nam uzyskać lepsze przybliżenie szukanego prawdopodobieństwa. Pamiętaj, że dzięki dokładnem u jego wyliczeniu dla rozkładu dwumianowego uzyskaliśmy wartość 0,387. Zobaczmy, jak dokładne przybliżenie uzyskamy tym razem. Aby znaleźć P(X < 5,5) dla X ~ N ( 6, 3), musimy wyznaczyć standaryzowaną wartość x = 5,5: z - x ~^ o Porównaj obie ^ r t o ś c i . P ra w ie s ię n ie różnią, w ie c w ydaje się , że poprawka na c ią g a ć zrob ita sw oje.
_ 5,5 - 6 = “V T
"
= -0,29 (z dokładnością do dwóch miejsc po przecinku) Z tablicy rozkładu normalnego odczytujemy, że P (Z < —0,29) wynosi 0,3859. Innymi słowy: P (X < 5 ,5 ) = 0,3859
Tym razem uzyskaliśmy więc wartość dużo bliższą tej, jaką wyznaczyliśmy dla rozkładu dwumianowego. W tedy obliczone prawdopodobieństwo było równe 0,387, a zatem tym razem przybliżenie rozkładu dwumianowego rozkładem normalnym okazało się dużo lepsze.
CELNE SPOSTRZEŻENIA
Pod pew nym i warunkam i m ożem y
A by przybliżenie to było
w ykorzystać rozkład norm alny
wystarczająco dokładne, pow inniśm y
jako aproksymację rozkładu
zastosować popraw kę na ciągłość.
dw u m ian o w eg o . Jeśli
X - B(n, p ),
n p > 5 i n q > 5 , to rozkład zmiennej pokryw a się m niej więcej z rozkładem N(np, npq).
434
Arcyfrajerzy
X
P co {^ ra \w lc a \ r%a\ c is ^ gjo lośsóc z M i s k a\ Kiedy przybliżamy rozkład dwumianowy rozkładem normalnym, musimy pam iętać o zastosowaniu poprawki na ciągłość o odpowiedniej wielkości. Jak miałeś się okazję przekonać, mechaniczne przechodzenie z rozkładu dyskretnego na rozkład ciągły może powodować, że wyznaczone przybliżenie będzie się istotnie różnić od rzeczywistej wartości prawdopodobieństwa. Może to spowodować podjęcie błędnej decyzji, bo opartej na błędnej informacji. Przyjrzyjmy się zatem z bliska różnym rodzajom poprawek, które należy stosować do prawdopodobieństw zdarzeń różnego typu.
Znajdujemy prawdopodobieństwa zdarzeń typu „<"
wyznaczyć
/
p (X < 3 ,5 ).
Gdy obliczasz prawdopodobieństwa w rodzaju P (X < a), musisz zadbać przede wszystkim o to, by uwzględnić w obliczeniach dyskretną wartość a. N a skali ciągłej wartość tę powinieneś zastąpić przez a + 0,5. Oznacza to, że jeśli chcesz wykorzystać rozkład normalny do przybliżenia prawdopodobieństwa P (X < a) dla dyskretnej zmiennej X, powinieneś je obliczać dla P (X < a + 0,5), by otrzymać dostatecznie wysokie przybliżenie. 1
2
3 ^ 4
5
3,5
Tym
Znajdujemy prawdopodobieństwa zdarzeń typu „>" Gdy obliczasz prawdopodobieństwa w rodzaju P(X > b), musisz mieć pewność, że uwzględnisz w obliczeniach dyskretną wartość b. D latego przechodząc na rozkład ciągły, powinieneś ją zastąpić przez b -0,5 . Innymi słowy, P(X > b) przybliżasz za pom ocą P(X > b -0 ,5 ) dla rozkładu ciągłego.
Znajdujemy prawdopodobieństwa zdarzeń przedziałowych W przypadku prawdopodobieństw typu P (a < X < b) musimy być pewni, że uwzględnimy w obliczeniach zarówno a, jak i b. D latego musimy poszerzyć przedział zmienności X o 0,5 z obu stron. Tego rodzaju prawdopodobieństwo przybliżymy więc rozkładem normalnym, licząc P (a -0 ,5 < X < b + 0,5). Jest to prosta kombinacja obu powyższych podejść. 1
T2
1,5
3 ^ 4 3 ,5
jesteś tutaj >
435
iNie.istnieia,
głupie pytania ^ : Czy przybliżanie rozkładu dwumianowego rozkładem normalnym naprawdę oszczędza nasz czas?
Co z poprawką na ciągłość dla zdarzeń typu „<” ? Czy powinna ona być równa tej dla zdarzeń „>” i „<” ?
^ : Rozkład dwumianowy mogę przybliżyć zarówno rozkładem Poissona, jak i normalnym. Który z nich powinienem stosować?
0 : Może nam to zaoszczędzić sporo czasu. Obliczanie prawdopodobieństw
0 : Nie, jest między nimi pewna różnica.
0 : Wszystko zależy od okoliczności. Jeśli
dla rozkładu dwumianowego jest dość
Wszystko zależy od tego, którą wartość
X - B(n, p), możesz go aproksymować
czasochłonne, ponieważ najczęściej
chcesz uwzględnić w obliczeniach, a której
rozkładem normalnym, jeśli np > 5 i nq > 5.
wym aga powtarzania tych samych
nie.
czynności dla różnych wartości zmiennej losowej. Nie ma prostego sposobu wyznaczania prawdopodobieństwa w rozkładzie dwum ianowym dla zbioru różnych wartości.
Rozkład Poissona najlepiej przybliża rozkład
Jeśli stosujesz nierówności nieostre („> " i „< "), musisz się upewnić, że wartości, do których je przyrównujesz, uwzględnisz w obliczeniach na skali ciągłej. Jeśli na przykład chcesz oszacować P(X< 10),
Aproksymacja rozkładu dwumianowego
musisz się upewnić, że nie pominiesz
rozkładem normalnym jest
w obliczeniach wartości 10. Dlatego
znacznie prostsza. Poszukiwane
gdy chcesz je przybliżyć rozkładem
prawdopodobieństwo można odczytać
ciągłym, powinieneś wyznaczyć P(X<10,5).
z tablicy, na dodatek tylko raz — możemy od razu objąć większy zbiór wartości zmiennej losowej.
^ : Ale czy uzyskamy dostatecznie dokładny wynik?
dwumianowy, gdy n > 50, a p < 0,1.
Gdy stosujesz nierówności ostre („> “ i
musisz się upewnić, że
pominiesz w obliczeniach wartości, do których przyrównujesz zmienną losową. Oznacza to, że przybliżając P(X<10) za pomocą rozkładu ciągłego, powinieneś
0 : Tak, dla większości zastosowań
liczyć P (X < 9 ,5 ), ta k by wyłączyć z obliczeń
uzyskiwana dokładność jest wystarczająca.
wartość 10.
Musisz tylko pamiętać o stosowaniu poprawki na ciągłość. Jeśli o tym zapomnisz, uzyskasz mniej dokładne przybliżenie.
Pamiętaj, by stosować poprawkę na ciągłość zawsze wtedy, gdy aproksymujesz rozkład dwumianowy rozkładem normalnym.
436
Arcyfrajerzy
Łamigłówka Korzystając z elem entów znajdujących się w basenie, uzupełnij luki w poniższych przykładach, tak aby po prawej stronie strzałki uzyskać poprawną nierówność pow stałą przez zastosowanie popraw ki na ciągłość przy liczeniu p ra w dopodobieństw zdarzeń zapisanych po jej lewej stronie. Ten sam elem ent możesz w ykorzystać więcej niż jeden raz, a niektórych elem entów nie wykorzystyw ać w ogóle.
X <3
X =0
X >3
3 < X < 10
X<3
3 < X < 10
X>3
X >0
3 < X < 10
3 < X < 10
Uwaga: każdy element może być użyty więcej niż jeden raz!
jesteś tutaj ► 437
Łamigłówka: Rozwiązanie Korzystając z elem entów znajdujących się w basenie, uzupełnij luki w poniższych przykładach, tak aby po prawej stronie strzałki uzyskać poprawną nierówność powstałą przez zastosowanie popraw ki na ciągłość przy liczeniu
W szystkie liczby od - 0 ,5 do 0 ,5 dają w zaokrągleniu U, dlatego bodziem y szukać P(-0,5< x< 0,5).
praw dopodobieństw zdarzeń zapisanych po jej lewej stronie. Ten sam elem ent możesz wykorzystać więcej niż jeden raz, a niektórych elem entów nie wykorzystyw ać w ogóle. Chcemy znaleźć P(X<3). Ponieważ w ytyczam y liczbą 3, bądziemy je X < 2,5 przybliżać przez X < 3 P(X<2,5).
X >3
I
I
X < 3 -►
X >
3,5
X < 3,5
X =0
3 < X < 10
3 < X < 10 ^
- 0,5 < X <
0,5
2,5 < X < 10,5
3,5 < X
< 10,5
zn<*ieźć P (X < 3 ). P o n ie w a ż u w zg lę d n ia m y
X > 3 -►
X > 2,5
3 3 < X < 10 - ►
Uwaga: każdy element
438
Arcyfrajerzy
2,5 < X < 9,5
w>0 X>0 ^
3 < X < 10
X > 0,5 ---------------------------3,5 <
X < 9,5
jesteś tutaj ► 439
Ćwiczenie . . Rozwiązanie
Jakie są Twoje szanse na przejście do kolejnej rundy w dzisiejszym wydaniu Arcyfrajerów? Spróbuj oszacować prawdopodobieństwo udzielenia co najmniej 30 poprawnych odpowiedzi na 40 pytań przy założeniu, że każdemu z nich towarzyszą 4 warianty odpowiedzi, z których jeden jest prawidłowy.
Jeśli przez X oznaczymy liczbą poprawnych odpowiedzi, możemy zapisać naszą niewiadomą jako P (X>30), gdzie X - 8 (4 0 ; 0,25). Ponieważ zarówno np, jak i ną je s t w iększe od 5, możemy wyznaczyć przybliżoną wartość prawdopodobieństwa, korzystając z rozktadu normalnego. Znajdziem y więc P(X>29,5), gdzie X ~ N(10, 30 ), poniew aż np = 10, npą = 3 0 . Zaczniem y od wyznaczenia standaryzowanego odpowiednika x = 29,5.
x - u z = --------= O
_29,5_^_I0__ ~ 30 “ = 19,5 “ 30 “ = 0,65
Z tablicy rozktadu normalnego odczytujem y prawdopodobieństwo dla z = 0,65. Wynosi ono 0,7422, co oznacza, że: P(X > 29,5) = 1 - 0,7422 = = 0,2578
440
Arcyfrajerzy
No c ó ł, sŁkoda, ¿ e j u i nas ¿eg n a sŁ. Było nam miło gościć się w nastym studiu, ale właśnie ottŁymaliśmy pilny e-mai człowieka o imieniu D e x te r...
od
» Zaostrz ołówek ^
x Rozwiązanie
Oto pięć pierwszych pytań z bieżącej rundy teleturnieju. Wszystkie dotyczą osoby gospodarza programu. 1. Jaki jest jego ulubiony film?
a
v j A: Dzień Szakala
G
C: Lawrence z Arabii
B: Włoska robota D: Wszyscy ludzie prezydenta
2. Jaki jest ulubiony film jego kota? A: Rybka zwana Wandą
B: Klątwa królika
< a C: Polowanie na mysz
D: Ptaszek na uwięzi
3. Ile przeciętnie wydaje co miesiąc na zakup garniturów?
a a
A: 1000 dolarów C: 3000 dolarów
B: 2000 dolarów
â
D: 4000 dolarów
4. Jak często chodzi do fryzjera? : raz w miesiącu C: trzy razy w miesiącu
si
B: dwa razy w miesiącu D: cztery razy w miesiącu
5. Jaka jest jego ulubiona strona internetowa? : www.fatdanscasino.com
B: www.gregs-list.net
J
: www.you-cube.net
D: www.starbuzzcoffee.com
J
jesteś tutaj ► 441
Wywiad z Rozkładem Normalnym
Cała prawda o rozkładzie normalnym W yw iad tygodnia:
Dlaczego bycie normalnym to wcale nie taki głupi pomysł Head First: Witaj, Normalny, cieszę się, że zechciałeś nas odwiedzić. Rozkład Normalny: To ja dziękuję za zaproszenie, Head First. Head First: Zacznę od pytania, które nurtuje mnie od dłuższego już czasu. Dlaczego właściwie nazywasz się Rozkładem Normalnym? Rozkład Normalny: Dlatego, że ta nazwa dobrze odzwierciedla moją podstawową zaletę: dobrze nadaję się do opisu większości zbiorów danych. Bardzo często mają one rozkład, który charakteryzuje się specyficznym kształtem: jest gładki, ciągły i przypomina dzwon. Tak właśnie wyglądam ja. Jestem postrzegany jako rozkład idealny. Head First: Możesz wyjaśnić to na przykładzie? Rozkład Normalny: Pewnie. Wyobraź sobie, że prowadzisz sklep, w którym sprzedajesz bochenki chleba. Każdy z tych bochenków powinien mieć — przynajmniejw teorii — tę samą wagę. W praktyce jednak rzeczywista waga każdego bochenka nieco różni się od tejwagi wzorcowej. Head First: Ale nadal zakładamy, że wszystkie ważą mniej więcejtyle samo? Rozkład Normalny: Tak jakby — ważą mniejwięcejtyle samo, ale jednak występują między nimi pewne różnice. Ja potrafię opisać te właśnie różnice. Head First: Ale dlaczego to jest takie ważne? Rozkład Normalny: Dzięki mnie możesz łatwo obliczać różne prawdopodobieństwa. Na przykład tego, że losowo wybrany bochenek chleba będzie miał wagę mniejszą od ustalonejprzez Ciebie. Zauważ, że bez mojejpomocy byłoby to zadanie bardzo karkołomne.
Przy rozkładzie dwumianowym musisz liczyć silnie, a przy rozkładzie Poissona musisz posługiwać się funkcją wykładniczą. Jeśli chodzi o mnie, wszystko staje się dużo prostsze. Wystarczy zajrzeć do tablicy z gotowymi wartościami i jesteś w domu. Head First: Chyba troszkę przesadzasz. To nie może być aż tak proste. Rozkład Normalny: Cóż, rzeczywiście musisz wpierw dokonać standaryzaqi swojego rozkładu, ale nie jest to nic skomplikowanego. Head First: A zatem powiedz szczerze, czy uważasz się za lepszego od innych? Rozkład Normalny: Nie powiedziałbym, że jestem lepszy z założenia, choć faktycznie jestem dość elastyczny i sprawdzam się w wielu sytuacjach. Jestem też bardziej odporny. Kiedy w twoich obliczeniach pojawiają się duże liczby, rozkład dwumianowy czy Poissona zaczną sprawiać ci problemy. Wtedy ja mogę przyjść ci z pomocą. Head First: Tak, a w jaki sposób? Rozkład Normalny: W pewnych okolicznościach oba te rozkłady przypominają swoim kształtem mnie. To niesamowite — ludzie często zatrzymują ich na ulicy, biorąc za mnie. Powiedziałem im, by traktowali to jako komplement... Head First: No dobrze, ale w czym to może nam pomóc? Rozkład Normalny: Już wyjaśniam. Ponieważ do złudzenia wyglądają tak jak ja, możesz posłużyć się tablicami, które przygotowano specjalnie dla mnie, by przybliżyć ich wartości. Co będziesz z tego miał? Mniej nieprzespanych nocy spędzonych z kalkulatorem w ręku. Możesz przekonać się sam.
Head First: Łatwo? Co masz przez to na myśli?
Head First: Obawiam się, że dziś nie wystarczy nam już czasu. Rozkładzie Normalny, dziękuję za wizytę w studiu. Miło mi było cię gościć.
Rozkład Normalny: W przypadku wielu innych rozkładów prawdopodobieństwa podobne obliczenia wymagają sporo zasobów czasu i wysiłku.
Rozkład Normalny: Cała przyjemność po mojejstronie, Head First.
442
Rozdział 9.
Poznajemy rozkład normalny (cd.)
Wszyscy na pokład! Czy pam iętasz jeszcze, na czym polegał pomysł D extera? Teraz postanowił sprawdzić go w praktyce, oferując jazdy próbne. Każdy, kto z nich skorzystał, twierdził, ze to strzał w dziesiątkę. Pojawił się tylko jeden problem : czasami wagoniki kolejki ulegały awarii, co powodowało opóźnienia. A, jak wiadomo, czas to pieniądz. D exter znalazł w internecie statystyki dotyczące awaryjności modelu wagonika, z którego korzystał. Okazało się, ze zbudowane z nich kolejki ulegają awarii przeciętnie 40 razy do roku. 4 0 r a ty do roku? Jeśli taka awaria ujawni się w czasie p rzejazd u nowożeńców, zażądają wysokiego odszkodowania!
Biorąc po uwagę potencjalne zyski, jakie może przynieść realizacja planów Dextera, uważa on, że mimo wszystko w arto się jej podjąć, jeśli prawdopodobieństwo tego, że w ciągu roku nie pojawią się więcej niż 52 awarie, będzie wysokie. Jak możemy odpowiedzieć na pytanie Dextera?
jesteś tutaj ► 443
Zaostrz ołówek: Rozwiązanie
C(r Zaostrz ołówek _____________________________________________________ Rozwiązanie
Jakim rozkładem prawdopodobieństwa powinniśmy się posłużyć, chcąc udzielić odpowiedzi na pytanie Dextera? Jak oszacowałbyś prawdopodobieństwo tego, że wagoniki ulegną awarii nie więcej niż 52 razy w roku?
Spotkaliśm y s ię ju ż z przypadkiem awaryjności urządzenia. Stosow aliśm y w tedy rozktad Poissona z parametrem równym przeciętnej liczbie awarii w jednostce cza su . Jeśli więc przez X oznaczymy liczbę awarii kolejki w ciągu roku, to X ~ Po(40). M usim y znaleźć P(X<52). A le gdybyśmy chcieli zastosow ać rozktad Poissona, m usielibyśm y wyznaczyć prawdopodobieństwo dla każdego x aż do 51.
O bliczanie tych prawdopodobieństw wydaje się dość czasoi pracochłonne. Zastanawiam się, czy is tn ie je droga na skróty, tak jak dla rozkłada dwumianowego.
Pod pewnymi warunkami rozkład Poissona przypomina kształtem rozkład normalny. G d y b y u d a ło się je spełnić, także i tym ra ze m m o g lib y ś m y w yk o rz ysta ć w a rto śc i p ra w d o p o d o b ie ń s tw p o d a n e w tablicach ro z k ła d u n o rm a ln e g o . N ie m u sie lib y śm y w ię c w y k o n y w a ć tych w szystk ich sk o m p lik o w a n y c h ob liczeń , b y zn ale źć s z u k a n e p ra w d o p o d o b ie ń stw o . A p ro k s y m a c ja ro z k ła d u P o is s o n a ro z k ła d e m n o rm a ln y m n ie ró ż n i się istotnie o d a p ro k sym a c ji ro z k ła d u d w u m ia n o w e g o . G d y u d a się potw ierd zić, że s p e łn io n e są w a ru n k i, p rz y k tó ry c h takie p rz yb liż e n ie będ zie u z a sa d n io n e , b ę d z ie m y m o g li p o słu ż y ć się ro z k ła d e m n o rm a ln y m , k tó re g o p a ra m e try b ę d ą ró w n e w a rto śc i oczekiw anej i w a ria n cji ro z k ła d u P o isso n a . Jeśli X ~ P o (X ), to o d p o w ia d a m u ro z k ła d n o rm a ln y N ( X , X). A l e k ie d y jest to p ra w d ą ? W s z y s t k o za le ży o d k szta łtu ro zk ła d u .
444
Rozdział 9.
Poznajemy rozkład normalny (cd.)
Kiedy można aproksymować rozkład Poissona rozkładem normalnym W ie m y już, ze ro z k ła d P o is s o n a m o ż e m y a p ro k sy m o w a ć ro z k ła d e m n o rm a ln y m w tedy, g d y kszta łty o b u ro z k ła d ó w są d o siebie zbliżon e. A l e k ie d y m a to m ie jsc e ? P rz e k o n a jm y się.
Kiedy X jest mała...
Rozktad
możemy
/ ' skOŚnyroksymo*ać \ t fo /k & ” ****«*’
K ie d y X jest m ała, w y k re s ro z k ła d u P o is s o n a n ie p rz y p o m in a krzyw ej d zw onow ej. R o z k ła d P o is s o n a jest w ted y n ie sym e trycz n y — w y g lą d a tak, ja k b y co ś „ sp y c h a ło ” g o w lew ą stronę. P o n ie w a ż ro z k ła d n o rm a ln y n ie p rz y p o m in a w ża d e n s p o só b ro z k ła d u P o is s o n a sw o im kształtem , n ie m o ż e słu żyć ja k o je go p rzyb liżenie , k ie d y X jest m ała.
Kiedy X jest duża...
Ten j° k w y 9 '^ , normowy’
K ie d y X ro śn ie , kształt ro z k ła d u P o is s o n a za czyn a c o ra z bardziej
dlotego ^ f t y m
p rz y p o m in a ć ro z k ła d n o rm a ln y. J e g o w y k re s za czyn a b yć sym etryczn y i staje się bardziej gła dki, ta k że c o ra z bardziej p rz y p o m in a k rzy w ą dzw onow ą. M o ż n a w ię c p ow ie d zieć, że d la d u żych w a rto śc i X ro z k ła d n o rm a ln y m o ż e słu żyć ja k o p rz y b liż e n ie ro z k ła d u P o isso n a .
< ^ rff
Kiedy „dużewjest wystarczająco duże? W ie m y już, że ro z k ła d P o is s o n a zb liża się d o n o rm a ln e g o , g d y X jest w ystarczająco duża. A l e ja k d u ż a p o w in n a o n a być, b y u z y sk a n e p rz yb liż e n ie b yło w ysta rcza ją ce? W p ra k tyce ok a z u je się, że tak a a p ro k sy m a c ja jest u z a sa d n io n a , g d y X jest w ię k sz a o d 15. O z n a c z a to, że jeśli X > 15, to z m ie n n ą X ~ P o ( X ) m o ż e m y p rz yb liż yć ro z k ła d e m N ( X , X).
Podstawowe terminy Aproksymacja rozktadu Poissona J e ś li X ~ Po(X) i X > 1 5 , m o ż e m y p r z y b liż y ć ro z k ła d P o is so n a ro z k ła d e m N(X, X).
jesteś tutaj y
445
Ćwiczenie
Ćwiczenie
Liczba awarii kolejki, z której chce korzystać Dexter, podlega rozkładowi Poissona z parametrem A = 40. Jakie jest prawdopodobieństwo tego, że liczba awarii kolejki w ciągu roku nie przekroczy 52?
e
n Wskazówka: w ykorzystaj
aproksymację rozkładem normalnym, pam iętając o poprawce na ciągłość.
446
Rozdział 9.
Poznajemy rozkład normalny (cd.)
Ćwiczenie
Nadszedł czas na sprawdzenie stopnia opanowania zdobytej wiedzy. Uzupełnij poniższą tabelkę, podając informację o parametrach rozkładu normalnego, który można wykorzystać w każdej z podanych sytuacji, oraz o warunkach, przy których jest to możliwe.
O p is s y tu a c j i
R o z k ła d n o r m a ln y
W a ru n k i s to s o w a n ia
X + Y
X + Y ~ N(^x + My, ^
+ ^ 2y)
X, Y są niezależne
X ~ N ( p x, ct2x), Y ~ (My, a 2y)
X - Y X ~ N(M x, a 2x), Y ~ (My, o 2y)
aX + b X ~ N ( m,
o
2)
X 1 + X 2 + ■■ + X n X i ~ N (m , o 2)
A p ro k s y m a c ja X ro z k ła d e m n o rm a ln y m X ~ B (n , p)
A p ro k s y m a c ja X ro z k ła d e m n o rm a ln y m X ~ P o (A )
jesteś tutaj ► 447
Ćwiczenie: tozwiqzanie
Ćwiczenie Rozwiązanie
Liczba awarii kolejki, z której chce korzystać Dexter, podlega rozkładowi Poissona z parametrem A = 40. Jakie jest prawdopodobieństwo tego, że liczba awarii kolejki w ciągu roku nie przekroczy 52?
Jeśli przez X oznaczymy liczbą awarii kolejki w ciągu roku, to X ~ Po(40).
Ponieważ X je s t dość duża, możemy przybliżyć rozktad Poissona rozkładem normalnym. M ożemy więc zapisać: X ~ N(40, 40). S zukam y P(X<52). Ponieważ aproksymujemy rozkład dyskretny rozkładem ciągłym, m usim y zastosow ać poprawką na ciągłość. W yłączamy ze zbioru realizacji zm iennej X wartość 52, więc w tablicach rozkładu normalnego będziem y szukali P(X<51,5).
Zanim sięgniem y do tablic rozkładu normalnego, m usim y dokonać standaryzacji zm iennej X.
x - u
z = -----------= o
40 6,32 ~
51,5 -
~
= 1,82 (z dokładnością do dwóch m iejsc po przecinku)
Po odszukaniu tej w a rto ś c i w tablicy odczytujem y prawdopodobieństwo równe 0,9656. A zatem sza n se na to, że w ciągu roku kolejka odmówi p o słu sze ństw a mniej niż 52 razy, w ynoszą prawie 97%.
448
Rozdział 9.
Poznajemy rozkład normalny (cd.)
„Ćwiczenie . .
Nadszedł czas na sprawdzenie stopnia opanowania zdobytej wiedzy. Uzupełnij poniższą tabelkę, podając informację o parametrach rozkładu normalnego, który można wykorzystać w każdej z podanych sytuacji, oraz o warunkach, przy których jest to możliwe.
R o zw iązan ie O p is s y tu a c j i
R o z k ła d n o r m a ln y
W a ru n k i s to s o w a n ia
X + Y ~ N(px + py, o2x + o2y)
X, Y są niezależne
X -
X,
X + Y X ~ N ( p x, ct 2x), Y ~ (My, a 2y)
X - Y
Y ~
N(ux - uy, a 2x + o y
Y
są niezależne
X ~ N(M x, a 2x), Y ~ (My, o 2y)
aX + b
aX + b ~ N(au + b, a2a2)
a, b są wartościami stałymi
X, + X2 + ... + X„ - N(nu, na2)
X,, X2, ..., X n są zmiennymi niezależnymi o rozkładzie takim,
X ~ N (m , o 2)
X1 + X2 +
■■ + X n
jak X
X i ~ N (m , o 2)
A p ro k s y m a c ja X ro z k ła d e m n o rm a ln y m
X - N(np, npq)
np > 5 , npą > 5 Należy wziąć poprawkę na ciągłość
X ~ B (n , p )
A p ro k s y m a c ja X ro z k ła d e m n o r m a ln y m
X >15
X - N(X, X)
Należy wziąć poprawkę na ciągłość
X ~ P o (A )
jesteś tutaj ► 449
Nie istniejq głupie pytania
CELNE SPOSTRZEŻENIA
Pod pew nym i w arunkam i rozkład
Przybliżając rozkład Poissona
Poissona m ożna aproksym ować
rozkładem norm alnym , należy wziąć
rozkładem norm alnym . Jeśli X - Po(X) i X >15, rozkład X
popraw kę na ciągłość, by uzyskać w iarygodne wyniki.
m ożna przybliżyć rozkładem N (X ,X ).
^ : No dobrze, rozkład dwumianowy i rozkład Poissona możemy przybliżyć rozkładem normalnym. A co z rozkładem geometrycznym?
^ : Czy muszę brać poprawkę na ciągłość, gdy aproksymuję rozkład Poissona rozkładem normalnym?
^ : Co zyskuję dzięki stosowaniu tego rodzaju przybliżenia? Czy nie dostałbym bardziej dokładnych wyników, gdybym nie szedł na skróty?
0 : Tak, ponieważ rozkład dyskretny 0 : Rozkład dw um ianowy I rozkład
aproksymujesz rozkładem ciągłym. Musisz
0 : Oczywiście, gdybyś liczył
Poissona możemy przybliżać rozkładem
więc wziąć poprawkę na ciągłość, jak
prawdopodobieństwa według
normalnym, ponieważ pod pewnymi
zwykle w tego rodzaju przypadkach.
rzeczywistego rozkładu, uzyskałbyś
warunkami zaczynają one przypominać
Tak samo, jak na przykład przy rozkładzie
dokładniejsze wyniki, ale zajęłoby Cl
ten rozkład swoim kształtem.
dwumianowym .
to znacznie więcej czasu. Musiałbyś
Tymczasem rozkład geometryczny nigdy
bowiem wyznaczać oddzielnie
nie przypomina rozkładu normalnego,
prawdopodobieństwa dla każdej
bez względu na dobór parametru, który go
pojedynczej realizacji zmiennej losowej,
definiuje. Dlatego nie możemy go przybliżać
która Clę Interesuje. Problem ten nie
rozkładem normalnym.
dotyczy rozkładu normalnego, ponieważ Interesujące Clę prawdopodobieństwa zostały już stabllcowane.
Bierz poprawkę na ciadłosć z awsze wtedy, gdy przybliżasz rozkład Poissona rozkładem normalnym.
450
Rozdział 9.
Poznajemy rozkład normalny (cd.)
Olbrzymi sukces! Dzięki Twoim sprytnym analizom D exter mógł wcielić swój pomysł w życie. Mało tego, zainteresowanie Kolejką Miłości przerosło najśmielsze oczekiwania Dextera! O to zdjęcia niektórych jego klientów.
jesteś tutaj ► 451
452
Rozdział 9.
10. Przeprowadzamy losowanie
^
Pobieramy próbkę
Statystyka zajmuje się analizę danych, ale skqd właściwie bierze dane? Czasami zebranie danych potrzebnych do analiz nie jest wcale trudne. Tak było wtedy, gdy potrzebow aliśm y Inform acji o przeciętnym wieku klientów klubu od n ow y czy też danych o wielkości sprzedaży gier kom puterow ych. Ale co w sytuacji, gdy potrzebne nam dane nie są ogólnie dostępne I trzeba je w jakiś sposób zdobyć? Czasami Ilość różnych Inform acji, jakie są nam potrzebne, jest na tyle duża, że nie w iem y naw et, jak się do Ich grom adzenia zabrać. Od czego zacząć? W tym rozdziale dowiesz się, jak grom adzić rzeczyw iste dane w sposób e fe k ty w n y , odpow iedni do potrzeb I m ożliwie jak najniższym kosztem. W ita m y w świecle losowań!
to jest nowy rozdział ► 453
Mighty Gumball ma dylemat
Wielki te st produktów Mighty Gumball Mighty Gumball jest wiodącym dostawcą różnego rodzaju słodyczy. Flagowym produktem firmy jest guma do żucia o bardzo długo utrzymującym się smaku. Jest wytwarzana w wielu kolorach, by sprostać zróżnicowanym gustom klientów. Firm a planuje ekspansję na kolejne rynki i zdobycie nowych grup klientów. M a jej w tym pomóc telewizyjna kam pania reklamowa, która m a podkreślać długotrwały smak produkowanych przez nią gum do żucia. Dział m arketingu firmy m a jednak problem z doborem odpowiednich danych na potrzeby tej kampanii. Firm a postanowiła bowiem przeprowadzić serię testów, które mogłyby potwierdzić jakość wytwarzanej przez nią gumy do żucia. N a potrzeby testów wynajęła nawet profesjonalnych testerów. Jednak m a z nimi pewien kłopot. Nie dość, że w związku w wypełnianiem swoich obowiązków zużywają zbyt dużo gum do żucia przeznaczonych do sprzedaży, to jeszcze opieka dentystyczna, jaką trzeba im zapewnić, kosztuje firmę prawdziwą fortunę.
Przeprowadzamy losowanie
Eirma traci z powodu zużywanych gum Główny problem z testeram i polega na tym, ze bezpowrotnie niszczą oni produkty, które są poddaw ane testom. Przeżuwają do końca testowane gumy, po czym wyrzucają je do kosza. Jest to źródłem ich problem ów z zębami, ale i wymiernych strat dla firmy — coraz mniej i mniej gum trafia do sprzedaży. Bo przecież raz przeżutej gumy nie da się ponownie opakować i sprzedać jako nowej. Celem testów jest odpowiedź na pytanie, przez jak długi czas gumy firmy Mighty Gumball zachowują smak. Czy jednak musi to koniecznie oznaczać, że testerzy powinni brać do testów każdą sztukę produktu firmy?
WYSIL SZARE KOMÓRKI W jaki sposób przeprowadziłbyś testy mające pom óc oszacować, jak długo smak gum y pozostaje wyczuwalny? Na co musiałbyś zwrócić uwagę? O dpow iedz, podając m ożliwie najwięcej szczegółów.
Populacja v< próba
Przeprowadzamy testy na próbce, nie na całej populacji Problemy firmy Mighty Gumball wynikają stąd, ze procedurze testowania poddaw ana jest każda sztuka produktu. Innymi słowy, każda guma, która schodzi z taśmy produkcyjnej, jest testowana pod kątem jej smaku. Kosztuje to mnóstwo czasu i pieniędzy, niszczy bezpowrotnie zęby testerów, a na dodatek ogranicza praktycznie do zera wielkość produkcji, która trafia do sprzedaży. W jaki więc sposób firma mogłaby zmienić swoje procedury testowe, by pozbyć się nękających ją problemów? Zacznijmy od zdefiniowania dwóch pojęć: populacji oraz próby i określenia różnic między nimi.
'SS5-
Populacja gum do żucia Aż do tej pory Mighty Gumball poddaw ała testom każdą nowo wytworzoną sztukę swojego flagowego wyrobu. Statystycy powiedzieliby, że testy przeprowadzano na całej populacji gum do żucia. T erm inem populacja (generalna) określa się w statystyce zbiór wszystkich obiektów, które chcemy zmierzyć, zbadać czy w inny sposób poddać analizie. Może to być zbiór całkowicie dowolnych obiektów — równie dobrze możemy mówić o populacji ludzi, jak i gum do żucia. W ażne jest to, że to pojęcie odnosi się do pełnego zbioru obiektów danego typu. Badanie statystyczne, które obejmuje wszystkie jednostki danej populacji, nazywamy badaniem wyczerpującym. Mighty Gumball, poddając testom każdą sztukę nowo wytworzonego produktu, prowadziło właśnie tego rodzaju badania. Choć pozwalają one pozyskać pełną informację o badanej populacji, nie sprawdzają się najlepiej w praktyce, jeśli w ogóle są wykonalne. Gdy populacja jest szczególnie duża (może być nawet nieograniczona), trudno jest objąć badaniem każdą należącą do niej jednostkę.
Próbka gum do żucia Domyślasz się zapewne, że wcale nie trzeba testować każdej nowo wytworzonej gumy do żucia, by dowiedzieć się, na ile trwały będzie jej smak. Zam iast przeprowadzać testy na pełnej populacji, można je wykonać na odpowiednio dobranej próbce. T erm inem próba (statystyczna) albo próbka określa się pewien zbiór obiektów wybranych z populacji. D oboru jednostek do próby dokonuje się w ten sposób, by była ona reprezentatyw na dla populacji, z której ją wylosowano. W przypadku Mighty Gumball próbka obejmowałaby więc tylko niewielki zbiór gum do żucia, a nie całą produkcję firmy. Badania, które przeprowadza się na próbach losowych, nazywa się badaniami częściowymi (niewyczerpującymi). Zdecydowana większość badań przeprowadzanych w praktyce to badania tego typu. Są one bowiem zwykle mniej czasochłonne i tańsze niż badania odnoszące się do pełnej populacji. M ają też tę istotną zaletę, że nie powodują zniszczenia całej badanej populacji — po przeprow adzeniu testów na próbce gum do żucia Mighty Gumball nadal będzie miało co sprzedawać swoim klientom.
Próba" je s t podzbiorem
w ytw orzonych gum .
Jak więc wybrać próbę tak, by była reprezentatyw na dla badanej populacji? Zobaczmy, jak to działa.
456
Rozdział 10.
Przeprowadzamy losowanie
Jak przebiega dobór próby Najważniejsza przy doborze próby jest dbałość o to, by była ona reprezentatyw na dla populacji, z której ją wylosowano. Przez próbę reprezentatyw ną rozumiemy próbę, która posiada charakterystyki zbliżone do charakterystyk badanej populacji. Gdy spełnimy ten warunek, będziemy mogli posługiwać się próbą jako źródłem wiedzy o populacji, z której ją wylosowano. Wyobraźmy sobie na przykład, że pobraliśmy reprezentatyw ną próbkę gum do żucia z partii wytworzonej przez Mighty Gumball. N a jej podstawie chcielibyśmy ocenić, przez jak długi czas gumy te zachowują smak. Wykres czasu zachowania smaku mógłby wyglądać tak, jak na rysunku obok. CZAS Z d C ^O m W a SHidku W JtTÓbce >0 O 4*
Choć więc posłużyliśmy się jedynie niewielką próbką gum do żucia, to i tak byliśmy w stanie wykreślić kształt rozkładu cechy, która nas interesuje. Im większa byłaby próbka, tym większa byłaby dokładność oraz wiarygodność takiego wykresu. Możemy się nim posługiwać jako pewnym przybliżeniem rozkładu tej samej cechy w populacji, na przykład — oceniając, gdzie znajduje się centrum rozkładu w populacji, posługując się rozkładem z próby.
W
flp N O
W ię k s z o ś ć gwm
m n ie j
3 S 4 S -
trw a ło ś ć
Porównajmy zatem wykres rozkładu z próby z rozkładem dla całej populacji:
O to wykres tej samej cechy dla całej populacji. Czy widzisz, jak bardzo jest on podobny do wykresu z próby?
o *> o 4* W
Z porównania obu wykresów wynika dość znaczne podobieństwo rozkładów czasu trwania smaku w próbie i w populacji, z której ją pobrano. I to mimo tego, że wykres dla próby oparto na niewielkiej liczbie przebadanych gum do żucia, zaś wykres dla populacji — przy założeniu pełnej wiedzy o wszystkich wytworzonych gumach do żucia. Mają one wspólne charakterystyki, takie jak położenie centrum rozkładu, co oznacza, że wykres z próby można wykorzystać do wnioskowania o rozkładzie cechy w populacji.
flp N O
Czy chcecie powiedzieć, ż e próba, zawsze przypomina populację, z k tó re j pochodzi?
jesteś tutaj ► 457
Nie wszystkie próby sq wiarygodne
Kiedy próba n ie je s t reprezentatywna Byłoby wspaniale, gdyby każda próba zawsze przypominała populację, z której ją pobrano. Niestety, nie każda próba spełnia ten warunek. Z początku może Ci się to wydawać mało istotne, ale musisz wiedzieć, że opieranie wnioskowania na mało reprezentatywnej próbie może doprowadzić do wyciągnięcia nieprawdziwych wniosków o całej populacji. Wyobraź sobie na przykład, że pobrałeś próbkę gum do żucia, na podstawie której chciałbyś oszacować, jak długo nie tracą one smaku, ale z jakiegoś powodu ograniczyłeś się do gum w kolorze czerwonym. T ak dobrana próba może być reprezentatyw na dla gum w kolorze czerwonym, ale niekoniecznie dla całej populacji. Gdybyś wyniki uzyskane na podstawie tej próby próbował uogólnić na całą populację gum do żucia, doszedłbyś praw dopodobnie do całkowicie mylnych wniosków.
...m oże nie być reprezentatywna dla tej populacji.
Wnioskowanie o param etrach rozkładu populacji, takich jak wartość oczekiwana czy wariancja, na podstawie źle dobranej próby może być powodem znacznych błędów. Nieprawdziwy obraz populacji, jaki się stąd wyłoni, może być powodem podjęcia błędnych decyzji. Największy problem polega na tym, że z początku trudno jest ocenić, na ile wyniki naszych analiz przystają do rzeczywistego obrazu populacji. Może nam się wprost wydawać, że wszystko jest w porządku. D latego potrzebny jest nam taki sposób doboru próby, który da nam pewność, że stworzona za jego pom ocą próba jest wystarczająco reprezentatywna.
C h c e m y u z y s k a ć to :
A n ie to: P ró b a n ie re p re z e n ta ty w n a
P ró b a re p re z e n ta ty w n a o *> o 4*
Rozkład próby i rozktad populacji mają podobny k sz ta łt '
^
Populacja
W
— /
Próba
\
o *> o 4*
Rozktad próby -— i rozktad populacji y t » is to tn ie s ię ró żn ią /
^ — Populacja
W
N
N
O
l /
O
N
\ \ V *.
trw a ło ś ć
458
Rozdział 10.
trw a ło ś ć
Przeprowadzamy losowanie
Przypadek mniejszej od oczekiwań sprzedaży kawy M enedżer sieci kawiarni Starbuzz ma pomysł na sprzedaż w sieci swoich lokali całkiem nowego rodzaju kawy, jednak nie jest pewien, czy zyska on akceptację klientów. Poprosił więc pracownika odbywającego staż w firmie o zebranie opinii klientów o nowym produkcie. Odwiedzający sklepy Starbuzz mają otrzymywać próbkę nowego produktu wraz z prośbą o opinię na jego temat. ro ^ ie w ie lk ie j ta je m n ic y
Młody pracownik firmy był bardzo szczęśliwy, że powierzono mu tak odpowiedzialne zadanie. Wiązała się z tym zresztą prem ia, jaką m u obiecano na koniec miesiąca po dobrze wykonanej pracy. Poza tym była to praca całkiem przyjemna, ponieważ bardzo mili klienci firmy, których częstował kawą, mówili same dobre rzeczy o firmie i jej nowym produkcie. Co więcej, zadanie, które miał wykonać, stanowiło doskonały pretekst do nawiązania kontaktu z pewną dziewczyną, która dość często odwiedzała jedną z lokalnych kawiarni tej sieci. Po zakończeniu badania stażysta z wyrazem zachwytu na twarzy przekazał m enedżerowi wiadomość, że wszyscy goście lokalu zachwycali się nowym produktem i że jego wprowadzenie będzie strzałem w dziesiątkę. „To wspaniała wiadomość” — odpowiedział m enedżer — „zatem od następnego sezonu włączymy ten napój do stałej oferty”. Szybko jednak okazało się, że nowy produkt nie spotkał się z dużym zainteresowaniem klientów, co zmusiło m enedżera do wycofania go z oferty. Co, Twoim zdaniem, mogło być tego przyczyną?
Dlaczego sprzedaż nowego rodzaju kawy nie szla tak dobrze, ja k się na początku zapowiadało?
jesteś tutaj ► 459
Dobór próby
Jak dobrać próbę Ponieważ na podstawie próby wyciągasz wnioski na tem at całej populacji, musisz być pewien, że jest ona wystarczająco reprezentatywna. D latego jej dobór musisz przeprowadzać z głową. Powinieneś zacząć od zdobycia możliwie jak największej ilości informacji o badanej populacji.
Definiujemy populację generalną W pierwszej kolejności powinieneś zdefiniować populację generalną, z której będziesz dobierał elem enty do próby. Populację generalną tworzą wszystkie obiekty będące przedm iotem badania, o których chcesz się czegoś dowiedzieć. Wybór populacji do badań zależy w dużym stopniu od ich celu. N a przykład pracownicy Mighty Gumball będą musieli określić, czy chcą przebadać wszystkie gumy do żucia wyprodukowane w ich fabrykach, jedną szczególną m arkę gum do żucia, czy też jedną ich odmianę (np. gumy w kolorze czerwonym). Staraj się zachować możliwie jak największą dokładność, ponieważ w ten sposób zwiększysz swoje szanse na dobranie reprezentatywnej próby.
Definiujemyjednostki losowania Po zdefiniowaniu populacji generalnej musisz zdecydować, z jakich elementów będzie się składała próba, czyli określić tak zwane jednostki losowania. Najczęściej będą to te same elementy, które tworzą populację generalną. Jednostką losowania może być na przykład każda oddzielnie pakow ana guma lub też jakiś rodzaj jej opakowania, które widujesz na sklepowej półce. ednostką losowania może uć każda guma wytworzona , fabryce M ighty Gumball.
O 460
Rozdział 10.
G um a n r # 1 8 9 7 6 5 2 Gum a nr #1897653
Jzamy osowanie
G um a nr #1897654
Definiujemy operat losowania
G um a nr #1897655 N a koniec powinieneś przygotować listę wszystkich jednostek losowania, najlepiej podając ich nazwę lub num er kolejny. Będzie to tak zwany operat losowania. To właśnie na podstawie operatu losowania wybieramy w praktyce elem enty populacji do próby.
G um a nr # 18 97 65 6 G u m a nr # 1 8 9 7 6 5 7 Gum a nr #1897658
Niekiedy nie da się przygotować kompletnego operatu losowania. Gdybyś na przykład chciał przeprowadzić ankietę wśród mieszkańców pewnego miasta, trudno byłoby sporządzić aktualną listę z ich nazwiskami, ponieważ w międzyczasie część mieszkańców mogła zmienić miejsce zamieszkania. Z drugiej strony, przygotowanie operatu nie zawsze m a sens. Jeśli jednostkam i losowania są obiekty nieróżniące się między sobą (z wyjątkiem cechy, którą chcesz zbadać), to umieszczenie ich na jednej liście może się do niczego nie przydać.
Gum a nr #1897659 G um a nr #1897660 G um a nr #1897661 G um a nr #1897662 Gum a nr #1897663 Gum a nr #1897670
Z ,7
G um a nr #1897671 G u m a n r #189767 To mi wygląda na Łwykłą s tra tę ctasu. C ty mustę prŁygotowywać taką listę? Nie mogę po prostu wylosować kilku gum?
G u m a n r #189' G u m a n r #1 G u m a nr Gum a
Jeśli nie zadbasz o odpowiedni dobór próby, może ona nie być reprezentatywna. W ykonanie wszystkich tych czynności związanych z doborem próby może być dość czasochłonne, ale pozwoli Ci zaoszczędzić wiele czasu, pieniędzy i wysiłku, jakie przeznaczyłbyś na przeprowadzenie badań, które okazałyby się niewiele warte. Ich wyniki byłyby bowiem mylące, a decyzje podjęte na ich podstawie błędne. Źle dobrana próba może być obciążona. Zobaczmy, co to w praktyce oznacza.
jesteś tutaj ► 461
Gum
O bciqżeniew »robie
Czasami dostajemy próby obciążone Nie każda próba nadaje się do dalszych analiz. Jeśli nie będziesz przestrzegał pewnych reguł, możesz uzyskać próbę w ten czy inny sposób obciążoną. Obciążenie próby jest pewnym rodzajem niezamierzonego (choć czasami właśnie zamierzonego) uprzywilejowania pewnych elementów populacji, które miały większą szansę dostania się do próby niż obiekty pozostałe. Oznacza to, że próba taka nie była dobierana w sposób całkowicie losowy. Jeśli próba jest nieobciążona, jest reprezentatyw na dla danej populacji — jest jej wiernym odwzorowaniem.
P r ó b a n ie o b c ią żo n a Obie śred n ie s ą s o b ie równe.
u 'V> o 4* W
N
O
trw a ło ś ć
P ró b a obciążona
Próba nieobciążona Próba nieobciążona jest reprezentatywna dla danej populacji. Oznacza to, że ma podobne charakterystyki jak sama populacja i możemy ją wykorzystać w procesie wnioskowania o populacji. Kształt rozkładu badanej cechy w próbie jest podobny do kształtu jej rozkładu w populacji. Znając rozkład cechy w próbie, możemy się nim posłużyć do oszacowania kształtu rozkładu dla całej populacji generalnej, z pewną (rozsądną) dokładnością.
Próba obciążona Próba obciążona nie jest reprezentatywna dla populacji, z której pochodzi. Nie powinniśmy wnioskować na jej podstawie o charakterystykach populacji, ponieważ w istocie są one różne od swych odpowiedników w próbie. Gdybyśmy próbowali oszacować kształt rozkładu w populacji na podstawie rozkładu z próby, uzyskalibyśmy całkowicie różne wyniki.
462
Rozdział 10.
Przeprowadzamy losowanie
To nie brzmi d ob rze. Skąd mogę wiedzieć, czy dostałam p róbę obciążoną? Skąd się w ogóle b ie rz e obciążenie?
Źródła obciążenia próby W jaki sposób obciążenie może się dostać do próby? Z wielu różnych przyczyn: Niepełny operat losowania, to znaczy taki, który nie obejmował wszystkich elementów populacji generalnej. Jeśli czegoś nie ma na liście jednostek losowania, nie m a szans znaleźć się w próbie. Niewłaściwie dobrana jednostka losowania. Być może zamiast z pojedynczych egzemplarzy gumy do żucia operat powinien się składać z całych opakowań. Nieobecność elementów wylosowanych do próby w końcowej próbie. M oże się na przykład okazać, że na pytania z ankiety, którą rozesłałeś listownie, część respondentów nie udzieliła informacji zwrotnej. Źle dobrane pytania w kwestionariuszu. Pytania do kwestionariusza powinny być tak dobrane, by nie sugerowały wyboru żadnego z wariantów odpowiedzi. Przykładem źle sformułowanego pytania jest: „Czy zgadzasz się, że cukierki firmy Mighty Gumball są smaczniejsze od innych?”. Lepiej byłoby zapytać w prost o m arkę ulubionych cukierków ankietowanego. Nielosowy sposób doboru próby. Przeprowadzając sondę uliczną, mógłbyś na przykład unikać zadawania pytań osobom, które bardzo się spieszą lub sprawiają wrażenie agresywnych. Tym samym wykluczyłbyś je z próby, a więc nie mógłbyś powiedzieć, że została ona dobrana w sposób całkowicie losowy.
Czy chcesz pow iedzieć, ż e nie mogę testow ać wyłącznie gum różowych?
Jak więc widzisz, mamy wiele potencjalnych przyczyn obciążenia próby, przy czym większość z nich daje się sprowadzić do problemu odpowiedniego doboru próby. D latego przyjrzymy się bliżej metodom doboru elementów do próby, które pozwalają zminimalizować ryzyko uzyskania próby obciążonej.
jesteś tutaj ► 463
Nie istniejq głupie pytania
iNie.istnieia,
głupie pytania ^ : Czy operat losowania to po prostu lista wszystkich elementów, z których będę tworzyć moją próbę?
^ : Czy zawsze muszę przygotować operat losowania?
^ : Jak sposób formułowania pytań w ankiecie może powodować obciążenie próby?
0 : Nie, bo nie zawsze ma to sens. 0 : Operat losowania to spis wszystkich
Wyobraź sobie, że chciałbyś przebadać ryby
0 : Jest to rzeczywiście jedna z częstszych
elem entów populacji, którą chcesz zbadać.
żyjące w pewnym morzu. W tym przypadku
przyczyn obciążenia w yników badania.
W oparciu o niego dobiera się próbę.
nie da się stworzyć operatu losowania
Jeśli zadasz ludziom pytanie, czy
Sam w sobie próbą nie jest, ponieważ nie
I nawet nie m a to większego sensu.
losujemy wszystkich elementów, które go tworzą.
^ : Skąd mogę wziąć informacje potrzebne przy tworzeniu operatu losowania?
zgadzają się z Twoją opinią, czy też nie, to w większości przypadków uzyskasz
^ : Czy zawsze muszę wskazywać populację generalną? 0 : T a k , musisz. Musisz umieć zdefiniować badaną populację I poznać ją na tyle, by być w stanie ocenić reprezentatywność
dopowiedzi zgodne, chyba że z tą opinią będą się łączyły szczególnie niemiłe wspomnienia. Oznacza to, że wyniki Twojego badania będą obciążone z powodu nadreprezentatywnoścl odpowiedzi zgodnych.
0 : Wszystko zależy od tego, jak
uzyskanej próby. Znajomość jej
zdefiniujesz badaną populację. Na przykład
charakterystyk pomoże Cl uniknąć
Obciążenie pojawia się często także
problemu obciążenia próby.
wtedy, gdy w proponowanych wariantach
gdyby miała to być populacja posiadaczy samochodów z danego regionu, mógłbyś się posłużyć Informacjami z dokum entów rejestracyjnych pojazdów. Gdybyś chciał
Postaraj się zebrać m ożliwie dużo szczegółów na tem at badanej populacji. Upewnij się, co się do niej zalicza, a co nie.
^ : Dlaczego obciążenie jest złe? 0 : Dlatego, że wnioski wyciągnięte na
0 : To zależy od przyjętej definicji populacji. Książki telefoniczne z założenia nie przechowują Informacji o osobach, które nie mają telefonu, a także o tych, które nie życzą sobie prezentacji Ich numeru. Jeśli Twoja populacja ma obejmować gospodarstwa domowe udostępniające swój numer telefonu, wykorzystanie książki telefonicznej znacząco ułatwi Cl przygotowanie operatu. W Innym razie nie będzie to najlepszy pomysł — uzyskana próba może być obciążona z powodu pominięcia tych wszystkich osób, które telefonu nie mają lub nie chcą ujawnić jego numeru.
464
Rozdział 10.
o to, Ile razy w tygodniu ćwiczą. Obciążenie przykładowo takie warianty odpowiedzi: „ponad 5 razy w tygodniu," „3 - 5 razy
znajdującą się w dziekanacie.
^ : A czy mógłbym stworzyć operat na podstawie informacji z książki telefonicznej?
możliwości. Wyobraź sobie, że pytasz ludzi pojawi się wtedy, gdy zaproponujesz
przebadać studentów pewnej uczelni, mógłbyś się posłużyć listą studentów
odpowiedzi nie uwzględnisz wszystkich
w tygodniu", „1 - 2 razy w tygodniu",
podstawie próby obciążonej nie będą
„nie dbam o zdrowie, więc nie ćwiczę
prawdziwe dla badanej populacji, co może
w ogóle". Niektórzy mogą rzeczywiście nie
być powodem błędnych decyzji.
ćwiczyć wcale, ale z Innych p o w odów niż
Jeśli na przykład na potrzeby testów
brak troski o zdrowie. Oni nie będą mogli
trwałości smaku dobrałbyś do próby tylko
wybrać żadnej z podanych odpowiedzi.
gumy w kolorze różowym , to wnioski, jakie byś wyciągnął ze swoich analiz, mogłyby być prawdziwe dla populacji gum różowych, ale niekoniecznie dla populacji wszystkich gum wytwarzanych przez M lghty Gumball. Gumy różnych kolorów mogą się przecież Istotnie różnić.
Przeprowadzamy losowanie
_
» Zaostrz ołówek Spójrz na poniższe scenariusze. Jak zdefiniowałbyś populację dla każdego z nich? Co byś przyjął za jednostkę losowania? Na czym oparłbyś przygotowanie operatu losowania? Jakie dodatkowe informacje mogłyby Ci się przydać przy doborze próby? 1. Choc-O-Holic Sp. z o.o., znany producent słodyczy, wypuścił na rynek limitowaną edycję czekoladek, przygotowaną z myślą o nadchodzących świętach. Jego szef chciałby się przekonać o jakości produktu.
2. Statsville Health Club chce zorganizować ankietę, w której klienci klubu mogliby się wypowiedzieć na temat sprzętu do ćwiczeń, jaki udostępnia firma.
jesteś tutaj ► 465
Zaostrz ołówek: Rozwiązanie
(
Spójrz na poniższe scenariusze. Jak zdefiniowałbyś populację dla każdego z nich? Co byś przyjął za jednostkę losowania? Na czym oparłbyś przygotowanie operatu losowania? Jakie dodatkowe informacje mogłyby Ci się przydać przy doborze próby?
1. Choc-O-Holic Sp. z o.o., znany producent słodyczy, wypuścił na rynek limitowaną edycję czekoladek, przygotowaną z myślą o nadchodzących świętach. Jego szef chciałby się przekonać o jakości produktu. Badana populacja obejm uje w szystkie czekoladki wyprodukowane w ramach edycji specjalnej. Jednostką losowania je s t każda czekoladka. Operat losowania powinien obejmować w szystk ie czekoladki z danej serii; ponieważ je s t to edycja limitowana, je s t szansa na to, że firma posiada dane o liczbie wyprodukowanych czekoladek każdego rodzaju. Dobierając elem ent do próby, m u sis z pam iętać o tym, że powinna być to próba reprezentatywna dla populacji generalnej (a więc i nieobciążona). Jeśli na edycję limitowaną sktadają s ię czekoladki różnego rodzaju, m u sis z pam iętać, by każdy ich rodzaj byt należycie reprezentowany w próbie.
2. Statsville Health Club chce zorganizować ankietę, w której klienci klubu mogliby się wypowiedzieć na temat sprzętu do ćwiczeń, jaki udostępnia firma. Badaną populację tworzą w szyscy klienci klubu S ta tsv ille Health Club. Jednostką losowania j e s t każdy klient. Operat losowania m usi obejmować każdego klienta. J e s t prawie pewne, że klub posiada bazę danych o w szystkich swoich klientach, dlatego można by s ię nią postużyć do przygotowania operatu. Tak jak poprzednio, m u sisz s ię upewnić, że próba, którą tw orzysz, będzie reprezentatywna dla catej populacji. M u sisz więc zadbać o to, by każda grupa klientów w przekroju: ptci, wieku itp. byta należycie reprezentowana w próbie.
466
Rozdział 10.
Przeprowadzamy losowanie
Przypadek mniejszej od oczekiwań sprzedaży kawy: Rozwiązanie Dlaczego sprzedaż nowego rodzaju kawy nie szła tak dobrze, ja k się na początku zapowiadało? N ie możemy tego wiedzieć na pewno, ale możemy założyć z dość dużym prawdopodobieństwem, że próba, na której młody pracownik firmy przeprowadzał swoje badania, nie była wystarczająco reprezentatywna. Dlaczego tak sądzimy? Po pierwsze dlatego, iż wiemy, że młody człowiek z wielką chęcią rozdawał darmowe próbki kawy przyjaźnie nastawionym klientom firmy, od których słyszał w zamian miłe słowa na jej temat. Czy to oznacza, że proponował kawę tylko tym klientom, których subiektywnie uważał za miłych i sympatycznych? Czy prosił ich o rzeczywistą opinię na tem at kawy, czy też może prosił jedynie o potwierdzenie, że kawa ta smakuje wyśmienicie?
ro z w ią z a n ą
Musimy też pam iętać, że człowiek ten traktował powierzone mu zadanie jako sposób na nawiązanie kontaktu z jedną z klientek kawiarni. Czy większość swego czasu spędzał w tym konkretnym lokalu, którego stałym gościem była ta dziewczyna? Czy miało to wpływ na dobór próby? Poza tym jest faktem, że m enedżer sieci zdecydował o wprowadzeniu napoju do oferty dopiero od przyszłego sezonu, co również mogło mieć wpływ na wielkość sprzedaży. Wszystkie te czynniki (i każdy z osobna) mogły skutkować niereprezentatywnością próby, przyczyniając się tym samym do podjęcia błędnych decyzji opartych na wnioskach płynących z jej badania.
jesteś tutaj ► 467
Dobór losowy
Jak właściwie dobrać próbę Wiemy już, jak przygotować operat losowania oraz jakich błędów musimy starać się unikać przy konstruowaniu próby. Nadszedł więc czas na to, by zastanowić się nad możliwymi sposobami doboru elementów do próby, czyli tak zwanymi schematami losowania. W jaki zatem sposób możemy wylosować naszą próbę?
Losowanie próby prostej Jedną z takich m etod jest dobór elementów w sposób czysto losowy. Wyobraź sobie, że z populacji N jednostek losowania chcesz dobrać próbę składającą się z n elementów. Jeśli przeprowadzisz losowanie w taki sposób, by każda próba n-elementowa miała szansę pojawić się z jednakowym prawdopodobieństwem, otrzymasz w jego wyniku tak zw anąprób^ losową prostą. Losowanie według tego schem atu możesz przeprowadzić na dwa różne sposoby: ze zwracaniem lub też bez zwracania.
Losowanie ze zwracaniem Losowanie ze zwracaniem polega na tym, że po wylosowaniu każdego kolejnego elem entu zapisujemy informacje pozwalające go zidentyfikować, a następnie ponownie włączamy go do operatu losowania. Oznacza to, że ten sam elem ent może się pojawić w próbie więcej niż tylko raz. Z tego rodzaju losowaniem mógłbyś się spotkać w przypadku sondy ulicznej, gdzie raczej nie sprawdza się tożsamości ankietowanych osób przed zadaniem im pytania. Po przeprow adzeniu wywiadu z przypadkowo zatrzymaną osobą pozwala się jej odejść wolno, co oznacza ponowne włączenie jej do operatu losowania. Tej samej osobie można zadać pytanie jeszcze raz.
Losowanie bez zwracania Losowanie bez zwracania oznacza, że raz wylosowana jednostka jest na stałe usuwana z operatu losowania. N ie m a więc szans być wylosowana wielokrotnie. Z taką sytuacją mieliśmy do czynienia w przypadku testu smaku gum do żucia firmy Mighty Gumball — raz wylosowane gumy raczej nie wracały do puli, z której je wylosowano.
k C
468
Rozdział 10.
Raz wylosowana guma ra “ ej ” ' f w racała do w yjścio w e j p u lu j « t to w is c przyldad losowań,« bez zw racania.
Przeprowadzamy losowanie
Jak uzyskać próbę prostą Próbę losową prostą m ożna w praktyce uzyskać na dwa sposoby: w sposób przypominający ciągnięcie losów lub z wykorzystaniem liczb losowych.
Ciągniemy losy T a m etoda — jak wskazuje jej nazwa — przypomina zabawę z ciągnięciem losów. Nazwę lub num er każdej jednostki losowania zapisujemy na kawałku papieru (lub czymś o podobnej funkcjonalności, na przykład na piłeczce pingpongowej) i umieszczamy je wszystkie razem w jakimś pojemniku. N astępnie wyciągamy po kolei n karteczek, które wskażą jednostki losowania, jakie wejdą ostatecznie do naszej próby.
Korzystamy z liczb losowych* Jeśli nasz operat losowania obejmuje dużą liczbę jednostek, ciągnięcie losów może być czynnością mało efektywną. Możemy się wtedy posłużyć drugą z wymienionych metod, wykorzystującą liczby losowe. Można je odczytać ze specjalnych tablic lub wytworzyć samodzielnie, za pom ocą kom putera. W tej metodzie każdej jednostce losowania przypisuje się unikalny num er, a następnie generuje zbiór n liczb losowych. Do próby wchodzą te jednostki losowania, których numery pojawiły się w zbiorze liczb losowych. Zawsze musimy jednak zadbać o to, by każda liczba losowa miała szansę pojawić się z jednakowym prawdopodobieństwem (by uzyskana próba nie była obciążona).
WYSIL SZARE KOMÓRKI Schem at losowania pozwalający zyskać próbę losową prostą nie jest pozbawiony wad. Czy domyślasz się, co można by do nich zaliczyć?
* Popraw niej byłoby używać pojęcia „liczby pseudolosow e”, je d n ak w języku potocznym pozw alam y sobie na to uproszczenie.
jesteś tutaj ► 469
Losowanie warstwowe, zespołowe systematyczne
Istnieją także inne schematy losowania D obór losowy prosty m a również wady. D obierając próbę według tego schematu, nigdy nie masz pewności, ze będzie ona reprezentatyw na dla populacji generalnej. N a przykład możemy sobie łatwo wyobrazić, że przeprowadzając losowanie zgodnie z opisaną procedurą, otrzymamy próbkę złożoną wyłącznie z gum koloru żółtego. Czy możemy coś z tym zrobić?
Możemy przeprowadzić losowanie warstwowe... Alternatywą dla doboru losowego może być losowanie warstwowe. Schem at ten zakłada podział populacji na pewną liczbę podzbiorów grupujących elem enty o podobnych charakterystykach. T ak powstałe grupy nazywamy warstwami. Przykładowe warstwy moglibyśmy utworzyć na przykład z gum do żucia tego samego koloru: różowych, czerwonych, żółtych, zielonych i tak dalej. Każdy kolor definiowałby oddzielną warstwę. Każdą z tak wyznaczonych warstw możemy traktować jak minipopulację, z której będziemy losować próbę losową prostą. Dzięki tem u możemy mieć pewność, że każda warstwa będzie reprezentow ana w wynikowej próbie. Aby ta reprezentacja była należyta, możemy dodatkowo zróżnicować liczbę elem entów losowanych z każdej warstwy, kierując się jej częstością względną. N a przykład gdyby połowa gum wytwarzanych przez Mighty Gumball była koloru czerwonego, również w próbie 50% wszystkich elementów powinny stanowić gumy czerwone. Z każdej w a rs tw y losujem y L m e n t y w odpow.edn.ej
Każdy kolor wyznacza oddzielną w a rs tw ą .
470
Rozdział 10.
p roporcji*
Przeprowadzamy losowanie
...losowanie zespołowe... Losowanie zespołowe warto zastosować wtedy, gdy w populacji generalnej istnieje naturalnie zarysowujący się podział na grupy (zespoły) obiektów. W przypadku populacji gum do żucia mogłyby to być na przykład opakowania zawierające tę samą liczbę gum różnego rodzaju. Każde takie opakowanie wyznaczałoby jeden zespół. W losowaniu zespołowym jednostką losowania nie jest pojedynczy obiekt populacji, lecz zespół. Losujemy więc odpowiednią liczbę zespołów, które zawierają elementy wchodzące do końcowej próby. Moglibyśmy na przykład wylosować pewną liczbę opakowań gum do żucia, a następnie umieścić w próbie wszystkie gumy, które znajdują się wewnątrz nich. M a to sens, jeśli przyjmiemy założenie, że wszystkie zespoły są do siebie podobne. Dodatkow ą zaletą tego schematu losowania jest znaczące ograniczenie liczby jednostek losowania. N a przykład gdybyś chciał zbadać, jaka jest kondycja drzew rosnących w miejskich parkach, mógłbyś ograniczyć operat losowania do listy wszystkich parków w danym mieście, a następnie przebadać drzewa tylko w tych parkach, które wylosowałeś do próby. Problem polega jednak na tym, że próba uzyskana zgodnie z tym schematem nie zawsze musi być w pełni losowa. N a przykład jest bardzo praw dopodobne, że wszystkie gumy znajdujące się w danym opakowaniu zeszły z tej samej linii produkcyjnej. Jeśli między różnymi liniami są znaczące różnice, dokonując losowania według tego schematu, trudniej będzie Ci je uchwycić.
Każde opakowanie ntn*. ■ jeden zespót. star*°wi
. a nawet losowanie system atyczne Losowanie systematyczne polega na odpowiednim uporządkowaniu operatu losowania według wybranego kryterium (np. alfabetycznie), a następnie losowaniu elementów leżących wobec siebie w ustalonej odległości k, gdzie k oznacza pewną liczbę. W ten sposób można by na przykład losować do próby co dziesiątą jednostkę z operatu losowania (k = 10). Ten schem at losowania jest względnie prosty i szybki, ale m a jedną poważną wadę. Jeśli populacja generalna charakteryzuje się występowaniem trendów cyklicznych, uzyskana próba będzie obciążona. N a przykład jeśli z taśmy produkcyjnej jako co dziesiąta schodzi guma koloru czerwonego, postępując według opisanej procedury, dobierzesz próbę złożoną wyłącznie (lub w większości) z gum czerwonych. Wniosków wyciągniętych na podstawie takiej próby nie będzie
można “*rzy”ać” ”ocyd'aca'ei popu'aci'-
"
SŁ™
" "
P *“
“ ■ d”
“ '«
g u m ,, o tm y m a ,, p * ,
l
D_QQ!fcQ»_QQO_QQAQQ_a«Q_QQ0_QQ. jesteś tutaj ► 471
Nie istniejq głupie pytania
Może się też zdarzyć tak, że choć będziesz
według płci czy grup wieku. Następnie
przekonany, iż wybierasz próbę w sposób
w każdej warstwie stosujemy niezależnie
czysto losowy, w rzeczywistości będzie
dobór losowy.
Inaczej. Będzie ta k na przykład wtedy,
W przypadku losowania zespołowego
0 : Żaden z tych schematów nie
gdy w badaniu poziomu satysfakcji
dzielimy populację generalną na pewną
gwarantuje, że wynikowa próba będzie
konsumenckiej pominiesz zdanie tych osób,
liczbę zespołów jak najbardziej podobnych
nieobciążona, ale pozwalają one
które nie oddadzą Ci wypełnionej ankiety
do siebie. Następnie losujemy próbę
zminimalizować takie ryzyko. Dużo
— uzyskana próba może być obciążona,
prostą, ograniczając się do samych
więcej zależy od tego, jak wykonasz
bo mogło się zdarzyć tak, że odpowiedzieli
zespołów. Elementy wchodzące w skład
wszystkie kroki poprzedzające sam m om ent
tylko cl, którzy zostali do tego w szczególny
wylosowanych zespołów tw orzą końcową
losowania — jak zdefiniujesz populację
sposób czymś zm otywowani. Tacy klienci
próbę.
generalną I czy zadbasz
z reguły są albo bardzo zadowoleni, albo
^ : Czy któryś z tych schematów gwarantuje uzyskanie próby nieobciążonej?
o reprezentatywność swojej próby.
bardzo niezadowoleni z produktu czy jakości obsługi. Pominiesz więc zdanie tych
^ : Czy muszę się posłużyć którymś z podanych schematów? Nie mogę po prostu wylosować elementów w zwykły sposób? 0 : Zdanie się na ślepy los jest istotą doboru losowego. Możesz zastosować ten schemat losowania, jeśli masz pewność,
wszystkich osób, które mają średnie zdanie o produkcie, a których w populacji jest zdecydowana większość.
^ : A gdybym po prostu zwiększył rozmiary mojej próby? Czy to pomogłoby mi pozbyć się problemu jej obciążenia?
że uzyskana próba będzie w dostatecznym stopniu reprezentatywna dla badanej
0 : Rzeczywiście, Im większa próba,
populacji.
tym mniejsze są szanse na to, że będzie
^ : Czy rzeczywiście muszę o tym pamiętać? Przecież dobierając elementy w sposób czysto losowy, muszę otrzymać próbę reprezentatywną.
0 : Niekoniecznie. Widzisz, nawet dobierając jednostki losowania w sposób czysto losowy, możesz uzyskać próbę, która nie będzie miała charakterystyk zbliżonych
^ : Chyba rozumiem. W losowaniu warstwowym chodzi o to, by wszystkie warstwy jak najbardziej się od siebie różniły, natomiast w losowaniu zespołowym staramy się tak wyznaczyć zespoły, by były do siebie jak najbardziej zbliżone. 0 : Dokładnie tak.
A o co chodzi w losowaniu systematycznym?
ona obciążona. Dlatego zwiększanie
0 : Według tego schematu losujemy
rozm iarów próby jest jednym ze sposobów
pewną liczbę, oznaczaną jako k,
minimalizacji ryzyka tego, że opierając się
a następnie wybieramy co k-ty element
na doborze losowym, uzyskamy próbę
populacji uporządkowanej według pewnego
obciążoną. To rozwiązanie ma oczywiście
kryterium. Jest to m etoda prosta
swoje wady — losowanie próby jest
i szybka, ale nie gwarantuje uzyskania
bardziej czasochłonne, a analiza danych
próby reprezentatywnej. W praktyce można
z próby coraz bardziej utrudniona.
ją stosować tylko wtedy, gdy w populacji generalnej nie występują trendy
^ : Na czym polega różnica między losowaniem warstwowym a zespołowym?
do param etrów populacji, z której pochodzi.
cykliczne.
^ : Ciągnięcie losów brzmi staroświecko. Czy nadal wykorzystuje się tę metodę?
Na przykład gdybyś dobierał w sposób
0 : W losowaniu warstw ow ym dzielimy
całkowicie losowy klientów Statsville Health
populację na pewną liczbę możliwie
Club, zawsze mogłoby się zdarzyć tak,
najbardziej jednorodnych grup, zwanych
0 : Może nie jest już dziś tak powszechna
warstwam i. Innymi słowy, dokonujemy
jak dawniej, ale nadal jest stosowana.
że wylosujesz uczestników tylko jednego rodzaju zajęć albo tylko przedstawicieli
podziału populacji na podpopulacje
jednej płci.
z punktu widzenia wartości określonej cechy (innej niż badana), na przykład
472
Rozdział 10.
Przeprowadzamy losowanie
Wyobraź sobie, że wręczono Ci 10 opakowań czekoladek i poproszono o wybranie pewnej ich liczby do próby. W każdym opakowaniu znajdują się czekoladki różnego rodzaju: mleczne, gorzkie, a także wykonane z czekolady białej. Populację stanowią wszystkie czekoladki w 10 pudełkach, zaś jednostką losowania jest jedna czekoladka. 1. W jaki sposób dokonałbyś losowania, by uzyskać próbę losową prostą?
2. Jak przeprowadziłbyś losowanie warstwowe?
3. A jak losowanie zespołowe?
jesteś tutaj ► 473
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Wyobraź sobie, że wręczono Ci 10 opakowań czekoladek i poproszono o wybranie pewnej ich liczby do próby. W każdym opakowaniu znajdują się czekoladki różnego rodzaju: mleczne, gorzkie, a także wykonane z czekolady białej. Populację stanowią wszystkie czekoladki w 10 pudełkach, zaś jednostką losowania jest jedna czekoladka.
1.W jaki sposób dokonałbyś losowania, by uzyskać próbę losową prostą? Dobór losowy mógłbyś przeprowadzić na przyktad przy w ykorzystaniu liczb losowych lub te ż ciągnąc losy. Dzięki tem u każda czekoladka miataby jednakową szansę dostania s ię do próby.
2. Jak przeprowadziłbyś losowanie warstwowe? W losowaniu warstwowym dzielimy populację na wewnętrznie jednorodne w arstwy i przeprowadzamy losowanie w każdej z nich oddzielnie. Każda warstwa powinna zaw ierać czekoladki o podobnych właściwościach. Jedna z nich mogłaby więc obejmować w szystk ie czekoladki mleczne, druga — gorzkie, a trzecia — wykonane z czekolady białej.
3. A jak losowanie zespołowe? W tym schem acie dzielimy populację na pewną liczbę możliwie jak najbardziej podobnych zespołów, będących jednostkam i losowania. Najprościej byłoby założyć, że każde opakowanie czekoladek stanowi oddzielny zespół, i wylosować na przykład jeden z nich, którego za w a rto ść stanowiłaby ostateczną próbę.
474
Rozdział 10.
Przeprowadzamy losowanie
jesteś tutaj ► 475
Ćwiczenie: Rozwiązanie
. . Kozwi^zanie
W jaki sposób dobrałbyś próbę na potrzeby testów długości utrzymywania się smaku gum produkowanych przez Mighty Gumball? Przyjmij założenie, że gumy te są wytwarzane w czterech różnych kolorach, przy czym wszystkie schodzą z jednej linii produkcyjnej. Opisz cały proces doboru próby, łącznie z etapami poprzedzającymi samo losowanie.
Populacją generalną tworzą w szy stkie gum y schodzące z taśm y produkcyjnej w fabryce M ighty Gumball. Jednostką losowania j e s t każda sztu ka gum y do żucia. Jeśli chodzi o operat losowania, dobrze bytoby mleć listą produktów schodzących z taśm y, choć je s t to mato realne i raczej niepraktyczne. Ograniczymy sią jedynie do przygotowania listy zaw ierającej liczbą gum wyprodukowanych w danym kolorze. Wybór schem atu losowania j e s t rzeczą subiektyw ną. M y zdecydowaliśm y s ię na losowanie warstwowe, ponieważ, naszym zdaniem, daje to najw iąksze sza n se uzyskania próby nieobciążonej. W sktad każdej z czterech warstw wchodzą gumy o tym samym kolorze. N astąpnie z każdej w arstwy losujem y pewną liczbą sztu k gum do żucia, kierując sią cząsto ścią względną danej w arstw y w cale j populacji. Ta odpowiedź nie j e s t jedyną możliwą, więc nie przejm uj się, je śli odpowiedziałeś inaczej. N ajw ażniejsze j e s t to, byś zrozumiał, jak ważne j e s t odpowiednie zaprojektowanie całego badania, od zdefiniowania populacji generalnej aż po wybór schem atu losowania.
CELNE SPOSTRZEŻENIA
Populacja jest zbiorem wszystkich
W praktyce wym aga zastosowania liczb
obiektów , które chcesz poddać
losowych lub ciągnięcia losów.
badaniu. Próba jest względnie małym podzbiorem populacji, w ykorzystyw anym jako
zwane w arstw am i. Każda w arstw a
podstaw a do wyciągania w niosków
jest w ew nętrznie m ożliwie najbardziej
o całej populacji.
jednorodna, a zarazem jak najbardziej
Zanim przystąpisz do losowania próby, zdefiniuj populację generalną, którą będziesz badał. Określ jednostkę
Następnie przeprowadza się oddzielne losowanie w każdej z warstw. Losowanie zespołow e polega
losowane do próby. Przygotuj operat
na podziale populacji na pewną liczbę
losowania, czyli listę wszystkich
zespołów o m ożliwie jednorodnej
jednostek losowania składających się
strukturze. Następnie dobiera się
na populację generalną.
losowo określoną liczbę zespołów.
jest reprezentatyw na dla populacji, z której pochodzi. Losowanie proste polega na czysto losowym wyborze elem entów do próby. W ystępuje w dwóch odmianach: ze zwracaniem I bez zwracania.
Rozdział 10.
różni się od pozostałych warstw.
losowania, a więc obiekty, które będą
Próba może być obciążona, kiedy nie
476
Losowanie w a rs tw o w e polega na podziale populacji na mniejsze jednostki
Końcową próbę tw o rzą elementy populacji zawarte w wylosowanych zespołach. Losowanie system atyczne polega na w yborze pewnej liczby k, a następnie doborze do próby co ¿-tej jednostki z uporządkowanej populacji generalnej.
Przeprowadzamy losowanie
Mighty Cumball dostał swoją próbę Dzięki Twojej pomocy pracownicy firmy Mighty Gumball zdołali wylosować odpowiednią próbę na potrzeby testów trwałości smaku wytwarzanych przez nią gum. Dzięki tem u nie muszą przeprowadzać testów na każdej sztuce gumy schodzącej z taśmy produkcyjnej firmy, co stanowiło ich największą bolączkę.
Co więc dalej? W tym rozdziale dowiedzieliśmy się, w jaki sposób dobrać próbę, która dobrze reprezentowałaby badaną populację. N adal jednak nie wiemy, po co mielibyśmy to robić. Wiemy, ze próba nieobciążona m a podobne charakterystyki jak populacja, z której pochodzi, ale nadal nie wiemy, co nam taka informacja daje. Jeśli chcesz się dowiedzieć, do czego może nam się przydać próba, przejdź do kolejnego rozdziału.
jesteś tutaj ► 477
478
Rozdział 10.
11. Szacujemy parametry populacji na podstawie próby
Dokonujemy ocen
Czy nie byłoby wspaniale, gdybyśmy polrafili scharakteryzować populację generalnq na podstawie informacji zawartych w pojedynczej próbie? Zanim będziesz m ógł św iętow ać osiągnięcie biegłości w p ro w ad zeniu badań statystycznych, musisz się nauczyć robić w łaściw y użytek z próbki pobieranej z populacji. Musisz więc posiąść umiejętność p rze w id y w a n ia charakterystyk populacji na podstawie inform acji zawartych w próbie oraz nauczyć się, jak możesz ocenić wiarygodność swoich szacunków. W tym rozdziale pokażem y Cl, w jaki sposób posiadana próbka może być użyta jako użyteczne źródło inform acji o badanej populacji I vice versa.
to jest nowy rozdział ►
479
Oceniamy parametry na podstawie próby
Jaka więc jest.fzeczgwista trwałość smaku tamtych gum ? Przy Twojej pomocy pracownicy Mighty Gumball zdołali dobrać reprezentatyw ną próbę gum do żucia, by na jej podstawie zbadać trwałość smaku wszystkich gum będących produktam i firmy. Szczegółowe wyniki tych testów zostały opisane w specjalnym raporcie. Pojawił się jednak pewien problem ... Bojowo nastawioną s z e f M ighty Gumball Nie in te re s u je mnie trwałość smaku testowanych gum. In te re s u je mnie trwałość smaku wstystkich g u m ,ja k ie produkujemy. Chcę w ie d Ł ie ć ,ja k wypada pod tym względem moja firm a na tle konkurencji.
Aby spełnić oczekiwania szefa Mighty Gumball, musielibyśmy znaleźć sposób na oszacowanie param etrów trwałości smaku wszystkich gum opuszczających fabryki firmy, które tworzą populację generalną. Oto dane, jakie zebraliśmy w wyniku testów przeprowadzonych na próbce gum do żucia. Jak na ich podstawie moglibyśmy oszacować param etry rozkładu trwałości smaku gum do żucia w populacji generalnej?
T° są dane
na temat trwatośd sm aku
61,9
62,6
63,3
64,8
65,1
w m in u ta ch
66,4
67,1
67,2
68,7
69,9
WYSIL SZARE KOMÓRKI Spójrz na powyższe dane. Jak m ógłbyś się nimi posłużyć do oszacowania wartości oczekiwanej i wariancji rozkładu w populacji? Na ile w iarygodne byłyby te szacunki? Uzasadnij swoją odpow iedź.
480
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Zacznijmy od oszacowania średniej w populacji Jak więc moglibyśmy wykorzystać informacje pochodzące z próby do oszacowania wartości oczekiwanej trwałości smaku w populacji gum produkowanych przez Mighty Gumball? Okazuje się, ze odpowiedź jest całkiem intuicyjna. Przyjmiemy założenie, ze średnia w populacji jest dokładnie równa średniej arytmetycznej wyznaczonej na podstawie próby. Innymi słowy, obliczymy średnią arytmetyczną dla danych pozyskanych w czasie testów i przyjmiemy, ze tyle jest równa — w rzeczywistości nieznana — średnia w całej populacji. N a poniższym rysunku naszkicowano rozkład badanej cechy (a więc trwałości smaku gum do żucia) w oparciu o informacje pochodzące z próby oraz praw dopodobny wykres tej samej cechy w populacji. Wydaje się całkiem rozsądne oczekiwać, że kształt rozkładu badanej cechy w populacji będzie zbliżony do kształtu jej rozkładu w próbce, jeśli była ona reprezentatywna. Oznacza to, że i param etry tego rozkładu — w tym wartość oczekiwana — będą miały w przybliżeniu równe wartości. P ró b a a p o p u la c ja
>0 O 4* W flp N O
\
p°pu!acji
/ T
■że średnie ^
t akf i s a m e .
w próbie
n
Pnlba
\
trw a ło ść sm aku
Nie możemy powiedzieć, ze te wartości są sobie równe, ale ze uzyskane w ten sposób oszacowanie jest najlepsze, na jakie nas stać. Jeśli ograniczymy się wyłącznie do informacji zawartych w próbie, oszacowanie wartości oczekiwanej w populacji na podstawie średniej z próby jest najlepsze z możliwych. Jest to najbardziej wiarygodne oszacowanie tego param etru, jakie możemy uzyskać w oparciu o informacje, które posiadamy. W artość średniej arytmetycznej wyznaczona na podstawie próby, traktow ana jako przybliżenie średniej populacji jest nazywana estymatorem punktowym tego param etru. Pozwala ona uzyskać najlepsze w danych okolicznościach oszacowanie średniej populacji.
jesteś tutaj ► 481
Wszystko o estymatorach punktowych
Estymatory punktowe pozwalają oszacować parametry populacji D o tej pory mówiliśmy o rzeczywistych wartościach param etrów populacji, takich jak średnia y czy wariancja a 2. Przyjmowaliśmy na ogół, ze są one nam znane lub też ze jesteśmy je w stanie wyznaczyć (np. przeprowadzając badanie wyczerpujące, o którym mówiliśmy w poprzednim rozdziale). Od tej pory będziemy jednak zakładali, ze wartości tych nie znamy. Z am iast obliczać je wprost na bazie pełnej informacji o badanej populacji, będziemy estymować ich wartości na podstawie informacji pochodzących z próby. Do tego celu posłużymy się estymatorami punktowymi param etrów populacji, które pozwolą nam obliczyć najbardziej wiarygodne oszacowania ich wartości. Estymator punktowy param etru populacji to taka funkcja (a dokładniej: statystyka lub też zmienna losowa), która pozwoli nam przekształcić wartości badanej cechy zarejestrowane w próbie w jedną liczbę, będącą oszacowaniem (oceną) tego param etru. N a przykład estymatorem (punktowym) wartości średniej populacji jest średnia arytmetyczna z próby.
z próby...
Estym ator (punktowy) param etru populacji oznaczamy takim samym symbolem jak sam param etr, tyle że z dodanym u góry znakiem czyli tak zwanym daszkiem. Jeśli na przykład przez y oznaczymy nieznaną średnią populacji, to przez y oznaczymy estymator tego param etru. Jeśli więc mówimy o estymatorze nieznanego param etru populacji, do symbolu param etru dodajemy daszek.
f
Jestem średnią populacji, wartością rtecŁyw istą.
JO
*
Pi
M
V
M
Sym bol estym atora różni się
482
Rozdziału.
n o
\
Widiisz. dastek, który mam nad głową? To o&nac&a, ¿e je s te m estym atorem . Jeśli nie ¿nasŁ wartości jakiegoś param etru populacji, m oiesŁ go p rŁ ybliiyć moją wartością.
Szacujemy parametry populacji na podstawie próby
A Latem mamy symbol na oznaczenie średniej populacji i j e j estym atora. A t o i Lapisem średniej arytm etycŁnej ł próby?
Mamy też symbol dla średniej z próby. Symbol p m a ściśle określone znaczenie. Z a jego pom ocą oznaczamy średnią populacji. N a oznaczenie jego estym atora będziemy stosowali oddzielny symbol, tak by nie było niejasności, o którym param etrze w danej chwili mówimy. Średnią z próby będziemy oznaczali przez x (czytaj: x z kreseczką). Dzięki tem u zawsze wiadomo, że gdy ktoś odnosi się do p, ma na myśli średnią populacji, a gdy mówi o x, ma na myśli średnią z próby. x jest odpowiednikiem p w próbie i oblicza się ją w ten sam sposób, jak średnią całego zbioru danych. Innymi słowy, jeśli naszą próbę potraktujem y jako zbiór n liczb (wartości x badanej cechy), możemy zapisać:
x j e s t średnia z próby.
■ Doda i do s ie b ie w artości
Ix x =
n
Podsumowując, ponieważ nieznaną średnią populacji możemy przybliżyć za pom ocą średniej arytmetycznej z próby, możemy zapisać: Średnią populacji
p=x
estymujemy...
_
*
...p rz y w ykorzystaniu śred n iej ary tm ety czn ej z próby.
Zaostrz ołówek Wykorzystaj informacje o trwałości smaku gum Mighty Gumball zebrane w czasie testów na pobranej próbie do oszacowania wartości oczekiwanej tej cechy w całej populacji. Oto dane, dla przypomnienia:
61,9
62,6
63,3
64,8
65,1
66,4
67,1
67,2
68,7
69,9
jesteś tutaj ► 483
Zaostrz ołówek: Rozwiązanie
^ Zaostrz ołówek _____
_
Rozwiązanie
61,9
Wykorzystaj informacje o trwałości smaku gum Mighty Gumball zebrane w czasie testów na pobranej próbie do oszacowania wartości oczekiwanej tej cechy w całej populacji. Oto dane, dla przypomnienia:
62,6
63,3
64,8
65,1
66,4
67,1
67,2
68,7
69,9
W artość oczekiwaną populacji możemy oszacować, obliczając średnią arytm etyczną dla danych z próby. a = _ = 61,9 + 62,6 + 63,3 + 64,8 + 65,1 + 6 6 ,4 + 67,1 + 67,2 + 68,7 + 69,9
_
10 = 6 5 7 /1 0 = = 65,7
^ : No dobrze, ale średnia jest zawsze średnią. Dlaczego stosujemy tyle symboli na jej oznaczenie?
0 : Ponieważ tak naprawdę mówimy o trzech różnych rzeczach: nieznanym parametrze (średniej) populacji, jego estymatorze punktowym oraz wartości tego estymatora, będącej oceną parametru uzyskaną na podstawie próby,
średnią populacji oznaczamy przez p. Do tej pory wartość tę liczyliśmy według wzoru na średnią arytmetyczną. Dopóki nie wprowadziliśmy rozróżnienia między populacją a próbą, cały zbiór danych traktowaliśmy jako pewną populację, dla której mogliśmy wyznaczyć z dowolną dokładnością średnią. Po wyodrębnieniu populacji wartość tego parametru traktujemy jako niewiadomą, która podlega estymacji.
Estymator punktowy parametru p oznaczamy przez p. Jest to funkcja, która w najbardziej wiarygodny sposób pozwala oszacować wartość nieznanego parametru populacji na podstawie informacji zawartych w próbie.
484
Rozdziału.
Ocena parametru jest oznaczana przez x . Jest to wartość estymatora p obliczona na podstawie konkretnej próby. Przyjmujemy ją za oszacowanie nieznanej wartości parametru p. ^ : Czy to oznacza, że wartość p możemy obliczyć jako średnią arytmetyczną z próby?
0 : Wartość p nie jest nam znana, więc nie możemy powiedzieć, że jest ona równa średniej z próby. Jeśli jednak nasza próba jest nieobciążona, postępując w ten sposób, otrzymamy bardzo dobre przybliżenie p. Innymi słowy, na podstawie próby obliczamy wartość p, a nie p jako takiego. ^ : A jeśli próba była obciążona? Czy wtedy nadal możemy się posługiwać tym samym estymatorem parametru p?
0 : Nie, i dlatego tak ważne jest, by dobierając próbę, zadbać, aby była ona nieobciążona. Jeśli naszą ocenę parametru p opieramy wyłącznie na podstawie danych z próby, która była obciążona, obliczona w przedstawiony sposób wartość estymatora p nie będzie dobrym przybliżeniem wartości parametru p.
A to może być powodem podjęcia błędnych decyzji w oparciu o dane z próby. ^ : Czy wielkość próby ma jakieś znaczenie?
0 : Ogólnie im większa próba, tym bardziej precyzyjne są estymatory punktowe.
^ jest nieznanym parametrem populacji, j). to jego estym ator punktowy, a x t o ocena parametru z próby.
Szacujemy parametry populacj na podstawie próby CELNE SPOSTRZEŻENIA Estymator punktowy jest sposobem na oszacowanie wartości parametru populacji na podstawie informacji z próby.
Średnia arytmetyczna z próby jest estymatorem punktowym średniej populacji. Innymi słowy: A
„A" (daszek) nad symbolem parametru jest stosowany na oznaczenie jego estymatora. Na przykład estymatorem średniej p jest p. Średnia arytmetyczna z próby jest oznaczana przez x, a jej wartość obliczana według wzoru:
-
p= x
Oznacza to, że jeśli chcemy otrzymać wiarygodne oszacowanie rzeczywistej średniej populacji, możemy się posłużyć średnią arytmetyczną z próby.
x= — n gdzie x oznacza wartość badanej cechy w próbie, zaś n jest jej liczebnością.
To wspaniale! M o iem y wykortystać wyniki Twoich prac w nastych reklamach, bo mówią one w yratnie, t e trwałość smaku nastych gum b ije konkurencję na głowę. Ciekawi mnie tylko, jaka m ote być tmienność tych wyników?
Znaleźliśmy więc sposób na oszacowanie średniej naszej cechy populacji, ale nic nie wiemy o jej wariancji. Gdyby udało nam się znaleźć równie dobry sposób na oszacowanie wariancji w populacji, moglibyśmy wykorzystać informacje z próby do odpowiedzi na pytanie szefa Mighty Gumball o zmienność rozkładu badanej cechy.
jesteś tutaj ► 485
Estymator wariancji populacji
Szacujemy wariancję populacji Umiemy już oszacować średnią badanej cechy populacji, wykorzystując do tego celu średnią arytmetyczną z próby. Oznacza to, ze potrafimy ocenić przeciętną (oczekiwaną) trwałość smaku wszystkich gum produkowanych przez firmę Mighty Gumball. Aby jednak w pełni zaspokoić oczekiwania szefa firmy, musimy jeszcze znaleźć równie dobry estymator wariancji. Co więc moglibyśmy wykorzystać jako estymator punktowy wariancji rozkładu trwałości smaku w populacji? Innymi słowy, jak moglibyśmy wykorzystać informacje z próby do wyznaczenia wartości er2?
P r te c ie t to p ro s te . Wariancja populacji je s t na pewno równa wariancji z. próby. Możemy więc ostacować ją ta k ,ja k w etesniej lictylismy wariancję dla tb io ru danych.
Niestety, wariancja z próby może nie być najlepszym estymatorem wariancji populacji. Pamiętasz zapewne, że wariancja pewnego zbioru danych mierzy ich rozproszenie wokół wartości średniej. Kiedy pobieram y próbę danych z dużo liczniejszej populacji, zawsze może się zdarzyć, że uzyskamy dane bardziej skupione wokół średniej, niż m a to miejsce w populacji. W artości bardziej nietypowe (leżące w znacznym oddaleniu od centrum rozkładu) mogą się pojawiać w próbie w mniejszej ilości niż w całej populacji. P ró b a
os p o p u la c ja
>0 O 4* W
flp N O
Popul,acja
\
L'.i,
~ ¥ f /
/T
L ic z e b n o ś ć j e s t d u ż o m n ie js z a n iż p o p u la c ji.
\
prawdopodobieństwem
n
w a rto ś c i n ie ty p o w e m z o s ta ć p o m in ię te .
'r ' \ Próba
, X
X.
%
trw a ło ść sm aku Czy istnieje więc lepszy estymator wariancji populacji niż wariancja z próby?
486
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Znajdujemy inny estymator niż wariancja z próby Wiemy już, że wariancja z próby nie jest najlepszym estymatorem wariancji z populacji, ponieważ może ona niedoszacowywać (zaniżać) prawdziwej wartości tego param etru. Różnica ta będzie tym większa, im mniejsza będzie liczebność próby. Dlatego potrzebny jest nam estymator, który pozwalałby wyeliminować efekt małej próby, to znaczy taki, który dawałby nieco wyższe oszacowania wariancji z populacji, niż wynikałoby to z wartości wariancji w próbie.
Co może być tym estymatorem? Zam iast więc przybliżać w prost wariancję populacji przez wariancję obliczoną na podstawie danych z próby, zmodyfikujemy nieco wzór na wariancję z próby. Jeśli założymy, że liczebność próby wynosi n, to wartość estym atora wariancji populacji obliczymy ze wzoru:
I ( x - x) 2 Estym ator wariancji populacji
Od każdej wartości w próbie cechy X o d e jm u je m y je j średnią, podnosimy te różnice do kwadratu i sum ujem y.
CT2 = A następnie dzielim y p rzez liczebność próby pom niejszoną o 1.
Innymi słowy, dla każdej wartości cechy zaobserwowanej w próbie liczymy różnice postaci x - x , podnosimy do kwadratu, a następnie sumujemy. T ak otrzym aną sumę dzielimy nie przez n, czyli liczebność próby, ale przez n - i . Postępujemy więc dokładnie tak, jak byśmy liczyli wariancję dla próby, tyle że dzielimy ją nie przez n, a przez n - 1. PlacŁego je s t to lepsŁy estym ator wariancji ł populacji?
Ta formuła pozwoli nam uzyskać oszacowanie wariancji populacji bliższe jej rzeczywistej wartości (której tak naprawdę nie znamy). Ponieważ w powyższym wzorze dokonujemy dzielenia przez n - 1 , uzyskamy wyższą wartość a 2, niż gdybyśmy dzielili przez n. Im n jest niższe, tym ta różnica jest większa. T a form uła pozwoli nam więc uzyskać wartość nieco wyższą od wariancji z próby. Z podanych wyżej powodów rzeczywista wariancja populacji powinna być nieco większa niż wariancja w próbie. Dlatego ocena param etru a 2 obliczona według powyższej formuły powinna być bliższa rzeczywistej wartości a 2 niż wariancja z próby.
jesteś tutaj ► 487
Wariancja : bliska
Zagadnienie obliczania wariancji może niekiedy sprawiać kłopot. W ariancję a 2 dla pewnego zbioru danych traktowanego jako populacja liczymy według wzoru, który poznaliśmy już w rozdziale 3., zaś jej oceny z próby dokonujemy według nieco innej formuły (estym atora a 2). Kiedy więc stosować każdy z tych wzorów?
Wariancja populacji Rzeczywistą wariancję rozkładu pewnej cechy w populacji moglibyśmy obliczyć przy założeniu pełnej informacji o rozkładzie tej cechy. Skorzystalibyśmy ze wzoru:
i ( x - m)2 k r ■Średnia
Wariaincja populacji
CT2 =
n
populacji
. Wielkość populacji
Przyjmujemy tutaj założenie, że posiadamy pełne informacje o populacji generalnej. Znam y dokładną średnią populacji i chcemy poznać jej wariancję. Tego rodzaju obliczeń dokonywaliśmy do tej pory (porównaj np. wzory z rozdziału 3.).
Estymacja wariancji populacji Jeśli nie dysponujemy pełną informacją o badanej populacji, musimy estymować jej wariancję, korzystając z informacji pozyskanej z próby. W tym celu posługujemy się wzorem: r- .
„
ts ty m a to r punktow y wariancji populacji,. w y k o r z y s tu ją c y ' informacje z próby.
7
A Q2 =
T /-v
v \2
A \
------------------------
n - 1--ś
---------
Średnia arytmetyczna z próby, n - 1 , nie za ś n, gdzie n oznacza W te n sposób jedynie sza cu je m y w a ria n cję .
^ liczebność próby.
Tym razem nie obliczamy rzeczywistej wariancji populacji, ale przybliżamy ją za pomocą powyższego wzoru. Wykorzystuje on informacje z próby do oszacowania nieznanej wartości param etru populacji. Aby to oszacowanie było bardziej wiarygodne, w formule tej dokonujemy dzielenia przez n - 1, a nie n, jak to robiliśmy wyżej. Z am iast symbolu a 2 na oznaczenie wartości estym atora wariancji populacji stosujemy często s2, czyli: Estym ator punktowy dla wariancji populacji. — ’
ct2 = s 2
gdzie
S2 =
Z(x - x)2 n-1
To samo podejście zastosowaliśmy wcześniej, gdy przez x oznaczyliśmy ocenę param etru z próby.
488
Rozdziału.
s2 wyznaczam y na p o dstaw ie danych z próby.
Szacujemy parametry populacji na podstawie próby
Który wzór co oznacza? W niektórych podręcznikach m ożesz p rze czy tać, że lic z ą c w a ria n cję z próby, pow inieneś d zie lić przez n.
Czasami może Ci sprawiać kłopot stwierdzenie, czy licząc wariancję, powinieneś zastosować dzielenie przez n czy przez n -1 . Spróbuj więc zapam iętać prostą zasadę: przez n dzielimy wtedy, gdy chcemy poznać w ariancję dla danego zbioru danych. Jeśli posiadany zbiór danych traktujesz jako populację generalną (np. gdy chcesz poznać średni wzrost swoich kolegów z klasy i w tym celu mierzysz wzrost każdego z nich), powinieneś wykorzystać zwykłą formułę na a 2 i dzielić przez n. Jeśli jednak ten sam zbiór danych potraktujesz jako próbę z populacji generalnej (np. gdy wzrost Twoich kolegów z klasy ma służyć do oszacowania średniego wzrostu wszystkich uczniów z Twojej szkoły), wówczas nie masz pełnej informacji o zbiorze, dla którego wyznaczasz wariancję. Musisz ją oszacować przy wykorzystaniu estym atora s2 i dzielić przez n - 1.
_
Wynika to z odmiennych założeń, przyjętych przez autorów tych podręczników, co do sposobu postrzegania posiadanego zbioru danych. Jeśli traktujesz go ja ko próbę, na podstawie której szacujesz param etry populacji, powinieneś stosować dzielenie przez n - 1 . Jeśli zaś chcesz policzyć wariancję tylko dla tego zbioru danych (tak ja k to robiliśm y w rozdziale 3.), powinieneś dzielić przez n.
^ Zaostrz ołówek Poniżej zamieszczamy dla przypomnienia wyniki testów produktów Mighty Gumball przeprowadzonych na wylosowanej próbie. Informują one o tym, przez ile minut wyczuwalny był smak testowanej gumy. Ile wynosi wariancja dla całej populacji gum do żucia?
61,9
62,6
63,3
64,8
65,1
66,4
67,1
67,2
68,7
69,9
jesteś tutaj ► 489
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
61,9
Poniżej zamieszczamy dla przypomnienia wyniki testów produktów Mighty Gumball przeprowadzonych na wylosowanej próbie. Informują one o tym, przez ile minut wyczuwalny był smak testowanej gumy. Ile wynosi wariancja dla całej populacji gum do żucia?
62,6
63,3
64,8
65,1
66,4
67,1
67,2
68,7
69,9
Wariancją populacji możemy oszacować przy wykorzystaniu formuty na s 2.
2 (x - Ul?
n - 1 (-3 ,8 ? + (-3,1? + (-2 ,4 ? + (-0,91? + (-0,61? + (0,71? + 0 ,4 ? + (1,51? + (31? + (4,21?
9 14,44 + 9,61 + 5,76 + 0,81 + 0,36 + 0,49 + 1,96 + 2,25 + 9 + 17,64
“
9
“
= 62,32 / 9 = = 6,92 (z dokładnością do dwóch m iejsc po przecinku)
^ : Dlaczego licząc wariancję w próbie, muszę stosować dzielenie przez n - 1 , a nie przez n?
0 : Dlatego, że w większości przypadków
^ : Jak zapamiętać, które symbole oznaczają wartości parametrów populacji, a które stosujemy do oznaczenia ich odpowiedników w próbie?
^ : Czy istnieje estymator odchylenia standardowego dla populacji, analogiczny do tego dla wariancji? Jaką ma postać? 0 : Odchylenie standardowe dla badanej
informacje z próby będą Ci służyły
0 : Przyjęto ogólną zasadę, że literami
populacji na podstawie danych z próby
do oszacowania wartości param etrów
alfabetu greckiego oznaczamy parametry
obliczysz tak, jak do tej pory — wyciągając
populacji, a nie samej próby. Dzielenie przez
populacji, zaś literami alfabetu łacińskiego
pierwiastek z s2.
n -1 zamiast przez n pozwoli Ci uzyskać
(który stosujesz na co dzień) oznaczamy
bardziej wiarygodne przybliżenie nieznanej
parametry rozkładu badanej cechy
wariancji populacji, ponieważ wariancja
w próbie.
w próbie bywa często niedoszacowana względem wariancji populacji.
490
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Mighty Gumball pobrało jeszcze jedną próbę Szef Mighty Gumball był tak bardzo zadowolony z wyników dotychczasowych analiz, ze na cele kolejnej kampanii reklamowej postanowił przeprowadzić jeszcze inne testy, na zmienionej próbie. Miałyby one dać odpowiedź na pytanie, na ile cukierki produkowane przez Mighty Gumball cieszą się większym uznaniem konsumentów niż cukierki największego konkurenta firmy. W tym celu pracownicy działu m arketingu firmy zapytali losowo wybranych klientów firmy, którą m arkę cukierków preferują. Mieli nadzieję na to, ze na podstawie uzyskanych odpowiedzi będą w stanie oszacować, jaki udział w rynku słodyczy mają cukierki Mighty Gumball.
i
«
Testy wykazały, ze na 40 (przebadanych ogółem) klientów firmy aż 32 wybrało cukierki Mighty Gumball. Tylko 8 opowiedziało się za cukierkami konkurencji.
^ W
Y
S
I L
___________________________________
SZARE KOMÓRKI W jaki sposób, korzystając z powyższych informacji, wyznaczyłbyś udział (frakcję) zwolenników cukierków firmy Mighty Gumball w próbie? Jaki może mieć rozkład prawdopodobieństwa? Jak można by wykorzystać informacje z próby do oszacowania udziału Mighty Gumball w całym rynku (populacji generalnej)?
jesteś tutaj ► 491
Estymator wskaźnika struktury
W szystkojest kwestią proporcji Najnowsze badanie prowadzone przez pracowników Mighty Gumball m a odpowiedzieć na pytanie, jaka część am atorów słodyczy preferuje ich produkty — względem produktów najbliższego konkurenta firmy. Możemy więc przyjąć założenie, że każdy klient, który preferuje cukierki Mighty Gumball, może być postrzegany — z punktu widzenia firmy — jako pewnego rodzaju sukces. W jaki więc sposób moglibyśmy wykorzystać informacje zebrane w trakcie badania do oszacowania udziału (frakcji) tego rodzaju sukcesów w populacji?
Szacujemy frakcję wpopulacji Jeśli przez X oznaczymy zmienną losową opisującą liczbę sukcesów w populacji, będzie ona miała rozkład dwumianowy z param etram i: n, oznaczającym liczebność populacji, o ra z ^ , który możemy utożsam iać z frakcją sukcesów. W tym kontekście^ będziemy nazywali wskaźnikiem struktury. T ak jak dla wartości oczekiwanej, by przybliżyć nieznaną wartość param etru populacji posłużyliśmy się wartością tego param etru wyznaczoną na podstawie próby, tak i tym razem nieznany wskaźnik struktury oszacujemy za pom ocą jego odpowiednika z próby. Oznacza to, że jeśli uda nam się obliczyć udział sukcesów w ogólnej liczbie wyników otrzymanych w próbie, będziemy mogli wykorzystać tę wartość jako przybliżenie szukanej frakcji sukcesów w całej populacji. Frakcję sukcesów w próbie obliczymy bardzo łatwo, dzieląc liczbę osób, które preferują cukierki Mighty Gumball, przez ogólną liczbę osób, które wzięły udział w badaniu (liczebność próby). Pamiętasz zapewne z rozdziału 1., że taki wskaźnik nazywamy częstością względną. Jeśli przez Ps oznaczymy częstość względną sukcesów w próbie, możemy potraktować ją jako estymator nieznanego wskaźnika struktury populacji.
p =p
S a s SSSjj
^
S S S Ł T iS Ł
Definiuje się go za pom ocą wzoru:
liczb a su k c e só w ps
liczeb n o ść próby
Innymi słowy, częstość względną wyznaczoną z próby traktujem y jako estym ator nieznanego wskaźnika struktury w populacji generalnej. Ponieważ 32 na 40 przebadanych osób opowiedziało się za cukierkami Mighty Gumball, co oznacza, że p s = 0,80, tę właśnie wartość przyjmujemy jako oszacowanie nieznanej proporcji dla całej populacji.
492
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Ozy dobrze mi się wydaje, że prawdopodobieństwo i frakcja są ze sobą powiązane? Obie wielkości OŁnacŁamy przez p i podobnie in te rp re tu je m y .
Prawdopodobieństwo i wskaźnik struktury są ze sobą powiązane. T ak naprawdę między koncepcją prawdopodobieństwa i wskaźnika struktury istnieje bliski związek. Wyobraź sobie, że chcesz znaleźć wskaźnik struktury (frakcję) jakiejś cechy w pewnej populacji. Powinieneś w tym celu podzielić całkowitą liczbę sukcesów zaobserwowanych w populacji przez jej liczebność. A teraz wyobraź sobie, że chcesz obliczyć prawdopodobieństwo wylosowania z tej samej populacji elem entu oznaczonego jako „sukces”. Aby obliczyć to prawdopodobieństwo, musisz podzielić całkowitą liczbę elementów populacji oznaczonych jako „sukces” przez jej liczebność. Oznacza to, że prawdopodobieństwo sukcesu oraz frakcję sukcesów w danej populacji liczysz dokładnie w ten sam sposób. Ponieważ między obiem a wielkościami nie m a żadnej różnicy, zarówno prawdopodobieństwo, jak i frakcję oznaczyliśmy tą samą literą^ :
p = prawdopodobieństwo = frakcja _
Zaostrz ołówek Pracownicy Mighty Gumball przeprowadzili jeszcze jeden test. Na 40 osób poddanych badaniu 10 osób przyznało, że najbardziej smakują im gumy w kolorze różowym. Jaka część populacji (konsumentów gum Mighty Gumball) preferuje gumy w kolorze różowym? Jakie jest prawdopodobieństwo tego, że losowo wybrana osoba z tej populacji nie będzie preferowała gum w kolorze różowym?
jesteś tutaj ► 493
Zaostrz ołówek: Rozwiązanie
_
Zaostrz ołówek Rozwiązanie
Pracownicy M ighty Gumball przeprowadzili jeszcze jeden test. Na 40 osób poddanych badaniu 10 osób przyznało, że najbardziej smakują im gumy w kolorze różowym. Jaka część populacji (konsumentów gum M ighty Gumball) preferuje gumy w kolorze różowym? Jakie jest prawdopodobieństwo tego, że losowo wybrana osoba z tej populacji nie będzie preferowała gum w kolorze różowym?
Szukany wskaźnik stru ktu ry możemy oszacować jako często ść względną w próbie. To znaczy: p = ps = 10/40 = = 0,25 Prawdopodobieństwo losowego wybrania z populacji osoby, która nie preferuje gum w kolorze różowym, wynosi: P(nie preferuje gum różowych) = 1 - p = = 1 - 0,25 = = 0,75
i N ie .is tn ie ją .
głupie pytania
P
P
P
: Czy zatem wskaźnik struktury jest tym samym co prawdopodobieństwo?
: Czy wskaźnik struktury dla populacji jest dokładnie równy częstości względnej w próbie?
O: Wskaźnik struktury liczymy jako iloraz
O: Częstość względna sukcesów w próbie
liczby sukcesów w populacji (bądź próbie)
może być stosowana jako estymator
w
i jej liczebności. W ten sam sposób
wskaźnika struktury populacji.
z dużym prawdopodobieństwem założyć,
liczyliśmy prawdopodobieństwo sukcesu
Jest to najbardziej efektyw ny ze znanych
że uzyskasz próbę nieobciążoną. W ysłek
dla rozkładu dwumianowego.
nam sposobów oszacowania nieznanej
włożony w staranny dobór próby teraz
wartości tego parametru.
zaprocentuje. Oszacowania param etrów
P : Czy tak samo jest w przypadku
z próby będą bardziej wiarygodne.
P
: Czy wskaźniki struktury wiążą się tylko z rozkładem dwumianowym? Co z innymi rozkładami prawdopodobieństwa?
O: Ze wszystkich rozkładów prawdopodobieństwa, które omówiliśmy
prób obciążonych? Jak oszacować wskaźnik struktury na podstawie takiej próby?
O: Szacując wartość wskaźnika struktury
do tej pory, związek z frakcją ma jedynie
na podstawie danych z próby, musisz
rozkład dwumianowy. Jest to parametr
założyć, że jest ona nieobciążona.
charakterystyczny dla zagadnień, które
W przeciwnym razie estymator Ps
możemy opisać za pomocą tego
da błędne wyniki. To samo odnosi się
właśnie rozkładu.
do wszystkich estym atorów punktowych w ogóle.
494
Rozdział 11.
: Jak więc mogę się upewnić, że moja próba jest nieobciążona?
O: Jeśli będziesz postępował według wskazówek zamieszczonych
poprzednim rozdziale , możesz
populacji dokonane na podstawie danych
Szacujemy parametry populacji na podstawie próby
FantastycŁnie! Mamy komplet b ard to kortystnych dla nas statystyk, któ re moiem y wykortystać , w nasŁycb reklamach./
CELNE SPOSTRZEŻENIA
Estymator p u n kto w y wariancji populacji jest
Estymatorem p u n kto w ym p z próby jest P
równy:
czyli częstość względna: P = PS
Jego w artość s2 m ożna obliczyć jako: W artość Ps obliczamy, dzieląc liczbę sukcesów S (x -x )2
w próbie przez jej liczebność, czyli:
n -1 _ liczba sukcesów 5
liczebność próby
W skaźnik struktury badanej cechy w populacji oznaczam y sym bolem p. Jest to frakcja sukcesów w populacji.
jesteś tutaj ► 495
Wprowadzamy rozkład z próby
Kup swoją gumę tutaj! Pamiętasz kino działające w Statsville? Ostatnio uzyskało ono licencję na sprzedaż gum firmy Mighty Gumball swoim klientom. Wstawienie autom atu z gumami do żucia okazało się strzałem w dziesiątkę. Szybko jednak stało się jasne, że nie każdem u udało się w pełni dogodzić.
Bardzo lubię gumy w kolorz& cterwonym i ra c te j nie ¿uję innych. Ile cterwonych gum Łnajduje się w opakowaniu?
Wprowadzamy do sprzedaży powiększone opakowania Automaty ustawione w kinie sprzedają opakowania zawierające gumy różnego koloru. W najbliższy weekend kino organizuje specjalny m araton filmowy. Bilety na ten wieczór sprzedają się nadzwyczaj dobrze. Szefowie kina boją się jednak tego, że sukces komercyjny może zostać przyćmiony przez niezadowolenie niektórych klientów z oferty słodyczy. K onkretnie chodzi o nowe autom aty Mighty Gumball. Postanowiono więc wprowadzić do sprzedaży opakowania XXL, zawierające 100 sztuk gum do żucia. Jednocześnie wiadomo, że 25% całej produkcji firmy Mighty Gumball to gumy koloru czerwonego.
P o ttŁ e b u ję 4 0 gum w kolorze cterwonym n a je d e n maraton filmowy. Czy są stanse na to , że Ł n a jd ę je w jednym opakowaniu? Jeśli nie, kupię coś innego.
Musimy znaleźć prawdopodobieństwo tego, ze w losowo wybranym opakowaniu gum do żucia znajdzie się co najmniej 4 0 sztuk w kolorze czerwonym. Ponieważ w każdym opakowaniu typu X X L mieści się 100 sztuk gum do żucia, musimy znaleźć prawdopodobieństwo tego, że 40% z nich będzie koloru czerwonego. Wiemy przy tym, że w populacji generalnej odsetek gum czerwonych stanowi 25%.
496
Rozdziału.
O
Szacujemy parametry populacji na podstawie próby
Jaki ma to związek z estymacją parametrów? Do tej pory uczyliśmy się dobierać próbę, która byłaby reprezentatyw ną „m iniaturą” całej populacji, a także wykorzystywać informacje w niej zawarte do wyznaczania punktowych ocen param etrów populacji. Tym razem problem jest nieco inny. Znam y wartość param etru populacji i jesteśmy zmuszeni wyznaczyć prawdopodobieństwo zajścia konkretnego zdarzenia w próbie.
C ty nie to właśnie robiliśmy do t e j pory? Na cŁym polega problem?
Tym razem będziemy szukali prawdopodobieństwa tego, ze określony parametr rozkładu cechy w próbie, a nie populacji, przyjmie określoną wartość. N ie interesuje nas już maksymalizacja prawdopodobieństwa tego, że określony param etr rozkładu populacji m a dokładnie taką wartość, jaką wyznaczyliśmy na podstawie próby. Chcemy natom iast ocenić szanse zajścia określonego zdarzenia w konkretnej próbie. Interesuje nas teraz to, jak duże są szanse na to, że dla konkretnego opakowania gum do żucia param etr p przyjmie określoną wartość. Zanim zabierzemy się do rozwiązywania tego rodzaju problemów, musimy znaleźć rozkład prawdopodobieństwa estym atora param etru p w próbie. Oto, co musisz w tym celu zrobić:
ib
Wyobraź sobie wszystkie próby o interesującej nas liczebności, które dałoby się wylosować z populacji generalnej. Jeśli interesuje nas próba o liczebności n, musimy wyobrazić sobie wszystkie próby 0 liczebności n. Ponieważ w jednym opakowaniu X X L znajduje się 100 gum do żucia, w naszym przypadku n = 100.
O
Dla każdej z tych prób wyznacz w myśli wartość ps. Z tych wartości utwórz rozkład estymatora Ps oraz oblicz jego wartość oczekiwaną 1 wariancję. Każda próba jest nieco inna, dlatego w każdej z nich odsetek gum koloru czerwonego będzie najprawdopodobniej różny.
O
Gdy znajdziesz rozkład prawdopodobieństwa estymatora P wykorzystaj go do znalezienia szukanego prawdopodobieństwa. Wiedząc, jaki jest rozkład Ps w próbie, będziesz mógł oszacować prawdopodobieństwo tego, że w losowo pobranej próbie przyjmie on określoną wartość — w tym przypadku będzie to udział gum koloru czerwonego w pojedynczym opakowaniu.
Spójrzmy zatem, jak się do tego zabrać.
jesteś tutaj ► 497
Rozkład z próby Ps
Rozkład z próby estymatora p Jak możemy wyznaczyć rozkład prawdopodobieństwa Ps w próbie? Zacznijmy od ... populacji. Wiemy z pewnością, ze udział gum koloru czerwonego w całej populacji wynosi 25%. W skaźnik struktury p jest więc równy 0,25. 25% U - O / o gum w c a łe j p o p ulacji
Populacja gum do żucia
je s t koloru czerwonego, czyli p = 0 ,2 5 .
Każde opakowanie X X L gum do żucia możemy traktować jako pojedynczą próbę, dobraną losowo z populacji generalnej. Każde z nich zawiera 100 sztuk gum do żucia, zatem rozm iar próby wynosi 100. Oznaczmy go przez n. Jeśli przez X oznaczymy zmienną losową opisującą liczbę gum koloru czerwonego w tak zdefiniowanej próbie, wtedy X ~ B(n, p), gdzie n = 100, p = 0,25. Frakcja gum koloru czerwonego w każdej próbie zależy od realizacji zmiennej X, czyli liczby gum koloru czerwonego w danej próbie, bowiem Ps = X/n. Widzimy więc, że, jak zaznaczyliśmy wcześniej, jest ona zm ienną losową (jako funkcja zmiennej losowej X).
Próba
p je s t zm ien" o rcję°sukcesów p is u ją c ą p ro p °rcJ^ w próbie-
r
X P =— n
s
X ~ B (n p) X B(n’ P)
^ Vie znamy dokładnej liczby_gum koloru czerwonego w próbie,
ale znamy jej rozkład.
498
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Z populacji generalnej moglibyśmy pobrać bardzo wiele prób o rozmiarze n. Każda z nich składałaby się z n gum do żucia, przy czym liczba gum koloru czerwonego w każdej próbie jest zmienną losową, zawsze o tym samym rozkładzie. D la każdej próby byłby to rozkład B(n, p) z prawdopodobieństwem sukcesu danym funkcją X/n.
^
^ ^
Każda Pr£ j ^ ngnfów.
X ~ B(n, p) P = X/n
s
Gdybyśmy wyznaczyli wszystkie możliwe próby o rozmiarze n, otrzymalibyśmy pewien rozkład prawdopodobieństwa param etru Ps, ponieważ znalibyśmy wszystkie realizacje tej zmiennej losowej. Rozkład taki nazywamy rozkładem z próby estymatora P albo po prostu rozkładem P .
Chyba zaczynam rozumieć. Rozkład z próby możemy określić na podstawie informacji o wartościach ps we wszystkich próbach o danej liczebności. Znając rozkład zm iennej Ps^ będziemy mogli oszacować praw d o p od o b ień stw o jej realizacji dla konkretnej próby.
Znając rozkład z próby zmiennej losowej Ps, możemy znaleźć prawdopodobieństwo jej realizacji w konkretnej próbie o rozmiarze n, dobranej w sposób losowy. Tym samym znaleźliśmy sposób na oszacowanie prawdopodobieństwa tego, że w konkretnym opakowaniu gum do żucia zakupionym w kinie odsetek gum koloru czerwonego będzie wynosił nie mniej niż 40%. Zanim jednak poznamy to prawdopodobieństwo, będziemy musieli znaleźć wartość oczekiwaną i wariancję zmiennej P .
jesteś tutaj ► 499
Parametry ozkładu Ps
Ile wynosi wartość oczekiwana P ? W ie m y już, ja k m o ż n a b y stw orzyć ro z k ła d p ra w d o p o d o b ie ń s tw a d la zm ienn ej losow ej P s, czyli dla częstości w zglę d nej g u m k o lo r u c z e rw o n e g o w n-elem entow ej p ró b ie . M u s im y teraz p o z n a ć p o d sta w o w e ch a ra k te ry sty k i te go ro zk ła d u . W sz c z e g ó ln o śc i p o w in n iś m y w yzn a czyć je go w a rto ść o c z e k iw a n ą i w ariancję. Z a c z n ijm y o d w a rto śc i oczekiw anej. In tu ic y jn ie o cze k iw a lib yśm y, że p rz e c ię tn y u d z ia ł g u m k o lo r u cz e rw o n e g o w lo so w o do b ran e j p ró b ie będzie ta k i sa m ja k w całej p opu lacji. S k o r o w p o p u la c ji u d z ia ł ten w y n o si 2 5 % , m o g lib y ś m y oczekiw ać, że ta k i p rze c ię tn ie b ęd zie ró w n ie ż w próbie .
s* Intuicyjnie oczekiwalibyśmy, <1, że udziat gum koloru czerwonego w próbie b ^ d z ie ^ ^ s ^ średnio taki sam ja k ^ w catej populacji. ^
T W e d łu g ja k ie g o w z o ru m o ż e m y ją w ylic zyć ? C h c e m y zn ale źć E ( P s), gd z ie P s = X / n jest z m ie n n ą lo so w ą zd e fin io w a n ą ja k o ilo ra z liczb y g u m cze rw o n yc h w p ró b ie i jej liczeb ności. P s = X / n m o ż e m y z a p isa ć ró w n o w a ż n ie ja k o P s = l/n x X , gd z ie n jest stałą. Z p o p rz e d n ic h ro z d z ia łó w w iem y, że sta łą m o ż e m y w yłączyć p rz e d s y m b o l w a rto śc i oczekiw anej. M o ż e m y w ię c zapisać:
E (P s ) = E
(O
= E (X )
n Pa m ię tam y, że X jest z m ie n n ą lo so w ą ozna cza ją cą liczbę g u m k o lo r u c z e rw o n e g o w próbie . Jeśli o b e c n o ść w p ró b ie każdej pojedynczej g u m y k o lo r u c z e rw o n e g o o k re ślim y ja k o sukces, m o ż e m y zapisać, że X ~ B ( n , p). W ro zd zia le 7. d o w ie d zie liśm y się, że d la zm ienn ej losow ej X o ro z k ła d z ie d w u m ia n o w y m E ( X ) = np. W y k o rz y stu ją c tę zale żn ość, otrzym ujem y: E (X )
E (P S)
A >
-E (X ) = n P
= P O t rz y m a liśm y w ię c re zu ltat z g o d n y z n a sz y m i p rz yp u sz cze n ia m i. R z e c z y w iśc ie m o ż e m y oczekiw ać, że p rz e c ię tn y u d z ia ł g u m k o lo r u c z e rw o n e g o w lo so w o do b ran e j p ró b c e b ęd zie taki sam ja k w p o p u la c ji generalnej.
500
Rozdziału.
Szacujemy parametry populacji na podstawie próby
A ile wynosi wariancja Pg? Poznaliśmy wartość oczekiwaną rozkładu Ps, ale nadal nie znamy jego wariancji. Łatwo wyznaczymy ją jednak w ten sam sposób jak wartość oczekiwaną. Ile więc wynosi V ar(Ps)? Zacznijmy — jak poprzednio — od przedstawienia wariancji Ps w kategoriach wariancji zmiennej X:
To „ » i k , «
SJf.-,
T ak jak poprzednio, X jest zm ienną losową oznaczającą liczbę gum koloru czerwonego w wylosowanej próbie. Możemy więc zapisać, ze X ~ B(n, p). Z rozdziału 7. wiemy, ze V ar(X ) = npq, tak jak dla każdej zmiennej o rozkładzie dwumianowym. Opierając się na tej zależności, możemy zapisać:
}//pą
— VaKX) *
Wyznaczając pierwiastek kwadratowy z wariancji, otrzymamy wzór na odchylenie standardowe zmiennej Ps, które powie nam o tym, jak bardzo różnią się przeciętnie realizacje zmiennej Ps od wartości param etru w populacji^. Odchylenie takie nazywa się czasami średnim błędem szacunku lub też błędem standardowym, ponieważ mówi o tym, jaki błąd przeciętnie popełniamy, stosując Ps w charakterze estym atora p aram etru ^ .
Standardow y błąd szacu n k u =
Z powyższego wzoru wynika, że im liczebność próby n jest większa, tym błąd szacunku mniejszy. Im więc liczniejsza próba, na podstawie której liczymy wartość ps, tym mniej różni się ona od rzeczywistej wartości wskaźnika struktury^. Teraz, kiedy znamy już najważniejsze param etry rozkładu prawdopodobieństwa zmiennej losowej Ps, zobaczymy, jak mogą nam one pom óc wyznaczyć szukane prawdopodobieństwo.
jesteś tutaj ► 501
Kształt rozkładu Ps
Ustalamy rozkład Ps Znam y już wartość oczekiwaną i wariancję rozkładu zmiennej losowej Ps, czyli rozkładu częstości względnej gum czerwonych w próbie. Wynoszą one odpowiednio:
E(P s) = p
pq Var(Ps) = — n
Wykorzystamy je teraz do obliczenia prawdopodobieństwa tego, ze w losowo dobranej próbie udział gum koloru czerwonego będzie nie mniejszy niż 40%.
No dobrŁe, a le ja k ? C ty nie musimy najpierw określić ksŁtałtu te g o
ro ik la d u ?
Oczywiście tak. Co więcej, musimy zdawać sobie sprawę z tego, ze kształt rozkładu zmiennej Ps jest uzależniony od liczebności próby. Poniżej naszkicowaliśmy przybliżony kształt tego rozkładu dla względnie dużych wartości n. 1/
W artość oczekiwana - p
- =— pq W ariancja n
^ W
Y
S
I L
_________________________________
SZARE KOMÓRKI Spójrz na szkic rozkładu zmiennej Ps dla dużych wartości Ci już rozkładu? O jaki rozkład chodzi?
502
Rozdziału.
n. Czy nie przypom ina on znanego
Szacujemy parametry populacji na podstawie próby
Ps ma rozkład normalny Kiedy n jest duże, rozkład zmiennej Ps staje się w przybliżeniu normalny. Przez „duże n” rozumiemy n nie mniejsze niż 30. Im jest ono większe, tym rozkład Ps coraz bardziej przypomina rozkład normalny.
U Ponieważ wyznaczyliśmy już wartość oczekiwaną i wariancję Ps, a więc oba param etry definiujące rozkład normalny, możemy zapisać, że dla dużych n:
s
P - N ( P’
t o '.
7
)
Ponieważ dla n > 30, Ps m a w przybliżeniu rozkład normalny, możemy posłużyć się tablicami tego rozkładu do wyznaczenia szukanego prawdopodobieństwa — prawdopodobieństwa tego, że udział gum czerwonych w losowo wybranym opakowaniu gum do żucia będzie nie mniejszy niż 40%.
.............................. C zasam i sta ty sty cy różnią s ię w opiniach co do w a rto ści n.
Niekiedy przyjmuje się, że wartość ta powinna być nie mniejsza niż 50, a nawet niż 100. Upewnij się zatem, którą wartość akceptuje Twój nauczyciel.
Musimy przy tym pam iętać o zastosowaniu poprawki na ciągłość, ponieważ rozkład dyskretny (dwumianowy) będziemy przybliżali rozkładem ciągłym (normalnym).
Rozkład Ps a poprawka na ciągłość Liczba gum koloru czerwonego w każdej próbie (czyli liczba naszych sukcesów) wyraża się tylko w liczbach całkowitych. Zm ienna X jest więc zmienną dyskretną. D latego jeśli chcemy przybliżyć jej rozkład rozkładem normalnym, musimy zastosować poprawkę na ciągłość. W rozdziale 9. przekonaliśmy się, że w przypadku zmiennej takiej jak X powinniśmy zastosować poprawkę rzędu ± 1/2. Uwzględniając to w definicji zmiennej Ps = X/n, możemy zapisać, że: • t „ (1/2) poprawka na ciągłosc = ± --------- = n
1 2n
Innymi słowy, przybliżając rozkład zmiennej Ps rozkładem normalnym, zawsze stosuj poprawkę rzędu ± l/2 n . Jak więc widzisz, nie m a ona stałej wartości, lecz zależy od n (czyli wielkości próby).
S p o k o jn ie
Jeśli n jest
naprawdę duże, możesz nie brać poprawki na ciągłość.
Z e wzoru obok wynika, że dla bardzo dużych n wartość poprawki zbliża się do zera, więc nie wpłynie istotnie na szacunki prawdopodobieństwa. Dlatego niektóre podręczniki w ogóle nie wspominają o konieczności jej stosowania.
jesteś tutaj ► 503
Nie istnieją głupie pytania
P : Czym jest rozkład z próby? O: Rozkład estymatora z próby jest rozkładem powstałym na bazie
P : Czy zatem rozkład z próby ma swoją wartość oczekiwaną i wariancję? Dlaczego?
wartości, jakie estymator przyjmuje we
O: Dlatego, że rozkład z próby nie
niż wariancja populacji, ponieważ mierzy coś zupełnie innego.
P : Do czego może nam się zatem przydać informacja o rozkładzie estymatora parametru z próby?
wszystkich próbach o danej liczebności,
różni się niczym od innych rozkładów
jakie można wylosować z populacji
prawdopodobieństwa. M ożna więc mówić
generalnej. Estymator traktujem y tu ta j jako
o różnych jego charakterystykach, w tym
zmienną losową, ponieważ jej realizacje
o wartości oczekiwanej i wariancji.
w konkretnej próbie nie są znane przed jej
Wartość oczekiwana estymatora wskaźnika
dobranej próbie zrealizuje się konkretna
wylosowaniem.
struktury jest dokładnie rów na wartości
wartość estymatora. Pozwala nam ocenić,
tego parametru w populacji. M ów i ona
jakiej próby powinniśmy się spodziewać.
P : Czy rzeczywiście muszę wylosować z populacji każdą możliwą próbę o danej liczebności?
O: Nie, nie musisz przeprowadzać faktycznego losowania. Wystarczy, że je sobie wyobrazisz i zdefiniujesz
O: Tak jak w naszym przykładzie, może nam posłużyć do oszacowania prawdopodobieństwa tego, że w losowo
o tym , jakiej frakcji wartości danej cechy powinniśmy się spodziewać w losowo
P : Czym jest w takim razie średni
pobranej próbce o ustalonej liczebności.
błąd szacunku?
P
O: Błąd standardowy jest pierwiastkiem
: Dlaczego więc wariancja zmiennej Ps nie jest równa wariancji populacji?
kwadratowym z wariancji rozkładu estymatora w próbie. M ów i o tym , jaki błąd
hipotetyczny rozkład estymatora
O: Wariancja rozkładu estymatora z próby
parametru, który chcesz przeanalizować.
m ówi o tym , jak przeciętnie będą się różnić
nieznaną wartość parametru populacji
jego realizacje w kolejno pobieranych
wartością danego estymatora. Pozwala
przeciętnie popełniamy, gdy przybliżamy
próbach. Nie mierzy ona rozproszenia
oszacować, jak bardzo mylimy się
wartości badanej cechy w próbie ani tym
w naszych szacunkach.
bardziej w populacji. M a więc inną wartość
CELNE SPOSTRZEŻENIA
Rozkład z próby estym atora w skaźnika
Średni błąd szacunku jest odchyleniem
struktury powstaje w w yniku hipotetycznego
standardow ym rozkładu zmiennej P Dany jest
w ylosowania z populacji generalnej każdej m ożliwej
w zorem :
próby o rozm iarze n i wykreślenia rozkładu zaobserwowanych frakcji wartości badanej
^Var(P)
cechy. Zmienną losową, która opisuje tę frakcję, oznaczamy przez P W artość oczekiwana i wariancja Ps są rów ne
Jeśli n>30, zm ienna Ps ma w przybliżeniu rozkład normalny, a zatem :
odpow iednio: Ps ~ N(p, p q /n ) E(Ps) = p Stosując to przybliżenie, musisz pamiętać o wzięciu Var(Ps) = p q /n gdzie p jest wskaźnikiem struktu ry (w populacji).
popraw ki na ciągłość o wartości 1 : 2n
504
Rozdział 11.
Szacujemy parametry populacji na podstawie próby
jesteś lutaj ► 505
Ćwiczenie: Rozwiązanie
. . Kozwi^zanie
Wiemy, że 25% gum produkowanych przez Mighty Gumball jest koloru czerwonego. Jakie jest prawdopodobieństwo tego, że w opakowaniu zawierającym 100 sztuk gum do żucia co najmniej 40% z nich będzie czerwonych? Poniżej znajdziesz opis kroków, jakie należy wykonać, by znaleźć odpowiedź na to pytanie.
1. Jeśli przez Ps oznaczymy proporcję gum czerwonych w każdym opakowaniu, jaki jest rozkład Ps? Oznaczmy przez p prawdopodobieństwo tego, że wybrana guma będzie koloru czerwonego. J e s t ono równe 0,25. Niech Ps oznacza udziat gum koloru czerwonego w każdym opakowaniu. Ps - N(p, pą/n), gdzie p = 0,25, ą = 0,75, a n = 100. Ponieważ p ą /n j e s t równe 0,25 x 0,75 / 100 = 0,001875, a zatem Ps - N(0,25; 0,001875)
2. Ile wynosi P(Ps£ 0,4)? Wskazówka: pamiętaj o zastosowaniu poprawki na ciągłość. P(PS > 0 ,4 ) = P(PS > 0 ,4 - 1/(2 x 100)) = = P(Ps > 0,3 95 )
Ponieważ Ps ~ N(0,25, 0,001875), szukane prawdopodobieństwo możemy odczytać z tablic rozktadu normalnego po wyznaczeniu standaryzowanego odpowiednika p s = 0,395 (po za sto so w a n iu poprawki na ciągłość). A zatem : ^
0,395 - 0,25 ^0 ,0 0 1 8 7 5 = 3,35
P(Z > z) = 1 - P (Z< 3,35) = = 1 - 0,9996 = = 0 ,0 0 0 4
Innymi słowy, prawdopodobieństwo tego, że w opakowaniu 100 s z tu k gum do żucia znajdzie się co najmniej 40% gum w kolorze czerwonym, wynosi 0 ,0 0 0 4 .
Prawdopodobieństwo
ró w n e 0 , 0 0 0 4 ? Nie ma mowy. W etm ę jakieś chipsy.
506
Rozdziału.
Szacujemy parametry populacji na podstawie próby
R o z le ją ^ c z ę sto śc i z ^ról^y z M ister Rozkład z próby estym atora wskaźnika struktury tworzony jest w oparciu o informacje o jego realizacjach w każdej możliwej do wylosowania z populacji generalnej próbie o rozmiarze n. Estym ator ten, czyli zm ienna Ps, m a rozkład o następujących param etrach:
E (ps) = P pq Var(Ps) = — n D la dużych wartości n, na przykład większych od 30, rozkład statystyki Ps przypomina rozkład normalny:
P
- n ( ^ 7
■ -U /ariancja
E3n
)
Znajomość tego rozkładu jest bardzo użyteczna, ponieważ pozwala oszacować prawdopodobieństwo realizacji w próbie losowej określonej frakcji wartości cechy poddawanej badaniu. Prawdopodobieństwo to możemy przybliżyć, korzystając z rozkładu normalnego, przy czym uzyskiwane szacunki będą tym bliższe rzeczywistym wartościom prawdopodobieństwa, im bardziej liczna będzie próba.
Poprawka na ciągłość Jeśli zdecydujemy się skorzystać z tego przybliżenia, musimy pam iętać o tym, by zastosować poprawkę na ciągłość o odpowiedniej wartości. Wynika to z tego, że liczba sukcesów w pojedynczej próbie jest zm ienną losową o rozkładzie dwumianowym, a więc dyskretnym. Jeśli przez X oznaczymy liczbę sukcesów w danej próbie, możemy zapisać Ps = X/n. Ponieważ popraw ka na ciągłość dla X wynosi ±1/2, zatem popraw ka dla zmiennej Ps jest równa:
±1 Popraw ka na cią g ło ść = — 2n
Mówiąc inaczej, jeśli przybliżasz rozkład zmiennej Ps rozkładem normalnym, musisz stosować poprawkę na ciągłość, której wielkość jest uzależniona od rozm iaru próby.
jesteś tutaj ► 507
Rozkład z próby estymatora wartości oczekiwanej
Ile opakowań kupić? Dzięki tem u, ze udało nam się znaleźć sposób na wyznaczenie rozkładu z próby estym atora wskaźnika struktury, mogliśmy oszacować prawdopodobieństwo tego, że w losowo dobranej próbie o ustalonym rozmiarze frakcja gum czerwonych przyjmie określoną wartość. Potrafimy więc już nie tylko wnioskować o param etrach populacji na podstawie próby, ale również wykorzystywać wiedzę o populacji generalnej do wyciągnięcia wniosków o charakterystykach pobieranych prób.
Mamy tylkojeszczejeder Szef Mighty Gumball chciałby C jednego problem u, który trapi gc przez firmę sprzedawane są nie t po 100 sztuk, ale również w mnii Z dokumentów będących w posi; produkowanych przez nią gum z; z tolerancją 1 sztuki. Tymczasem 30 opakowań gum do żucia, któr Szef Mighty Gumball obawia się najbardziej wartościowych klient Dlatego postanowił stworzyć spe rekompensaty w podobnych sytu funduszu zbyt dużych kwot. D lat że podobny problem pojawi się v
Jakie inform acje są niezbędne do udzielenia odpow iedzi na tak postaw ione pytanie?
508
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Musimy znaleźć rozkład średniej z próby Tym razem mamy do czynienia z nieco innym problem em niż ostatnim razem. Znam y bowiem średnią i wariancję populacji, na którą składają się opakowania gum do żucia produkowanych przez Mighty Gumball, a musimy znaleźć prawdopodobieństwo tego, że średnia z próby przyjmie określoną wartość. Innymi słowy, musimy znaleźć rozkład estym atora średniej z próby.
generalną tworzą w szystkie opakowania gum do żucia. Prób a sktada s ię z 3 0 tego ty p u opakowań.
Zanim będziemy mogli udzielić odpowiedzi na pytanie szefa Mighty Gumball, musimy poznać kształt rozkładu estym atora średniej z próby. Oto, co musimy po kolei zrobić:
Wyobraźmy sobie wszystkie próby o interesującym nas rozmiarze, które dałoby się wylosować z populacji generalnej. Jeśli interesuje nas próba o liczebności n, musimy rozważyć wszystkie próby o rozmiarze n. Ponieważ z informacji od szefa Mighty Gumball wynika, że klient zakupił 30 opakowań gum do żucia, w naszym przypadku n = 30.
Na bazie informacji zawartych w takich próbach wyznaczymy rozkład estymatora średniej populacji, obliczymy jego wartość oczekiwaną i wariancję. Każda próba jest nieco inna, dlatego średnia liczba sztuk gum do żucia w każdym opakowaniu będzie za każdym razem inna.
Gdy znajdziemy rozkład estymatora średniej, możemy go wykorzystać do obliczenia szukanego prawdopodobieństwa. Wiedząc, jaki jest rozkład estym atora średniej z próby, będziemy mogli oszacować prawdopodobieństwo tego, że w losowo dobranej próbie przyjmie on interesującą nas wartość — w tym przypadku próbę stanowi zbiór 30 opakowań gum do żucia.
Spójrzmy, jak możemy się do tego zabrać.
jesteś tutaj ► 509
Rozkład z próby estymatora średniej w skrócie
Rozkład z próby estymatora średniej Jak możemy wyznaczyć rozkład z próby estym atora średniej populacji? Zacznijmy od populacji generalnej, na którą składają się opakowania gum do żucia. Wiemy, jaka jest średnia oraz wariancja interesującej nas cechy w populacji. Będziemy je oznaczali odpowiednio przez y, i a2. Liczbę sztuk gum do żucia zawartych w pojedynczym opakowaniu będziemy modelowali za pom ocą zmiennej losowej X. Każde opakowanie gum do żucia wybrane w sposób losowy stanowi niezależną realizację zmiennej losowej X. Dlatego rozkład interesującej nas cechy w każdym opakowaniu jest jednakowy. D la ułatwienia możemy założyć, że zawartość każdego opakowania w próbie będzie opisywała oddzielna zm ienna losowa X., gdzie i = 1 ,2 , ..., n. Każda ze zmiennych X. ma ten sam rozkład o wartości oczekiwanej y, i wariancji a 2. X op'sUje
do ż u c ia
*
<
opak°wan>u-
X|
E(X) = |i Var(X) = a 2
E (X ) = M V ar(X i) = a 2 L iczb a gum do żu cia w każdym opakow aniu
Pobierzmy teraz próbę o liczebności n z populacji generalnej. Liczbę gum do żucia ma zawartych w każdym opakowaniu wylosowanym do próby oznaczymy przez X p X2, ..., Xn. Zm ienne X. są niezależnymi zmiennymi losowymi o jednakowym rozkładzie zgodnym z rozkładem X. Każda ma więc wartość oczekiwaną równą y, i wariancję a2.
te n s a m ro zkfa d .
Średnią liczby gum zawartych w każdym z tych n opakowań oznaczymy przez X . W artość, jaką przyjmuje ta zmienna losowa, zależy od tego, ile gum znajduje się w każdym opakowaniu wylosowanym do próby. Możemy ją obliczać jako sumę elementów we wszystkich opakowaniach wylosowanych do danej próby podzieloną przez jej liczebność n.
Próba X
to W szystkie zm ienne X, m a ją jednakow y rozkfad, a w ię c i w spólną w a rto ść oczekiw aną oraz w a ria ncją.
X
\W o \
E (X 1) = M V ar(X 1) = a 2
510
Rozdziału.
E (X n) = M V ar(X n) = a 2
^
r
^ ¿
edn,ą
X 1 + X 2 + ... + X X = -------------------- n n
Szacujemy parametry populacji na podstawie próby
Z e zdefiniowanej wcześniej populacji generalnej można by wylosować wiele prób o liczebności n. Każda z nich składałaby się z n opakowań gum do żucia, z których każde mieści w sobie określoną liczbę gum. Liczbę tę opisują zmienne X. o jednakowym rozkładzie.
P r z y k ła d y p r ó b
z populacji generalnej
Śred nia z próby X
Śred nia z próby X Śred nia z próby X To je s t średnia liczba gum do żu cia przypadająca na opakow anie.
Jeśli dla każdej możliwej próby o liczebności n wyznaczylibyśmy wartość oczekiwaną interesującej nas cechy, moglibyśmy stworzyć rozkład prawdopodobieństwa zmiennej X, zwany rozkładem średniej z próby.
Rozkład średniej z próby pozwoli nan prawdopodobieństwo, o które pytał s; Zanim jednak będziemy mogli obliczyć praw dopodobiei wartości jakiejkolwiek zmiennej losowej, musimy określi przypadku musielibyśmy wprost określić, jaki rozkład m; odpowiedzieć na pytanie szefa Mighty Gumball o to, jak wybranym zbiorze 30 opakowań gum do żucia średnia z; będzie nie większa niż 8,5 sztuki. Podobnie jak w przypadku rozkładu z próby estym atora od znalezienia wartości oczekiwanej i wariancji zmienne
jesteś tutaj ► 511
Wartość oczekiwana x
Znajdujemy wartość oczekiwaną X Wiemy już, jak m ożna by skonstruować rozkład zmiennej X. W tym celu musielibyśmy rozpatrzyć wszystkie możliwe próby o liczebności n, dla każdej z nich wyznaczyć wartość zmiennej X i dla tak otrzymanych realizacji stworzyć rozkład. Zanim jednak przejdziemy do określenia kształtu tego rozkładu, spróbujemy znaleźć sposób na oszacowanie wartości jego param etrów . Zacznijmy od wartości oczekiwanej, czyli E(X). Ponieważ X oznacza przeciętną liczbę gum do żucia przypadającą na wylosowane opakowaie, możemy zapisać:
_
X. + X, + ... + X
X = — -------^------------- B
gdzie Xj, i = 1, 2, ..., n, jest zmienną losową oznaczającą liczbę sztuk gum do żucia zawartych w i-tym opakowaniu. Zależność tę wykorzystamy przy obliczaniu E(X ) w następujący sposób:
E(X) = E .(
■
X + X, + ... + X \ - ‘-
(1
*-
i —
' )■
. .
Te dwa wyrażenia prezentują to samo, tylko w innej fo rm ie .
1
= E'|I - X + --Xx„, +... + . . .+ +-- xX I \n 1 n 2 n nJ
M_ y
E|
-
--
-
-
--
-
w n a w ia sie
“ t S iS s - P^
* = - ( E( X,) + E(X,) + ... + E(Xn) )
Wynika stąd, że aby znaleźć E(X ), wystarczy nam znajomość wartości oczekiwanej każdej zmiennej X.. Wszystkie zmienne X. m ają ten sam rozkład, którego param etry już poznaliśmy. Ponieważ E(X.) = p, dla każdego i, możemy uwzględnić tę informację w ostatnim wzorze. Co wtedy otrzymamy?
512
Rozdziału.
-
Mogliśmy za p isa ć to "w te n sposób, ponieważ £ (X + Y ) = E(X) + E(Y).
Szacujemy parametry populacji na podstawie próby
Podstawmy zatem w ostatnio wyprowadzonej formule wartość y, zamiast E ( X .) :
_
W artość oczekiwana każdej
1
E ( X ) — — ( jU + jU + ... +
—
n i, 1
X. w ynosiu,czyliE(X ,.) = u dla każdego <■
Mamy n tego ty p u sktadników .
= -(& ) = n
Okazało się więc, że E ( X ) = y,. Innymi słowy, wartość oczekiwana przeciętnej liczby gum do żucia przypadających na każde opakowanie dobrane losowo do próby jest równa średniej populacji, z której próba ta została pobrana. Znaleźliśmy tym samym wartość oczekiwaną wszystkich możliwych średnich, jakie mogą się pojawić w próbach o rozmiarze n. Wydaje się, że ten wynik jest zgodny z intuicją. Mówi on o tym, że powinniśmy oczekiwać, iż w każdej losowo pobranej próbie złożonej z pewnej liczby opakowań gum do żucia przeciętna liczba gum przypadająca na jedno opakowanie będzie taka sama jak w całej populacji generalnej. Ponieważ z danych firmy Mighty Gumball wynika, że na każde opakowanie schodzące z taśmy produkcyjnej przypada 10 sztuk gum do żucia, powinniśmy oczekiwać, że w każdej losowo wybranej próbie takich opakowań średnia ta będzie wynosiła 10 sztuk.
Jeśli w catej populacji na każde opakow ane p r z y p f ° D ^ e c le tn le 10 gum do żucia, tyle samo mozesz s ię spodziew ać w każdym opakowaniu w ylosowanym do pr
WYSIL
___________________
SZARE KOMÓRKI Jakie jeszcze inform acje pow inniśm y posiąść, zanim będziemy m ogli określić w pełni rozkład zmiennej X? Co m ożem y zrobić, by zdobyć te informacje?
jesteś tutaj ► 513
y.
Wariancja X
A co z wariancją zmiennej X ? Wiemy już, ile wynosi E(X ), ale do pełni szczęścia brakuje nam jeszcze informacji o wariancji zmiennej X. Gdy ją znajdziemy, uczynimy znaczny krok do przodu w naszych poszukiwaniach rozkładu zmiennej X. Po czego p o tr z e b n a je s t nam VaKX)? Czy nie wystarczy nam znajomość VaKX) albo
O
a 2?
Rozkład zmiennej X nie jest taki sam jak rozkład zmiennej X. Z m ienna losowa X opisuje liczbę sztuk gum do żucia zawartą w pojedynczym opakowaniu. Z dokumentów firmy Mighty Gumball wiemy, jaka jest jej wartość oczekiwana i wariancja. i
W artość oczekiwana liczb y gum przypadających na jedno opakowanie w y n o s i'1 0 sztu ką za ś wariancja je s t rów na 1.
Tymczasem zmienna X mówi o tym, jaka liczba gum do żucia przypada przeciętnie na jedno opakowanie wzięte do próby. Jej rozkład mówi więc o tym, jak kształtuje się przeciętna zawartość opakowania gum do żucia w każdej próbie o liczebności n, jaką m ożna wylosować z populacji generalnej. E(X ) jest więc wartością oczekiwaną średniej z próby, zaś V ar(X ) jest jej wariancją.
Znajdowanie V ar(X ) przebiega w podobny sposób jak w przypadku E(X).
514
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Magnesiki Poniżej zamieszczono zapis wyprowadzenia wzoru na wariancję zmiennej losowej X. Niestety, niektóre magnesiki z fragmentami tego wyprowadzenia odkleiły się od podłoża. Spróbuj na powrót umieścić je we właściwym miejscu, tak aby otrzymać pełen zapis wyprowadzenia wzoru na wariancję zmiennej X.
Wskazówka: przypomnij sobie, w jaki sposób wyprowadziliśmy wzór na wartość E(W,
Var(X) = Var
= Var
)
(
= Var
(
■)
+ V a r(-
■)
+ ... + V a r (
)
( Var( X,) + VarO y + ... + Var(Xn) ) =
n
-) =
nx 1
jesteś tutaj y
515
Magnesiki: Rozwiązanie
Magnesiki: Rozwiązanie Poniżej zamieszczono zapis wyprowadzenia wzoru na wariancję zmiennej losowej X. Niestety, niektóre magnesiki z fragmentami tego wyprowadzenia odkleiły się od podłoża. Spróbuj na powrót umieścić je we właściwym miejscu, tak aby otrzymać pełen zapis wyprowadzenia wzoru na wariancję zmiennej X.
(
)
Xi + X2 + ... + Xn
Var(X) = Var
= Var
(
)
(
= Var
)
(O 4<[
a2 + a2 +
)
+ ... + Var (
(V a r(X ) + Var(X,) + ... + Var(X) )
+ a2
nx i
S p o k o jn ie
n
Skończone. N^ byto
Dz% k i te m a ^ p r z e c i ę t n a
516
Rozdziału.
Nie martw się,
jeśli nie udało Ci się wykonać tego zadania. Było ono naprawdę trudne.
N a szczęście na co dzień nie będziesz musiał robić tego typu wyprowadzeń. Wystarczy, ze zapam iętasz sam wynik. Chcieliśmy jednak, byś wiedział, skąd się on wziął.
Szacujemy parametry populacji na podstawie próby z ^ ró V y e s fy m ^ fo rĄ ś r e ^ n ie jz M is k ^ Przyjrzyjmy się bliżej rozkładowi z próby estym atora średniej populacji. W naszym rozumowaniu wyszliśmy od rozkładu interesującej nas cechy X w populacji generalnej. Dowiedzieliśmy się, ile wynosi jego wartość oczekiwana i wariancja. Mogliśmy zapisać: E(X ) = i V ar(X ) = a 2. N astępnie wyobraziliśmy sobie wszystkie próby o liczebności n, jakie można by wylosować z populacji generalnej, zdefiniowaliśmy zmienną X, będącą estymatorem średniej z próby, a następnie wyznaczyliśmy param etry jej rozkładu, to znaczy wartość oczekiwaną i wariancję:
E(X) = p _ CT2 Var(X) = — n Odchylenie standardowe zmiennej X można wyznaczyć jako pierwiastek kwadratowy z wariancji. Mówi ono o tym, jak bardzo wartości estym atora X będą się przeciętnie różniły od rzeczywistej wartości param etru populacji. Innymi słowy, mówi ono o tym, jaki jest średni błąd szacunku wartości oczekiwanej populacji szacowanej na podstawie próby o danej liczebności.
CT Średni błąd szacu n k u = —
Jak widzimy, jego wartość jest uzależniona od wielkości próby n. Im jest ona większa, tym uzyskiwane oceny punktowe wartości oczekiwanej populacji są bliższe jej rzeczywistej wartości.
Rozkład zmiennej X o w £
Im w iększe n, tum m niejszy
> t y
N
O
V
i
Wysokie n
|
3. . J - ......... ^ | standardowy btąd f | £ szacunku.
t
L, Niskie n
^
§
/
\
V .
\
X
liczb a gum w opakowaniu
jesteś tutaj ►
517
Kształt rozkładu X
Jaki jest więc kształt rozkładu zmiennej X ? Znam y już wartość oczekiwaną i wariancję rozkładu zmiennej X, ale nadal nie wiemy, jaki jest jego kształt. Bez tej wiedzy nie będziemy w stanie oszacować prawdopodobieństwa, o które prosił nas szef Mighty Gumball. Zastanówmy się więc, jak kształtowałby się rozkład zmiennej X, gdyby cecha X miała rozkład normalny. Oto szkic rozkładu X dla różnych wartości param etrów : p , a 2 i n, przy założeniu normalności rozkładu cechy X. Czy zauważyłeś coś szczególnego?
p = 0;
ct2 = 0.2
p = 0,
ct2 = 5.0
p = -2,
ct2 = 0.5
Dla każdej kombinacji param etrów p, a 2 i n otrzymujemy krzywą przypominającą swoim kształtem krzywą dzwonową. Innymi słowy: ^ _
^
To je st w a rtość oczekiwana ^ i war iancjaś z m , e n n ^ . e .
Je ż e li X ~ N(u, a 2), w tedy X ~ N(p, a 2/n)
No dobtŁe, ale skąd mamy pewność, ¿e im ienna X ma ro ikład normalny? Ą co, je ś li tak n ie je s t?
Rzeczywiście zmienna X wcale nie musi mieć rozkładu normalnego. Aby móc odpowiedzieć na pytanie szefa Mighty Gumball, musimy poznać rozkład zmiennej X. Niestety, jest on uzależniony od rozkładu zmiennej X, którego tak naprawdę nie znamy. Dlatego musimy się zastanowić, jaki rozkład będzie miała zmienna X, gdy rozkład zmiennej X nie będzie normalny.
518
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Jeśli n jest odpowiednio duże, rozkład X jest zbliżony do rozkładu normalnego W raz ze wzrostem liczebności próby n rozkład zmiennej X coraz bardziej przypomina rozkład normalny. Wiemy już, że gdy X m a rozkład normalny, również X jest zmienną normalną. Ale gdy ten warunek nie jest spełniony, nadal możemy przybliżyć rozkład X rozkładem normalnym, jeśli tylko próba, którą wykorzystujemy do estymacji, jest odpowiednio liczna. Choć na podstawie dokumentów firmy Mighty Gumball udało się obliczyć wartość oczekiwaną i wariancję rozkładu zmiennej X w populacji, to nadal nie wiemy, jakiej klasy jest to rozkład. Ponieważ jednak pobraliśmy próbę o liczebności n = 30, a więc stosunkowo dużą, nie musimy się przejmować rozkładem zmiennej X. W tym przypadku zastąpienie rozkładu X rozkładem normalnym pozwoli nam obliczyć szukane prawdopodobieństwo z wystarczającą dokładnością. Mówi o tym reguła znana jako centralne twierdzenie graniczne.
Poznajemy centralne twierdzenie graniczne Centralne twierdzenie graniczne mówi o tym, że jeśli z populacji o znanym rozkładzie zmiennej X pobierzemy próbkę o wystarczająco dużej liczebności, to rozkład zmiennej X będzie bardzo podobny do rozkładu normalnego. Jeśli więc wartość oczekiwaną rozkładu zmiennej X oznaczymy przez g., wariancję jako a 2, zaś liczebność próby n nie będzie mniejsza niż 30, wówczas:
X ~ N(p, a 2/n)
\f~
To je s t w a rto ść oczekiwana i w a ria ncja zm iennej X .
Czy ten zapis nie wydaje Ci się znajomy? Masz rację, jest to ten sam wynik, który uzyskaliśmy przy założeniu normalności zmiennej X. Jedyna różnica sprowadza się do tego, że przy założeniu normalności rozkładu zmiennej X nie musimy się martwić o wielkość próby.
Z centralnego twierdzenia granicznego wynika, ze gdy wielkość próby jest odpowiednio duża, rozkład z próby estymatora X jest w przybliżeniu normalny. jesteś tutaj ► 519
Centralne twierdzenie graniczne
Stosujemy centralne twierdzenie graniczne Z o b a c z m y , ja k m o ż e m y w y k o rz y sta ć w p ra k tyce to tw ierdzenie.
Rozkład dwumianowy Z a łó ż m y , że z m ie n n a X m a w p o p u la c ji ro z k ła d d w u m ia n o w y: X ~ B ( n , p), p rz y czym lic ze b n o ść p r ó b y
n jest w ię k sz a o d 30. Z ro z d z ia łu 7.
w iem y, że E ( X ) = p. = np, V a r ( X ) = a 2 = npq. Z ce n tra ln e go tw ie rd z e n ia g ra n ic z n e g o w yn ika , że w tym p rz y p a d k u X ~ N(,u, a 2/n). P o d sta w ia ją c w a rto śc i p a r a m e t r ó w ^ i a 2, otrzym ujem y:
X ~ N(np, pq); c v mm
w ynosinp N(npi pą)_
Rozkład Poissona Z a łó ż m y teraz, że z m ie n n a X m a ro z k ła d P o isso n a : X ~ P o ( X ) i że z p o p u la c ji o tym ro z k ła d z ie lo su je m y p ró b k ę o lic ze b n o ści w iększej n iż 30. P a m ię tam y, że dla ro z k ła d u P o isso n a : p, = a 2 = X. P o n ie w a ż p r ó b k a jest d osta te czn ie liczna, m o ż e m y p rz yb liż yć ro z k ła d zm ienn ej X ro z k ła d e m n o rm a ln y m : X ~ N(,u, a 2/n). P o p o d sta w ie n iu k o n k re tn y c h w a rto śc i p a ra m e tró w p, i a 2 otrzym ujem y:
Dla rozkłada Poissona w a rto ś ó o c z e k iw a n a i w a ria ncja t __ Są równe X. Dlatego też jeśli X - PoW, X ~ N(X, X/n^ - N(X, X/n).
—
Znajdujemy prawdopodobieństwo P rz y za łoże n iu , że X m a ro z k ła d n o rm a ln y , s z u k a n e n a p ro śb ę szefa M ig h t y G u m b a ll p ra w d o p o d o b ie ń stw o m o ż e m y o d czyta ć w p ro st z tablic te go ro zk ła d u . M o ż e m y w ięc p o stą p ić ja k w p rz y p a d k u każdej innej zm ienn ej o ro z k ła d z ie n o rm a ln ym .
520
Rozdziału.
Szacujemy parametry populacji na podstawie próby
Wykorzystajmy zdobytą wiedzę do znalezienia odpowiedzi na pytanie szefa Mighty Gumball. Przypomnijmy, że przeciętna zawartość opakowania schodzącego z taśm zakładów produkcyjnych firmy wynosi 10 sztuk gum do żucia, zaś wariancja jest równa 1. Jeśli wybierzemy losowo próbkę 30 opakowań gum do żucia, z jakim prawdopodobieństwem możemy założyć, że na każde opakowanie będzie przypadało nie więcej niż 8,5 gumy? Obliczenia wykonaj zgodnie z poniższymi krokami. 1. Jaki jest rozkład zmiennej X?
2. Ile wynosi P(X < 8,5)?
jesteś tutaj ► 521
Ćwiczenie: Rozwiązanie
Wykorzystajmy zdobytą wiedzę do znalezienia odpowiedzi na pytanie szefa Mighty Gumball. Przypomnijmy, że przeciętna zawartość opakowania schodzącego z taśm zakładów produkcyjnych firmy wynosi 10 sztuk gum do żucia, zaś wariancja jest równa 1. Jeśli wybierzemy losowo próbkę 30 opakowań gum do żucia, z jakim prawdopodobieństwem możemy założyć, że na każde opakowanie będzie przypadało nie więcej niż 8,5 gumy? Obliczenia wykonaj zgodnie z poniższymi krokami.
Rozwiązanie
1. Jaki jest rozkład zmiennej X? Wiemy, że X - N(u, a2/n ), u = 10, a2 = 1, n = 30, za ś 1 /3 0 = 0 ,0 3 3 3 . Wynika stąd, ze: X - NCiO; 0,0333)
2. Ile wynosi P(X<8,5)? Ponieważ X - N(10; 0 ,0 3 3 3 ), m usim y znaleźć standaryzowaną wartość X = 8,5, którą posłużym y s ię w tablicach do odczytania szukanego prawdopodobieństwa. A zatem : 8,5 - 10
z =—
=
i 0,0333 = -8 ,2 2 (z dokładnością do dwóch m iejsc po przecinku)
P ( Z < z ) = P (Z< -8 ,2 2 )
Prawdopodobieństwo takiego zdarzenia j e s t na tyle małe, że nie zostało naw et zam ieszczone w tablicach rozkładu. M ożemy założyć, że zdarzenie o tym prawdopodobieństwie praktycznie nigdy nie zajdzie.
522
Rozdziału.
Szacujemy parametry populacji na podstawie próby i N ie .is + n ie ja .
głupie pytania Podobnie jest w przypadku szacowania
Nieobciążenie jest pożądaną cechą
wskaźnika struktury p, którego wartość
estymatora, ponieważ oznacza ono,
możemy ocenić na podstawie próby,
że uzyskiwane dzięki niemu oceny
korzystając z estymatora Ps. A zatem
punktow e nieznanych param etrów
0 : Bardzo dobre pytanie. Odpowiedź
p = ps. Okazuje się, że wartość oczekiwana
populacji będą przeciętnie rów ne ich
brzmi: nie musisz. M ów i ono o rozkładzie
estymatora Ps wynosi p. Dlatego nieznaną
rzeczywistym wartościom.
pewnej statystyki z próby, bez względu
wartość p możemy oszacować
na rozkład cechy w populacji.
na podstawie próby, korzystając ze wzoru
^ : Czy opierając się na centralnym twierdzeniu granicznym, muszę stosować poprawkę na ciągłość?
na p.
^ : Czy między rozkładem estymatora a rozkładem cechy w populacji istnieje jakiś związek? 0 : Rzeczywiście, istnieje. Zacznijmy od średniej. Estymatorem tego parametru jest X, to znaczy ¡j = X. Jeśli
Nie możemy tego dowieść w tej książce, ale podobne zależności są prawdziwe dla wariancji. W tym przypadku możemy zapisać: a 2 = s2oraz E(S2) = a 2.
^ : Jak się ma do tego średni błąd szacunku? 0 : Najlepszym estymatorem w danej klasie estym atorów nieobciążonych jest ten, którego wariancja jest najmniejsza. Innymi słowy, najbardziej precyzyjne oceny
: Czy jest to tylko wynikiem przypadku?
punktow e daje estymator o najmniejszym błędzie szacunku.
teraz spojrzymy na rozkład zmiennej X, zobaczymy, że E(X) = p. A zatem wartość
0 : Nie. W tym rozdziale świadomie
oczekiwana estymatora parametru p
dobieraliśmy takie estymatory nieznanych
wynosi dokładnie p. Jego nieznaną wartość
param etrów populacji, aby ich wartości
możemy oszacować na podstawie próby.
oczekiwane wyznaczone dla dużych prób dobieranych w sposób losowy były równe rzeczywistym wartościom param etrów populacji.Tego rodzaju estymatory nazywamy nieobciążonymi.
CELNE SPOSTRZEŻENIA
Rozkład z próby estym atora średniej X jest
Średni błąd szacunku (błąd standardow y) jest
rozkładem , jaki otrzym alibyśm y, rejestrując wartości
rów ny odchyleniu standardow em u zmiennej X:
jego realizacji w każdej próbie o rozm iarze n, którą m ożna pobrać z populacji generalnej.
V V a r(X )
W artość o czekiw ana i w arian cja zm iennej X dane są w zorem : E(X) = p V ar(X) = a 2/ n przy czym p i a 2 są — odpow iednio — wartością oczekiwaną i wariancją rozkładu cechy w populacji.
Jeśli X - N(p, a 2), wówczas X - N(p, a 2/n ) . C entralne tw ie rd ze n ie graniczne m ów i o tym , że przy odpow iednio dużej próbie (dużym n) warunek X - N(p, a 2/ n ) zachodzi bez względu na rozkład w populacji zmiennej X. X - N ( p , a 2/ n )
jesteś tutaj ► 523
Po trzykroć brawa!
Informacje z próby ratują sytuację!
Praca, jaką w y k o n a ł e ś , j e s t -----naprawdę imponująca. P iię k i Twojej pomocy wiem, ¿e sytuacja, która mogła się prtycŁynić do u tra ty p rte Ł nas klucŁowego k lie n ta ,je s t mało prawdopodobna i nie powinna się pow to rtyć. Nie musŁę więc Łamraiać środków w postaci fundusŁu na rekompensaty, co b ard to mnie ciesty!
Twoje postępy sę imponujące Po przeczytaniu tego rozdziału potrafisz nie tylko wyznaczyć punktowe oceny nieznanych param etrów populacji, ale również umiesz wykorzystać informacje o rozkładach estymatorów do obliczania prawdopodobieństwa ich realizacji w losowo dobranej próbie. To naprawdę bardzo cenna umiejętność.
524
Rozdziału.
12. Konstruujemy przedziały ufności %
^
Wyrażamy przekonania
Czasami estymacja punktowa daje nie do końca trafione wyniki.
Wiesz juz, jak
za pom ocą estym a to rów p unktow ych uzyskać dokładne oceny p aram etrów populacji, takich jak w artość oczekiwana, wariancja czy w skaźnik struktury. Nie zawsze jednak ocena w postaci pojedynczej liczby zaspokoi w pełni Twoje oczekiwania. Bo jak ocenić, na ile jest ona dokładna? Bądź co bądź całe wnioskowanie o populacji generalnej opiera się na stosunkow o nielicznej próbie, która przecież nie zawsze musi w pełni odzwierciedlać charakterystyki populacji. W tym rozdziale poznasz inną m etodę szacow ania nieznanych w artości p ara m e tró w populacji, która uwzględnia pewien stopień niepewności ocen i — co więcej — po zw a la ją zmierzyć. Czytaj dalej, a poznasz wszystkie tajemnice p rze d zia łó w ufności.
to jest nowy rozdział ► 525
Jeszcze jedna prośba o przysługę
Mighty Gumball znów ma kłopot Szef Mighty Gumball zrealizował swoje plany dotyczące kampanii reklamowej. Co więcej, sam wziął w niej udział. Wystąpił w jednej z reklamówek, ogłaszając z dumą, jak długo trwa smak produkowanych przez jego firmę gum do żucia. Chciał być na tyle precyzyjny, ze podał czas z dokładnością do ostatniej sekundy. N iestety... Mamy kłopot. Ktoś p tie.pto w addł n ie Ł a le in e te s ty nasŁycb gum do ¿uda i ottŁym ał Łupełnie inne wyniki. TeraŁ g ró d nam poŁwem, który m o ie nas kosŁtować mnóstwo
p ie n ię d z y .
Mighty Gumball wykorzystało w swoich testach próbkę 100 gum do żucia. N a jej podstawie oszacowano średnią trwałość smaku na 62,7 minuty, z wariancją równą 25. Tymi właśnie wskaźnikami posłużył się szef Mighty Gumball, ogłaszając w najlepszym czasie reklamowym, że jego gumy zachowują smak średnio przez 62,7 minuty. Pracownicy firmy posłużyli się najlepszymi estymatorami do oszacowania wartości tych param etrów . A jeśli mimo tego uzyskali nieprawdziwe wyniki? Gdyby doszło do rozprawy sądowej, firma nie tylko straciłaby pieniądze tytułem zasądzonych odszkodowań, ale również utraciłaby niezbędną w biznesie wiarygodność. D latego szef Mighty Gumball zwrócił się do Ciebie o pomoc.
Tylko Ty możesz im pomóc
WYSIL SZARE KOMÓRKI Jak sądzisz, co m ogło pójść nie tak? Czy estym atory pu n kto w e param etrów w ykorzystane przez M ig hty Gumball w kampanii reklam owej były wiarygodne? Dlaczego?
526
Rozdział12.
Konstruujemy przedziały jfności
Problemem pozostaje precyzja Jak podkreśliliśmy w poprzednim rozdziale, zaproponowane przez nas estymatory dawały najlepsze z możliwych oceny param etrów populacji generalnej. W oparciu o informacje zawarte w reprezentatywnej próbie pozwalały nam oszacować wartość param etrów populacji, takich jak średnia, wariancja czy wskaźnik struktury. Oszacowany przez pracowników Mighty Gumball średni czas, przez jaki produkty firmy zachowywały dobrze wyczuwalny smak, był więc najlepszą z możliwych przybliżeń jego rzeczywistej wartości. W adą estymatorów punktowych jest to, że wykorzystują one informacje zawarte w pojedynczej próbie i zwracają bardzo precyzyjne wartości. Z tego powodu tak ważne jest, by próba, na której się opierają, była możliwie najbardziej reprezentatywna. Choć możemy zadbać o to, by próba była nieobciążona, to jednak nigdy nie będziemy mieli 100% pewności, że w pełni odzwierciedla charakterystyki populacji. Bo nadal będzie to tylko próba.
Z araŁ , Ł arat! C ty te ra Ł chcecie powiedzieć, że estym atory punktowe są do niczego? Teraz, gdy ju ż nauczyłam się te g o wszystkiego?
Estymatory punktowe mają swoją wartość, ale mogą nie być najbardziej precyzyjne. Ponieważ obliczając wartości param etrów na podstawie próby, korzystamy jedynie z ograniczonej informacji o populacji, wszystko, co otrzymujemy w wyniku, to jedynie szacunki. Jeśli próba była nieobciążona, mamy duże szanse na otrzymanie ocen bliskich rzeczywistym wartościom param etrów populacji. Pytanie tylko, na ile te wartości są sobie bliskie? D o zagadnienia szacowania param etrów populacji możemy podejść od zupełnie innej strony. Zam iast bardzo precyzyjnych estymatorów punktowych możemy wyznaczać estymatory przedziałowe. Moglibyśmy na przykład podać informację, że trwałość smaku gum produkowanych przez Mighty Gumball mieści się w przedziale od 55 do 65 minut. W ten sposób nadal wyrażamy przekonanie, że smak ten jest wyczuwalny przez około godzinę, ale dopuszczamy pewien margines błędu. Jak więc wyznaczyć tego rodzaju estymator przedziałowy? Wszystko zależy od tego, na ile wiarygodną informację chcesz uzyskać...
jesteś tutaj ► 527
Wszystko o irzedziałach ufności
Poznajemy przedziały ufności W poprzednim rozdziale udało nam się oszacować przeciętną trwałość smaku gum do żucia przy użyciu estym atora wykorzystującego informacje z próby. Była to ocena punktowa, to znaczy mająca postać jednej konkretnej liczby. Oto szkic wykresu rozkładu trwałości smaku stworzony w oparciu o dane z próby. W ramach I ^
A
V
a rytm e tyczn ej z próby.
_ _
M= x
Jak wyglądałby podobny wykres z naniesionymi ocenam i w postaci przedziałowej? Musielibyśmy tu zaznaczyć dwie wartości graniczne, pomiędzy którymi — naszym zdaniem — mieści się rzeczywista wartość param etru. Pośrodku tak wyznaczonego przedziału znajdzie się estymacja punktowa param etru uzyskana za pom ocą estymatora. Dopuścimy jednak dla niej pewien margines błędu.
W artości graniczne a i b dobierane są w taki sposób, by wyznaczonemu przez nie przedziałowi ufności można było przypisać określone prawdopodobieństwo pokrycia rzeczywistej wartości param etru populacji. N a przykład możemy chcieć dobrać takie wartości a i b, aby mieć 95% szans na to, że pomiędzy nimi znajdzie się rzeczywista wartość oczekiwana populacji, czyli:
P(a < p < b) = 0,95
T ak wyznaczony przedział oznaczymy przez (a, b). Ponieważ konkretne wartości a i b zależą od tego, z jaką ufnością podchodzimy do faktu, że pokrywają one rzeczywistą wartość param etru populacji, przedział przez nie wyznaczony nazywamyprzedziałem ufności. Jak więc znaleźć przedział ufności dla średniej w populacji?
528
Rozdział12.
skacujem y
Konstruujemy przedziały ufności
Wyznaczamy przedział ufności w czterech krokach O to krótka lista kroków, jakie trzeba wykonać, by wyznaczyć przedział ufności. Nie martw się, jeśli w pierwszej chwili nie zrozumiesz znaczenia któregoś z nich. Więcej na ten tem at powiemy już za chwilę. T est to p a ra m e tr P ° P ^ f / ' hresz
Rozkłady estym atorów z próby omówiliśmy w poprzednim ro z d zia le .S
4^
W ybierz param etr populacji. W
u fn o ś c i.
Znajdź rozkład jeg o estym ato ra w próbie. Prawdopodobieństwo, z jakim Twój W ybierz poziom ufności.
¡ / ^ przedział będzie pokrywał rzeczyw istą wartość parametru populacji.
Znajdź g ra n ice przedziału ufności.
—
.zna,eźc” granice przedziału
.""¿simy określić poziom Z m ć rozktad estym atora Parametru populacji w próbie. 7
Spróbujmy zatem wyznaczyć przedział ufności, który szef Mighty Gumball mógłby wykorzystać w kam panii reklamowej swoich gum do żucia. Będzie to przedział ufności dla średniej trwałości ich smaku. i Nie.istnieja.
głupie pytania ^ : Czy przedział ufności możemy skonstruować dla dowolnego parametru populacji?
A co z wariancją? Czy i dla niej można skonstruować przedział ufności?
^ : Czy musimy przy tym brać pod uwagę rozkład badanej cechy w populacji?
0 : M ów iąc najogólniej, możesz
0 : Oczywiście że tak. Ponieważ jednak
0 : Najważniejszą informacją będzie dla
wyznaczyć przedział ufności dla każdego
nie badaliśmy rozkładu jej estymatora
nas rozkład z próby estymatora parametru,
parametru populacji, dla którego Istnieje
w próbie, dlatego też nie możemy
dla którego wyznaczamy przedział ufności.
estymator o znanym rozkładzie. W
wyznaczyć przedziału ufności dlatego
Jeśli będziemy wyznaczali przedział dla
poprzednim rozdziale wyznaczyliśmy
parametru. Zagadnienie wyznaczania
wartości oczekiwanej, musimy znać
rozkład z próby dla średniej i wskaźnika
rozkładu z próby estymatora wariancji
rozkład zmiennej X, jeśli dla współczynnika
struktury populacji, dlatego też dla tych
wykracza poza zakres tej książki.
proporcji — rozkład zmiennej P
param etrów będziemy wyznaczać przedział ufności.
Rozkład badanej cechy w populacji ma
^ : Czy te cztery kroki, które podaliście wyżej, odnoszą się do przedziału ufności dla wartości oczekiwanej, czy dla wskaźnika struktury?
jedynie pośredni w p ływ na konstruowany przedział ufności — w takim zakresie, w jakim decyduje o rozkładzie estymatora w próbie.
0 : Podana wyżej lista czynności jest na tyle ogólna, że można ją stosować przy konstruowaniu przedziału ufności dla dowolnego parametru populacji. A więc zarówno dla wartości oczekiwanej, jak I współczynnika proporcji.
jesteś tutaj ► 529
Konstrukcja przedziałów ufności krok po kroku
Krok 1: Wybierz parametr populacji W pierwszym kroku musimy określić, dla którego param etru populacji będziemy konstruowali przedział ufności. Wszystko zależy więc od tego, jaki problem chcemy rozwiązać. W naszym przypadku będziemy wyznaczali przedział ufności dla przeciętnej trwałości smaku gum do żucia firmy Mighty Gumball, a zatem naszym param etrem będzie średnia w populacji, czyli /z. Teraz, gdy określiliśmy już param etr populacji, możemy przejść do następnego kroku.
Krok 2: Znajdź rozkład jego estymatora w próbie Aby móc wyznaczyć granice przedziału ufności, będziemy musieli poznać rozkład estym atora wartości oczekiwanej w próbie. Ponieważ estymatorem tym jest statystyka X, to właśnie znajomość jej rozkładu (w tym jego wartości oczekiwanej i wariancji) będzie nam potrzebna. Zacznijmy od wyznaczenia wartości oczekiwanej i wariancji rozkładu zmiennej X. Jest to o tyle proste, że już je znamy, bo — jak pewnie pam iętasz — wyznaczyliśmy je w poprzednim rozdziale. Oto one:
E(X ) = /*
— a2 V ar(X ) = — n
Oczywiście będziemy mogli wykorzystać je do konstrukcji przedziału ufności dla /z, pod warunkiem że w miejsce a 2 podstawimy wariancję rozkładu cechy w populacji, a z a n — liczebność próby, którą wykorzystujemy w estymacji.
Nie, za p nie podstawiamy żadnej wartości, ponieważ to jest właśnie parametr, którego nieznaną wartość chcemy oszacować za pomocą przedziału ufności. Konstruując przedział ufności dla param etru /z, oprzemy się na rozkładzie z próby estym atora tego właśnie param etru. Oznacza to, że w powyższych wzorach musimy podstawić konkretne wartości dla wszystkich param etrów , z wyjątkiem /z. Podstawiwszy wartości a 2 i n, będziemy mogli wykorzystać informacje o rozkładzie X do wyznaczenia granic przedziału ufności. Jak to zrobić, przekonasz się już wkrótce. Jest tylko jeden problem . Zapewne zdałeś sobie sprawę z tego, że nie znamy rzeczywistej wartości param etru a 2, czyli wariancji populacji. Jedyne, czym możemy się posłużyć, to jej ocena punktowa uzyskana na podstawie próby.
530
Rozdział12.
Konstruujemy przedziały ufności
Estymatory z próby przychodzą nam z pomocą Co więc mamy podstawić za a 2? Choć nie znamy rzeczywistej wartości param etru a 2, czyli wariancji rozkładu badanej cechy w populacji, to jednak możemy spróbować oszacować ją na podstawie informacji zawartej w próbie. Z am iast więc wartości a 2, w zamieszczonym wyżej wzorze podstawimy wartość a 2, czyli s2. Oznacza to, że wartość oczekiwaną i wariancję rozkładu zmiennej X możemy wyznaczyć według poniższych wzorów:
E(X ) = /*
Var(X ) = —
Wiemy, że ocena punktow a dla wariancji uzyskana przez pracowników Mighty Gumball wynosi s2 = 25 i że oszacowano ją na podstawie próby o liczebności n = 100. Możemy więc zapisać:
Var(X ) = - ^ 25 lÓÓ = 0,25 Po tych obliczeniach pozostaje nam jeszcze określić rozkład zmiennej X. Bez jego znajomości nie będziemy mogli wykonać kolejnych kroków.
Zaostrz ołówek Załóżmy, że badana cecha populacji ma następujący rozkład: X ~ N(p, o2), a liczebność próby, jaką mamy do dyspozycji, jest duża. Jaki jest wówczas rozkład zmiennej X? Skorzystaj z zamieszczonych wyżej wzorów na E(X) i Var(X).
jesteś tutaj ► 531
Zaostrz ołówek: Rozwiązanie
C(r Zaostrz ołówek _________________________________________________________ Rozwiązanie
Załóżmy, że badana cecha populacji ma następujący rozkład: X ~ N(p, o2), a liczebność próby, jaką mamy do dyspozycji, jest duża. Jaki jest wówczas rozkład zmiennej X? Skorzystaj z zamieszczonych wyżej wzorów na E(X) i Var(X).
Jeśli zmienna X ma rozktad norma/nu, to zmienna X także. Podstawiając za a2 wartość jej estumatora z próbu, otrzymujemy: X - N(u, s 2/n ) czyli X - N(u, 0,25)
Tym samym znaleźliśmy rozkład X Gdy już znamy rozkład w próbie estym atora X nieznanego param etru y , możemy przejść do następnego kroku.
Krok 2: Wybierz poziom ufności Wybierając określony poziom ufności, decydujesz tak naprawdę o tym, na ile ufasz tem u, że skonstruowany przedział pokryje rzeczywistą wartość param etru populacji. Wyobraź sobie na przykład, że dla naszego param etru y założymy poziom ufności równy 95%. W takim przypadku prawdopodobieństwo tego, że uzyskany przez nas przedział będzie pokrywał rzeczywistą wartość param etru y , będzie wynosiło 0,95. Poziom
^ W
Y
S
I L
___________________________________
SZARE KOMÓRKI Jak sądzisz, w jaki sposób poziom ufności może się przekładać na szerokość przedziału ufności?
532
Rozdział12.
„
Konstruujemy przedziały jfności
Jak wybrać odpowiedni poziom ufności Co więc decyduje o tym, jaki jest najlepszy poziom ufności? Jaki poziom powinniśmy wybrać? T ak naprawdę nie istnieje dobra odpowiedź na te pytania. Wszystko zależy bowiem od tego, na ile chcesz być pewny, ze Twoje oceny przedziałowe są wiarygodne. W większości zastosowań przyjmuje się poziom ufności równy 95%, choć niekiedy spotyka się wartości 90% czy 99%. Pracownicy Mighty Gumball mogliby chcieć przyjąć wyższy poziom ufności (np. 99%), by móc z większym przekonaniem o słuszności swoich szacunków wykorzystać je w kampanii reklamowej. T rzeba jednak pam iętać i o tym, że im wyższy przyjmiemy poziom ufności, tym szerszy uzyskamy przedział ufności. Bowiem tylko poszerzając przedział ufności, możemy zwiększyć pewność, że pokryje on nieznaną wartość param etru populacji, którą chcemy oszacować. s'
( f I
No dobrze, więc
■
d lacŁ eg o n ie wytnacŁymy
naprawdę szerokiego przedziału. ufności? Tak, by na pewno objął f on stukaną wartość parametru populacji.
Gdybyśmy chcieli nadmiernie poszerzyć przedział ufności, jego wyznaczanie straciłoby sens. Wyobraź sobie, że dokonaliśmy oceny przedziałowej, z której wynika, że przeciętna trwałość smaku gum do żucia firmy Mighty Gumball mieści się w granicach od 0 minut do 3 dni. Z całą pewnością rzeczywista średnia z populacji mieści się w podanym przedziale. Tylko czy taka informacja coś nam daje? Raczej nie. Bo nadal nie jesteśmy w stanie powiedzieć, jak bardzo trwały jest smak tych gum: czy liczyć go w sekundach, m inutach, czy godzinach? A może dniach? D latego powinniśmy dążyć do tego, by uzyskać przedział na tyle wąski, aby niósł ze sobą wartościową informację, a jednocześnie na tyle szeroki, by ta informacja była możliwie najbardziej wiarygodna. Przyjmijmy, że w naszym przykładzie poziom ufności będzie wynosił 95%. To nam zagwarantuje w miarę wysokie prawdopodobieństwo pokrycia przedziałem rzeczywistej wartości oczekiwanej populacji. Teraz możemy przejść do ostatniego etapu, czyli wyznaczania granic przedziału ufności.
jesteś tutaj ► 533
Granice przedziału ufności
Krok 4 : Znajdź granice przedziału ufności W tym kroku będziemy chcieli wyznaczyć konkretne wartości a i b, stanowiące granice przedziału ufności — odpowiednio: lewą i praw ą — który z prawdopodobieństwem 0,95 zawierał będzie poszukiwaną wartość oczekiwaną populacji. Położenie granic przedziału ufności zależy od rozkładu z próby estym atora szacowanego param etru populacji oraz od przyjętego poziomu ufności. W naszym przykładzie przyjęliśmy założenie o 95-procentowym poziomie ufności. Zakładam y więc, że prawdopodobieństwo tego, iż rzeczywista wartość param etru p będzie leżała w przedziale (a, b), wynosi 0,95. Wiemy również, że X ~ N(ju, 0,25). Poniższy rysunek przedstawia zarys sytuacji, w jakiej się znajdujemy:
Po/e każdego z tych obszarów powinno
reprezentować prawdopodobieństwo 0,025, tak by razem dawały 0 ,0 5 .
W artości a i b znajdziemy w oparciu o rozkład zmiennej X. Znajdziemy mianowicie takie a i b, by P(X < a) = P(X > b) = 0,025, przy założeniu, że X"~ N (p, 0,25). C zy t o o zn a c z a , z e k o n s t r u k c ja p r z ę d z ia fu u f n o ś c i d la p o p ie r a s ię n a r o z k ła d z i e n o rm a ln y m ?
Ponieważ X ma rozkład normalny, właśnie na tym rozkładzie oprzemy nasze poszukiwania granic przedziału ufności. Oznacza to, że w dalszych pracach nad rozwiązaniem naszego problem u będziemy mogli wykorzystać wiedzę, którą zdobyliśmy wcześniej. W pierwszej kolejności skorzystamy z definicji zmiennej standaryzowanej Z, a następnie odczytamy szukane wartości graniczne a i b z tablic prawdopodobieństwa standaryzowanego rozkładu normalnego.
534
Rozdział12.
Konstruujemy przedziały jfności
Zaczniemy od wyznaczenia Z Zanim będziemy mogli skorzystać z tablic rozkładu norm alnego, musimy przeprowadzić standaryzację zmiennej X. Wiemy, ze X ~ N(ju., 0,25), a zatem możemy zapisać:
Z
gdzie
Z ~ N(0’ 1)
O to szkic wykresu zmiennej Z z zaznaczonym przedziałem ufności.
Wynika z niego, ze musimy znaleźć takie wartości liczbowe za i zb, dla których P(za< Z < z b) = 0,95. Innymi słowy, przedział ufności dla zmiennej standaryzowanej Z wyznaczają granice za i zb takie, ze spełniony jest warunek P (Z < za) = P (Z > zb) = 0,025. Wartości za i odczytamy łatwo z tablic standaryzowanego rozkładu normalnego.
_
Zaostrz ołówek Musimy znaleźć takie wartości za i zb, by spełniony był warunek P(za< Z < zb) = 0,95. 1. Korzystając z tablic rozkładu normalnego, znajdź z , dla której P(Z < z ) = 0,025.
2. Korzystając z tablic rozkładu, normalnego znajdź zb, dla której P(Z > zb) = 0,025.
jesteś tutaj ► 535
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek _____ Rozwiązanie
Musimy znaleźć takie wartości za i z by spełniony był warunek P(za< Z < zb) = 0,95.
1. Korzystając z tablic rozkładu normalnego, znajdź za, dla której P(Z < za) = 0,025. Po znalezieniu w tablicy rozktadu normalnego prawdopodobieństwa równego 0,025 odczytujem y w odpowiednich nagłówkach kolumn i wierszy, że z= -1 ,9 6 .
2. Korzystając z tablic rozkładu normalnego, znajdź zb, dla której P(Z > zb) = 0,025. P ostępując w ten sam sposdfc, tyle że dla prawdopodobieństwa równego 0,975, odczytujem y z b, która wynosi 1,96.
Zapisujemy prawdopodobieństwo z użyciem X Ponieważ znamy już granice przedziału ufności dla zmiennej standaryzowanej Z, możemy zapisać: P (-l,9 6 < Z < 1,96) = 0,95. Korzystając z definicji zmiennej Z, możemy zapisać go z użyciem zmiennej X:
pl
-1,96 < - ^
< 1,96 | = 0 ,9 5
'(■
)
N o d o b r z e , a le p r z e c i e ż m ie liś m y w y zn a c zy ć p r z e d z ia ł u fn o ś c i d la p . Jak t o z r o b ić ?
Aby wyznaczyć ostatecznie przedział ufności dla p, wystarczy przekształcić nierówność w nawiasie tak, by była wyrażona względem p. Jeśli przekształcimy
-1,96 <
X -p — < 1,96 0,5
do postaci: a < p < b Otrzymamy przedział ufności dla p.
536
Rozdział12.
Tak będzie wyglądał przedział u fności dla u-
Konstruujemy przedziały ufności
Łamigłówka Korzystając z elem entów układanki umieszczonych w basenie, uzupełnij poniższe przekształcenia, tak by z przedziału o postaci -1,9 6 < ( X - p ) / 0 , 5 < 1,96 uzyskać przedział ufności dla param etru p. Pamiętaj, że nie możesz użyć tego samego elem entu więcej niż raz.
-1,96 < ^ z lewej stro n y.
< 1,96 >
A tutaj nierówność występująca z prawej strony. F n ą
£ -1,96 <
X-m
X-m
0,5
0,5
< 1,96
X - m<
-1,96 x
x 0,5
X< +m
+ m< X
M<
A o to końcow y r e z u lta t,
X - 0,98 < M< X + 0,98
itiu z y s k c m y
sca le n iu nie ró w n o ści.
W skazówka: każdy elem ent układanki możesz wykorzystać tylko jeden raz!
jesteś tutaj ► 537
Łamigłówka: Rozwiązanie
Łamigłówka: Rozwiązanie Korzystając z elem entów układanki umieszczonych w basenie, uzupełnij poniższe przekształcenia, tak by z przedziału o postaci -1,9 6 < ( X - p ) / 0 , 5 < 1,96 uzyskać przedział ufności dla param etru p. Pamiętaj, że nie możesz użyć tego samego elem entu więcej niż raz.
Tutaj przekształcamy nierówność występującą z lewej strony.
S,
-1,96 <
X-p
< 1,96
0,5
X-p
X-p -1,96 < -----— 0,5
-1,96 x
0,5
~ö J ~
X < 0,98
p < .X + 0,98. .
X - 0,98 < p
X - 0,98 < p < X + 0,98
538
Rozdział12.
< 1,96
X - p < . .1,96. . x 0,5
-0,98 + p < X
W skazówka: każdy element układanki możesz wykorzystać tylko jeden raz!
A tutaj nierówność w ystępująca z prawej strony. F n
+p
Konstruujemy przedziały ufności
Znajdujemy ostatecznie wartość zmiennej X Teraz, kiedy wyznaczany przez nas przedział ufności m a już pożądaną postać (jest wyrażony względem p ara m etru p ), już tylko krok dzieli nas od znalezienia rzeczywistych wartości jego granic. Punktem wyjścia będzie ostatnio otrzymany przez nas wzór:
P(X - 0,98 < p < X + 0,98) = 0,95
O to nasz przedział ufności po ostatnich przekształceniach:
0,025
X - 0 ,9 8
X + 0 ,9 8
N ieznane dotąd granice przedziału dane są wzorami: X -0 ,9 8 oraz X + 0,98. Jedyną niewiadomą pozostaje więc wartość zmiennej X, czyli estym atora wartości szukanego param etru.
Ą m o ż e moglibyśmy u iyć informacji potyskanych p r z e z pracowników M igbty Gumball cŁasie testów ? M o ie moglibyśmy u ż y ć średniej arytm etycŁnej z próby?
X jest estymatorem wartości oczekiwanej obliczanym jako średnia arytmetyczna z próby. Dlatego możemy wykorzystać wartość X, którą poznaliśmy w czasie testów gum do żucia Mighty Gumball. _
*
Zaostrz ołówek Rozwiązanie
Wiedząc, że granice przedziału ufności dane są wzorami: X - 0,98 oraz X +0,98, a średnia z próby X = 62,7 (minuty), wskaż liczby będące granicami przedziału ufności.
jesteś tutaj ► 539
Zaostrz ołówek: Rozwiązanie
_
Zaostrz ołówek _________________________________________________________ Rozwiązanie
Wiedząc, że granice przedziału ufności dane sąwzorami: X-0,98 oraz X+0,98, a średnia z próby X = 62,7 (minuty), wskaż liczby będące granicami przedziału ufności.
Granice przedziału ufności dane s ą wzorami: X - 0,98 oraz X +0,98. Podstawiając za X wyznaczoną z próby wartość 62,7, otrzymujemy: 6 2 ,7 - 0,98 oraz 62,7+0,98. A zatem nasz przedział ufności ma postać (61,72; 63,68).
Znaleźliśmy poszukiwany przedział ufności Gratulujemy! Właśnie wyznaczyłeś pierwszy w swoim życiu przedział ufności. Pokazałeś, że istnieje 95% szans na to, że przedział (61,72; 63,68) pokrywa rzeczywistą, choć nieznaną, wartość oczekiwaną trwałości smaku gum do żucia produkowanych przez Mighty Gumball.
To wspaniała wiadomość! To oznacza, ż e mogę dodać drobnym drukiem odpowiedni zapis, który ochroni nas przed wszelkimi pozwami.
Dzięki znajomości oceny przedziałowej dla badanej cechy populacji szef Mighty Gumball jest w stanie umieścić w reklamie odpowiednie i wiarygodne szacunki przeciętnej trwałości smaku produkowanych przez siebie gum do żucia, choć bez podaw ania konkretnej wartości liczbowej. Dzięki temu zapewnia sobie margines błędu, którym może objąć wszelkie czynniki, jakie mogły wpłynąć na błąd szacunku przy ocenie punktowej.
540
Rozdział 12.
Konstruujemy przedziały jfności
Podsumujmy wykonane kroki Prześledźmy jeszcze raz wszystkie czynności, które pozwoliły nam skonstruować poszukiwany przedział ufności. Pierwszą rzeczą, jaką zrobiliśmy, było określenie p aram etru populacji generalnej, dla którego będziemy wyznaczać przedział ufności. W naszym przypadku była to średnia trwałość smaku gum do żucia w populacji generalnej, a więc param etr p. Kiedy już zdecydowaliśmy o tym, jaki param etr populacji generalnej nas interesuje, musieliśmy znaleźć rozkład jego estym atora w próbie. Korzystając z wyników naszych wcześniejszych analiz, ustaliliśmy, że zm ienna X m a rozkład normalny. Wyznaczyliśmy wartość oczekiwaną i wariancję tego rozkładu, przy czym jako niewiadomą pozostawiliśmy wartość param etru p. W następnym kroku zdecydowaliśmy o tym, jaki poziom ufności przyjąć dla naszego przedziału. Zdecydowaliśmy, że będzie to poziom 95%. W ostatnim kroku wyznaczyliśmy granice przedziału ufności, biorąc pod uwagę rozkład z próby estym atora param etru p oraz przyjęty na potrzeby wyliczeń poziom ufności.
Cty to OŁnacŁa, że wstystkie te kroki będę musiała powtatŁać Ła kaidym raŁem, gdy będę wyŁnacŁała p rŁ e d iia ł ufności?
Niekoniecznie, możemy pójść nieco na skróty. Wyznaczanie przedziałów ufności w większości przypadków niczym się od siebie nie różni. D latego możemy utorować sobie drogę na skróty. Jedynym krokiem, którego nie da się w całości wyeliminować, jest wybór poziomu ufności. Przyjrzyjmy się więc szczegółowo, jak możemy ułatwić sobie życie.
jesteś tutaj k
541
Idziemy ia skróty
Użyteczne skróty przy wyznaczaniu przedziałów ufności Przedstawimy teraz kilka użytecznych skrótów, z których możesz skorzystać przy wyznaczaniu przedziałów ufności. Zam ieszczona niżej tabela zawiera zestawienie przedziałów ufności skonstruowanych dla różnych param etrów populacji generalnej i przy różnych założeniach co do rozkładów ich estymatorów w próbie. Przedziały te zostały wyznaczone z dokładnością do wartości c, która zależy od przyjętego poziomu ufności.
P a ra m e tr
R o z k ła d c e c h y
p o p u la c ji
w p o p u la c ji
f
normalny
f
inny niż normalny
D o d a tk o w e w a r u n k i
P r z e d z ia ł u fn o ś c i
znamy wartość o 2 n dowolne X jest średnią arytmetyczną z próby
1 x-c -, _+c - |
znamy wartość o 2
/_ \
o _
f
dowolny
nie znamy wartości o 2 n jest duże (co najmniej 30) X jest średnią arytmetyczną z próby s2jest wariancją z próby
P
dwumianowy
n jest duże psjest częstością względną w próbie
Jn /
/n
(
n jest duże (co najmniej 30) X jest średnią arytmetyczną z próby
o \
o .
Ą
1 x - c -, x + c - | V n/
\
(_ 1 x - c -s, _x + c -s 1\ \ /n vny
( p , - c^
, p. +c / V f )
q. = 1 - ps
/ Jaka jest uogólniona postać przedziału ufności?
u fności . 1 ® P zatozeniu, ze je s t norm alny-
W ogólności przedział ufności można zapisać jako:
( o c e n a p u n k to w a ) ± ( m a r g in e s b łęd u )
Margines błędu wyznacza się jako iloczyn wartości c i odchylenia standardowego rozkładu estym atora w próbie (czyli średniego błędu szacunku):
(m a r g in e s b łę d u ) = c x (ś r e d n i b łąd s z a c u n k u )
542
Rozdział12.
Mad e stym a to ra
r
Al
P o zio m u f n o ś c i
W a rto ść c
90%
1,64
95%
1,96
99%
2,58
Konstruujemy przedziały jfności
jesteś tutaj k
543
Ćwiczenie: Rozwiązanie
544
Rozdział12.
Konstruujemy przedziały jfności i Nie.istnieja.
głupie pytania ^ : Skoro wcześniej wyznaczyliśmy parametry rozkładu zmiennej X, to dlaczego nie podstawiliśmy nic w miejsce p, a jedynie zamiast a2?
^ : Przekonaliśmy się, że 9S-procentowy przedział ufności dla parametru p to (61,72; 63,68). Co to tak naprawdę oznacza?
^ : Czy zatem wszystkie przedziały ufności bazują na rozkładzie normalnym?
0 : Nie podstawiliśmy nic w miejsce p,
0 : Przedział ufności należy interpretować
zobaczysz, że istnieją przedziały oparte
ponieważ chcieliśmy wyznaczyć przedział
następująco: gdybyś pobrał bardzo wiele
na innych niż normalny rozkładach.
ufności d la te go właśnie parametru.
prób o tym samym rozmiarze i dla każdej
0 : Nie, nie wszystkie. Już niedługo
Musieliśmy więc znaleźć jakieś wyrażenie,
z nich wyznaczył przedział ufności,
w którym pojawiałoby się p i które byłoby
to w 95% przypadków wyznaczony
użyteczne do naszych celów.
przedział pokryłby rzeczywistą wartość
^ : Dlaczego wykorzystaliśmy x jako wartość dla X?
więc przyjąć, że masz 95% szans na to,
parametru p. W uproszczeniu możesz że skonstruowany przez Ciebie przedział będzie skrywał nieznaną wartość p.
^ : Czy wartość c, którą posłużyliście się w tabeli skrótów, jest taka sama dla wszystkich przedziałów ufności?
się we wszystkich próbach o liczebności n pobranych z populacji generalnej.
0 : Omówiliśmy szczegółowo wszystkie te kroki, aby pokazać Ci, na czym ta k naprawdę polega konstruowanie
0 : Rozkład zmiennej X powstaje na bazie średnich arytmetycznych, jakie pojawiłyby
Po co więc przechodziliśmy przez te wszystkie kroki, skoro moglibyśmy od początku po prostu skorzystać ze skrótów?
przedziałów ufności i co się za nimi kryje. W większości zastosowań rzeczywiście wystarczy, że skorzystasz z drogi na skróty.
Samo x symbolizuje konkretną wartość średniej, wyznaczoną na podstawie
0 : Tak, pod jednym warunkiem: muszą
pojedynczej próby, dlatego posłużyliśmy się
się one opierać na rozkładzie normalnym. Ponieważ w e wszystkich przypadkach
nią do konstrukcji przedziału ufności.
^ : Czy tworząc przedział ufności, nie powinniśmy wziąć poprawki na ciągłość?
rozkład estymatora punktowego był normalny, mogliśmy użyć jednego
^ : Jaka jest różnica między przedziałem ufności a poziomem ufności?
symbolu c.
0 : Poziom ufności wyraża
^ : Widziałem już gdzieś a zamiast c w definicji przedziałów ufności. Czy był to błąd?
0 : Teoretycznie tak, ale w praktyce się ją zwykle pomija. Aby znaleźć przedział ufności, wybierz tylko odpowiednią wartość
prawdopodobieństwo tego, że rzeczywista
c i podstaw do wzoru w naszej tabelce.
wartość parametru jest zawarta w danym przedziale ufności. Jest on zwykle wyrażany
0 : Nie. Tak naprawdę nie ma znaczenia,
w ujęciu procentowym , na przykład
jakiego użyjemy symbolu. Ważne jest,
95% . Przedział ufności stanowi zaś ocenę
by zawsze reprezentował on to samo.
przedziałową nieznanego parametru
Wartości graniczne nie zmienią się przez to,
populacji. Jest to przedział liczbowy
że użyjemy symbolu a zamiast c.
wyznaczony przez dwie wartości graniczne.
Chciałbym Cię prosić o pomoc w rozwiązaniu je s z c z e je d n e g o problemu. Czy mogę na C iebie liczyć?
jesteś tutaj k
545
Problemów z szacunkami :iqg dalszy
Jeszcze jeden drobny problem... Szef Mighty Gumball m a jeszcze jeden problem , przy którego rozwiązaniu chciałby zdać się na Twoją pomoc. Pracownicy jednego ze sklepów należących do firmy chcieliby się dowiedzieć, ile ważą pojedyncze sztuki gum do żucia każdego rodzaju, ponieważ większość klientów sklepu kupuje gumy na wagę, a nie na sztuki. Gdyby więc obsługa posiadała taką informację, mogłaby dużo sprawniej obsługiwać klientów.
W aśnie tu ta j ptŁydałaby mi się Twoja } pomoc. P o n ie w a ije d n a k je s t to problem tylko je d n e g o sklepu, pobrana J próba nie m o ie być d u ia . j
O
Pracownicy firmy pobrali próbę o liczebności 10 i zważyli każdą sztukę gumy do żucia. Otrzymali średnią x równą 14 gramów oraz wariancję s2 równą 4. Jak teraz wyznaczyć przedział ufności?
Krok 1: Wybierz param etr populacji W pierwszym kroku musimy określić, dla jakiego param etru populacji chcemy wyznaczyć przedział ufności. Ponieważ musimy znaleźć ocenę przedziałową dla średniej wagi gum do żucia, będziemy wyznaczali przedział dla param etru p. W następnym kroku będziemy więc musieli znaleźć rozkład z próby zmiennej X, która jest estymatorem tego param etru.
cWjWYSIL T a T szare
______________________
kom órki
Zakładając, że wagę każdej gum y w populacji opisuje rozkład normalny, w jaki sposób wyznaczyłbyś przedział ufności na poziomie 9 5 % w tym przypadku? W skazówka: zajrzyj do tabeli z wzoram i przedziałów ufności i określ, z którym przypadkiem masz do czynienia.
546
Rozdział12.
Konstruujemy przedziały ufności
Krok 2 : Znajdź rozkładjego estym atora w próbie Jaki jest więc rozkład zmiennej X?
Rozkład normalny nie jest najlepszym przybliżeniem innych rozkładów w niektórych sytuacjach. Wszystkie zmienne, jakie do tej pory rozpatrywaliśmy, miały albo rozkład normalny, albo rozkład, który m ożna było łatwo nim aproksymować. Niestety, nie zawsze tak jest i dlatego konstrukcję niektórych przedziałów ufności trzeba oprzeć na innych rozkładach. Tym razem mamy do czynienia właśnie z taką sytuacją. Dlaczego nie możemy tutaj wykorzystać rozkładu normalnego? Przedział ufności możemy zawsze oprzeć na rozkładzie normalnym, jeśli tylko próbka danych była odpowiednio liczna. Uzyskamy wtedy wiarygodne rezultaty bez względu na to, jaki był rzeczywisty rozkład cechy w próbie. Tutaj mamy jednak do czynienia z odm ienną sytuacją. Chociaż X m a rozkład normalny, to już X nie.
Są dwa tego powody. Po pierwsze, nie znamy rzeczywistej wariancji popula musieli oprzeć się na jej ocenie uzyskanej na podstav jednak przy tym problem . Nasza próba była na tyle n szanse na to, iż uzyskana ocena będzie obarczona zn; większymi niż w przypadku bardziej licznej próby. Te błędy spowodują, że prawdopodobieństwa szacowane zdefiniowanego przez te param etry będą błędne, co t nieprawdziwy przedział ufności. Jaki zatem jest rozkład zmiennej X? Okazuje się, że : Spójrzmy, co powinieneś o nim wiedzieć.
jesteś tutaj ► 547
Poznajemy rozkład t-Studenta
X ma rozkład t-S tu d en ta, gdy korzystamy z mało licznej próby R o z k ła d t-Stu d e n ta sto so w a n y jest d o k ła d n ie w te go ro d z a ju sytuacjach, z ja k ą m a m y w łaśn ie d o czynienia. T a k i w ła śn ie ro z k ła d m a z m ie n n a X zaw sze w tedy, g d y k o rz y sta m y z p ró b k i o nie w ielkiej liczeb n ości, n ie z n a m y w a rto śc i a 2, a b a d a n a ce cha m a w p o p u la c ji ro z k ła d no rm a ln y. W y k r e s fun kcji gę stości ro z k ła d u t-Stu d e n ta p rz y p o m in a n ie c o k rzy w ą d zw on ow ą: jest to gła d ka , sym e tryc zn a k rzy w a o c h a ra k te rystyc zn ym kształcie, k tó ry je d n a k w szcze g ó ła ch za le ży o d w ie lk o śc i p ró b y. K ie d y p ró b a jest bardziej liczna, p rz y p o m in a o n a b a rd z o gę stość ro z k ła d u n o rm a ln e g o , k ie d y zaś p ró b a jest nie w ielka, k rzy w a ta staje się bardziej ro zc ią g n ię ta i płaska. J e d n a k zaw sze jej o g o n y są g ru b sze n iż d la ro z k ła d u n o rm a ln e g o . K sz ta łt ro z k ła d u za le ży o d je d n e g o pa ra m e tru , v, k tó ry ró w n y jest n - 1 i n a zy w a n y liczbą stopni sw obody . ^ Z o b a c z m y , co to o z n a c za w praktyce. O t o szk ic fun kcji gę stości ro z k ła d u t-Stu d e n ta dla ró ż n y c h
Przyjrzymy s ię bliżej stopniom swobody w rozdziale 14.
w a rto śc i v. W id z isz , w ja k i sp o só b w a rto ść tego p a ra m e tru w p ływ a n a kształt w y k re su ?
R o z k ła d t-S tu d e n ta
Dokładny k s z ta łt r0Z^ tad“ t A i v
Jeśli c h ce m y w yrazić, że ja k a ś zm ie n n a , n a p rz y k ła d T, p o d le g a ro z k ła d o w i t-Stu d e n ta o v sto p n ia c h sw o b o d y, m o ż e m y za p isać to w skrócie:
¿ Je st s ta ty sty k ą testow ą, Na następnej stronie z o b a c z u s z , ja k ją liczyć.
_ T ~ t(v)
t(v ) sym bolizuje rozkład t- S tu d e n ta o
-- stopniach
7
R o z k ła d t-Stu d e n ta b ę d z ie m y sto so w a li ta k sam o , ja k ro z k ła d no rm a ln y. Z a c z n ie m y o d w y sta n d a ry z o w a n ia g ra n ic p rz e d z ia łu u fn o ś c i i p o s łu ż y m y się tab lic am i te go ro z k ła d u d o zn a le z ie n ia ich w artości. Z a c z n ijm y w ię c o d zn a le z ie n ia w a rto śc i standaryzow anej.
548
Rozdział12.
swobody. v = n - i .
Konstruujemy przedziały jfności
Znajdujemy wartość standaryzowaną dla rozkładu t-£ tu d en ta Wartości standaryzowane dla rozkładu t-Studenta będziemy liczyli dokładnie w taki sam sposób, jak dla rozkładu normalnego. Oznacza to, ze od wyjściowej zmiennej będziemy odejmowali wartość oczekiwaną jej rozkładu i tę różnicę podzielimy przez jej odchylenie standardowe. Jedyna różnica polega na tym, że tak powstałą zmienną oznaczymy przez T zamiast przez Z, po prostu dla ich rozróżnienia. Ponieważ interesuje nas rozkład zmiennej X, dlatego posłużymy się wartością oczekiwaną i odchyleniem standardowym tej zmiennej. W artość oczekiwana zmiennej X wynosi fi, zaś odchylenie standardow e a / V n. Ponieważ jednak wartość a nie jest nam znana, musimy wykorzystać jej przybliżenie s. Zm ienną standaryzowaną T możemy więc zapisać jako: T o je s t średnia z populacji, dla której będziem y wyznaczali
standardow e
zmiennej X.
Wszystko, co musimy teraz zrobić, to podstawić w odpowiednie miejsca wartości: X, a i n.
Zaostrz ołówek Zobaczmy, jak to zadziała na przykładzie próby pobranej przez pracowników Mighty Gumball. Wielkość próby wynosiła 10 sztuk, X = 14 g, zaś s2 = 4 g. Ile wynosi v i T?
jesteś tutaj ► 549
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
Zobaczmy, jak to zadziała na przykładzie próby pobranej przez pracowników Mighty Gumball. Wielkość próby wynosiła 10 sztuk, X = 14 g, zaś s2 = 4 g. Ile wynosi v i T?
Próba liczy 10 s z tu k, zaś v =n - 1 . Oznacza to, ze wartość v wynosi 9. T liczymy z e wzoru:
t
X -u s/Vn"
X - u V 0 ,0 9 /1 0
X - u 0,0949
Krok 2: Wybierz poziom ufności Jaki poziom ufności powinniśmy zastosować dla przypadku Mighty Gumball? Pamiętaj, ze poziom ufności mówi o tym, jak dużą chcesz mieć pewność, ze wyznaczony przedział pokryje rzeczywistą wartość nieznanego param etru populacji. Jednocześnie decyduje on o szerokości przedziału ufności, a więc o precyzji uzyskiwanych ocen. Załóżmy, że interesuje nas poziom ufności równy 95%, tak jak poprzednio. Oznacza to, że prawdopodobieństwo tego, iż wyznaczony przez nas przedział pokryje rzeczywistą wartość param etru, wyniesie 0,95.
o .* -
Teraz, kiedy znamy już poziom ufności, możemy przejść do ostatniego kroku, czyli wyznaczenia granic naszego przedziału.
550
Rozdział12.
Konstruujemy przedziały ufności
Krok 4 : Znajdź granice przedziału ufności G ra n ic e p rz e d z ia łu u fn o ś c i o p a rte g o n a ro z k ła d z ie t-Stu d e n ta zn ajd zie m y ta k sa m o ja k o sta tn im razem , g d y m ie liśm y d o cz y n ie n ia z ro z k ła d e m n o rm a ln y m . N a s z p rz e d z ia ł u fn o ś c i m o ż n a z a p isa ć w p ostaci:
T ~ t(v) x
t _5_ n
x + t ss ) ■ ^ '^ *
W szystko wygląda prawie *ak s a m o ja k poprzednio.
Teraz ° zast(łP iliśm y *■
( gd zie
0 ,9 5, poniew aż chcemy
t
P(-t < T < t) = 0 ,9 5
znaleźć przedział na poziom ie u fn o ś c i9 5 % .
W a rt o ś ć t o d cz y ta m y z tablic ro z k ła d u t-Stu d e n ta
Korzystamy z tablic rozkładu t-S tudenta T ~ t(v)
W tab licach ro z k ła d u t-S tu d e n ta z a p isa n o takie w a rto śc i t, k tó re sp ełnia ją w a ru n e k : P ( T > t) = p. W n a szy m p rz y p a d k u p = 0,025. A b y zn ale źć w łaściw e t, w pierw szej k o lu m n ie m u sim y o d sz u k a ć interesujące n a s v, zaś w p ie rw szym w ie rsz u — p. M ie js c e p rze c ię cia w y b ra n e g o w ie rsza i k o lu m n y w sk a że n a m s z u k a n e t. N a p rz y k ła d d la v = 7 i p = 0,05 w a rto ść t w y n o s i 1,895, ja k n a za m ie sz c zo n y m niżej rysu n k u .
p = 0 ,0 5
i V
0 ,2 5
0 ,2 0
0 ,1 5
1
1,000
1,376
1,963
3,078
2
,816
1,061
1,386
1,886
3
,765
,978
1,250
4
,741
,941
1,190
5
,727
,920
1,156
1,476
6
,718
,906
1,134
1,440
P ra w d o p o d o b ie ń s tw o p 0 ,0 2 5
0 ,0 2
0,01
0 ,0 0 5
0 ,0 0 2 5
0,0 0 1
14
12,71
15,89
31,82
63,66
127,3
318,3
636,6
j l
20
4,303
4,849
6,965
9,925
14,09
22,33
31,60
1,638
j l
53
3,182
3,482
4,541
5,841
7,453
10,21
12,92
1,533
~ 2 l 32
2,776
2,999
3,747
4,604
5,598
7,173
8,610
15
2,571
2,757
3,365
4,032
4,773
5,893
6,869
3
2,447
2,612
3,143
3,707
4,317
5,208
5,959
2,365
2,517
2,998
3,499
4,029
4,785
5,408
| 0 ,1 0 ^ 0 , 0 5 ]
n
-6 3
J
1,895
|
w------
0 ,0 0 0 5
8
,706
,889
1,108
1,397
r 2,306
2,449
2,896
3,355
3,833
4,501
5,041
9
,703
,883
1,100
1,383
1,8
2,262
2,398
2,821
3,250
3,690
4,297
4,781
10
,700
,879
1,093
1,372
1,8
2,228
2,359
2,764
3,169
3,581
4,144
4,587
Tutaj s p o ty k a ją s ię w a rto ś c i: 7 i 0 ,0 5 .
jesteś tutaj ► 551
Ćwiczenie: )rzedział ufności
552
Rozdział12.
Konstruujemy przedziały ufności
Rozkład t-£ tu d en ta a rozkład normalny PlacŁego kotŁystaliśmy z. rozkładu. t-S tu d e n ta , skoro robiliśmy wszystko tak samo jak przy rozkładzie normalnym?
Rozkład t-Studenta jest bardziej odpowiedni, gdy musimy posługiwać się oceną z próby nieznanej wariancji w przypadku małych prób. K i e d y o p i e r a m y s z a c u n k i n ie z n a n e j w a r t o ś c i a 2 n a n ie w i e l k ie j p r ó b i e , is t n i e je d u ż e p r a w d o p o d o b ie ń s t w o p o p e łn i e n ia b łę d u , t a k z e u z y s k a n a o c e n a b ę d z ie s ię z n a c z ą c o r ó ż n i ła o d r z e c z y w is t e j w a r t o ś c i p a r a m e t r u . T w o r z ą c p r z e d z ia ł u f n o ś c i, m u s im y w ię c w z ią ć t o p o d u w a g ę i s p r a w ić , b y b y ł o n n ie c o s z e r s z y n iż z w y k le . K s z t a ł t r o z k ł a d u t - S t u d e n t a z m ie n ia s ię w r a z z w ie l k o ś c i ą p r ó b y . O z n a c z a t o , ż e b ę d z ie le p ie j o d z w ie r c ie d la ł w ię k s z ą d o z ę n ie p e w n o ś c i, j a k a w ią ż e s ię z o s z a c o w a n ia m i a 2 n a p o d s t a w ie m a łe j p r ó b y . D l a n ie w i e l k ic h w a r t o ś c i n p r z e d z ia ł y o p a r t e n a r o z k ł a d z i e t - S t u d e n t a b ę d ą s z e r s z e n iż w p r z y p a d k u r o z k ł a d u n o r m a ln e g o . D l a t e g o le p ie j s ię s p r a w d z a ją w p r z y p a d k u m a ły c h p r ó b .
Użyteczne skróty — przypadek rozkładu t-Studenta D l a p r z y p o m n ie n ia p r e z e n t u je m y p o n o w n ie w z ó r n a p r z e d z ia ł u f n o ś c i d la p a r a m e t r u p o p a r t y n a r o z k ł a d z i e t - S t u d e n t a . A b y g o z n a le ź ć , w y s t a r c z y p o d s t a w ić o d p o w i e d n ie w a r t o ś c i w m ie js c e n ie w ia d o m y c h .
P a ra m e tr
R o z k ła d c e c h y
p o p u la c ji
w p o p u la c ji
M
dowolny
D o d a tk o w e w a r u n k i
P r z e d z ia ł u fn o ś c i
Nie znamy wartości o 2 n jest małe (nie większe niż 30) X jest średnią arytmetyczną z próby s2jest wariancją z próby
( x - t(v) p x + t(v) p ) \ Vn Vn/
A b y z n a le ź ć t ( v ) , m u s is z z a jr z e ć d o t a b li c r o z k ł a d u t- S t u d e n t a . P a m ię t a j p r z y t y m , ż e v = n - 1 o r a z i l e w y n o s i p o z i o m u f n o ś c i.
jesteś tutaj ► 553
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Spróbuj znaleźć przedział ufności dla średniej wagi gum do żucia firmy Mighty Gumball. Próba liczyła 10 sztuk, a oszacowane na jej podstawie X = 14 g, zaś s2 = 4 g.
1. Przedział ufności dla parametru p dany jest wzorem (x - t s/Vn, x + t s/Vn). Skorzystaj z tablic rozkładu t-Studenta, by znaleźć t.
Próba liczy 10 sz tu k , zatem v =9. Ponieważ chcemy znaleźć przedział na poziomie ufn ości 95%, w tablicach rozkładu t-Studenta musimy odszukać wiersz wskazujący 9 stopni swobody i kolumnę wskazującą prawdopodobieństwo 0,025. Daje nam to wartość równą 2,262.
2. Korzystając z wcześniejszych obliczeń, wyznacz przedział ufności dla p. Granice przedziału u fn o ści znajdziemy, podstawiając w a rto ś c i x, t, s i n do wzoru G - t s /V n , x + t s W n ). Otrzymujemy: G - t s /V ń , x + t s /V n) = (0,5 - 2,262 x V (0 ,0 9 /1 0 ); 0 ,5 + 2,262 x V (0 ,0 9 /1 0 )) = = (0,5 - 2,262 x 0,0949; 0 ,5 + 2,262 x 0,0949) = = (0,5 - 0,215; 0 ,5 + 0,215) =
=(0,285; 0,715)
554
Rozdział12.
Konstruujemy przedziały ufności
jesteś tutaj ► 555
Ćwiczenie: Rozwiązanie
Ćwiczenie . . rozwiązanie
Mighty Gumball napotkał jeszcze jeden problem, tym razem dotyczący dystrybutorów gum do żucia. Jego pracownicy wytypowali próbę 30 automatów, na podstawie której oszacowali średnią miesięczną stopę awaryjności równą 15. Wyznacz 99-procentowy przedział ufności dla liczby awarii w każdym miesiącu.
Liczbą awarii urządzenia w miesiącu możemy modelować za pomocą rozkładu Poissona. Ponieważ średnią liczbą awarii oszacowaliśmy na podstawie próby o liczebności 30 sztuk, możemy skonstruować przedział, korzystając ze wzoru (y - cs/An, x + cs/An). Bądziemy wyznaczali przedział na poziomie ufn ości 99%, zatem nasze c = 2 ,5 8 . W artość oczekiwana i wariancja rozkładu Poissona wynosi L, która w naszym przypadku jest równa 15. Przedział ufności jest wiąc nastąpujący: (y - cs/^fn, x + cs/-Jn) =(15- 2,58 y A(15/30); 15 +2,58 y A(15/30)) = =(15 - 2,58 y A(15/30); 15 + 2,58 y a1(15/30)) = =(15 - 2,58 y 0,707; 15 + 2,58 y 0,707) = =(15 - 1,824; 15 +1,824) = =(13,176; 16,824)
i Nie.is+nieja.
głupie pytania ^ : Czy zmienna X ma rozkład t-Studenta?
A jak wpłynie na przedział ufności zmiana rozmiaru próby n?
0 : Zmienną X możemy modelować za pomocą rozkładu t-Studenta, kiedy rozkład cechy w populacji jest normalny
0 : Jeśli zmniejszysz rozmiar próby, szerokość przedziału ufności
i pobraliśmy mało liczną próbę, na podstawie której musimy
ulegnie zwiększeniu, a gdy zwiększysz — zmniejszeniu.
dodatkowo oszacować wariancję populacji.
Przedział ufności ma ogólną postać:
^ : Co się stanie z moim przedziałem ufności, gdy zmienię poziom ufności?
przy czym margines błędu jest równy iloczynowi c i wartości
wartość estymatora ± margines błędu
odchylenia standardowego rozkładu estymatora. 0 : Jeśli zmniejszysz poziom ufności, Twój przedział ulegnie zwężeniu. Z kolei jeśli zwiększysz poziom ufności, przedział ufności ulegnie poszerzeniu. Na przykład przedział ufności na poziomie 95% jest węższy niż ten na poziomie 99% , wyznaczony na podstawie tej samej próby danych.
Wartość odchylenia standardowego estymatora zależy od rozmiaru próby; jest ono tym mniejsze, im większa była próba, na podstawie której go wyznaczano. Innymi słowy, margines błędu mniejsza się wraz ze wzrostem próby i zwiększa wraz z jej zmniejszeniem. Podsumowując, mniejsze próby dają szersze przedziały ufności, a większe — węższe.
556
Rozdział12.
Konstruujemy przedziały ufności
Znaleźliśmy poszukiwany przedział ufności! Twoje kom petencje statystyczne po zakończeniu lektury tego rozdziału znowu bardzo wzrosły. Umiesz teraz oszacować nieznane wartości param etrów populacji dwiema metodami. Pierwsza z nich to tak zwana estymacja punktowa. Jest to sposób na pozyskanie dokładnej wartości param etru populacji. Uzyskiwana ocena jest najlepszym oszacowaniem tej wartości, jakiego w danych warunkach mógłbyś dokonać. M etodą alternatywną jest estymacja przedziałowa. Zam iast precyzyjnej wartości param etru pozwala ona uzyskać ocenę w postaci przedziału ufności. Jest to sposób na znalezienie przybliżonej wartości param etru (z pewnym marginesem błędu), który jednak pozwala ocenić również wiarygodność szacunków.
5 58
Rozdział12.
13. Weryfikacja hipotez #
*
Oceniamy fakty
Nie wszystko, co do Ciebie dociera, musi być prawdą.
Najgorsze jest jednak to, ze
trud n o jest ocenić, kiedy m a się do czynienia z praw dą, a kiedy nie. Weryfikacja hipotez, drugi obok estymacji dział w nioskow ania statystycznego, daje Ci narzędzie do oceny prawdziwości tw ierdzeń statystycznych. Za jej pom ocą będziesz m ógł ocenić, na ile takie, a nie inne charakterystyki próby mogą być efektem działalności określonych sił, stanowiących o kształcie całej populacji, a na ile są jedynie dziełem czystego przypadku. Z lektury tego rozdziału dowiesz się, w jaki sposób możesz potw ierdzić lub obalić swoje przypuszczenia odnoszące się do otaczającej Cię rzeczywistości.
to jest nowy rozdział ► 559
Ostateczne lekarstwo na chrapanie?
Czy nie m artw i Cię Tw o je chrapan ie ? J eśli ta k , po trzebn y C i jest Sn ore Cu ll , JEDYNE W SWOIM RODZAJU REMEDIUM NA CHRAPANIE.
Snore Cu ll po m aga 90% ch rapiących w za led w ie 2 tyg o d n ie .
Po zbądź się d o leg liw o ści z now ym preparatem Sn ore Cu ll Cudowny lek na chrapanie W iodąca firma farmaceutyczna ze Statsville wyprodukowała nowy lek na uciążliwe chrapanie. Zrezygnowani chrapiący masowo odwiedzają więc swoich lekarzy w nadziei na bliski kres swoich nocnych męczarni. W reklamach swojego produktu firma twierdzi, ze aż 90% osób dotkniętych tym problem em odczuwa wyraźną ulgę już po 2 tygodniach stosowania leku. Gdyby rzeczywiście tak było, byłaby to dla chrapiących wspaniała wiadomość. Tyle tylko, że dla wielu brzmi to zbyt pięknie, by mogło być prawdą.
560
Rozdział13.
Weryfikacja hipotez
N ie je s te m pewna, czy t e pogłoski są prawdziwe. Gdyby były, miałabym mniej pacjentów ł te g o typu problemami.
Jedna z lekarek pracujących w lokalnej przychodni przepisywała nowy lek swoim pacjentom, jednak uzyskiwane efekty takiej kuracji mocno ją rozczarowały. Dlatego zdecydowała się przeprowadzić własne badania skuteczności tego preparatu.
Pani doktor
Spośród swoich pacjentów cierpiących z powodu nocnego chrapania wybrała grupę 15 osób, którym przez 2 tygodnie podawała nowy lek. Po tym czasie przebadała ich ponownie, by przekonać się, czy rzeczywiście pozbyli się trapiącej ich dolegliwości. O to wyniki jej badań: n o to w a ta j* ^ '
_
W y le c z o n y ?
Tak
N ie
C zę sto ść
11
4
pani doktor '■ :„Yit zostat czy dany Pa£J t ż n ie . wyleczony. « U
^ Zaostrz ołówek Jeśli ten preparat ma skuteczność na poziomie 90%, to ilu pacjentów z próby 15-osobowej powinno zostać wyleczonych po dwutygodniowej kuracji? Jaki jest rozkład takiej zmiennej?
jesteś tutaj ► 561
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
Jeśli ten preparat ma skuteczność na poziomie 90% , to ilu pacjentów z próby 15-osobowej powinno zostać wyleczonych po dwutygodniowej kuracji? Jaki jest rozkład takiej zmiennej?
90% z 15 stanowi 13,5, a więc powinniśmy s ię spodziewać, i e okoto 14 pacjentów pozbędzie s ię problemu. W próbie jednak byto to tylko 11 osdfc, czyli znacznie mniej, niż można by oczekiwać. Ponieważ mamy do czynienia z pew ną liczbą prób (wyleczenia), a lekarka j e s t zainteresowana liczbą sukcesów , mamy do czynienia z rozkładem dwumianowym. Jeśli przez X oznaczymy liczbę sukcesów , to: X ~ 8 0 5 ; 0,9).
Na czym więc polega problem ? Oto wykres funkcji prawdopodobieństwa zmiennej X w próbie przy założeniu, ze zapewnienia producenta leku o jego skuteczności są rzetelne:
X II
Tylu pacjentów zostato rzeczyw iście wyleczonych.
X
\
ST
10
11
12
Liczba pacjentów, którym SnoreCull rzeczywiście pomógł, okazała się istotnie mniejsza od wynikającej z zapewnień producenta leku. Gdyby były one prawdziwe, powinniśmy oczekiwać, ze aż 14 na 15 pacjentów pozbędzie się swojej dolegliwości. Tymczasem stał się tak tylko u l i . Skąd ta rozbieżność?
562
Rozdział13.
13
14
15
x
Weryfikacja hipotez
Cty to OŁnacŁa., ¿e producent o
leku kłamie w swoich reklamach? Skoro faktycŁnie lek pomógł ŁnacŁnie m n iejstej lic ib ie osób?
Producent leku nie musi świadomie wprowadzać swych klientów w błąd, choć faktycznie może mijać się z prawdą. Przyczyną niewłaściwej oceny skuteczności p reparatu SnoreCull mogła być na przykład źle przeprow adzona procedura testowania, zarówno na etapie doboru próby, jak i estymacji param etrów populacji. W sposób niezamierzony (być może z powodu braku wystarczającej wiedzy) mogło dojść do pobrania mało reprezentatywnej próby lub też do wykorzystania niewłaściwego estymatora, co skutkowałoby błędnymi ocenam i param etrów populacji. Gdyby rzeczywisty odsetek wyleczonych w całej populacji był niższy niż 90%, tłumaczyłoby to, dlaczego lek ten pomógł tylko 11 osobom z próby pobranej
Ąle e ty moiem y ł pewnością s tw ie rd iić , ¿e producent leku mylił się w swoich sŁacunkach? A m o ie to lekarka miała pecha?
Oczywiście, ze twierdzenia producenta leku mogą być prawdziwe. Mogło się przecież zdarzyć i tak, że to pacjenci dobrani do próby przez lekarkę nie byli wystarczająco reprezentatywni dla populacji chrapiących, a wyniki podawane przez producenta leku były wiarygodne. N ie możemy na tym etapie wykluczyć, że rzeczywista skuteczność leku wyraża się odsetkiem 90% wyleczonych z ich dolegliwości, a wyniki uzyskane przez lekarkę są obarczone błędem z powodu małej czy też źle dobranej próby. Innymi słowy, próba ta mogła być z jakiegoś powodu niereprezentatywna dla populacji chrapiących.
^ W
Y
S
I L
______________________________
SZARE K O M Ó R K I Jak sądzisz, jak m ożem y rozstrzygnąć ten dylemat? Jak ocenić, czy bardziej w iarygodne są w yniki uzyskane przez panią doktor, czy tw ierdzenia producenta leku?
jesteś tutaj ► 563
Procedura weryfikacji hipotez
Ogólne spojrzenie na problem N a czyją korzyść powinniśmy rozstrzygnąć powstały konflikt? Spróbujmy spojrzeć na ten problem z pewnej perspektywy. Moglibyśmy łatwo rozstrzygnąć, która strona mówi prawdę, gdybyśmy poddali weryfikacji prawdziwość tezy formułowanej przez producenta SnoreCull. Mówiąc wprost, moglibyśmy przyjąć jako prawdziwe twierdzenie producenta o skuteczności leku, ale gdyby znalazły się mocne dowody świadczące przeciwko jego prawdziwości, przyjęlibyśmy wersję pani doktor. Oto nasz plan działań:
^ £££&$«*
Weryfikacja stanowiska firmy
Ocena dowodów ? jakich okolicznościach
9dyby
f ^ y byto
Podjęcie decyzji f * Bazując na przestankach z próby, odrzucimy lub nie stanowisko producenta leku.
W statystyce ten zespół czynności nazywany jest weryfikacją hipotez (testowaniem hipotez), ponieważ poddajemy weryfikacji (testowaniu) prawdziwość jakiejś hipotezy (sądu, stwierdzenia) w świetle posiadanych dowodów. Spójrzmy, jak cały ten proces przebiega w praktyce, w ogólnym przypadku.
564
Rozdział13.
Weryfikacja hipotez
Weryfikacja hipotez w sześciu krokach O to krótka lista kolejnych kroków składających się na procedurę testowania hipotez. Każdy z nich omówimy szczegółowo na następnych stronach.
To będzie twierdzenie, y którego ~p prawdziwość zw eryfikujem y.
S fo rm u łu j h ip o t e z ę , k tó r ą c h c e s z z w e r y f ik o w a ć .
[a M usim y wyznaczyć poziom istotności te s tu .
W y b ie rz s t a t y s t y k ę t e s t o w ą (s p r a w d z ia n t e s t u ).
O k r e ś l o b s z a r o d r z u c e ń t e s t o w a n e j h ip o te zy . M usim y ocenić, na de W
i< r
Z n a jd ź p ra w d o p o d o b ie ń s tw o p (p - w a r t o ś ć ).
S p r a w d ź , c z y s p r a w d z ia n t e s t u w p a d a do o b sza ru o d rzu ce ń . Sprawdzim y, czy te wyniki m ie sz cz ą s i ę w przyjętych granicach ufności.
0
P o d e jm ij d e c y z ję .
Po co nam ten cały formaliŁm? Od ra tu widać, ¿e ktoś tu kręci.
Być może, ale musimy mieć pewność, że właściwie oceniamy prawdziwość stanowiska producenta leku, zanim je na dobre odrzucimy. Dzięki tem u będziemy mogli powiedzieć, że podjęliśmy całkowicie obiektywną decyzję po dokonaniu bezstronnej oceny faktów. Tym, czego bardzo chcielibyśmy uniknąć, jest odrzucenie hipotezy także wobec braku wystarczających dowodów świadczących przeciwko niej. Musimy więc określić, co uznamy za wystarczający dowód nieprawdziwości testowanej hipotezy.
jesteś tutaj k
565
Hipotez« zerowa alternatywna je s te ś m y
Krok 1: Sform ułuj hipotezę,
tu ta j
—
S fo rm u łu j h ip o te z ę , któ rą c h c e s z z w e r y f ik o w a ć
która chcesz zweryfikować
W y b ie rz s t a t y s t y k ę t e s t o w ą (s p r a w d z ia n testu )
Zacznijmy od omówienia pierwszego kroku procedury, jakim jest określenie hipotezy, której prawdziwość będziemy weryfikować.
O k r e ś l o b s z a r o d rz u c e ń t e s t o w a n e j h ip o te z y Z n a jd ź p ra w d o p o d o b ie ń stw o p
Stanowisko producenta leku
(p -w a rto ść )
Zgodnie z tym, co twierdzi producent SnoreCull, środek ten w ciągu dwóch pierwszych tygodni stosowania jest w stanie usunąć dolegliwość u 90% pacjentów. Przyjmiemy to twierdzenie za prawdziwe, do czasu gdy znajdziemy mocne uzasadnienie dla jego odrzucenia.
S p ra w d ź, c z y s p ra w d z ia n te s t u w p a d a d o o b s z a ru o d rz u c e ń P o d e jm ij d e c y z ję
Twierdzenie, które będziemy poddawać weryfikacji, nazwiemy hipotezą zerową i oznaczymy jako H 0. Domyślnie przyjmiemy je za prawdziwe, chyba ze znajdziemy podstawy do jego odrzucenia.
H ipoteza zerowa to stw ierdzenie, którego^ prawdziwość poddamy weryfikacji. Odrzucimy je , je śli znajdziem y ku tem u --------\ odpowiednie podstaw y. *
H0
Jestem b ip o te tą te ro w ą . PrtyjmujesŁ, ¿e je s te m prawdtiwa. Jeśli s ą d tis t, t e tak nie je s t, p o k a i dowody.
Jak brzmi hipoteza zerowa w naszym przypadku? W naszym przykładzie hipotezą zerową będzie stanowisko producenta preparatu SnoreCull, ze jest on skuteczny w 90% przypadków. To twierdzenie przyjmiemy za prawdziwe, chyba ze znajdziemy podstawy do jego odrzucenia. Będziemy zatem testowali twierdzenie, ze u 90% pacjentów lek ten usuwa dolegliwość chrapania. Możemy więc zapisać naszą hipotezę zerową jako: p = 90%.
To je s t hipoteza zerowa
w naszym przykładzie.
H 0: p = 0 ,9
Weryfikacja hipotez
Czy mamy jakaś alternatyw ę? Wskazaliśmy już hipotezę, którą poddam y weryfikacji, zwaną hipotezą zerową. Przyjmujemy, ze jest ona prawdziwa. Co jednak wtedy, gdy się mylimy? Czy istnieje jakaś alternatywa?
Z perspektywy lekarki Zdaniem pani doktor skuteczność leku podaw ana przez jego producenta jest na tyle wysoka, ze bardzo mało praw dopodobna. Nie wierzy ona w to, by aż 90% pacjentów mogło wyzdrowieć po dwutygodniowej kuracji preparatem SnoreCull. Sądzi, że odsetek ten jest w rzeczywistości dużo niższy. Twierdzenie lekarki, stanowiące alternatywę dla hipotezy zerowej, nazywamy... hipotezą alternatywną. Oznaczamy ją symbolem H r Tę hipotezę przyjmiemy jako prawdziwą, jeśli znajdziemy podstawy do odrzucenia hipotezy H 0. Hipotezą alternatywną je s t twierdzenie, które przyjmiemy za prawdziwe, gdy odrzucimy H0.
H
o
1
Jestem h i p o t e z ą alternatyw ną. Jeśli H0 Cię Ł a w ie d iie , musisŁ zaakceptować kogoś, na kogo m o ż e s z nadal liczyć.
Hipoteza alternatywna dla naszego przykładu H ipoteza alternatywna powinna być stwierdzeniem, które przyjmiemy za prawdziwe, gdy hipotezę zerową trzeba będzie odrzucić. W naszym przypadku, jeśli znajdziemy wystarczająco mocne dowody przemawiające za odrzuceniem hipotezy zerowej, może się okazać, że rację miała pani doktor z przychodni w Statsville. Jest ona głęboko przekonana, że p reparat SnoreCull leczy mniej niż 90% przypadków chrapania, dlatego jako hipotezę alternatywną moglibyśmy wybrać zależność o postaci p< 90% . Oto hipoteza alternatywna dla
------ 4 h : p < 0 .9
1
Ponieważ wskazaliśmy już obie hipotezy, zarówno zerową, jak i alternatywną, możemy przejść do następnego kroku naszej procedury.
jesteś tutaj k
567
Nie istniejq głupie pytania
iNie.istnieia,
głupie pytania ^ : Dlaczego najpierw zakładamy, że hipoteza zerowa jest prawdziwa, a później robimy wszystko, by dowieść, że jest jednak fałszywa?
^ : Czy nasza próba nie jest zbyt mała do przeprowadzenia weryfikacji hipotezy? 0 : Rzeczywiście, nie jest ona duża, ale nadal możemy
0 : Statystyczna weryfikacja hipotez polega na
prowadzić wnioskowanie. Wystarczy bowiem, że
poddawaniu testow i na prawdę hipotezy zerowej.
dobierzemy taką statystykę testową (sprawdzian testu),
Dajemy jej w pewnym sensie kredyt zaufania,
która uwzględni rozmiar próby — omawiamy
zakładając, że jest prawdziwa, ale ostatecznie
to dokładniej na
następnej stronie.
odrzucamy ją, gdy znajdziemy dowody świadczące przeciwko niej. Sytuacja ta przypomina trochę sądzenie oskarżonego. Choć początkowo stosuje się zasadę domniemania niewinności, to jeśli znajdą się mocne
^ : Czy więc testowanie hipotez ma na celu jednoznaczne potwierdzenie lub odrzucenie prawdziwości hipotezy zerowej?
dowody na winę oskarżonego, zapada w yrok skazujący. 0 : W eryfikacja hipotez nie daje nam podstaw
^ : Czy hipoteza zerowa i alternatywną muszą się wzajemnie dopełniać?
do wydawania kategorycznych sądów. Pozwala nam jedynie ocenić, jak bardzo rzadkie (nieprawdopodobne) są uzyskane przez nas wyniki w warunkach
0 : Nie, nie muszą. W naszym przykładzie hipotezę
prawdziwości hipotezy zerowej. Jeśli są one w yjątkow o
zerową sform ułowaliśm y jako: p = 0,9, zaś
mało prawdopodobne, przyjmujemy to jako argument
alternatywną: p < 0,9. Żadna z nich nie obejmuje
za odrzuceniem hipotezy zerowej.
przypadku p większego od 0,9.
W procesie weryfikacji hipotez zakładamy prawdziwość hipotezy zerowej. Jeśli znajdziemy wystarczajfco mocne dowody świadczfce przeciwko niej, odrzucamy ją i przyjmujemy jako prawdziwi hipotezę alternatywnf.
568
Rozdział13.
Weryfikacja lipotez
Krok 2 : Wybierz statystykę testową
S fo rm u łu j h ip o te z ę , k tó rą c h c e s z
je s te ś m y
(sprawdzian testu)
tu ta j
—
z w e r y fik o w a ć W y b ie rz s t a t y s t y k ę t e s t o w ą (s p r a w d z ia n te s t u )
Teraz, kiedy określiliśmy już w szczegółach, jakie twierdzenie będziemy poddawali weryfikacji, musimy znaleźć narzędzie, które posłuży nam do oceny jego prawdziwości. N arzędzie takie będziemy nazywali statystyką testową albo sprawdzianem testu.
O k r e ś l o b s z a r o d rz u c e ń t e s t o w a n e j h ip o te z y Z n a jd ź p ra w d o p o d o b ie ń stw o p (p -w a r to ś ć )
Sprawdzianem testu jest statystyka, za pom ocą której ocenimy prawdziwość hipotezy zerowej. Musi być ona specjalnie dobrana na potrzeby danego testu.
S p ra w d ź, czy s p ra w d z ia n t e s t u w p a d a d o o b s z a ru o d rz u c e ń P o d e jm ij d e c y z ję
Co będzie sprawdzianem testu w naszym przykładzie? Naszym celem jest ocena prawdziwości twierdzeń producenta preparatu SnoreCull o jego 90-procentowej skuteczności. Aby tego dokonać, moglibyśmy posłużyć się danymi z próby, na podstawie której firma farmaceutyczna prowadziła testy skuteczności leku, i ocenić, czy liczba wyzdrowień wśród stosujących ten preparat (liczba sukcesów) była znacząca. Jeśli przez X oznaczymy liczbę osób, które pozbyły się swoich dolegliwości po zażyciu leku, będziemy mogli wykorzystać ją w charakterze sprawdzianu testu. W próbie pobranej przez naszą panią doktor znajdowało się 15 osób, zaś prawdopodobieństwo wyleczenia pojedynczej osoby oszacowano na 90%. Ponieważ wiemy, że X m a rozkład dwumianowy, możemy zapisać: To będzie sp raw dzian
Ten rozkład o k re śliliśm y j u ż w c ze śn iej, na stro n ie
562.
/
7-
X ~ B (1 5 ; 0 ,9 )
te s tu .
Ctegos tu nie rozumiem. Placzego tw ierd zicie, ż e prawdopodobieństwo sukcesu wynosi 0 ,9 , skoro go nie znamy?
Rozkład statystyki testowej określamy przy założeniu prawdziwości hipotezy zerowej. Naszym celem jest ocena prawdziwości hipotezy zerowej. W tym celu zakładamy, że jest ona prawdziwa, a następnie szukamy argumentów na rzecz jej odrzucenia. W naszym przykładzie zakładamy więc, że twierdzenie o 90-procentowej skuteczności preparatu SnoreCull jest prawdziwe, chyba że znajdziemy dowody na to, że jest inaczej. W tym celu ocenimy, jak duże były szanse uzyskania wyników, które zaobserwowaliśmy w próbie, przy założeniu, że prawdopodobieństwo sukcesu (powodzenia kuracji) wynosi 0,9. Innymi słowy, wyznaczymy wartość statystyki testowej w naszej próbie i policzymy prawdopodobieństwo uzyskania takiego wyniku w sytuacji, gdyby hipoteza zerowa była prawdziwa. Wyznaczymy w tym celu tak zwany obszar krytyczny.
jesteś tutaj k
569
Obszar odrzuceń hipotezy zerowej
Krok 2: Określ obszar odrzuceń testowanej hipotezy
S fo rm u łu j h ip o te z ę , któ rą c h c e s z z w e r y f ik o w a ć
Obszar krytyczny, zwany też obszarem odrzuceń, hipotezy zerowej to zbiór takich wartości statystyki testowej, które w najwyższym stopniu świadczą o fałszywości hipotezy zerowej.
W y b ie rz s t a t y s t y k ę t e s t o w ą ( s p r a w d z ia n te s t u )
je s te ś m y tu ta j
O k r e ś l o b s z a r o d rz u c e ń
—
t e s t o w a n e j h ip o te z y Z n a jd ź
Jego ideę wyjaśnimy na naszym przykładzie. Wróćmy jeszcze raz do próbki pobranej przez lekarkę z przychodni w Statsville. Gdyby (co najmniej) 90% tworzących ją pacjentów zostało wyleczonych po zażyciu preparatu SnoreCull, byłby to wynik zgodny z zapewnieniami producenta tego leku. Im przypadków uzdrowienia byłoby mniej, tym bardziej niepraw dopodobna stawałaby się wersja producenta leku.
p ra w d o p o d o b ie ń stw o p (p -w a rto ść ) S p ra w d ź, c z y s p ra w d z ia n te s t u w p a d a d o o b s z a ru o d rz u c e ń P o d e jm ij d e c y z ję
Oto szkic rozkładu prawdopodobieństwa statystyki testowej: % óbi°
prawo tw ierdzić ż l Im m niej ludzi zo sta n ie wyleczonych, tum b a rd zie j prawdopodobne, ze firm a farm aceutyczna pom y lita s ię w swoich szacunkach.
10
m iel'byśm y
Ł
11
12
13
14
15
W którym punkcie moglibyśmy z całą pewnością odrzucić twierdzenia podawane przez producenta leku? Im mniej osób zostałoby uleczonych po dwutygodniowej kuracji preparatem SnoreCull, tym mocniejsze byłoby nasze przekonanie o tym, że jego skuteczność nie jest tak wysoka, jak twierdzi producent. Kiedy jednak moglibyśmy z całą pewnością odrzucić zapewnienia producenta, a więc i naszą hipotezę zerową? W którym momencie moglibyśmy powiedzieć, że mamy wystarczająco dużo dowodów przeciwko skuteczności SnoreCull? Aby na to odpowiedzieć, musimy określić, które wartości sprawdzianu testu uznamy za wystarczające potwierdzenie fałszywości hipotezy zerowej, a które nie. U tworzą one tak zwany obszar krytyczny. Jeśli liczba pacjentów, u których preparat SnoreCull okazał się w pełni skuteczny (a więc wartość naszego sprawdzianu testu), wpadnie do obszaru krytycznego, odrzucimy hipotezę zerową na korzyść alternatywnej. Jeśli jednak znajdzie się poza nim (obszar ten nazywa się czasami, choć nie całkiem poprawnie, obszarem przyjęcia hipotezy zerowej), uznamy, że nie mamy podstaw do odrzucenia hipotezy zerowej i przyjmiemy jako prawdziwe twierdzenie producenta leku. W artość, która wyznacza granicę obszaru odrzuceń, nazywamy wartością krytyczną. Jak więc wyznaczymy obszar odrzuceń? Jeśli w a rto ść s p r a w d ź ^ J ^ j r ^ e j ) ,
przez lekark^wpadni^edo o b s W prÓbie Pobranej śmiato odrzucić hipotezą z e r o w i ^ czne9°- możemy alternatywna ma postać o <0 a Pon,f Waz hipoteza W a-ę na ¿wo £ C 4 Zrzuceń
Punkt graniczny, czyli wartość krytyczna
V L c
570
Rozdział13.
do odrzucenia bouuiem tylko w a rto ści alternatywna uwzględma o p<0,9.
N
Weryfikacja hipotez
W celu wyznaczenia obszaru odrzuceń, Z a n im b ę d z ie m y m o g li w yzn a czy ć gra n ice o b s z a ru k ry ty c zn e g o d la n a sz e g o testu, m u sim y w sk a z a ć tak zw a n y p o z io m istotności. Poziom istotności testu to taki p o z io m p ra w d o p o d o b ie ń stw a , p rz y k tó rym w y n ik i u z y sk a n e z p ró b y u z n a m y za ta k m a ło p ra w d o p o d o b n e (p rak ty czn ie n ie m o ż liw e d o realizacji w p rz y p a d k u jednej p ró b y), ze p o z w o lą n a m o d rz u c ić h ip o te zę ze ro w ą H 0. P o d o b n ie ja k p o z io m u fn o ści, k tó ry p o d a w a liśm y p rz y k o n s tr u o w a n iu p rz e d z ia łu u fn o ści, ta k i p o z io m isto tn o ści testu p o d a je m y zw ykle w w y ra ż e n iu p ro ce n to w ym . Z a łó ż m y d la p rz y k ła d u , że c h ce m y zw e ryfik o w a ć p ra w d z iw o ść słó w p ro d u c e n ta le k u n a p o z io m ie isto tn o ści ró w n y m 5 % . W re zu ltacie b ę d z ie m y m u sie li w yzn a czy ć taki o b sz a r krytyczny, b y p ra w d o p o d o b ie ń s tw o w yle cze n ia m niej n iż c p a cje n tów zażyw ających S n o r e C u ll b yło n ie w ię k sze n iż 0,05. O d p o w ie d n ią w a rto ść k rytyczn ą w y z n a c zy m y w ię c ja k o k w a n tyl rz ę d u 0,05 ro z k ła d u p ra w d o p o d o b ie ń stw a statystyki testowej.
n c z ba po z a ż y c iu
T
p a c je n tó w
w yleczonych
w p a d n ie o o b s z a r u , o d r z u c im y h ip o t e z ą z
g
S n o r e C u ll
j e ś if h ip o te z a zero w a j e s t praw dziw a, to na 9 5 % m o ż e m y być p ew n i, ż e liczba uzdrow ionych zn a jd zie s ią w tym o b sza rze . * ,aJa zle
O b sz a r k ry ty cz n y 5%
l
► c **------------------------------------c 95%
P o z io m isto tn o ści testu o z n a c za się zw ykle g re c k ą literą a. I m niższe jest a, tym m niej n ie p ra w d o p o d o b n e b ę d ą m u sia ły b yć w y n ik i T w o je g o testu, byś m ó g ł u zna ć, że św iad c zą o n e p rz e c iw k o h ip o te zie zerowej.
Jaki poziom istotności powinniśmy więc stosować? W n a szy m teście w y k o rz y sta m y p o z io m isto tn o ści ró w n y 5 % . O z n a c z a to, że jeśli w a rto ść statystyki testowej w y z n a c z o n a n a p o d sta w ie naszej p ró b y bę d zie n iż sza n iż k w a n tyl rz ę d u 0,05 jej ro zk ła d u , b ę d z ie m y m u sie li o d rz u c ić h ip o te zę ze row ą n a k o rz y ść alternatyw nej. Jeśli zaś zn ajdzie się o n a w obszarze,
Podstawowe terminy
k tó ry m ie ści p o z o sta łe 9 5 % m a sy p ra w d o p o d o b ie ń stw a , nie b ę d z ie m y m ie li w ystarczających p o d sta w d o o d rz u c e n ia h ip o te z y
Poziom istotn ości
zerow ej. B ę d z ie m y w ó w c za s s k ło n n i przyjąć ją ja k o praw d ziw ą. Jeśli p rz e z X o z n a c z y m y liczbę sk u te czn ie u z d ro w io n y c h p acjentów , w te d y o b sz a r o d rz u c e ń h ip o te z y zerow ej m o ż e m y z a p isa ć sy m b o lic zn ie jako:
Poziom istotności oznaczamy przez a . Mówi on o tym, na ile nieprawdopodobne m u szą być wyniki z próby, by w ystarczyty do odrzucenia H0.
P (X < c ) < a p rz y czym
a = 5% jesteś tutaj k
571
Obszar krytyczny : bliska O k s z ^ r k ry ty c z n y
z M is k ^
W y z n a c z a ją c o b sz a r k rytyczn y d la sw o je go testu, m u sis z zw ró cić u w a g ę n a to, czy p o w in ie n być to o b s z a r
jednostronny, czy dwustronny. P o n iże j o p is a liś m y p o d sta w o w e ró żn ic e m ię d z y nim i.
O b sza rje d n o stro n n y Obszar jednostronny znajduje się tylko w je d n y m o g o n ie ro z k ła d u
O bszar jedn o stro n n y n a poziom ie isto tn o ści a.
statystyki testowej. P o w y b ra n iu p o z io m u isto tn o ści a m u sisz ta k d o b ra ć w a rto ść krytyczną, b y cały o b s z a r n a le w o
bądź
n a p ra w o o d niej re p re ze n to w a ł o d p o w ia d a ją c e tem u
+
p o z io m o w i p ra w d o p o d o b ie ń stw o .
a
100% - a
c
O b s z a r k ry ty czn y m o ż e się zn a jd o w a ć w d o w o ln y m o g o n ie ro z k ła d u
\
p ra w d o p o d o b ie ń stw a statystyki testowej. T o , k tó ry z n ic h ostate czn ie
.
. *******
w yb ie rze m y, za le ży o d p o sta ci h ip o te z y alternatyw nej H r Jeśli h ip o te z a H x zo stała z a p isa n a w p o sta c i n ie ró w n o śc i typ u „ < ”, p o w in n iś m y s k o n stru o w a ć
Tum razem wyznaczyliśm y
lewostronny obszar krytyczny,
praw ostronny o b sz a r
to zn a c zy w yzn a czy ć g o w le w ym o g o n ie ro zk ła d u .
S
Jeśli zaś h ip o te z a a lte rn atyw na m a p o sta ć n ie ró w n o śc i typ u „ > ”, p o w in n iś m y w yzn a czyć
i »
. r s u » * ' «•
praw ostronny obszar krytyczny
100% - a
i u m ie śc ić g o w p ra w y m o g o n ie ro zk ła d u .
c
a
W n a szy m p rz y k ła d zie w y z n a c zy liśm y le w o stro n n y o b sz a r krytyczny, p o n ie w a ż h ip o te z a a lte rn atyw na m a p o sta ć n ie ró w n o ści: p < 0,9.
O b szar dwustronny Z obszarem dwustronnym m a m y d o c z yn ie n ia w tedy, g d y zo stał o n p o d z ie lo n y n a dw ie części, z k tó ry c h k a ż d a znajduje się w in n y m o g o n ie ro z k ła d u statystyki testowej. W y z n a c z a się je tak, b y k a ż d a
Teraz mamy do czynienia z te s te m dwustronnym, qduż obszar krytyczny został podzielony na dwie części.
z n ic h o d p o w ia d a ła p ra w d o p o d o b ie ń s tw u ró w n e m u a/2, gd z ie a jest przyję tym p o z io m e m isto tn o ści testu. K o n ie c z n o ś ć w y z n a c ze n ia d w u stro n n e g o o b s z a ru k rytyczn e g o w y n ik a
c
w p ro st z p o sta c i h ip o te z y alternatywnej. Jeśli za w iera o n a za p is w p o sta ci
(czytaj: ró ż n e od), m u sim y w yzn a czy ć o b sza r
d w u stro n n y, p o n ie w a ż za k ła d a o n a a lte rn atyw ną w a rto ść p a ra m etru , ró ż n ą o d tej z h ip o te z y zerow ej, ale b e z w sk a z y w a n ia k ie ru n k u zm iany. Z o b sz a re m d w u stro n n y m m ie lib y śm y d o c z yn ie n ia w tedy, gd yb y h ip o te z a alte rn atyw n a z n a sz e g o p rz y k ła d u p rzyję ła p o sta ć p ^ 0,9, to zn a c zy g d y b y śm y ch cieli sp raw dzić, czy o d se te k u z d ro w io n y c h jest istotn ie w y ższy b ą d ź istotn ie n iż szy n iż 0,9, je d n a k b e z w sk a zy w a n ia k ie r u n k u zależności.
572
Rozdział13.
■<
►
a/2
100% - a
a/2
Weryfikacja hipotez
Krok 4 : Znajdź prawdopodobieństwo p (p-wartość)
S fo rm u łu j h ip o te z ę , k tó rą c h c e s z z w e r y f ik o w a ć W y b ie rz s t a t y s t y k ę
W kroku 4. będziemy wyznaczali tak zwaną p-wartość.
t e s t o w ą (s p r a w d z ia n te s tu )
p-wartość jest prawdopodobieństwem otrzymania wyniku takiego jak z danej próby lub gorszego, z punktu widzenia hipotezy zerowej. Jest to sposób określenia tego, ^ e s tB Ś M tf czy wyniki uzyskane z próby w padają do obszaru krytycznego, a więc czy dają tu t a j podstawę do odrzucenia hipotezy zerowej.
O k r e ś l o b s z a r o d rz u c e ń t e s t o w a n e j h ip o te z y Z n a jd ź p ra w d o p o d o b ie ń stw o p (p -w a r to ś ć ) S p ra w d ź, czy s p ra w d z ia n t e s t u
Jak znaleźć p-wartość?
w p a d a d o o b s z a ru o d rz u c e ń
p-wartość zależy od postaci hipotezy alternatywnej oraz od wartości statystyki testowej obliczonej na podstawie próby. W naszym przykładzie statystyka testowa przyjęła wartość 11, zaś obszar odrzuceń leżał w lewym ogonie jej rozkładu. Oznacza to, że naszą p-wartość wyznaczymy jako P(X < 11), gdzie X jest zmienną losową opisującą liczbę pacjentów uleczonych w wyniku kuracji SnoreCull, a jednocześnie sprawdzianem naszego testu.
P o d e jm ij d e c y z ję
Ponieważ przyjęliśmy poziom istotności równy 5 % , zatem jeśli P(X < 11) będzie mniejsze niż 0,05, wartość 11 wpadnie do obszaru odrzuceń hipotezy zerowej. W tedy będziemy musieli ją odrzucić. „ n OS wartość 11 wpada Jeśli P(X< 11) je s t do odrzucenia H0. do obszaru krytycznego, zmuszając nas a
+
0 ,0 5
0 ,9 5
jesteś tutaj k
573
Zaostrz ołówek: Rozwiqzanie
^ Zaostrz ołówek _____
_
Rozwiązanie
W kroku 2. stwierdziliśmy, że X ~ B(15, 0,9). Ile zatem wynosi P(X < 11)?
P(X < 11)= 1 - P(X > 12) = = 1 - ( Ć \ o , 1 3xO,9'2 + C’5x0,12x0 ,9 ’3 + C'5x0 ,1 x0 ,9 ” + 0,9'5) =
12
J3
W
= 1 - (0,1285 + 0,2 66 9 + 0,3432 + 0 ,2 0 5 9 ) = = 1 - 0,9445 = = 0 ,0 5 5 5
Znaleźliśmy p-wartość Aby znaleźć p-wartość dla naszego przykładu, musieliśmy obliczyć P (X < 11). Wynosi ona 0,0555.
C ty p-wartość zawsze b ędę liczyć w ten sam sposób? T akie dla prawostronnego obszaru, odrzuceń?
p-wartość jest prawdopodobieństwem uzyskania wyników co najmniej tak złych (z punktu widzenia testowanej hipotezy) jak te z próby. W naszym przykładzie mieliśmy do czynienia z lewostronnym obszarem odrzuceń. D latego w celu znalezienia p-wartości liczyliśmy P (X < 11), ponieważ wartości mniejsze niż bądź równe 11 będą świadczyły przeciwko hipotezie zerowej (na korzyść alternatywnej). obszarze Chcemy s p ra w d zić, czy k ry ty c ln y m , dlatego h czyl.śm y P(X< 11).
^ 0 ,0 5
-►
+
c
^
-w 0 ,9 5
Gdybyśmy mieli do czynienia z prawostronnym obszarem odrzuceń, w celu znalezienia p-wartości musielibyśmy obliczyć P(X > 11). Interesowałyby nas wartości większe niż bądź równe 11, ponieważ one właśnie przemawiałyby na korzyść hipotezy alternatywnej.
5 74
Rozdział13.
i' p o d o b n ie ja k 0,1°, dlatego z o s ta je stą d tylko 0 ,9 15
Weryfikacja hipotez
Krok S : Sprawdź, czy sprawdzian testu
S fo rm u łu j h ip o te z ę , k tó rą c h c e s z z w e r y f ik o w a ć
wpada do obszaru odrzuceń
W y b ie rz s t a t y s t y k ę t e s t o w ą (s p r a w d z ia n
Teraz, kiedy znamy już p-wartość, możemy wykorzystać ją do oceny tego, czy wartość statystyki testowej w pada do obszaru odrzuceń. Jeśli tak, stanowi to wystarczającą podstawę do odrzucenia hipotezy zerowej, czyli stanowiska firmy farmaceutycznej.
te s tu ) O k r e ś l o b s z a r o d rz u c e ń t e s t o w a n e j h ip o te z y Z n a jd ź p ra w d o p o d o b ie ń stw o p (p -w a rto ść )
Obszar krytyczny w naszym przykładzie zbudowaliśmy w lewym ogonie rozkładu statystyki testowej, a poziom istotności testu ustaliliśmy na 5%. Oznacza to, że będziemy musieli odrzucić hipotezę zerową, jeśli p-wartość będzie mniejsza niż 0,05. Ponieważ wyznaczona w poprzednim kroku wartość ta wynosi 0,0555, statystyka testowa w naszym przykładzie nie w pada do obszaru odrzuceń. T° j e s t obszar kry tyczny.
5%
je s te ś m y tu ta j
—
S p ra w d ź, czy s p ra w d z ia n t e s t u w p a d a d o o b s z a ru o d rz u c e ń P o d e jm ij d e c y z ję
p -w a rto ś ć w ynosi ok. 0 ,0 56 , a zatem je s t w iększa od poziom u is to tn o ś c i te s tu .
X
c
95%
S fo rm u łu j h ip o te z ę ,
Krok 6 : Podejmij decyzję
k tó rą c h c e s z z w e r y f ik o w a ć W y b ie rz s t a t y s t y k ę
To już ostatni krok całej procedury weryfikacji hipotez. Pozostała nam rzecz najważniejsza, czyli podjęcie decyzji o odrzuceniu lub nie hipotezy zerowej.
t e s t o w ą (s p r a w d z ia n te s tu ) O k r e ś l o b s z a r o d rz u c e ń t e s t o w a n e j h ip o te z y
Ponieważ p-wartość wyznaczona w kroku 4. znajduje się poza obszarem odrzuceń, pobrana próba nie dała nam wystarczających podstaw do odrzucenia hipotezy zerowej. Innymi słowy:
Z n a jd ź p ra w d o p o d o b ie ń stw o p (p -w a rto ść ) S p ra w d ź, czy s p ra w d z ia n te s tu
p rz y jm u je m y s t a n o w is k o fir m y f a r m a c e u t y c z n e j ja k o z g o d n e z p ra w d ą .
je s te ś m y tu ta j
—
w p a d a d o o b s z a ru o d rz u c e ń P o d e jm ij d e c y z ję
jesteś tutaj k
575
Weryfikacja hipotez — podsumowanie
Czego więc dokonaliśm y? Podsumujmy nasze dotychczasowe działania. Miały one na celu ocenę prawdziwości twierdzenia producenta leku SnoreCull o jego rzekomej skuteczności, poddawanego w wątpliwość przez lekarkę z przychodni w Statsville. Twierdzenie to przyjęliśmy jako punkt wyjścia dla procedury statystycznej weryfikacji hipotez. Wskazaliśmy hipotezę zerową, która mówiła, ze prawdopodobieństwo wyleczenia pacjenta wynosi 0,9, a następnie szukaliśmy dowodów na obalenie tej hipotezy w próbie pobranej przez lekarkę. Wybraliśmy więc statystykę testową, wyznaczyliśmy jej wartość na podstawie danych z próby oraz wskazaliśmy poziom istotności, dla naszego testu równy 5%. Obliczyliśmy też prawdopodobieństwo tego, ze co najwyżej 11 osób z próby (tyle, ile wskazywała statystyka testowa) zostanie wyleczonych po kuracji preparatem SnoreCull i przyrównaliśmy je do naszego poziomu istotności. Innymi słowy, sprawdziliśmy, jakie mieliśmy szanse na uzyskanie tak ekstrem alnego wyniku (a naw et jeszcze gorszego, z punktu widzenia hipotezy zerowej). Ponieważ okazało się, że prawdopodobieństwo to jest wyższe niż 0,05 (czyli przyjęty przez nas poziom istotności testu), stwierdziliśmy, że nie mamy wystarczających podstaw do odrzucenia hipotezy zerowej.
Ą le nie takich wyników spodziewała się pani doktor. Czy nie możemy przeprowadzić te s tu je s z c z e raz, na innym poziom ie istotności?
i q
Jeśli raz wybrałeś poziom istotności swojego testu, nie wolno Ci go zmieniać. Procedura weryfikacji hipotez musi być całkowicie bezstronna. Oznacza to, że poziom istotności testu powinieneś wybrać, kierując się jedynie własnymi oczekiwaniami co do mocy dowodów, jednak jeszcze zanim je poznasz. Jeśli będziesz próbował zmienić poziom istotności testu — a więc własne oczekiwania co do mocy dowodów, które uznasz za wystarczające do odrzucenia hipotezy zerowej — po zapoznaniu się z wynikami testu, możesz istotnie zaburzyć wnioski z niego płynące. Mogłoby Cię kusić, by tak długo zmieniać poziom istotności, aż uzyskasz wynik testu, który będzie wspierał Twoje wcześniejsze oczekiwania. Cała procedura będzie więc zupełnie nieobiektywna, a zatem i decyzje podjęte w jej następstwie mogą nie być słuszne.
576
Rozdział13.
Weryfikacja hipotez CELNE SPOSTRZEŻENIA
■
■
W eryfikacja hipotez polega na statystycznej
■
to zbiór wartości statystyki testow ej, które świadczą
o inform acje pochodzące z próby
przeciwko prawdziwości hipotezy zerowej. Obszar krytyczny wyznacza się dla danego poziomu
Twierdzenie, które poddaje się te sto w i, nazywane
istotności, inaczej dla testu jednostronnego
jest hipotezą zerową i oznaczane jako H0. Jest ono
i dw ustronnego.
domyślnie uznawane za prawdziwe. Odrzuca się je tylko wtedy, gdy znajdzie się wystarczająco mocne
■
d ow o d y świadczące przeciwko niemu. ■
w lewym , albo w prawym . W przypadku obszaru
Hipotezą alternatyw ną jest twierdzenie, które
dw ustronnego cały obszar podzielony jest na dwie części, po jednej dla każdego ogona rozkładu. Typ
odrzucenia hipotezy zerowej. Oznacza się je jako H1. Sprawdzianem testu (statystyką te sto w ą) jest statystyka, której w artość wyznaczona na podstawie
obszaru zależy od postaci hipotezy alternatywnej. ■
w idzenia hipotezy zerowej) jak uzyskane z próby
zerowej. Jej rozkład określa się przy założeniu prawdziw ości hipotezy H0.
p -w artość jest praw dopodobieństw em otrzym ania w próbie w yn ikó w co najmniej tak złych (z punktu
próby służy do zbadania prawdziwości hipotezy
■
Jednostronny obszar krytyczny położony jest tylko w jednym ogonie rozkładu statystyki testowej: albo
przyjmuje się jako praw dziw e w przypadku
■
Obszar krytyczny (zw any też obszarem odrzuceń)
weryfikacji prawdziwości pewnego sądu w oparciu
■
Jeśli p-w artość w pada do obszaru krytycznego, istnieją wystarczające d o w ody na odrzucenie
Poziom istotności testu, oznaczany przez a , jest
hipotezy zerowej na korzyść alternatywnej.
sposobem określenia tego, na ile niepraw dopodobne
W przeciw nym razie nie ma wystarczających
musiałyby być w yniki uzyskane z próby, by m ogły
p o w o d ó w do jej odrzucenia.
świadczyć przeciwko hipotezie zerowej.
i N ie .i s t n i e ją .
głupie pytania
P : Jaki poziom istotności powinienem wybrać? O: Wszystko zależy od tego, jak bardzo chcesz być pewien,
P:: Czy poziom istotności ma coś wspólnego z poziomem ufności, który stosowaliśmy przy tworzeniu przedziałów ufności?
że nie mylisz się, odrzucając hipotezę zerową. Im większą chcesz mieć pewność, tym niższy poziom istotności powinieneś wybrać. Najczęściej stosowanym poziomem istotności jest 5%, co nie oznacza, że nie możesz przeprowadzać testów na przykład na poziomie 1%. Jeśli wybierzesz poziom rów ny 1%, uzyskasz większą pewność tego, że Twoja decyzja o odrzuceniu hipotezy
O : Tak, mają one wiele wspólnego. Konstruując przedział ufności dla parametru populacji, którego nieznaną wartość chcesz oszacować, chcesz mieć pewność, że wyznaczony przedział rzeczywiście ją pokryje. Przy poziomie ufności równym 95% prawdopodobieństwo pokrycia wartości parametru populacji przez wyznaczony przedział ufności wynosi 0,95.
zerowej była słuszna.
Poziom istotności zaś określa prawdopodobieństwo tego, że wartość parametru znajdzie się poza pewnym zbiorem. Jeśli jest on rów ny na przykład 5%, obszar krytyczny musi
Mimo wszystko f nadal mam wątpliwości. Zastanawiam się, jaki byłby wynik te s tu , gdybym dysponowała większą próbą...
wyznaczać obszar odpowiadający prawdopodobieństwu 0,05.
O
jesteś tutaj ► 577
Pobieramy wększq próbę
Co by się stało, gdyby próba była w iększa? Wiemy już, ze na podstawie danych z próbki o liczebności 15 osób pobranej przez lekarkę z przychodni w Statsville nie udało się odrzucić twierdzenia producenta leku o jego wysokiej skuteczności. Czy jest możliwe, że przyczyniła się do tego zbyt m ała liczebność próby? Być może bardziej wiarygodne wyniki udałoby się uzyskać po przebadaniu większej niż tylko 15-osobowa grupy pacjentów? Oto wyniki nowych badań przeprowadzonych przez panią doktor:
W y le c z o n y ?
Tak
N ie
C zę sto ść
80
20
Chcę p t i e . p t owadiić nowe wnioskowanie, w oparciu o dane z. te j próby.
Również my chcielibyśmy się dowiedzieć, czy nowsze wyniki badań zmienią nasze wnioski odnośnie do skuteczności preparatu SnoreCull. Przejdźmy więc od nowa całą procedurę, wykorzystując dane z powiększonej próby.
cW-,WYSIL
____________
SZARE K O M Ó R K I Jaką postać będzie miała hipoteza zerowa tym razem? A hipoteza alternatywna?
578
Rozdział13.
Weryfikacja hipotez
Magnesiki Czas ponownie przetestować stanowisko firm y farmaceutycznej. W tym celu będziemy musieli wykonać kilka kroków. Czy pamiętasz ich kolejność? Uszereguj magnesiki w odpowiedniej kolejności.
P o d e jm ij
d e c y z ję
]
| S fo r m u łu j
h ip o te z ę ,
k tó rą
chcesz
zw e r y f i k ° w a ć
|
jesteś tutaj ► 579
Magnesiki: Rozwiązanie
Magnesiki: Rozwiązanie Czas ponownie przetestować stanowisko firm y farmaceutycznej. W tym celu będziemy musieli wykonać kilka kroków. Czy pamiętasz ich kolejność? Uszereguj magnesiki w odpowiedniej kolejności.
| S fo r m u łu j
h ip o te z ę ,
k tó rą
P o d e jm ij
580
Rozdział13.
chcesz
d e c y z ję
zw e r y f i k o w a ć
Weryfikacja hipotez
Przeprowadzamy kolejny te st
S fo rm u łu j h ip o te z ę , k tó rą c h c e s z z w e r y f ik o w a ć
L ekarka z ośrodka zdrowia w Statsville nadal nie wierzy w zapewnienia producenta o skuteczności wytwarzanego przez niego leku. Zweryfikujmy więc jeszcze raz to twierdzenie, bazując na wynikach z bardziej licznej próby.
W y b ie rz s t a t y s t y k ę t e s t o w ą ( s p r a w d z ia n t e s tu ) O k r e ś l o b s z a r o d rz u c e ń t e s t o w a n e j h ip o te z y Z n a jd ź p ra w d o p o d o b ie ń stw o p
Krok 1: Sform ułuj hipotezę, którą chcesz zweryfikować
(p -w a r to ś ć ) Sp raw d ź, czy s p ra w d z ia n t e s t u
Zaczniemy, jak poprzednio, od określenia postaci hipotezy zerowej i hipotezy alternatywnej. Pamiętasz zapewne, ze hipoteza zerowa jest stwierdzeniem, które poddajemy weryfikacji, zaś hipoteza alternatywna jest stwierdzeniem, które przyjmiemy za prawdziwe, jeśli hipoteza zerowa okaże się fałszywa.
w p a d a d o o b s z a ru o d rz u c e ń P o d e jm ij d e c y z ję
Jaką więc postać mają obie hipotezy?
Badamy nadal ten sam problem Poprzednim razem za hipotezę zerową przyjęliśmy stanowisko producenta leku na tem at skuteczności SnoreCull. Ponieważ chcemy zweryfikować tę samą hipotezę, nie będziemy jej zmieniać. Mamy więc:
H ,: p = 0 ,9
Również hipoteza alternatywna pozostanie bez zmian. Jeśli znajdziemy wystarczająco mocne dowody na to, że twierdzenie producenta leku jest nieprawdziwe, przyjmiemy hipotezę alternatywną o niższej niż 90-procentowa skuteczności leku. D latego hipoteza alternatywna będzie miała postać:
jesteś tutaj ► 581
Wybieramy statystykę testowq
Krok 2 : Wybierz statystykę testową
S fo rm u łu j h ip o te z ę , k tó rą c h c e s z z w e r y f ik o w a ć
(sprawdzian testu)
W y b ie rz s t a t y s t y k ę t e s t o w ą ( s p r a w d z ia n
Nadszedł czas na wybranie statystyki testowej. Mówiąc inaczej, musimy wskazać jakąś miarę oceny prawdziwości hipotezy zerowej.
te s t u ) O k r e ś l o b s z a r o d rz u c e ń t e s t o w a n e j h ip o te z y Z n a jd ź
Poprzednim razem rolę sprawdzianu testu pełniła statystyka X, oznaczająca liczbę osób, które po dwutygodniowej kuracji preparatem SnoreCull przestały chrapać. Ocenialiśmy jej wartość z punktu widzenia statystycznej istotności wyniku. Posłużyliśmy się rozkładem dwumianowym do obliczenia prawdopodobieństwa uzyskania wyników co najmniej tak niekorzystnych (z punktu widzenia hipotezy zerowej), jak uzyskane z próby. Innymi słowy, wykorzystaliśmy statystykę X ~ B(15; 0,9) do sprawdzenia, czy P (X < 11) jest mniejsze od 0,05, czyli przyjętego poziomu istotności testu.
p ra w d o p o d o b ie ń stw o p (p -w a rto ść ) S p raw d ź, c zy s p ra w d z ia n te s t u w p a d a d o o b s z a ru o d rz u c e ń P o d e jm ij d e c y z ję
Tym razem liczebność próby wzrosła do 100 osób. Ponieważ testujemy tę samą hipotezę, możemy ponownie wykorzystać statystykę X, która jednak m a teraz rozkład B(100; 0,9).
f \ i V
Ż a rtu je c ie sobie Łe mnie? U cŁenie \ prawdopodobieństwa I dla te g o rotkladu 1 potrw a wieki! .—
Możemy posłużyć się innym rozkładem prawdopodobieństwa niż rozkład dwumianowy. Rzeczywiście, obliczanie prawdopodobieństwa dla rozkładu dwumianowego może być dość czasochłonne, ponieważ musielibyśmy obliczać kolejno bardzo wiele jego składników. N a szczęście możemy pójść inną drogą. Możemy wykorzystać inny rozkład prawdopodobieństwa do przybliżenia rozkładu dwumianowego.
ę ^ T W
Y S IL
_________________
SZARE K O M Ó R K I Jakim rozkładem m oglibyśm y aproksym ować rozkład B(100; 0,9)?
582
Rozdzlał13.
o
Weryfikacja hipotez
jesteś tutaj ► 583
Ćwiczenie: Rozwiązanie
Ćwiczenie
Aby dojść do prawidłowych wniosków z weryfikacji hipotezy, musisz wiedzieć, jakim rozkładom podlegają różne statystyki. Jakimi rozkładami posłużyłbyś się do znalezienia wartości prawdopodobieństw w poniższych przypadkach?
R o zw iązan ie
1.
X ~ B(n, p). Jakim rozkładem przybliżyłbyś rozkład B, jeśli n jest duże, np > 5 i nq > 5? Jeśli n j e s t duże, możemy przybliżyć rozktad B(n, p) rozkładem normalnym. Poniewa, zaś Var(X) =npą, np>5 i nq>5, zmienna X ma w przybliżeniu rozkład N(np, npq).
2.
X ~ N(p, o2). Znamy wartość p i o2. Jaki jest rozkład X? Jeśli znamy wartość o2, X ~ N(u, o2/n).
3.
X ~ N(p, o2). Znamy wartość p, ale nie znamy o2. Dysponujemy dość liczną próbą. Jaki jest tym razem rozkład X? Jeśli nie znamy w a rto ści o2, musimy ja o sz a c o w a ć z a pomocą estymatora S2. Ponieważ próba jest duża, zatem X ~ N(u, s2/n).
4.
X ~ N(p, o2). Znamy wartość p, ale nie znamy o2. Pobraliśmy niewielką próbę. Jaki jest tym razem rozkład X? Jeśli nie znamy w a r to śc i o2, musimy ją przybliżyć wartością s2 uzyskaną z próby. Ponieważ nie jest ona wystarczająco liczna, musimy posłużyć s i ę rozkładem zmiennej T ~ Kn-1), gdzie j. (X-u) s/V n ~
584
Rozdział13.
Weryfikacja hipotez
Przybliżamy rozkład statystyki testowej rozkładem normalnym Wiemy już, ze nasza statystyka testowa X podlega rozkładowi dwumianowemu z param etram i n = 100 oraz p = 0,9 (rozkład statystyki testowej budujemy przy założeniu prawdziwości hipotezy zerowej). Ponieważ n jest duże oraz zarówno np, jak i nq są większe od 5, możemy przybliżyć rozkład dwumianowy rozkładem normalnym. Możemy więc powiedzieć, że X ~ N (np, npq). Innymi słowy: M ożem y ta k zrobić, poniew aż
X ~ N (9 0 , 9 ) ^ ^
nP>5 ' ną>5'
Po wystandaryzowaniu zmiennej X otrzymujemy:
X - 90 Z =
„Dokonujem y sta n d a ryza cji X - N(90, 9).
Jako sprawdzian naszego testu możemy więc w y k o rrsta ć zmienną:
X - 90 Z =• 3
Z ~ N (0, 1)
* to liczba w yleczonych p a c je n tó w , w n a s z y T p rzypadku równa 8 0 .
Rożumiem. Sprawdżian te s tu to im ienna, którą wykortystamy do weryfikacji b ip o te ty żero w ej.
Wartość statystyki testowej posłuży Ci do wyznaczenia prawdopodobieństwa potrzebnego do oceny istotności wyników. Jako sprawdzian testu możemy więc posłużyć się zm ienną Z, co m a tę zaletę, że będziemy mogli łatwo odczytać z tablic potrzebną nam za chwilę wartość prawdopodobieństwa, które powie nam, na ile uzyskane przez nas w próbie wyniki są (nie)praw dopodobne. Ponieważ liczba uzdrowionych pacjentów w naszej próbie wynosiła 80, po wstawieniu tej wartości do wzoru na zmienną Z będziemy mogli się przekonać, na ile (nie)praw dopodobne było uzyskanie takiego wyniku.
jesteś tutaj k
585
Znajdujemy obszar odrzuceń
Krok 2: Określ obszar odrzuceń testowanej hipotezy
S fo rm u łu j h ip o te z ę , k tó rą c h c e s z z w e r y f ik o w a ć
Teraz, kiedy znamy już rozkład statystyki testowej, możemy przystąpić do wyznaczania granic obszaru odrzuceń hipotezy zerowej. Ponieważ hipoteza alternatywna m a postać nierówności typu „ < ”, obszar ten będzie się znajdował w lewym ogonie rozkładu statystyki testowej, jak poprzednio.
W y b ie rz s t a t y s t y k ę t e s t o w ą (sp ra w d z ia n te s t u ) O k r e ś l o b s z a r o d rz u c e ń t e s t o w a n e j h ip o te z y Z n a jd ź p ra w d o p o d o b ie ń stw o p
Pamiętasz pewnie, że jego wielkość jest uzależniona od poziom u istotności testu. Przyjmijmy więc, tak jak poprzednim razem, że będzie on wynosił 5%.
(p -w a rto ść ) S p raw d ź, c z y s p ra w d z ia n te s t u w p a d a d o o b s z a ru o d rz u c e ń P o d e jm ij d e c y z ję
Ponieważ sprawdzian naszego testu m a rozkład normalny (w przybliżeniu), wartość krytyczną c odczytamy bezpośrednio z tablic tego rozkładu. Podzieli nam ona zbiór możliwych wartości zmiennej będącej sprawdzianem testu na dwa obszary: ten, który da nam podstawy do odrzucenia hipotezy zerowej, i ten, gdzie takich podstaw mieć nie będziemy. Ponieważ przyjęliśmy poziom istotności równy 5% , musimy znaleźć takie c, by prawdziwy był w arunek: P (Z < c) = 0,05. Z tablic rozkładu normalnego odczytujemy c, które w tym przypadku wynosi -1,64. Innymi słowy: P (Z < -1,64) = 0,05
Oznacza to, że jeśli wartość statystyki testowej obliczona z próby będzie mniejsza niż -1,64, będziemy mieli wystarczające podstawy do odrzucenia hipotezy zerowej:
Weryfikacja hipotez
jesteś tutaj k
587
Ćwiczenie: Rozwiązanie
Czy sądzisz, że dasz radę przejść samodzielnie pozostałe kroki procedury? Jeśli tak, wykonaj poniższe działania: R ozw iązan ie
Krok 4: Znajdź prawdopodobieństwo p (p-wartość) Obszar krytyczny znajduje się w lewym ogonie rozkładu. Zmienna X przyjęła w próbie wartość 80, a Z = (X - 90)/3. Wyznacz p-wartość. Zacznijm y od wyznaczenia w a rto ści zm iennej Z dla x = 80. z = (8 0 -9 0 J /3 = = -1 0 /3 = = - 3 ,3 3 p - w a r t o ś ć je s t równa P(Z
Krok 5: Sprawdź, czy sprawdzian testu wpada do obszaru odrzuceń Pamiętaj, że poziom istotności testu wynosi 5%. Sprawdzian te s tu wpada do obszaru odrzuceń, gdy p - w a r to ś ć je s f m niejsza niż 0 ,0 5 . Ponieważ w naszym przypadku wynosi ona 0 ,0 0 0 4 , zatem tym razem sta ty sty k a wpada do obszaru krytycznego.
Krok 6: Podejmij decyzję Opierając się na wynikach testu, podejmij decyzję o odrzuceniu lub nie hipotezy zerowej.
Ponieważ wartość s ta ty sty k i te s to w e j znajduje s ię w obszarze krytycznym, odrzucamy hipotezę zerową na korzyść alternatywnej na 5 -procentowym poziomie istotności.
588
Rozdział13.
Weryfikacja hipotez
^noreCuII nie zdał testu Tym razem wyniki testu są jednoznaczne: wyniki uzyskane w próbie każą nam odrzucić hipotezę zerową. Innymi słowy, odrzucamy twierdzenie firmy farmaceutycznej o skuteczności preparatu SnoreCull.
A nie mogliśmy po p r o s t u p r z y ją ć opinii lekarki od razu?
Weryfikacja hipotez opiera się na rzeczywistych przesłankach. Procedura weryfikacji hipotez wymaga przyjęcia hipotezy zerowej jako prawdziwej i skonfrontowania jej z faktami. Odrzucamy ją jedynie wtedy, gdy znajdziemy do tego wystarczające podstawy. Dzięki tem u cała procedura jest obiektywna — decyzje podejmujemy w oparciu jedynie o wyniki z próby. Gdybyśmy po prostu zaakceptowali przypuszczenia pani doktor bez przyjrzenia się faktom, nie moglibyśmy być pewni, czy nie popełniam y w ten sposób błędu. Przecież wyniki jej badań mogły być następstwem zwykłego przypadku. Po przeprowadzeniu formalnej procedury wiemy, że wyniki uzyskane w próbie były na tyle mało praw dopodobne (a mimo to się zdarzyły), że uzasadniają odrzucenie hipotezy zerowej. Są one istotne statystycznie, to znaczy że nie mogły się wydarzyć przez zwykły przypadek. Czy możemy więc mieć pewność, że firm a farmaceutyczna nie mówiła prawdy?
jesteś tutaj ► 589
Testujqc hipotezę, tawsze możemy popełnić błqd
Błędy możemy popełnić zawsze W ie m y j u ż z a t e m , j a k m o ż e m y w y k o r z y s t a ć in f o r m a c je z p r ó b y ja k o p r z e s ła n k i z a p r a w d z iw o ś c ią lu b n ie h ip o t e z y z e r o w e j. J e ś li s ą o n e w y s t a r c z a ją c o m o c n e , u z a s a d n ia ją j e j o d r z u c e n ie . A z a t e m w ie m y , ż e w y n i k i u z y s k a n e p r z e z p a n i ą d o k t o r d a ją n a m w y s ta r c z a ją c e p o d s t a w y d o o d r z u c e n ia t w ie r d z e n ia f i r m y f a r m a c e u t y c z n e j. C z y j e d n a k m o ż e m y m ie ć p rz y ty m s tu p ro c e n to w ą p e w n o ś ć ?
P ew nie, ¿ e ta k . Przeprowadziliśmy formalny te s t, który wykazał, ż e producent leku kłamie.
O
Nie do końca. Choć nasze dowody są dość mocne, nie możemy z całą pewnością powiedzieć, ze firma farmaceutyczna nie mówiła prawdy. C h o ć je s t t o m a ło p r a w d o p o d o b n e , z a w s z e m o g liś m y p o p e łn i ć b łą d . M o ż e m y s k o n f r o n t o w a ć n a s z ą h ip o t e z ę z f a k t a m i o r a z w s k a z a ć p o z i o m p e w n o ś c i, z j a k ą b ę d z ie m y o d r z u c a ć h ip o t e z ę z e r o w ą , a le t o n ie w y s t a r c z a , b y ś m y m o g l i m ie ć p e w n o ś ć , ż e p o d j ę t a d e c y z ja je s t j a k n a j b a r d z i e j s łu s z n a . M o ż n a b y w ię c z a d a ć p y t a n ie , c o n a m d a t a k ą p e w n o ś ć . P a m ię t a s z z a p e w n e , j a k p o w ie d z ie liś m y , ż e s t a ty s ty c z n e t e s t o w a n ie h ip o t e z p r z y p o m in a n ie c o o s ą d z a n ie c z ło w ie k a o s k a r ż o n e g o o ja k ie ś p r z e s t ę p s t w o . P o c z ą t k o w o s k ła d o r z e k a ją c y z a k ła d a je g o n ie w in n o ś ć , d o c z a s u , g d y o s k a r ż y c ie l p r z e d s t a w i w y s t a r c z a ją c o m o c n e d o w o d y je g o w in y . Z d a je s z s o b ie j e d n a k p e w n ie s p r a w ę , ż e n a w e t p o r o z p a t r z e n iu w s z y s t k ic h d o w o d ó w s ą d m o ż e s ię p o m y l ić w s w o je j d e c y z ji. Ć w ic z e n ia z a m ie s z c z o n e n a n a s t ę p n e j s t r o n ie p o m o g ą C i t o s o b ie u ś w ia d o m ić .
iNie.istnieia,
głupie pytania ^ : Gdzie możemy popełnić błąd, dokonując weryfikacji hipotez? Czy nie ma ona służyć temu, byśmy mieli pewność, że nie popełniamy błędu?
^ : Słyszałem gdzieś o testach istotności. Czym one są?
0 : Dokonując weryfikacji hipotezy, możesz się opierać jedynie
poziomu istotności.
0 : Niektórzy nazywają procedurę weryfikacji hipotez testami istotności. W ynika to stąd, że wym aga ona przyjęcia jakiegoś
na informacjach, jakie pozyskałeś z próby. Jeśli jednak korzystałeś z próby obciążonej, również i decyzje podjęte na tej podstawie będą obciążone błędem.
590
Rozdział13.
Weryfikacja hipotez
_
zaostrz ołówek ______________________________________________________ Pewien człowiek stanął przed sądem, oskarżony o dokonanie przestępstwa. Wyobraź sobie, że jesteś członkiem składu orzekającego. Początkowo stosujesz domniemanie niewinności, dopóki oskarżyciel nie przedstawi przekonujących dowodów winy oskarżonego. 1.
Jak mógłbyś sformułować hipotezę zerową na potrzeby rozprawy?
2.
A jak brzmiałaby hipoteza alternatywna?
3.
Kiedy skład orzekający wyda werdykt, który będzie słuszny?
4.
A w jakiej sytuacji sąd może się pomylić?
jesteś tutaj ► 591
Zaostrz ołówek: Rozwiązanie
Zaostrz ołówek Rozwiązanie
1.
Pewien człowiek stanął przed sądem, oskarżony o dokonanie przestępstwa. Wyobraź sobie, że jesteś członkiem składu orzekającego. Początkowo stosujesz domniemanie niewinności, dopóki oskarżyciel nie przedstawi przekonujących dowodów winy oskarżonego.
Jak mógłbyś sformułować hipotezę zerową na potrzeby rozprawy? Hipoteza zerowa mówiłaby o tym, ze oskarżony je s t niewinny, ponieważ sąd m usi s ię stosow ać do zasady domniemania niewinności.
2.
A jak brzmiałaby hipoteza alternatywna? Hipoteza alternatywna mówiłaby o winie oskarżonego. Innymi słowy, gdybyśm y poznali wystarczające dowody na to, że oskarżony nie j e s t niewinny, uznalibyśm y go winnym i wymierzyli mu karę.
3.
Kiedy skład orzekający wyda werdykt, który będzie słuszny? Poprawną decyzję podjąłbyś wtedy, gdy: Oskarżony j e s t rzeczyw iście niewinny i sąd uzna go za niewinnego. Oskarżony j e s t winny i sąd uzna go za winnego.
4.
A w jakiej sytuacji sąd się pomyli? Sąd podejmie błędną decyzję, gdy: Oskarżony j e s t niewinny, a sąd uzna go za winnego. Oskarżony j e s t winny, ale sąd uznał go za niewinnego.
592
Rozdział13.
Weryfikacja hipotez
o
No d o b r z e , ale co to ma wspólnego z weryfikacją bipoteŁ?
Przeprowadzając weryfikację hipotez, możemy popełnić błędy tego samego rodzaju co sąd rozstrzygający o winie lub niewinności oskarżonego. P rocedura weryfikacji hipotez stanowi swoistą analogię rozprawy przed sądem. Oceniamy prawdziwość lub nieprawdziwość pewnej hipotezy, konfrontując ją z faktami. Początkowo przyjmujemy ją za prawdziwą, chyba ze fakty będą świadczyć przeciwko niej. Możemy więc podjąć prawidłową decyzję, odrzucając hipotezę zerową lub nie, ale nawet oceniając fakty, możemy się pomylić. Możemy przecież odrzucić hipotezę, która w rzeczywistości jest prawdziwa, lub też przyjąć hipotezę, która tak naprawdę jest fałszywa. Statystycy dostrzegli ten problem i nadali specjalne nazwy obu rodzajom błędów. Z błędem I rodzaju mamy do czynienia wtedy, gdy błędnie odrzucamy hipotezę zerową, która w rzeczywistości jest prawdziwa. B łąd I I rodzaju polega zaś na błędnym przyjęciu hipotezy, która jest fałszywa. Mocą testu nazywamy prawdopodobieństwo tego, że poprawnie odrzucimy hipotezę zerową, gdy jest ona w istocie fałszywa.
D e c y z ja p o d ję ta w w y n ik u t e s t u P rz y jm u je m y H 0 S ta n
H 0 p r a w d z iw a
fa k tyczn y
H 0 f a łs z y w a
S / Błąd II rodzaju
&tędy obu rodzajdu
WYSIL
O d rzu cam y H0 Błąd I rodzaju s /
P raw dopodobieństw o teg o z d arz en ia określa moc t e s tu .
SZARE K O M Ó R K I Jak,Twoim zdaniem, m oglibyśm y znaleźć praw dopodobieństw o popełnienia błędu I rodzaju? A jak obliczyć praw dopodobieństw o popełnienia błędu II rodzaju?
jesteś tutaj ► 593
Błqc I i II rodzaju
Zacznijmy od błędu I rodzaju B łą d I ro d za ju p o p e łn ia m y w tedy, g d y o d rz u c a m y h ip o te zę zerow ą, ch o ć w rzeczyw istości jest o n a p ra w dziw a. T o tak, ja k b y sąd sk a za ł na w ię zie n ie n ie w in n e g o człow ieka.
Jakiejest więc prai popełnienia błędu I Z a k ła d a ją c , ze p o p e łn iłe o d rz u c ić h ip o te zę zerow. w tedy, g d y w a rto ść statysiyK i testowej o n u c z o n a n a p o d sta w ie p ró b y w p a d ła d o o b s z a ru krytyczn ego.
P ra w d o p o d o b ie ń s tw o p o p e łn ie n ia b łę d u I ro d za ju jest w ię c ró w n e p ra w d o p o d o b ie ń s tw u tego, ze w a rto ść statystyki testowej w p a d n ie d o o b s z a ru od rzu ce ń . P o n ie w a ż o b s z a r ten jest w y z n a c za n y p rz e z p ra w d o p o d o b ie ń stw o o d p o w ia d a ją c e przyję te m u p o z io m o w i istotności, zatem jeśli p o z io m isto tn o ści o z n a c z y m y p rz e z a, to i sz u k a n e p ra w d o p o d o b ie ń stw o m u si być ró w n e a. In n y m i słow y:
P(błąd I rodzaju) = a gd zie a jest p o z io m e m isto tn o ści testu.
594
Rozdzlał13.
Weryfikacja hipotez
A co z błędem II ro d zaju ? B łą d I I ro d z a ju p o p e łn ia s z wtedy, g d y p rzyjm u je sz h ip o te zę zerow ą, c h o cia ż w rzeczyw istości jest o n a fałszywa. T o tak, ja k b y są d u z n a ł o s k a rż o n e g o za n ie w in n e g o za rz u c a n y ch m u czynów , c h o ć w istocie to o n je p o p e łn ił.
P ra w d o p o d o b ie ń s t w o p o p e łn ie n ia b łę d u I I ro d za ju o z n a c za się zw ykle gre c k ą literą p.
P(błąd II rodzaju) = P Jak zatem znaleźć p ? W y z n a c z a n ie p ra w d o p o d o b ie ń stw a b łę d u I I ro d z a ju jest d u ż o bardziej sk o m p lik o w a n e n iż b łę d u I rodzaju. O t o k ró t k a lista k ro k ó w , ja kie trzeba p rz y tym w y k o n a ć. O m ó w im y je d o k ła d n ie j n a następnej stronie.
Sprawdź, czy H 1 wskazuje na konkretną wartość liczbową. Jeśli nie, n ie b ę d zie sz m ó g ł w yzn a czy ć p ra w d o p o d o b ie ń stw a p o p e łn ie n ia b łę d u I I rodzaju.
Określ zbiór wartości znajdujący się poza obszarem odrzuceń. Jeśli d o k o n y w a łe ś sta nd a ryzacji statystyki testowej, m u sis z p a m iętać, b y w ró c ić d o w a rto śc i w yjściow ych.
Znajdź prawdopodobieństwo otrzymania w wyniku z próby tego zbioru wartości, zakładając, że H 1 je s t prawdziwa. In n y m i słow y, m u sim y zn ale źć p ra w d o p o d o b ie ń stw o o trz y m a n ia w w y n ik u w a rto śc i sp o z a o b s z a ru o d rzu c e ń , b u d u ją c je d n a k ro z k ła d statystyki testowej p rz y za ło ż e n iu p ra w d z iw o śc i H p a n ie H 0.
jesteś tutaj ► 595
Szacujemy błqd i
rodzaju
Znajdujemy prawdopodobieństwa
a i P w naszym przykładzie
P rz e k o n a jm y się, ja k w y g lą d a w pra k tyce zn a jd o w a n ie p ra w d o p o d o b ie ń s tw p o p e łn ie n ia b łę d u I i I I ro d z a ju n a p rz y k ła d z ie testu h ip o te z y dotyczącej sk u te c zn o śc i p re p a ra tu S n o re C u ll. P a m ię ta sz p ew nie, ze ja k o sp ra w d zia n testu p rz yję liśm y statystykę Z , b ę d ą cą sta n d a ry z o w a n ą w e rsją zm ienn ej X oznaczającej liczb ę o s ó b z p ró b y w yle c z o n y c h p o k u ra cji p re p arate m :
3 P rz y ję liśm y też p o z io m isto tn o ści testu ró w n y 5% .
Zacznijmy od błędu I rodzaju B łą d I ro d za ju p o le g a n a b łę d n ym o d rz u c e n iu h ip o te z y zerow ej, k tó ra jest w rzeczyw istości p ra w dziw a. P ra w d o p o d o b ie ń s tw o je go p o p e łn ie n ia jest w ię c ró w n e p o z io m o w i isto tn o ści testu. W n a szym p rz y p a d k u jest to:
.
W rd le n ia i
P (b łą d I ro d z a ju ) = 0 ,0 5 ^
9 0
.
cenią
-procentowej sk u teczn ^
teku, g d y b y b y fo ono jed n ak praw z
A błąd II rodzaju? B łą d I I ro d za ju m a m iejsce wtedy, g d y b łę d n ie p rz yjm u je m y h ip o te zę zerow ą, ch o ć w rzeczyw istości jest o n a fałszyw a. M o ż e m y g o w yzn a czyć tylko wtedy, g d y H x w ska zu je n a k o n k re tn ą w a rto ść lic zb o w ą ja k o alternatyw ę d la H 0. P rz y jm ijm y więc, że H x m a postać: p = 0,8, czyli tyle, ile w y n o s ił u d z ia ł o s ó b w yle cz o n yc h w p ró b c e p o b ra n e j p rz e z p a n ią doktor. Z e s p ó ł n a szyc h h ip o te z przyjm u je w ię c postać: H 0: p = 0,9
.
^
u • D = 0 ,8 , z a m ia s t H,: p < 0,9.
popełnienia bfędu I I rodzaju.
H ,: p = 0,8 1 H ip o t e z a a lte rn atyw na m u si w sk a zy w a ć d o k ła d n ą w a rto ść te sto w a n e go p a ra m e tru , p o n ie w a ż
^
Aby znalezć prawdopodobieństwo P, m u sim y znać dokładną wartość p rfia hipotezy alternatywnej.
będ zie n a m o n a p o trz e b n a d o w y z n a c ze n ia ro z k ła d u p ra w d o p o d o b ie ń s tw a statystyki testowej. G d y b y m ia ła o n a p o sta ć p < 0 , 9 , n ie m o g lib y ś m y w sk a z a ć żadnej k o n k re tn e j w a rto śc i p i p o lic ze n ie P b y ło b y nie m ożliw e.
Sp okojnie
O 596
Rozdział13.
j eśli będziesz kiedyś musiał Uczyć (3, będziesz miał podaną konkretną wartość parametru dla HŁ.
N ie b ę d zie sz m u sia ł sa m o d z ie ln ie d ecydow a ć o kształcie h ip o te z y alternatyw nej. Jeśli ju ż b ę d z ie sz m u sia ł liczyć (3, w szystkie in form ac je b ę d z ie sz m ia ł p od a ne .
Weryfikacja hipotez
Znajdujemy zbiór wartości spoza obszaru krytycznego Z n a m y ju ż d o k ła d n ą w a rto ść p a ra m e tru p d la h ip o te z y alternatyw nej, zatem m o ż e m y p rzejść d o k o le jn e g o k r o k u i w yzn a czyć z b ió r w a rto śc i statystyki testowej zn ajdujący się p o z a o b sz a re m o d rzu c e ń . B ę d z ie m y je d n a k szu k a li w a rto śc i zm ienn ej X , a n ie Z . N a stronie 5 8 6 stw ie rdziliśm y, że o b sz a r k rytyczn y d la zm ienn ej Z jest w y z n a c z o n y p rz e z n ie ró w n o ść Z < -1 ,64. In n y m i słow y: P ( Z < -1 ,6 4 ) = 0,05. O z n a c z a to, że p o z a o b sza re m o d rz u c e ń znajd ują się w a rto śc i zm ienn ej Z spełniające n ie ró w n o ść: Z > -1,64.
Z m ie n ia ją c z m ie n n ą Z n a o r y g in a ln ą z m ie n n ą X , otrzym ujem y: X - 90 > -1,64
X - 90 > -1,64 x 3 X > -4,92 + 90 X > 85,08 M ó w ią c inaczej, m o g lib y ś m y p rzyją ć h ip o te zę zerow ą, gd y b y co najm niej 85,08 o só b z p ró b y zo sta ło w y le c z o n y c h z d o le g liw o śc i c h ra p a n ia p o za życ iu p re p a ra tu S n o re C u ll. W o sta tn im k r o k u m u sim y p o lic zyć P ( X > 85,08), b u d u ją c ro z k ła d zm ienn ej X p rz y z a ło ż e n iu p ra w d z iw o śc i h ip o te z y alternatyw nej. O b lic z y m y tym sa m y m p ra w d o p o d o b ie ń s tw o p rzyję cia h ip o te z y zerow ej p rz y z a ło ż e n iu p ra w d z iw o śc i h ip o te z y alternatyw nej. P o n ie w a ż p rz y b liż a m y ro z k ła d zm ienn ej X ro z k ła d e m n o rm a ln y m , m o ż e m y zapisać: X ~ N ( n p , n p q ), gd zie n = 100, a p = 0,8. M a m y więc:
X ~ N ( 8 0 , 16)
Jeśli w ię c zn a jd zie m y w a rto ść P ( X > 85,08), gd z ie X ~ N ( 8 0 , 16), b ę d z ie m y zn ali p ra w d o p o d o b ie ń stw o , z ja k im m o ż e m y p o p e łn ić b łą d I I ro d z a ju w n a szym teście. P ra w d o p o d o b ie ń s t w o to p o lic z y m y d o k ła d n ie ta k s a m o ja k k a ż d e in n e d la ro z k ła d u n o rm a ln e g o , to zn ac zy zn ajdując sta n d a ry z o w a n ą w a rto ść x = 85,08 i od czytu jąc je go w a rto ść z tablic ro zk ła d u .
jesteś tutaj ► 597
Jeszcze o błędach II rodzaju
Znajdujemy P(bład II rodzaju) Musimy więc obliczyć P (X > 85,08), gdzie X ~ N (8 0 ,16). Zacznijmy od wyznaczenia standaryzowanej wartości x = 85,08. „
_ 85,08 - 80 Z
Wartość standaryzowaną liczym y w zw ykły ^ ------- sposób: odejm ujem y od wartości zm iennej X :e : Martość oczekiwaną, i dzielim y rozm cę przez odchylenie standardowe.
_ 5,08 _ 4 = 1,27
A zatem szukane prawdopodobieństwo P (X > 85,08) odczytamy z tablic rozkładu normalnego, szukając P (Z > 1,27).
P ( Z ł 1,27) = 1 - P ( Z < 1,27) = = 1 - 0,8980 = =
0 ,10 2 T est to prawdopodobieństwo przyjęcia
Innym' slowy;
P(błąd II rodzaju) = 0,102 ^
w yn o sifa ona 80%.
iN ie .istn ie ia ,
głupie pytania ^ : Dlaczego dużo trudniej jest wyznaczyć p niż a?
^ : Czy zawsze muszę się posługiwać rozkładem normalnym, gdy będę chciał policzyć p?
0 : Wszystko przez sposób form ułowania hipotez. Błąd I rodzaju polega na błędnym odrzuceniu hipotezy zerowej, gdy jest ona
0 : Nie, kształt rozkładu zależy od zmiennej przyjętej
w istocie prawdziwa. Prawdopodobieństwo popełnienia tego
za sprawdzian testu. W naszym przykładzie zmienna X miała
błędu jest równe a , czyli poziom owi istotności testu.
rozkład normalny (w przybliżeniu), dlatego na tym rozkładzie
Błąd II rodzaju popełniamy wtedy, gdy błędnie przyjmujemy
oparliśmy wyznaczanie prawdopodobieństwa p. Gdyby jednak
hipotezę zerową jako prawdziwą, choć jest ona fałszywa.
miała ona rozkład Poissona, musielibyśmy posłużyć się tym
Aby znaleźć prawdopodobieństwo popełnienia tego błędu,
właśnie rozkładem.
musisz zacząć od wskazania wartości statystyki testowej, które będą się wiązały z przyjęciem hipotezy zerowej, a następnie znaleźć prawdopodobieństwo tego, że w Twojej próbie zrealizuje się któraś z nich, przyjmując założenie, że prawdziwa jest hipoteza alternatywna.
5 98
Rozdzlał13.
Weryfikacja hipotez
Moc przybywa W ie m y już, ja k w y zn a cza ć p ra w d o p o d o b ie ń stw o b łę d u I i I I rodzaju, k tó re m o ż e m y p o p e łn ić w trak cie te sto w a n ia hipotez. N ie w ie m y je d n a k ja k dotąd, ja k w yzn a czyć m o c testu.
M oc testu jest p ra w d o p o d o b ie ń stw e m o d rz u c e n ia h ip o te z y zerow ej wtedy, g d y jest o n a fałszyw a. In n y m i słow y, jest to p ra w d o p o d o b ie ń stw o p o d ję cia p ra w id łow e j decyzji polegającej n a o d r z u c e n iu H 0.
f V. f
Brzmi to Ławile. Mam n a d l e j ę , ¿ e j e s t to p rostsŁ e od stukania p.
Jeśli znamy wartość p, czyli PCbłąd II rodzaju), wyznaczenie mocy testu jest bardzo proste. O d r z u c e n ie h ip o te z y H 0, g d y jest o n a w rzeczyw istości fałszyw a, jest c z y n n o śc ią o d w ro tn ą d o p o p e łn ie n ia b łę d u I I rodzaju. O z n a c z a to, że
Moc testu = 1 - P g d z ie p jest p ra w d o p o d o b ie ń stw e m p o p e łn ie n ia b łę d u I I rodzaju.
Jakajest więc moc naszego testu? Z n a le ź liś m y ju ż p ra w d o p o d o b ie ń s tw o p o p e łn ie n ia b łę d u I I rodzaju, k tó re w y n o si 0,102. O z n a c z a to, że m o c n a sz e g o testu w yn osi:
M o c testu
= 1 - P (b łą d I I ro d z a ju ) =
= 1 - 0,102 = = 0,898 In n y m i słow y, m o c testu h ip o te z y o sk u te c zn o śc i p re p a ra tu S n o r e C u ll w y n o s i 0,898. O z n a c z a to, że p ra w d o p o d o b ie ń s tw o p o d ję cia praw idłow ej decyzji p o p rz e z o d rz u c e n ie h ip o te z y zerow ej w y n o s i 0,898.
jesteś tutaj ► 599
SnoreCull to oszustwo
Pani doktor jest szczęśliwa W tym rozdziale przeprowadziliśmy dwukrotnie procedurę testowania hipotezy o skuteczności pewnego leku. W jej wyniku pokazaliśmy, ze wyniki uzyskane w próbie stanowią wystarczająco mocny dowód przeciwko prawdziwości twierdzenia podawanego przez producenta leku. W oparciu o wyniki badań przeprowadzonych przez lekarkę z przychodni w Statsville udało nam się wykazać, ze p rep arat SnoreCull wcale nie m a 90-procentowej skuteczności, jak twierdzi jego producent.
Ale tojeszcze nie koniec Czytaj dalej, a przekonasz się, jakiego rodzaju hipotezy mógłbyś jeszcze przetestować. A zatem do zobaczenia w kasynie D ana...
600
Rozdział13.
Weryfikacja hipotez
Ćwiczenie ( c z ę ś ć I)
Firma farmaceutyczna i pracujący dla niej wytwórca syropu na kaszel wdali się w spór. Przedstawiciel fabryki twierdzi, że ilość syropu zawartą w pojedynczym opakowaniu można opisać za pomocą zmiennej X ~ N(355, 25), przy czym ilość ta jest mierzona w mililitrach. Firma farmaceutyczna przeprowadziła niezależne testy na dużej próbie, stwierdzając, że przeciętna zawartość każdej ze 100 przebadanych butelek wynosiła 356,5 ml. Zweryfikuj hipotezę, że średnia zawartość opakowania wynosi 355 ml na poziomie istotności 1%. Hipoteza alternatywna powinna zakładać, że ilość ta jest większa niż 355 ml. Poniżej znajdziesz kolejne kroki procedury, którą podzieliliśmy na dwie części. Oto część pierwsza.
Krok 1: Sformułuj hipotezę, którą chcesz zweryfikować. Jaką postać ma hipoteza zerowa? A jak brzmi hipoteza alternatywna?
Krok 2: Wybierz statystykę testową (sprawdzian testu). -W skazów ka: hipoteza zerowa dotyczy wartości oczekiwanej, zatem m u sisz określić rozkład X . Jak przeprow adzisz je j standaryzacją?
Krok 3: Określ obszar odrzuceń testowanej hipotezy. W którym ogonie rozkładu będzie leżał obszar krytyczny? Jaki jest poziom istotności testu? Ile wynosi wartość krytyczna?
jesteś tutaj ► 601
Ćwiczenie: Rozwiązanie
Firma farmaceutyczna i pracujący dla niej wytwórca syropu na kaszel wdali się w spór. Przedstawiciel fabryki twierdzi, że ilość syropu zawartą w pojedynczym opakowaniu można Ćwiczenie opisać za pomocą zmiennej X ~ N(355, 25), przy czym ilość ta jest mierzona w mililitrach. Rozwiązanie Firma farmaceutyczna przeprowadziła niezależne testy na dużej próbie, stwierdzając, I) że przeciętna zawartość każdej ze 100 przebadanych butelek wynosiła 356,5 ml. Zweryfikuj hipotezę, że średnia zawartość opakowania wynosi 355 ml na poziomie istotności 1%. Hipoteza alternatywna powinna zakładać, że ilość ta jest większa niż 355 ml.
(część
Poniżej znajdziesz kolejne kroki procedury, którą podzieliliśmy na dwie części. Oto część pierwsza.
Krok 1: Sformułuj hipotezę, którą chcesz zweryfikować. Jaką postać ma hipoteza zerowa? A jak brzmi hipoteza alternatywna? Musimy stwierdzić, czy przeciętna z a w a r to ść syropu w butelce wynosi 355 ml, jak twierdzi przedstawiciel fabryki. Mamy więc do czynienia z następującym zespotem hipotez: Ho: u = 3 5 5 Hi: u > 3 5 5
Krok 2: Wybierz statystykę testową (sprawdzian testu). X ~ N£n, < J2/n), a zatem przy założeniu prawdziwości hipotezy zero w ej mamy: X ~ N(355, 2 5 /1 0 0 ) , czyli X - N(355; 0 ,2 5 ) . Gdy dokonamy standaryzacji, otrzymamy: z
X - 355 _ ■ yj0,25 " X - 355 0 ,5
Krok 3: Określ obszar odrzuceń testowanej hipotezy. W którym ogonie rozkładu będzie leżał obszar krytyczny? Jaki jest poziom istotności testu? Ile wynosi wartość krytyczna? Hipoteza alternatywna zakłada, ż e u > 355 ml, a zatem obszar krytyczny będzie leżał w prawym ogonie rozkładu statystyki testowej. W tr e ś c i zadania podano poziom istotności testu wynoszący 1% , a zatem obszar krytyczny będzie leżał na prawo od wartości krytycznej c danej wzorem (po standaryzacji): P(Z >c ) = 0 ,0 1 . Z tablic rozkładu normalnego odczytujemy c = 2 ,3 2 . Obszar krytyczny jest więc przedziałem danym wzorem Z>2,32.
602
Rozdział13.
Weryfikacja hipotez
jesteś tutaj ► 603
Ćwiczenie: Rozwiązanie
Będziemy kontynuować procedurę testowania. Poniżej zamieszczono trzy ostatnie kroki procedury. Jaką podejmiesz na koniec decyzję? R ozw iązan ie
(część 2)
Krok 4: Znajdź prawdopodobieństwo p (p-wartość). Posłuż się rozkładem zmiennej Z = (X - 355)/0,5, pamiętając, że tym razem obszar odrzuceń mieści się w prawym ogonie rozkładu statystyki testowej. Z = (X - 3 5 5 )/0 ,5 = = (356,5 - 3 5 5 )/0 ,5 = = 1 ,5 /0 ,5 = =3 p-w artość j e s t równa P (Z > 3), poniew aż mamy do czynienia z prawostronnym obszarem krytycznym. Z tablic rozktadu normalnego odczytujemy: p-w artość = 0,0013
Krok 5: Sprawdź, czy sprawdzian testu wpada do obszaru odrzuceń. Pamiętaj, że poziom istotności testu wynosi tym razem 1 %. p -w a rto ś ć równa 0 ,0 0 1 3 je s f m niejsza niż przyjęty poziom istotności te s tu 0,01, a zatem wartość sta ty sty k i
testow ej wpada do obszaru odrzuceń.
Krok 6. Podejmij decyzję. Czy masz wystarczające podstawy do odrzucenia hipotezy zerowej na poziomie istotności 1 %? Ponieważ wartość sprawdzianu te s tu wpadta do obszaru krytycznego, m usim y odrzucić h ipotezę zerową na korzyść alternatywnej, która mówi, że u >355 ml.
CELNE SPOSTRZEŻENIA
■
Błąd I rodzaju polega na odrzuceniu hipotezy zerowej, choć jest ona prawdziwa. Prawdopodobieństwo jego popełnienia jest rów ne a , czyli poziom ow i istotności testu.
■
Błąd II rodzaju polega na przyjęciu nieprawdziwej hipotezy zerowej. Prawdopodobieństwo jego popełnienia oznaczam y przez p.
■
W artość p m ożem y znaleźć tylko wtedy, gdy hipoteza alternatyw na podaje konkretną w artość param etru. Będzie ona rów na praw dopodobieństw u znalezienia się wartości statystyki testow ej poza obszarem odrzuceń, przy czym jej rozkład budujem y przy założeniu prawdziwości hipotezy alternatywnej.
604
Rozdział13.
14. Rozkład x 2
Gdy sprawy idą nie po naszej myśli
Czasami sprawy toczq się zupełnie inaczej, niż się tego spodziewaliśmy. Kiedy decydujesz się na opis pewnego zjawiska za pom ocą konkretnego rozkładu praw dopodobieństw a, zwykle masz jakieś w yobrażenia na te m a t tego, jak się ono rozwinie w dłuższym okresie. Czasem jednak te w y o b ra że n ia całkow icie rozm ijają się z rzeczywistością. Co w te d y począć? Skąd masz wiedzieć, czy dostrzeżone różnice są jedynie dziełem przypadku, czy też może pierwszą oznaką błędnych założeń leżących u p odstaw przyjętego przez Ciebie modelu? W tym rozdziale pokażem y Cl, jak mozesz posłużyć się rozkładem %2 do oceny re zu lta tó w , by m óc wskazać wśród nich te najbardziej podejrzane.
to jest nowy rozdział ► 605
Czy kasyno Dana padło ofiarq oszustwa?
Przed kasynem Dana rysują się kłopoty Kasyno D ana przynosiło całkiem niezłe zyski aż do ubiegłego tygodnia. Nagle wszystko stanęło na głowie: grający na autom atach zaczęli dużo częściej rozbijać bank, przy stole do ruletki stale wypada jedna liczba (12), w grze w kości zawsze wypada ta sama liczba oczek. Wszystko to powoduje, że bardzo wielu ludzi wygrywa naprawdę duże pieniądze. Ponieważ kasyno nie jest w stanie ponosić dłużej strat z tego tytułu, jego właściciel zarządził śledztwo. Zaczął bowiem podejrzewać, że ktoś celowo naraził kasyno na straty, stosując jakieś sztuczki. Potrzebna mu jest Twoja pom oc w wyjaśnieniu tej sprawy.
606
Rozdział 14.
Rozkład x2
Przyglądamy się automatom do gry Jak miałeś już okazję się przekonać, w kasynie D ana znajduje się cały rząd nowiutkich, błyszczących automatów do gry, które tylko czekają na to, by ktoś na nich zagrał. Problem polega jednak na tym, ze od niedawna ludzie nie tylko na nich grają, ale i wygrywają. W poniższej tabeli zamieściliśmy teoretyczny rozkład prawdopodobieństwa wygranych dla typowego autom atu. X jest zmienną losową oznaczającą wypłatę (wynik netto) w grze (wartości wyrażone są w dolarach): LIdziat w grze kosztuje dolary, gdy więc nic me wygrasz, wyptata wyniesie - 2 .
• J e ś li ro zb ije sz bank, za ro b isz na czysto
x
-2
23
48
73
98
P(X = x)
0,977
0 ,0 0 8
0 ,0 0 8
0 ,0 06
0,001
98 dolarów.
Jednakże D an dysponuje statystykami wygranych, jakie padły w ciągu ostatniego tygodnia. O to one: Częstość pokazuje, w yX ?araCh padti d° ~
_
*
x
-2
23
48
73
98
C z ę sto ść
965
10
9
9
7
Zaostrz ołówek C zęstość empiryczna
_
to częstość rze czyw iście zaobserwowana.
Musimy porównać rzeczywiście zaobserwowane częstości poszczególnych wypłat z wartościami teoretycznymi wynikającymi z rozkładu. Uzupełnij poniższą tabelę. ^ zaobserwowałeś?
x
C z ę s to ś ć em piryczna
C z ę s to ś ć teoretyczna
-2
965
977
23
10
48
9
73
9
98
7
1000 (tyle s t a j e m y po dodarm do wyznaczenia częstość te o re tyczn ych .
jesteś tutaj ► 607
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek _____ Rozwiązanie
Musimy porównać rzeczywiście zaobserwowane częstości poszczególnych wypłat z teoretycznymi wartościami wynikającymi z rozkładu. Uzupełnij poniższą tabelę. Co zaobserwowałeś?
x
C z ę s to ś ć em piryczna
C z ę s to ś ć teoretyczna
-2
965
977
23
10
8
48
9
8
73
9
6
98
7
1
przez 1000 .
Istn ie je pewna rozbieżność m iędzy teoretyczną a faktycznie odnotowaną liczbą wygranych. Nie wiemy jednak, na ile istotne s ą to różnice.
S ąd tąc po danych, m ożna by p o w ie d iie ć , ż e ł lic ib ą wygranych rŁ e c Ł y w iś c ie je s t coś n ie ta k . A le ja k się o tym p rte k o n a ć ? Choć to mało ' p raw d op o do bn e, t e ró ż n ic e mogą być wynikiem c ty s te g o p rty p a d k u .
Dlatego potrzebne jest nam narzędzie, które pozwoliłoby nam stwierdzić, czy zaobserwowane różnice są wynikiem fałszerstwa. P r z y d a ła b y s ię n a m p r o c e d u r a p o d o b n a d o t e j , ja k ą p o z n a liś m y w p o p r z e d n i m r o z d z ia le , a w ię c p e w ie n r o d z a j t e s t u is t o t n o ś c i z a o b s e r w o w a n y c h r ó ż n ic . P o m ó g łb y o n n a m r o z s t r z y g n ą ć , c z y a u t o m a t y d o g r y n ie z o s t a ły w ja k iś s p o s ó b z m o d y f ik o w a n e , t a k b y s p r z y ja ły g r a ją c y m . P o ja w ia s ię j e d n a k p y t a n i e , n a j a k i m r o z k ła d z ie m ie l ib y ś m y o p r z e ć t a k i te s t?
608
Rozdział 14.
Rozkład x2
Rozkład x 2 dobrze modeluje różnice Istnieje pewien rozkład prawdopodobieństwa, który idealnie sprawdza się w takich sytuacjach. Jest to tak zwany rozkład x2- X Jest wielką literą alfabetu greckiego, którą należy wymawiać „chi”. Odpowiednio zdefiniowana statystyka, mierząca różnice miedzy wartościami teoretycznymi a empirycznymi ma właśnie rozkład x2Spróbujmy zatem znaleźć tę statystykę. W tym celu musimy stworzyć tabelkę, która grupować będzie teoretyczne i empiryczne częstości pojawiania się kolejnych wartości zmiennej losowej opisującej dany problem . D okładnie taką samą, jaką stworzyliśmy na poprzedniej stronie. N a jej podstawie będziemy mogli wyznaczyć wartość poniższej statystyki, gdzie O oznacza wartości empiryczne, a E — teoretyczne: 0 oznacza częstość em piryczną,
Innymi słowy, dla każdej możliwej realizacji zmiennej losowej wyznaczamy różnicę między częstością wynikającą z rozkładu tej zmiennej a częstością rzeczywiście zaobserwowaną, a następnie różnicę tę podnosimy do kwadratu i dzielimy przez częstość teoretyczną. N a koniec sumujemy otrzymane ilorazy. Jaką wartość przyjmuje ta statystyka w naszym przykładzie?
Zaostrz ołówek Wykorzystaj tabelę zawierającą częstości teoretyczne i empiryczne, którą przygotowałeś na poprzedniej stronie, do obliczenia wartości tej statystyki. Jaki otrzymałeś wynik? Jak sądzisz, jak należy interpretować małe, a jak duże wartości tej statystyki?
jesteś tutaj ► 609
Zaostrz ołówek: Rozwiązanie
Zaostrz ołówek Rozwiązanie
Wykorzystaj tabelę zawierającą częstości teoretyczne i empiryczne, którą przygotowałeś na poprzedniej stronie, do obliczenia wartości tej statystyki. Jaki otrzymałeś wynik? Jak sądzisz, jak należy interpretować małe, a jak duże wartości tej statystyki?
X 2 = (965 - 9 7 7 X /9 7 7 + (10 - 8 X /8 + (9 - 8 X /8 + ( 9 - 6)2/ 6 + (7 - 1?/1 = = (-1 2 > V 9 7 7 + 2 2/ 8 + E / 8 + 32/ 6 + 62 = = 144/977 + 4 / 8 + 1 /8 + 9 /6 + 36 = = 0,147 + 0 ,5 + 0,125 + 1,5 + 36 = = 38 ,27 2
N iższa wartość tej sta ty sty k i sugeruje niższą istotność zaobserwowanych różnic m iędzy wartościami teoretycznym i a empirycznymi. Im je j w a rto ść je s t wyższa, tym różnice s ą znaczniejsze.
0 czym więc mówi ta statystyka? Statystyk a X 2 jest je d n ym z m o ż liw y c h sp o so b ó w p o m ia r u ró ż n ic m ię d z y teore tyczn ym i i rzeczyw istym i re aliza cja m i zm ienn ej losow ej. Im m n iejszą w a rto ść przyjm uje, tym te ró żn ic e zdają się m niej znaczące. W fo rm u le n a w a rto ść statystyki X 2 d o k o n u je m y d zie le n ia k a ż d e g o s k ła d n ik a p rz e z E , czyli częstość teore tyczn ą danej w a rto śc i zm ienn ej losow ej, ta k by u z y s k a n y w y n ik był w y ra ż o n y w z g lę d e m częstości teoretycznej.
X2=
W k tó ry m w ię c m o m e n c ie w a rto ść X 2 staje się n a tyle duża, że św iad czy o isto tn yc h ró ż n ic a c h m ię d z y p o ró w n y w a n y m i w a rt o śc ia m i? M u s i m y zn ale źć taki m om e n t, k ie d y b ę d z ie m y m o g li z całą p e w n o śc ią p ow ie d zieć, że za o b se rw o w a n e p rz e z D a n a w y n ik i n ie są je d yn ie d zie łe m p rz yp a d k u . A b y tego d o k o n a ć, m u sim y p rzyjrzeć się bliżej s a m e m u rozkładowi X2-
610
Rozdział 14.
Rozkład x2
Główne zastosowania rozkładu %2 R o z k ła d p ra w d o p o d o b ie ń stw a %2 znajduje szcz e g ó ln e za sto so w a n ie w szę d zie tam, gd z ie w a ż n a jest o ce n a isto tn o ści za o b se rw o w a n y c h ró ż n ic m ię d z y w a rto śc ia m i teore tyczn ym i a em p iryczn ym i. W tym ce lu w y k o rzystu je się — ja k ju ż w ie m y — statystykę X 2. R o z k ła d %2 znajduje za sto so w a n ie zw ła szcza w d w ó c h p rz yp a d k a ch . P o pierw sze, stosuje się g o w testach zgodności, zw an ych też n ie k ie d y testam i dobroci dopasowania. S łu ż ą o n e tem u, b y p o tw ie rd zić statystycznie, że d a n e z p ró b y p o c h o d z ą z p op u lacji, w której b a d a n a ce cha m a k o n k re tn y ro zk ła d . M o g lib y ś m y p rz e p ro w a d z ić taki test n a p rz y k ła d d o o c e n y tego, czy w y n ik i e m p iry cz n e za re jestrow a ne p rz e z D a n a p o c h o d z ą z ro z k ła d u teore tyczn ego, k tó ry p o d a liś m y n a p o c z ą tk u tego ro zd zia łu . D r u g ie z na jw ażniejszych za sto so w a ń ro z k ła d u %2 to ta k zw an e testy niezależności d w ó c h zm ienn ych . S łu ż ą o n e tem u, b y p o tw ie rd zić (b ą d ź w yk lu czyć ) istn ie n ie m ię d z y n im i jakiejś zależności. R o z k ła d %2 defin iu je tylko je d e n p a ra m e tr, o z n a c z a n y g re c k ą literą v (czytaj: ni). Z o b a c z m y , ja k i w p ływ n a kształt w y k re su fun kcji gę stości ro z k ła d u %2 m a w a rto ść tego p a ra m etru .
Gdy v jest równe 1 lub 2 K ie d y v p rzyjm u je w a rto ść 1 lu b 2, kszta łt ro z k ła d u %2 p rz y p o m in a
G ęstość rozkładu x 2 ma m niej w ię ce j ta k i kształt, gdy v je s t rów ne 1 lub 2.
.
gła d ką , w k lę słą k rzy w ą o stale m alejących w a rtościach. P rz y p o m in a troch ę p rz e w ró c o n ą n a b o k literę U . P ra w d o p o d o b ie ń s tw o zre a lizo w a n ia się m n iejszych (bliższych zera, ale d o d a tn ic h ) w a rto śc i zm ienn ej losow ej o tym ro z k ła d z ie jest d u ż o w ię k sze n iż w a rto śc i w iększych. B io r ą c p o d u w a g ę w z ó r n a w a rto ść statystyki X 2, o z n a cza to, że m n iejsze ró żn ic e są d u ż o bardziej p ra w d o p o d o b n e n iż ró żn ic e
x
większe.
Kiedy v jest większe od 2 K ie d y v p rzyjm u je w a rto ść w ię k sz ą o d 2, kształt ro z k ła d u %2 cechuje
y
w ię k sz a zm ie n n ość. Z a c z y n a się o d gę stości bliskiej 0, k tó ra zaczyna
Gdy v je s t w i ę k s z e n iż 2 , rozkład ma mniej więcej taki kształt. Im v w iększe, tym ten rozkład coraz bardziej przypomina krzywą dzwonową.
p o w o li ro sn ąć, b y p o ja k im ś czasie zacząć m a le ć ju ż n a stałe. R o z k ła d ten jest p ra w o stro n n ie asym etryczny, ale w ra z ze w zro ste m v za czyn a c o ra z bardziej p rz y p o m in a ć ro z k ła d no rm a ln y.
V
Fakt, że z m ie n n a X 2 m a ro z k ła d %2 z p a ra m e tre m v za p isu je m y s y m b o lic zn ie jako:
X2 ma rozkład x 2 z param etrem v.
X 2 ~ X2( v ) ^ Ten symbol przypomina X , tyle że bardziej zaokrąglone.
jesteś tutaj k
611
Stopnie »wobody
v reprezentuje liczbę stopni swobody W ie m y już, ja k z m ie n ia się kształt ro z k ła d u %2 w za le żn o śc i o d w a rto śc i v, ale n a d a l nie w iem y, czym ta w a rto ść jest. O k a z u je się, że v jest liczbą stopni swobody. S k ą d ta n a z w a ? L ic z b a sto p n i s w o b o d y m ó w i o tym, ile n ie za le żn yc h („ sw o b o d n y c h ”) zm ie n n y c h lo so w y c h zo sta ło w y k o rz y sta n y c h d o w y z n a c ze n ia w a rto śc i statystyki X 2 czy też z ilu n ie za le żn yc h w y n ik ó w ob serw acji p rz y tym korzystaliśm y. Sp ó jrz m y, co to o z n a cza w praktyce. D l a p rz y p o m n ie n ia za m ie sz c za m y p o n o w n ie tablicę z w a rto śc ia m i teore tyczn ym i i e m p iry c z n y m i dla n a sz e g o p ro b le m u :
x
C z ę sto śc i em piryczne
C z ę sto śc i teo retyczn e
-2
965
977
23
10
8
48
9
8
73
9
6
98
7
1
L ic z b a sto p n i s w o b o d y je st r ó w n a lic z b ie w s z y s t k ic h cz ę sto ści teoretycznych, ja k ie m u s ie liś m y w y z n a c z y ć , b y o d p o w ie d z ie ć n a zadane p rz e z D a n a pytanie. A b y w y z n a c z y ć w a rto ść sta tysty ki X 2, m u s ie liś m y o b lic z y ć cz ę sto ści teoretyczne dla każdej m o ż liw e j re aliza cji zm ienn ej lo so w e j X , opisującej w yp ła tę w g rz e n a autom acie. M u s ie liś m y w ię c p o lic z y ć 5 ta k ic h częstości. N i e m o g liś m y je d n a k p r z y t y m za pom n ieć, że s u m a cz ę sto ści te o re tyc zn ych p o w in n a b y ć ró w n a su m ie cz ę sto ści e m p irycz n yc h . O z n a c z a to, że m ie liś m y do c z y n ie n ia z p e w n y m w a ru n k ie m ogran iczają cym .
Ilejest więc równe v? A b y zn aleźć w a rto ść v, o d lic zb y elem entów , k tó ry c h w a rto ść ob licza liśm y, m u sim y od jąć liczbę w a ru n k ó w , k tó re w tych o b lic ze n ia c h n a s ogran iczały. A b y zn ale źć w a rto ść statystyki X 2, m u sie liśm y ob liczyć p ię ć częstości teoretycznych, n a k tó re n a ło ż o n o je den w a ru n e k . O z n a c z a to, że liczba sto p n i s w o b o d y w tym p rz y p a d k u jest ró w na: v = 5 - 1
=
= 4 M o ż n a b y to ująć jeszcze inaczej. Ł a t w o b o w ie m zauw ażyć, że ta k n a p ra w d ę m u sie liśm y p o lic zy ć ty lko cztery częstości teoretyczne, b o w ie m p ią tą m o g liśm y w yzn a czyć ja k o d o p e łn ie n ie ich s u m y d o 1000. M o ż e m y w ię c z a p isa ć w z ó r bardziej ogó lny:
v = (liczba przedziałów klasow ych) - (liczba warunków) 612
Rozdział 14.
Rozkład X
Czym jest istotność statystyczna? J a k w ię c m o ż e m y w y k o rz y sta ć ro z k ła d x 2 d o o c e n y tego, n a ile zn aczące są ró żn ic e Obszar k r y t y « ^ w prawym na p o z i°m ' e “ f m w yższa ogonie ,r0^ k' ° s ty k i te s to w e j, 'wart0Sv k s la różnica m iędzy
m ie d z y w y n ik a m i z a o b se rw o w a n y m i w p ró b ie a w a rto śc ia m i teoretycznym i, w y n ik a ją cym i z ro z k ła d u zm ienn ej X ? T a k ja k w p rz y p a d k u o m ó w io n y c h w cześniej testów, w szy stk o zależy
A S tS S n '
o d p rzyję tego p o z io m u istotności.
teoretycznym i
a empiryczny"1•
l
T e st y statystyczne o p a rte n a ro z k ła d z ie %2 są testam i je d n o stro n n y m i. O b s z a r k rytyczn y w tych testach znajduje się w p ra w y m o g o n ie ro z k ła d u statystyki testowej. D la t e g o m o ż e m y łatw o o sza co w a ć p ra w d o p o d o b ie ń s tw o tego, czy p o s ia d a n e p rz e z n a s dane p o c h o d z ą z k o n k re tn e g o ro z k ła d u p ra w d o p o d o b ie ń stw a , p o p rz e z sp ra w d ze nie, czy w y z n a c z o n a w a rto ść statystyki testowej w p a d ła d o o b s z a ru o d rz u c e ń w y z n a c z o n e g o p rz e z p e w n ą w a rto ść krytyczną. Jeśli przyjęty p rz e z n a s p o z io m isto tn o ści w y n o si a , w a rto ść tę o z n a c z a m y jako:
X 2a (v )
Xr22a (v) J a k ją je d n a k zn a le ź ć ? O k a z u je się, że b a rd z o p ro sto. P o s łu ż y m y się w tym ce lu sta b lico w a n ym i w a rto śc ia m i ro z k ła d u x 2-
Jak korzystać z tablic rozkładu %2 A b y zn ale źć s z u k a n ą w a rto ść krytyczną, m u s im y o k re ślić liczbę sto p n i s w o b o d y v d la ro z k ła d u statystyki testowej i p o z io m isto tn o ści testu a. W pierw szej k o lu m n ie tab licy o d sz u k u je m y n a szą w a rto ść v, a n a stę p n ie w p ie rw szy m w ie rsz u zn ajd u je m y o d p o w ie d n ią w a rto ść a. M ie jsce , w k tó ry m ta k w s k a z a n y w ie rsz p rz e tn ie się z w y b ra n ą k o lu m n ą , w yz n a czy taką w a rto ść x, d la której: P ( x 2a (v ) > x) = a. In n y m i słow y, w y z n a c zy w a rto ść krytyczną, b ę d ą cą g ra n ic ą o b s z a ru o drzuceń . Z a łó ż m y n a p rz yk ła d , że c h cie lib yśm y w yzn a czy ć w a rto ść krytyczn ą d la testu n a p o z io m ie isto tn o ści 5 % p rz y 8 sto p n ia c h sw ob od y. O d s z u k u ją c 8 w pierw szej k o lu m n ie , a 0,05 w p ie rw szym w ierszu, zn a jd u je m y w a rto ść 15,51 w y z n a c z o n ą p rz e z o d p o w ie d n i w ie rsz i k o lu m n ę , ja k n a p o n iż sz y m ry su n k u . O z n a c z a to, że jeśli w a rto ść s p ra w d z ia n u testu X 2 b y ła b y w ię k sza n iż 15,51, w p a d ła b y d o o b s z a ru o d rz u c e ń p rz y p o d a n y c h założe niach.
W tej kolumnie m ie ś c is ię w a rto ść 0 ,0 5 . P ra w d o p o d o b ie ń s tw o a V
0 ,2 5
0 ,2 0
0 ,1 5
1
1,32
1,64
2,07
2
2,77
3,22
3
4,11
4
5,39
5 6
|
0 ,1 0
[
0 ,0 5 J
0 ,0 2 5
0 ,0 2
0,01
0 ,0 0 5
0 ,0 0 2 5
2,71
4
5,02
5,41
6,63
7,88
9,14
0,00 1 10,83
3,79
4,61
5, 9
7,38
7,82
9,21
10,60
11,98
13,82
4,64
5,32
6,25
7,
9,35
9,84
11,34
12,84
14,32
16,27
5,99
6,74
7,78
9, 9
11,14
11,67
13,28
14,86
16,42
18,47
6,63
7,29
8,12
9,24
11 07
12,83
13,39
15,09
16,75
18,39
20,51
7,84
8,56
9,45
10,64
12 59
14,45
15,03
16,81
18,55
20,25
22,46
9,04
9,80
10,75
12,02
4
7
D/a tego w ie rs z a .
v
= 8.
l !
1
^
l
V
15,.51 %l W1 14,68 S __ i 92
133 11,39
12,24
13,29
16,01
16,62
18,48
20,28
22,04
24,32
\
17,53
18,17
20,09
21,95
23,77
26,12
f
19,02
19,68
21,67
23,59
25,46
27,88
T
Tutaj p rzecina s ię wybrany w ie rs z z w ybraną kolumną.
jesteś tutaj ► 613
Etapy procedury testowania
Testowanie hipotez z rozkładem %2 Oto lista kroków, jakie należy wykonać w ram ach procedury weryfikacji hipotez w oparciu o rozkład x2-
Sformułuj hipotezę, którą c h c e s z p rzetesto w ać, oraz hipotezę sta n o w ią cą je j alternatyw ę. W yznacz c z ę s to ś c i teo retyczn e oraz liczbę stopni swobody. ^
O kreśl o b szar odrzuceń testo w anej hipotezy.
^
W yznacz w a rto ść staty styk i testo w ej X 2.
^
Spraw dź, c z y w a rto ść staty styk i testow ej w pada do obszaru odrzuceń.
Te kroki różnią się od wykonywanych poprzednio.
Podejmij decyzję. Czy ta lista wydaje Ci się znajoma? Faktycznie, większość punktów z tej listy znamy już z poprzednio omówionej procedury testowania hipotez. Innymi słowy, mamy do czynienia niemal z tym samym procesem co poprzednio. i N ie.is-tnieja.
głupie pytania ^ : Czy więc testy z użyciem rozkładu x2 są tylko szczególną odmianą testów istotności?
^ : Wydaje mi się, że już wcześniej użyliście określenia „stopnie swobody”. Czy się mylę?
0 : T a k , dokładnie. Procedura weryfikacji
0 : Nie, nie mylisz się. Pamiętasz, gdy
hipotezy zerowej nie różni się znacząco
posługiwaliśmy się rozkładem t-Studenta
od poznanej wcześniej.
dla wyznaczenia przedziału ufności?
potrzebne Ci informacje po wpisaniu
No właśnie — rozkład t-Studenta także jest
zw rotu: „rozkład chi-kwadrat". Jest to
uzależniony od tego parametru.
opisowa nazwa rozkładu %2-
^ : Czy zawsze muszę wyznaczać prawostronny obszar krytyczny? 0 : Tak, w przypadku te stó w omawianych w tym rozdziale będziesz miał zawsze do czynienia z prawostronnym obszarem
^ : Wydaje mi się, że spotkałem się gdzieś z oznaczeniem liczby stopni swobody przez „df”, a nie przez „v”. Czy ma to jakieś znaczenie?
odrzuceń. Jest tak dlatego, że większe (leżące bardziej na prawo od zera) wartości
0 : Nie ma żadnego. Różni autorzy
statystyki testow ej X2 będą świadczyły
podręczników posługują się różnymi
o większych rozbieżnościach między
symbolami. M y wybraliśmy v. Tak czy
wartościami teoretycznymi a empirycznymi.
inaczej, oba symbole znaczą to samo.
614
Rozdział 14.
^ : Chciałbym poszukać dalszych informacji na temat rozkładu x2 w internecie. Czy będę musiał użyć liter alfabetu greckiego? 0 : Powinieneś znaleźć wszystkie
Rozkład x2
jesteś tutaj k
615
Ćwiczenie: Rozwiązanie
„
.
.
R o zw iązan ie
1.
Nadszedł czas, byś rozwiał wątpliwości Dana i rozstrzygnął, czy na poziomie istotności 5% mamy wystarczające podstawy do tego, by twierdzić, że automaty do gry w jego kasynie zostały w jakiś sposób zmodyfikowane. Odpowiedz na poniższe pytania.
Sformułuj hipotezę zerową dla tego zagadnienia. Jaką postać przyjmie hipoteza alternatywna? H0: rozktad wyników gier posiadanych przez Dana ma rozktad teoretyczny
X
-2
23
48
73
98
P(X = x)
0,977
0 ,0 0 8
0 ,0 0 8
0,006
0,001
H,: rozktad wyników gier posiadanych przez Dana ma inny rozktad
2.
Mamy 4 stopnie swobody. Ile wynosi wartość krytyczna dla poziomu istotności 5%? Z tablicy rozkładu %2 odczytujem y, że X25%W = 9,49. Oznacza to, że wartością krytyczną j e s t 9,49.
3.
Jaka jest wartość sprawdzianu testu? W artość s ta ty sty k i te s to w e j X 2 obliczyliśm y ju ż w cześniej. Wynosi ona 38,272.
4.
Czy statystyka testowa wpadła do obszaru odrzuceń hipotezy zerowej? W artość sprawdzianu te s tu wynosi 38,272. Ponieważ wartość krytyczna wynosi 9,49, zatem sprawdzian te s tu
wpada do obszaru krytycznego.
5.
Czy są podstawy do odrzucenia hipotezy zerowej, czy też nie? Ponieważ wartość s ta ty sty k i te s to w e j X 2 wpada do obszaru krytycznego, m usim y odrzucić hipotezę zerową na przyjętym poziomie istotności. Innymi słowy, mamy w ystarczające p o d sta w i/ do tego, by odrzucić twierdzenie, że rozkład wygranych z gry na automatach j e s t zgodny z rozkładem teoretycznym .
616
Rozdział 14.
Rozkład x2
Rozwiązałeś tajemnicę wysokich wygranych w grach na automatach D z ię k i Tw ojej p o m o c y u d a ło się ro zw ią za ć za ga d kę , k tó ra p rz y p ra w ia ła D a n a o b ó l głow y. P o słu g u ją c się ro z k ła d e m x 2, w ykazałeś, ze istnieją podsta w y, aby u zna ć, ze w y g ra n e w g ra c h n a a u to m a ta ch n ie kształtują się zg o d n ie z ro z k ła d e m teoretycznym . D a n jest C i b a rd z o w d zięczny, p o n ie w a ż m a teraz p od sta w ę, b y tw ierdzić, ze k to ś m a jstro w a ł p rz y tych u rzą d ze n ia ch . N a w sz e lk i w y p a d e k p o sta n o w ił w ię c w yłączyć je z użytk o w a n ia , b y n ie tracić więcej p ie n ię d z y w w y n ik u n ie u c zciw yc h m a nipu la cji.
mY
y
V
P o d s u m u jm y w ię c d ziałan ia, k tó re d o p ro w a d z iły C ię d o p o d ję cia ostatecznej decyzji. P o pierw sze, w y z n a c zy liśm y częstości teore tyczn e p o sz c z e g ó ln y c h k w o t w yp ła t w grze n a a utom atach, zakładając, że m ają o n e p e w ie n ro z k ła d teoretyczny. N a s tę p n ie w y k o rz y sta liśm y je — w ra z z częstościa m i z a n o to w a n y m i p rz e z D a n a — d o w y z n a c ze n ia w a rto śc i statystyki X 2, k tó ra u k a zu je sk a lę ro zb ie ż n o śc i m ię d z y ro z k ła d e m teore tyczn ym a e m p iryczn ym . O k re ś liliś m y ró w n ie ż liczbę sto p n i sw obod y. N a s tę p n ie w y k o rz y sta liśm y tablice ro z k ła d u x 2 d o w y z n a c ze n ia w a rto śc i krytycznej i o b s z a ru o d rzu c e ń n a p o trze b y testu, p rz y za ło ż e n iu p o z io m u isto tn o ści 5 % . P rz y ró w n a liś m y w a rto ść statystyki testowej X 2 d o w a rto śc i krytycznej, stw ierdzając, że m u sim y o d rz u c ić h ip o te zę o ró w n o śc i o b u ro zk ła d ó w . N a tej p o d sta w ie w y c ią g n ę liśm y w n io se k , że za o b se rw o w a n e ró żn ic e nie są tylko d zie łe m p rz yp a d k u .
V
i
X 2a (v ) T e n ro d zaj testu, z ja k im m ie liśm y tutaj d o czynie nia, n a zy w a m y testem zgodności a lb o dobroci dopasowania. T a k n a p ra w d ę sp ra w d za o n bow ie m , czy ro z k ła d e m p iry c z n y u t w o rz o n y n a p o d sta w ie częstości za o b se rw o w a n y c h w p ró b ie jest z g o d n y z o k re ślo n y m ro z k ła d e m teoretycznym . M o ż e m y g o sto so w a ć zaw sze w tedy, g d y ch ce m y sp raw d zić, z ja k im ro z k ła d e m m a m y d o c z yn ie n ia w rzeczyw istości.
jesteś tutaj ►
617
Ćwiczenie ( lieco dłuższ< ) Ćwiczenie . O (nieco dłuższe)
&
Dan podejrzewa, że kości używane w jego kasynie są źle wyważone (nie są symetryczne). W poniższej tabeli zamieszczono zaobserwowane częstości wypadnięcia poszczególnych liczb oczek dla jednej z nich. Na poziomie istotności 1% sprawdź, czy mamy podstawy sądzić, że podejrzenia Dana są uzasadnione. Poniżej znajdziesz listę kroków, które powinieneś po kolei wykonać. Oto częstości empiryczne:
Liczb a o czek
1
2
3
4
5
6
C z ę sto ść
107
198
192
125
132
248
Krok 1: Sformułuj hipotezę zerową, którą chcesz zweryfikować, oraz hipotezę alternatywną.
Krok 2: Wyznacz częstości teoretyczne oraz liczbę stopi swobody. Zacznij od wypełnienia poniższej tabeli częstościami, z jakimi teoretycznie powinny wypadać kolejne liczby oczek. W tym celu musisz wziąć pod uwagę, ile razy będziesz rzucał kością w ogóle, a następnie określić, z jakim prawdopodobieństwem powinna wypaść każda liczba oczek. Zmienna X opisuje wynik pojedynczego rzutu kością.
x
C z ę sto śc i em piryczne
1
107
2
198
3 4
192
5
132
6
248
C z ę sto ści teo retyczn e
125
Gdy wypełnisz powyższą tabelę, określ liczbę stopni swobody, z jaką masz tu do czynienia. Z n a jd ziesz ją w ten sam sposób ja k poprzednio — dla problemu autom atów do gry.
618
Rozdział 14.
Rozkład X
Krok 3: Wyznacz obszar odrzuceń testowanej hipotezy. Będziesz potrzebował informacji o poziomie istotności testu i liczbie stopni swobody.
Krok 4: Oblicz wartość statystyki testowej X2. Wyznaczysz ją na podstawie informacji o częstościach empirycznych i teoretycznych podanych w kroku 2.
Krok 5: Sprawdź, czy obliczona wartość statystyki testowej wpada do obszaru odrzuceń.
Krok 6: Podejmij decyzję.
jesteś tutaj ► 619
Ćwiczenie ( lieco dłuższi ): Rozwiązanie Ćwiczenie ć;(nieco dłuższe) Rozwiązanie Dan podejrzewa, że kości używane w jego kasynie są źle wyważone (nie są symetryczne). W poniższej tabeli zamieszczono zaobserwowane częstości wypadnięcia poszczególnych liczb oczek dla jednej z nich. Na poziomie istotności 1% sprawdź, czy mamy podstawy sądzić, że podejrzenia Dana są uzasadnione. Poniżej znajdziesz listę kroków, które powinieneś po kolei wykonać. Oto częstości empiryczne:
Liczb a o czek
1
2
3
4
5
6
C z ę sto ść
107
198
192
125
132
248
Krok 1: Sformułuj hipotezę zerową, którą chcesz zweryfikować, oraz hipotezę alternatywną. A by sprawdzić, czy k o ś ć je s t sym etryczna, m usim y ocenić, czy istnieją w ystarczające p o d sta w y do stw ierdzenia, że nie je s t. Mamy więc ze sp ó t hipotez: H0: Kość je s t sym etryczna, to znaczy każda liczba oczek ma takie sam e sza n se wypadnięcia. Prawdopodobieństwo wypadnięcia każdej liczby oczek j e s t równe 1 /6 . H,: Kość nie j e s t sym etryczna.
Krok 2: Wyznacz częstości teoretyczne oraz liczbę stopi swobody. Zacznij od wypełnienia poniższej tabeli częstościami, z jakimi teoretycznie powinny wypadać kolejne liczby oczek. W tym celu musisz wziąć pod uwagę, ile razy będziesz rzucał kością w ogóle, a następnie określić, z jakim prawdopodobieństwem powinna wypaść każda liczba oczek. Zmienna X opisuje wynik pojedynczego rzutu kością. S u m a cz^ f° ŚC Islmaej^kZ suma
x
C z ę sto ści em piryczne
C z ę sto śc i teo retyczn e
1
107
167
2
198
167
każdej l ' f by . ° f z t0 ś ć j e s t równa Dlatego każda częsr J
3 4
192
167
1002/6 * 1°'-
125
167
5
132
167
6
248
167
Gdy wypełnisz powyższą tabelę, określ liczbę stopni swobody, z jaką masz tu do czynienia. M usieliśm y obliczyć 6 czę sto ści teoretycznych, których sum a m usiata s ię równać 1002. Innymi stów y, korzystaliśm y z wyników 6 obserwacji przy jednym og raniczeinu. Czyli v =6-1 =
=5
620
Rozdział 14.
Rozkład x2
Krok 3: Wyznacz obszar odrzuceń testowanej hipotezy. Będziesz potrzebował informacji o poziomie istotności testu i liczbie stopni swobody. Z tablic rozktadu x 2 odczytujem y wartość krytyczną X2i / 5 ) = 15,09. Obszar krytyczny j e s t przedziałem leżącym na prawo od niej: X 2>15,09.
Krok 4: Oblicz wartość statystyki testowej X2. Wyznaczysz ją na podstawie informacji o częstościach empirycznych i teoretycznych podanych w kroku 2. 's r y c o - E r
'z ! — E = (10 7 -1 6 7)V 1 6 7 + (19 8-167)V 167 + (19 2-167)V 167 + (12 5 -1 6 7)V 1 6 7 + (13 2 -1 6 7)V 1 6 7 + (2 4 8 -1 6 7 )V 1 6 7 = = (-6 0 r/1 6 7 + 312/167 + 2 5 2/1 6 7 + (-4 2 X /1 6 7 + (-3 5 X /1 6 7 + 812/1 6 7 = = (3600 + 961 + 625 + 1764 + 1225 + 6 5 6 D /16 7 = = 14736/167 = = 88,24
Krok 5: Sprawdź, czy obliczona wartość statystyki testowej wpada do obszaru odrzuceń. Obszar krytyczny dany je s t n ie rów nością: X 2>15,09. Ponieważ obliczona wartość sta ty sty k i te s to w e j wynosi 88,24, wpada ona do tego obszaru.
Krok 6: Podejmij decyzję. Ponieważ sta ty sty k a te sto w a znalazła s ię w obszarze krytycznym, mamy w ystarczające podstawy, by twierdzić, że kość, którą badamy, nie je s t sym etryczna. Odrzucamy więc hipotezę zerową na korzyść alternatywnej, na poziomie istotności 1%,
jesteś tutaj ► 621
Idziemy ia skróty
C ty m ogę w ykorzystać t e s t zgodności x 2 do te s to w a n ia dow o ln eg o rozkładu, em piryczn eg o ?
Test zgodności x2 sprawdza się tak samo dobrze w przypadku niemal każdego rozkładu prawdopodobieństwa. Możesz wykorzystywać test zgodności x2 do weryfikacji hipotezy o zgodności Twojego rozkładu empirycznego z dowolnym rozkładem teoretycznym, jeśli tylko dysponujesz częstościami empirycznymi i potrafisz wyznaczyć odpowiadające im częstości teoretyczne. Najtrudniejszą rzeczą bywa jednak określenie liczby stopni swobody, z jaką mamy do czynienia. W poniższej tabeli zebraliśmy informacje o v dla najczęściej spotykanych rozkładów prawdopodobieństwa, które mogą się pojawić w hipotezie zerowej testu zgodności x2P j e s t prawdopodobieństwem su kcesu
Rozkład dw um ianow y
i Znam y w artość p
= n -1
Nie znam y wartości p i m usim y I v oszaco w ać ją na podstawie częstości e m p iryczn yc h
,P o isso n a
Znam y w artość K
Nie znam y wartości X i m usim y l v oszaco w ać ją na podstawie
ijzb n zdarzeń PS ZeC'ętn
częstości em pirycznych,
Przedział 1 norm alny
i Znam y wartości p i o2
Nie znam y wartości p i cr i m usim y oszaco w ać je na podstawie częstości empirycznych
622
Rozdział 14.
n je s t su m ą czę sto ści em pirycznych.
Rozkład x2
Dan ma jeszcze jeden problem A zatem udało Ci się potwierdzić, że automaty do gry w kasynie D ana zostały w jakiś sposób zmodyfikowane, dzięki przeprow adzeniu testu zgodności częstości empirycznych wypłat zanotowanych przez D ana z częstościami wynikającymi z ich rozkładu teoretycznego. To jednak nie koniec, D an m a bowiem kolejny problem — tym razem ze swoimi ludźmi. Zauważył on, że traci szczególnie duże kwoty przy stoliku do gry w oczko obsługiwanym przez jednego z krupierów. Czy potrafiłbyś zweryfikować, czy podejrzenia D ana są uzasadnione? O to sylwetki trzech krupierów pracujących przy stoliku do gry w oczko:
Musimy znaleźć sposób na sprawdzenie, czy wyniki gry w oczko są niezależne od tego, który krupier obsługiwał stolik.
AgŁWYSIL la T
SZARE
______________
kom órki
Jakie inform acje są Ci potrzebne do zw eryfikow ania hipotezy o niezależności w y n ikó w od osoby krupiera?
jesteś tutaj ► 623
Testujemy niezależność zmiennych
Rozkład x 2 sprawdza się również w testach niezależności D o tej p o r y w y k o rz y sty w a liśm y statystykę o ro zk ła d zie %2 tylko w je d n ym ce lu — w testach zg o d n o ści. T o je d n a k n ie jest je d yn e za sto so w a n ie d la tego ro zk ła d u . S p r a w d z a się o n ró w n ie d o b rze w testach niezależności. T e st n ie za le ż n o ści %2 m a n a ce lu stw ierdzenie, czy dw a cz y n n ik i (d w ie zm ie n n e lo so w e ) są niezależne. D o k ła d n ie n a tym p o le g a n a sze z a d a n ie w p rz yk ła d zie z k ru p ie ra m i. C h c e m y stw ierdzić, czy m a ją o n i ja k iś w p ływ n a w y n ik i gry w o czk o , k tó rą ob słu gu ją. A b y to spraw dzić, p rz y jm ie m y za łoże n ie o b ra k u zw ią z k u m ię d z y o s o b ą k ru p ie ra a w y n ik a m i u z y sk iw a n y m i p rz y je go stoliku , ch y b a że fa k ty b ę d ą te m u przeczyć. T e st n ie za le ż n o ści p rz e p ro w a d z a m y d o k ła d n ie w ten sa m s p o só b co test zg o d n o ści. F o rm u łu je m y hipotezę, w y z n a c za m y w a rto ść statystyki X 2 n a p o d sta w ie częstości za o b se rw o w a n y c h i teoretycznych, a n a stę p n ie p rz y ró w n u je m y ją d o o d p o w ie d n ie j w a rto śc i krytycznej.
Z a ra z , zaraz! Chyba coś p o m in ęliśc ie . Jak mam p o liczyć często ści te o r e ty c z n e , skoro mam do d y s p o z y c jije d y n ie in fo rm a c je o często ściach wyników dla każdeg o krup iera?
Rzeczywiście, musimy wyznaczyć częstości teoretyczne, aby móc wyliczyć wartość statystyki X 2. M u s im y zn ale źć ja k iś s p o só b n a p o lic ze n ie w a rto śc i teore tyczn ych w o p a rc iu o w a rto śc i em piryczne . W s z y s t k o sp ro w a d z a się d o p ro b le m u p ra w d o p o d o b ie ń stw a ...
624
Rozdział 14.
Rozkład x2
Częstości teoretyczne możemy wyznaczyć w oparciu o rachunek prawdopodobieństwa A b y zn ale źć częstości teore tyczn e w tym p rz y p a d k u , m u sim y w y k o n a ć k ilk a d o d a tk o w y c h czynności. Z a c z n ie m y o d w y z n a c ze n ia s u m y częstości p o sz c z e g ó ln y c h w y n ik ó w o d d z ie ln ie d la k a ż d e g o k ru p ie ra , ja k ró w n ie ż d la w szy stk ich k ru p ie ró w łącznie. W y n ik i u m ie ś c im y w tabeli zw anej tablicą rozdzielczą (lub tablicą kontyngencji).
W ygrana
Łączna c z ę s to ś ć dla
K rup ier A
K rup ier B
K rup ier C
RAZEM
43
49
22
114
Rem is
8
2
5
15
Przegrana
47
44
30
121
RAZEM
98
95
57
250
Ł ączna liczba wygra™!'ich
Ł ączna H « ba ^
"
gi er
krupiera A K o rz y sta ją c z tej tablicy, m o ż e m y w yzn a czy ć częstości teore tyczn e k a ż d e g o ro d z a ju w y n ik u d la k a ż d e g o k ru p ie ra . Z a c z n ijm y o d liczb y w y g ra n y c h za re jestrow a nych w o b e c n o śc i k ru p ie ra A . Z a u w a ż , że s u m y za m ie sz c zo n e w o sta tn im w ie rsz u tablicy m o ż e m y w y k o rz y sta ć d o p o lic z e n ia p ra w d o p o d o b ie ń stw a u z y s k a n ia w y n ik u k a ż d e g o ro d za ju d la w szystk ich k ru p ie ró w łącznie. N a p rz y k ła d a b y zn ale źć p ra w d o p o d o b ie ń stw o w ygranej, w ysta rc zy p o d z ie lić łąc zn ą liczbę w y g ra n y c h p rz e z łąc zn ą liczbę w yn ik ó w , to znaczy:
łą czn a liczba w ygranych P(w ygrana) = łą czn a liczb a gier N a tej sam ej za sad zie m o ż e m y w yzn a czy ć p ra w d o p o d o b ie ń s tw o n a tra fie n ia n a d a n e g o k ru p ie ra p rz y sto lik u d o gry w oczko, korzystając z in fo rm a c ji zaw artych w o sta tn im w ie rsz u tablicy. D l a k ru p ie ra A b ęd zie o n o w yn o siło :
łą czn a liczb a gier obsłużonych przez krupiera A P(A) = łą czn a liczba gier Jeśli p rz y jm ie m y założe nie, że o b e c n o ść d a n e g o k ru p ie ra n ie m a w p ływ u
W rozdziale 4. Pok“z a ! ^ że dla niezależnych zdarzeń
n a w y n ik gry, a ta k b rz m i n a sza h ip o te z a zerow a, p ra w d o p o d o b ie ń stw o
A i 8 zachodzi:
w ygran ej w o b e c n o śc i k ru p ie ra A b ę d z ie m y m o g li w yzn a czyć ja k o iloczyn
p(A n 8 ) *
o b u w y z n a c zo n y c h w yżej p ra w d o p o d o b ie ń stw . In n y m i słow y:
łą c z n a lic z b a w y g ra n y c h
łą c z n a lic z b a g ie r obsłu żo nych p rzez k ru p ie ra A
łą czn a liczb a gier
łą czn a liczba gier
P(w ygrana i A) =
WYSIL SZARE KOMÓRKI W jaki sposób m ożem y w ykorzystać obliczone praw dopodobieństw o do wyznaczenia oczekiwanej częstości wygranych dla krupiera A?
jesteś tutaj ► 625
Znajdujemy częstości
Ile więc wynoszę częstości teoretyczne? Wiemy już, jak znaleźć prawdopodobieństwo wygranej w grze w oczko w obecności krupiera A. Musimy jeszcze znaleźć teoretyczną częstość wygranych, jakie powinny paść w jego obecności. W tym celu wystarczy pomnożyć obliczone prawdopodobieństwo przez łączną liczbę rozegranych gier. A zatem:
*■— łączna liczba wygranych łączna liczba gier obsłużonych przez krupiera A Częstość teoretyczna = lączna-lłerba gier ' ' '' lg l6 rX łącz3aiiezb3/gier X łączna liczba gier łączna liczba wygranych X łączna liczba gier obsłużonych przez krupiera A łączna liczba gier
Innymi słowy, w celu znalezienia teoretycznej częstości wygranej w obecności krupiera A musimy pomnożyć łączną liczbę wygranych przez łączną liczbę gier obsłużonych przez krupiera A, a następnie podzielić ten iloczyn przez łączną liczbę rozegranych gier.
Jak znaleźć pozostałe częstości teoretyczne? Zastosowaną wyżej procedurę można uogólnić na dowolną kombinację wyniku gry i osoby krupiera, który ją obsługiwał. Aby znaleźć teoretyczną częstość każdego wyniku dla danego krupiera (przy założeniu prawdziwości hipotezy zerowej), wystarczy pomnożyć sumę odpowiedniego wiersza przez sumę odpowiedniej kolumny i podzielić ten iloczyn przez łączną liczbę rozegranych gier (sumę wszystkich wierszy lub wszystkich kolumn):
sum a w ie rsz a x sum a kolumny C z ę s to ś ć teo retyczn a =-----------------------------------------sum a liczb w tabeli
Kiedy już znajdziesz wszystkie częstości teoretyczne, będziesz mógł policzyć wartość statystyki X2, będącej sprawdzianem testu niezależności. Liczy się ją według tej samej formuły co przy teście zgodności:
X2
W całej procedurze bardzo ważne jest, by nie pom inąć w obliczeniach żadnej częstości empirycznej (i odpowiadającej jej częstości teoretycznej).
626
Rozdział 14.
Od każdej c z ę s to ś c ie m p iry c z n e j o dejm ij odpow iadajq.cq.jej częstość teoretyczną, podnieś w yn ik do kwadratu, a n a stęp n ie podziel przez częstość teoretyczną. *i
■
•
iiio t i
Rozkład x2
Oto tabelka zawierająca częstości empiryczne poszczególnych wyników uzyskane w obecności każdego krupiera. Twoim zadaniem jest wyznaczenie odpowiadających im częstości teoretycznych.
Ćwiczenie
To są częstości empiryczne
*
K rup ier A
K rup ier B
K rup ier C
RAZEM
W ygrana
43
49
22
114
R em is
8
2
5
15
P rzegrana
47
44
30
121
95
57
250
RAZEM
98
(suma wiersza x suma kolumny) / suma tączna
K rup ier A Tutaj wpisz pozostate częstości teoretyczne.
K rup ier B
W ygrana
(114 x 98) / 250 = 44,688
R em is
(15 x 98) / 250 = 5,88
Przegrana
(121 x 98) / 250 = 47,432
K rup ier C
Gdy wyznaczysz pozostałe częstości teoretyczne, wykorzystaj je do policzenia wartości statystyki X2. Poniższa tabela powinna Ci pomóc w obliczeniach. Kolumna pierwsza zawiera wszystkie częstości empiryczne, zaś kolumna druga — odpowiadające im częstości teoretyczne. Wartość statystyki X2 będzie równa sumie wszystkich elementów z kolumny trzeciej.
C z ę sto śc i em piryczne
C z ę sto ści teo retyczn e
(O - E)2
43
44,688
(43 - 44,688)2/ 44,688 = 2,85 / 44,688 = 0,064
8
5,88
(8 - 5,88)2/ 5,88 = 4,4944 / 5,88 = 0,764
47
47,432
(47 - 47,432)2/ 47,432 = 0,187 / 47,432 = 0,004
wykorzystaj wartości z dwóch pierwszych kolumn.
e
49
2 44
22 5
II
O m . m
ZE =
M
ZO = 250
w
30
jesteś tutaj ► 627
Ćwiczenie: Rozwiązanie
Ćwiczenie Rozwiązanie
Oto tabelka zawierająca częstości empiryczne poszczególnych wyników uzyskane w obecności każdego krupiera. Twoim zadaniem jest wyznaczenie odpowiadających im częstości teoretycznych.
W y g ra n a Częstości err>piryczne
Częstości fe°retyczne
1
K ru p ie r A
K ru p ie r B
K ru p ie r C
RAZEM
43
49
22
114
R e m is
8
2
5
15
P rz e g ra n a
47
44
30
121
RAZEM
98
95
57
250
K ru p ie r A
K ru p ie r B
K ru p ie r C
W y g ra n a
(114 x 98) / 250 = 44,688
fl1 4 x 9 5 ) /2 5 0 = 4 3 ,3 2
fl1 4 x 5 7 ) /2 5 0 = 2 5 ,9 9 2
R e m is
(15 x 98) / 250 = 5,88
(15 x 9 5 ) /2 5 0 = 5 ,7
(1 5 x5 7 )/2 5 0 = 3 ,4 2
P rz e g ra n a
(121 x 98) / 250 = 47,432
(121 x 9 5 )/2 5 0 = 4 5 ,9 8
(121 x 5 7 )/2 5 0 = 2 7 ,5 8 8
C z ę s to ś c i
e m p iry c z n e
te o re ty c z n e
43
44,688
(43 - 44,688)2/ 44,688 = 2,85 / 44,688 = 0,064
8
5,88
(8 - 5,88)2/ 5,88 = 4,4944 / 5,88 = 0,764
47
47,432
(47 - 47,432)2/ 47,432 = 0,187 / 47,432 = 0,004
49
43,32
(49-43,32)7 /4 3 ,3 2 = 3 2 ,2 6 2 4 /4 3 ,3 2 = 0,745
2
5,7
( 2 - 5 , 7 P / 5 , 7 = 1 3 ,6 9 /5 ,7 = 2,402
44
45,98
(44-45,98)7/45,98 = 3 ,9 2 0 4 /4 5 ,9 8 = 0 ,0 8 5
22
25,992
(2 2 -2 5 ,9 9 2 )7 /2 5 ,9 9 2 = 15,936/25,992 = 0,613
5
3,42
(5 -3 ,4 2 )7 /3 ,4 2 = 2 ,4 9 6 4 /3 ,4 2 = 0,730
30
27 ,58 8
(3 0 -2 7 ,5 8 8 )^/2 7 ,5 8 8 = 5 ,8 1 7 /2 7 ,5 8 8 = 0,211
ZO = 2 5 0
ze
=
250
£ ^
w
C z ę s to ś c i
o m > m
Gdy wyznaczysz pozostałe częstości teoretyczne, wykorzystaj je do policzenia wartości statystyki X2. Poniższa tabela powinna Ci pomóc w obliczeniach. Kolumna pierwsza zawiera wszystkie częstości empiryczne, zaś kolumna druga — odpowiadające im częstości teoretyczne. W artość statystyki X2 będzie równa sumie wszystkich elementów z kolumny trzeciej.
2 5,678
(O - E ) =
.
To je s t w a rto ść s ta ty s ty k / te sto w e j
628
Rozdział 14.
Rozkład x2
Musimy jeszcze poznać liczbę stopni swobody Z a n im b ę d z ie m y m o g li w y k o rz y sta ć ro z k ła d %2 d o o c e n y isto tn o ści zw ią z k u m ię d z y częstościa m i w y n ik ó w g ry w o c z k o a o s o b ą k ru p ie ra , m u sim y zająć się jeszcze je d n ą nie w ia d o m ą . Jest n ią v, czyli liczb a sto p n i sw obody. P a m ię ta sz za p e w n e z n a szyc h w cześnie jszych ro zw a ża ń , ze liczba sto p n i s w o b o d y to liczba tych w y n ik ó w obserw acji, k tó re m o ż e m y sw o b o d n ie w ybrać, b io rą c p o d u w a g ę w ią żą ce na s ogra n icz e n ia . A b y ją w yznaczyć, m u sim y w ię c o d liczb y w szystk ich częstości teoretycznych, ja kie p rz e d ch w ilą w yzna czyliśm y, odjąć liczbę w szystk ich w a ru n k ó w n a s ograniczających. Z a s t a n ó w m y się w ię c najpierw , ile częstości m u sie liś m y policzyć. P o n ie w a ż m ie liśm y d o c z y n ie n ia z trze m a m o ż liw y m i w y n ik a m i gry, z k tó ry c h k a ż d a była o b słu g iw a n a p rz e z je d n e g o z trzech k ru p ie ró w , zatem m u sie liś m y w yzn a czy ć 3 x 3 = 9 częstości teoretycznych.
M usieliśm y obliczyć
K rup ier A
3 x3 = 9 często ści
teoretycznych.
N
K rupier B
K rup ier C
W ygrana R em is Przegrana
G d y b y ś m y d o k ła d n ie j p rz e a n a lizo w a li n a sze działan ia, d o sz lib y śm y d o w n io sk u , że ta k n a p ra w d ę d la każdej k o lu m n y i k a ż d e g o w ie rsza m u sie liś m y p o lic zy ć tylko dw ie częstości. W ie d z ie liśm y b ow ie m , ile w y n o s i s u m a częstości w każdej k o lu m n ie i w k a ż d y m w ierszu, a w ię c o sta tn ią częstość z danej k o lu m n y czy w ie rsza m o g liśm y w yliczyć ja k o d o p e łn ie n ie d w ó c h p o p r z e d n io w ylic zo n ych częstości d o znanej n a m sum y. In n y m i słow y, s p o ś r ó d tych 9 częstości n ie z n a liśm y w a rto śc i ta k n a p ra w d ę tylko czterech; w a rto ść p o z o sta ły c h p ię c iu w y n ik a ła w p ro st z w a ru n k ó w ograniczających.
M usieliśm y wyznaczyć wartość tylko tych czterech często ści reszta wynikata w prost z warunków ograniczających.
K rup ier A
K rup ier B
W ygrana
K rup ier C
O s ta tn i w ie rs z i o s ta tn ią kolumnę m ogliśm y wyznaczyć na p o dstaw ie info rm a cji o sumach.
Rem is Przegrana P o n ie w a ż m o g liśm y p o lic zyć sw o b o d n ie je d yn ie cztery częstości, liczba sto p n i s w o b o d y w y n o s i w tym p rz y p a d k u 4. In n y m i słow y, v = 4. M o ż n a też p ow ie d zieć, że z 9 n ie z n a n y c h o g ó łe m w a rto śc i tylko 4 m o g liśm y w yzn a czy ć w sp o só b niezależny. P o z o sta łe 5 w a rto śc i w y n ik a ło w p ro st z n a rz u c o n y c h n a m ogran icze ń . U w z g lę d n ia ją c to w p o d a n y m wyżej w z o rz e n a liczbę sto p n i sw ob od y, otrzym ujem y: v = 9 - 5 = 4
jesteś tutaj ► 629
Ćwiczenie (nieco dłuższ ) Ćwiczenie . (nieco dłuższe)
M
Przeprowadź weryfikację hipotezy, że wynik gry w oczko nie zależy od osoby obsługującego stolik krupiera, przyjmując poziom istotności testu równy 1%. Poniżej zamieściliśmy dla przypomnienia listę kroków, które musisz wykonać (niektóre z nich wykonaliśmy już wspólnie). 1. Sformułuj hipotezę, którą chcesz przetestować, oraz hipotezę alternatywną. 2. Oblicz częstości teoretyczne i liczę stopni swobody. 3. Wyznacz obszar odrzuceń testowanej hipotezy. 4. Oblicz wartość sprawdzianu testu X2. 5. Sprawdź, czy wartość statystyki testowej wpada do obszaru odrzuceń.
6. Podejmij decyzję.
630
Rozdział 14.
Rozkład x2
Zostawiliśmy Ci więcej
2f
i
”
jesteś tutaj ► 631
Ćwiczenie (nieco dłuższ ): Rozwiązanie
h
Ćwiczenie (nieco dłuższe) Rozwiązanie Przeprowadź weryfikację hipotezy, że wynik gry w oczko nie zależy od osoby obsługującego stolik krupiera, przyjmując poziom istotności testu równy 1%. Poniżej zamieściliśmy dla przypomnienia listę kroków, które musisz wykonać (niektóre z nich wykonaliśmy już wspólnie). 1. Sformułuj hipotezę, którą chcesz przetestować, oraz hipotezę alternatywną. 2. Oblicz częstości teoretyczne i liczę stopni swobody. 3. Wyznacz obszar odrzuceń testowanej hipotezy. 4. Oblicz wartość sprawdzianu testu X2. 5. Sprawdź, czy wartość statystyki testowej wpada do obszaru odrzuceń.
6. Podejmij decyzję. Krok 1: Chcem y poddać w eryfikacji h ip o te z ę o n ieza le żn o ści w yników u zy sk a n yc h p rz e z grających w oczko od osoby krupiera obsługującego sto lik . M am y w ięc n a stę p u ją c y z e s p ó ł hipotez: H0: N ie istn ie je zw ią ze k m ię d zy w ynikam i gry a oso b ą krupiera o b sługującego sto lik . H,: I s tn ie je zw ią ze k m ię d zy w ynikam i gry a oso b ą krupiera o b sługującego sto lik.
Krok 2: C zę sto śc i te o re ty c zn e w y zn a c zy liśm y na stro n ie 6 2 8 . S tw ie r d z iliś m y te ż, ż e liczba sto p n i sw obody w ynosi 4.
Krok 3: Z tablic rozkładu x 2 o d c zy tu je m y w artość k ry ty czn ą nierów nością: X2>13,28.
równą 13,28. O bszar kry ty czn y dany j e s t w ięc
Krok 4: Na stro n ie 6 2 8 obliczyliśm y rów nież w artość s ta ty s ty k i te s to w e j X2. W ynosi ona 5,618. Krok 5: P oniew aż o b sza r k rytyczn y leży na prawo od w arto ści 13,28, s ta ty s ty k a te s to w a p o zo s ta je poza nim.
Krok 6: P oniew aż X 2 zn a jd u je s i ę poza obszarem krytycznym , n ie m am y p o d sta w do odrzucenia h ip o te zy zerow ej o braku zw ią zk u m ię d zy w ynikiem gry a oso b ą krupiera. N ie m ożem y w ięc p o w ied zieć, ż e s ą one w ja k iś sp o só b pow iązane.
632
Rozdział 14.
Rozkład x2 i Nie.isŁnieja.
głupie pytania ^ : Nadal nie jestem pewien, w jaki sposób wyznaczyliśmy liczbę stopni swobody w ostatnim przykładzie. Skąd wzięliśmy wartość 4?
znane już częstości. Łącznie musieliśmy więc wyznaczyć zaledwie 2x2 częstości teoretyczne. Tyle właśnie mieliśmy stopni swobody.
^ : Czy powinienem przyjmować w tych testach jakiś konkretny poziom istotności? 0 : Wszystko zależy od konkretnej sytuacji.
0 : Wartość tę obliczyliśmy przez odjęcie od łącznej liczby częstości teoretycznych, które musieliśmy wyznaczyć, liczby tych częstości, których wartość mogliśmy policzyć bezpośrednio z Informacji 0 wiążących nas ograniczeniach.
^ : Czy rozkład x2 wykorzystuje się też w innych celach niż testy zgodności czy niezależności? 0 : Testy zgodności I niezależności to dwa główne obszary zastosowań rozkładu
Podobnie jak we wszystkich Innych testach Istotności, obowiązuje zasada, że Im niższy przyjmiesz poziom Istotności, tym większa „m oc" d ow odów jest Cl potrzebna do odrzucenia hipotezy zerowej.
X2. Pamiętaj, że możesz w ten sposób
Najczęściej przeprowadza się testy
Mieliśmy do czynienia z trzem a
testować zgodność rozkładu empirycznego
na poziomie Istotności 5% lub 1%.
wynikam i gry I trzem a krupierami.
z dowolnym rozkładem teoretycznym.
W tablicy rozdzielczej, którą pomocniczo
Mógłbyś na przykład sprawdzić, czy
stworzyliśmy, suma każdego wiersza
uzyskane w pewnej próbie częstości
1każdej kolumny musiała być rów na
empiryczne mają rozkład dwumianowy.
odpowiedniej sumie częstości empirycznych. Oznacza to, że gdy policzyliśmy dwie pierwsze częstości w danym wierszu czy kolumnie, wartość ostatniej mogliśmy wyznaczyć w sposób rezydualny — odejmując od sumy danego wiersza czy kolumny te dwie,
Zastanaw iam s i ę , j a k w yznaczyć lic z b ę stopni swobody dla ta b lic y r o z d z ie lc z e j o w ię ks zej lic z b ie w ie rs zy i kolum n...
WYSIL SZARE KOMÓRKI Przypomnij sobie, jak wyznaczaliśm y liczbę stopni sw obody dla tablicy rozdzielczej o wym iarach 3x3. Czy widzisz jakieś m ożliwości uogólnienia takiego postępowania? Zastanów się nad tym . Odpow iedź znajdziesz na kolejnej stronie.
jesteś tutaj k
633
Ogólna formuła na liczbę itopni swobody
Ogólna metoda wyznaczania liczby stopni swobody Choć umiemy już wyznaczyć liczbę stopni swobody dla tablicy rozdzielczej o wymiarach 3 x 3 , to nie jesteśmy pewni, czy równie łatwo potrafilibyśmy ją wyznaczyć dla tablicy o dużo większych rozmiarach. Czy istnieje jakiś ogólny schem at postępow ania w tym przypadku? Wyobraź sobie, że chcesz porównać wartości dwóch zmiennych. W artości jednej z nich zapisane są w h wierszach, zaś wartości drugiej — w k kolumnach. Z nane Ci są przy tym sumy tych wartości dla każdego wiersza i każdej kolumny. Wyobraź sobie, że chcesz wyznaczyć liczbę stopni swobody w takiej sytuacji.
Kolum na 1
...
Kolum na k - 1
Kolum na k
W iersz 1 ... W iersz h - 1 W iersz h W każdym w ierszu znajduje się k wartości, po jednej dla każdej z k kolumn. Znasz sumę wartości w każdym wierszu, dlatego w rzeczywistości musisz policzyć jedynie k -1 nieznanych wartości. W artość dla k-tej kolumny możesz obliczyć jako różnicę między sumą wartości dla całego wiersza a sumą poprzednio wyznaczonych wartości.
Kolum na 1
...
Kolum na k - 1
Wartość te j k o lu m n y m o ż e s z
wyznaczyć w oparciu o in fo rm a c je
Kolum na k ly r
W iersz 1 Te w a r to ś c i m u s i s z p o lic z y ć .
Podobnie rzecz m a się z kolumnami. W każdej z nich znajduje się h wartości, po jednej dla każdego wiersza. Ponieważ znasz sumę wartości dla każdej kolumny, tak naprawdę potrzebna Ci jest informacja o h-1 wartościach, ponieważ wartość h-tą wyznaczysz bezpośrednio na podstawie informacji o sumie wartości w danej kolumnie.
Kolum na 1 wyznaczyć wartości d /a tych
W iersz 1
M u s is z
...
h -1
w ie rs z y .
W iersz h - 1 W iersz h
634
Rozdział 14.
W a rto ś ć te g o w ie r s z a m o że sz w yzn a czyć w o p a rc iu o in form acje na te m a t s u m y w a r to ś c i w kolu m n ie.
na te m a t su m y w a rto ś c i ^ w ie r s z u .
Rozkład x2
A zatem formuła ma postać... Podsumowując rozważania zamieszczone na poprzedniej stronie, możemy powiedzieć, że całkowita liczba wartości, jakie musimy policzyć ręcznie, wynosi (k- 1 ) X (h -1 ). Innymi słowy, jeśli mamy tablicę rozdzielczą o wymiarach h X k , liczbę stopni swobody wyznaczymy ze wzoru:
v = (h - 1) x (k - 1) Kolum na 1
...
Kolum na k - 1
Kolum na k
W iersz 1 ... W iersz h - 1
A
W iersz h Ponieważ m usim y policzyć _ ( h - V * ( k - 1 ) nieznanych w a rto ś c i, . liczba s to p n is w o b o d y wynosi f h - D x (k-V-
^Zaostrz ołówek Dan zatrudnił w swoim kasynie dwóch dodatkowych krupierów. Gdybyśmy chcieli powtórzyć test niezależności, z iloma stopniami swobody mielibyśmy do czynienia? Liczba możliwych wyników gry pozostaje bez zmian.
jesteś tutaj k
635
Zaostrz ołówek: Rozwiązanie
_
» Zaostrz ołówek ________________________________________________________ Rozwiązanie
Dan zatrudnił w swoim kasynie dwóch dodatkowych krupierów. Gdybyśmy chcieli powtórzyć test niezależności, z iloma stopniami swobody mielibyśmy do czynienia? Liczba możliwych wyników gry pozostaje bez zmian.
P oniew aż Dan z a tru d n ił dwóch nowych krupierów , w ym iary n a sz e j tablicy rozdzielczej z w ię k s z y ły s i ę do 3 x 5 :
K rupier A
K rupier B
K rupier C
K rupier D
K rupier £
W ygrana R em is Przegrana
K rupierzy A , B i C to s ta r z y pracow nicy Dana, p o zo sta li to nowo za tru d n ie n i ludzie. L iczb ę sto p n i sw obody w yzn a czym y z e wzoru (h —1) x ( k - D , g d zie h j e s t liczbą w ierszy , a k — liczbą kolumn. W ynika stą d , że: v = 2x4 =
=8
CELNE SPOSTRZEŻENIA
Rozkład %2 znajduje zastosowanie przy testach
Fakt, że statystyka X2 ma rozkład %2
zgodności i testach niezależności dwóch
z param etrem v , zapisujemy:
zm iennych losowych. Sprawdzianem testu w obu przypadkach jest statystyka
X 2=
x 2 - x 2M gdzie v jest liczbą stopni swobody.
E
( O- E) 2
W teście zgodności %2 w artość v obliczamy, odejmując od liczby przedziałów klasowych (częstości teoretycznych) liczbę w a run kó w
gdzie O oznacza częstość empiryczną, zaś E — częstość teoretyczną.
ograniczających. W teście niezależności %2 w artość v obliczamy ze wzoru v = (h-1)(k-1) gdzie h jest liczbą wierszy, a k — liczbą kolumn tablicy rozdzielczej.
636
Rozdział 14.
Rozkład x2
Uratowałeś kasyno Dana od bankructwa Dzięki temu, ze mistrzowsko opanowałeś teorię leżącą u podstaw testów zgodności i niezależności opartych na rozkładzie %2, D an nie będzie więcej tracił na nieuczciwości gości swojego kasyna. U dało Ci się potwierdzić istotność zaobserwowanych różnic między rozkładem wypłat wynikającym z teorii prawdopodobieństwa a rzeczywiście zanotowanymi w ostatnim tygodniu przypadkami wygranych. Właściciel kasyna jest Ci bardzo wdzięczny za okazaną pomoc. To dzięki Tobie dowiedział się, którym rodzajom gier musi się bliżej przyjrzeć, i dzięki Tobie jego krupierzy zachowali pracę. Gdy następnym razem zawitasz do Statsville, odwiedź D ana — na pewno będzie miał dla Ciebie jakąś niespodziankę. D obra robota!
Znów
działa m y !
II* ♦ J-IJ
Dan o b iec a t Ci że to n y do gry na k o s z t firmy!
jesteś tutaj ► 637
Ćwiczenie ( lieco dłuższ< ) Ćwiczenie O (nieco dłuższe)
&
Dan podejrzewa, że jeden z krupierów obsługujących stolik do gry w ruletkę manipuluje wynikami. Poniżej zamieszczono częstości, z jakimi kulka zatrzymywała się na polu o danym kolorze. Dokonaj weryfikacji hipotezy, że wyniki uzyskane w grze w ruletkę nie zależą od osoby krupiera obsługującego stolik. Przyjmij poziom istotności testu równy 5%.
K rupier A
K rup ier B
K rup ier C
367
357
C zerw ony 375 C zarn y 379
336
362
Zielony
37
41
46
Krok 1: Sformułuj hipotezę, którą chcesz zweryfikować, oraz hipotezę alternatywną.
Krok 2: Oblicz częstości teoretyczne oraz liczbę stopni swobody. Wypełnij poniższą tabelę. W skazów ka: za c zn ij od w ypełnienia w ie rsza i kolum ny zaw ierających su m y s ą one ta k ie sa m e , ja k dla c z ę s to ś c i em pirycznych.
K rup ier A
K rup ier B
C zerw ony
1099 x 800 / 2300 = 382,3
1099 x 740 / 2300 = 353,6
C zarn y
1077 x 800 / 2300 = 374,6
Zielony
124 x 800 / 2300 = 43,1
RAZEM
800
Krok 3: Wyznacz obszar odrzuceń testowanej hipotezy.
638
Rozdział 14.
K rup ier C
RAZEM
Rozkład x2
C z ę sto śc i em piryczne
C z ę sto ści teo retyczn e
375
382,3
(375 - 382,3)2/ 382,3 = 53,29 / 382,3 = 0,139
379
374,6
(379 - 374,6)2/ 374,6 = 19,36 / 374,6 = 0,052
46
43,1
(46 - 43,1)2/ 43,1 = 8,41 / 43,1 = 0,195
367
353,6
(367 - 353,6)2/ 353,6 = 179,56 / 353,6 = 0,508
ZE =
M
O ■ m
N>
Krok 4: Oblicz wartość statystyki testowej X2. Skorzystaj pomocniczo z poniższej tabelki.
E
336 37 357 362
II
ZO =
O m . m
w
41
Krok 5: Sprawdź, czy wartość statystyki testowej wpadła do obszaru odrzuceń.
Krok 6: Podejmij decyzję.
jesteś tutaj ► 639
Ćwiczenie (nieco dłuższ ): Rozwiązanie Ćwiczenie _ (nieco dłuższe) Rozwiązanie
U
Dan podejrzewa, że jeden z krupierów obsługujących stolik do gry w ruletkę manipuluje wynikami. Poniżej zamieszczono częstości, z jakimi kulka zatrzymywała się na polu o danym kolorze. Dokonaj weryfikacji hipotezy, że wyniki uzyskane w grze w ruletkę nie zależą od osoby krupiera obsługującego stolik. Przyjmij poziom istotności testu równy 5%.
K rupier A
K rup ier B
K rup ier C
367
357
C zerw ony 375 C zarn y 379
336
362
Zielony
37
41
46
Krok 1: Sformułuj hipotezę, którą chcesz zweryfikować, oraz hipotezę alternatywną. Chcem y zw eryfiko w a ć h ip o te zę o braku zw ią zk u m ię d zy kolorem pola, na którym za trz y m u je s i ę kulka, a oso b ą krupiera o b sługującego sto lik do gry w ru le tk ę. M am y w ięc n a stę p u ją c y z e s p ó ł h ipotez: H0: Kolor pola i osoba krupiera s ą n ieza le żn e . H,: Kolor pola i osoba krupiera s ą za le żn e .
Krok 2: Oblicz częstości teoretyczne oraz liczbę stopni swobody. Wypełnij poniższą tabelę. C zę sto śc i te o re ty c zn e w yznaczym y, m nożąc s u m ę każdego w iersza p r z e z s u m ę każdej kolum ny i dzieląc ten iloczyn p r z e z s u m ę całkow itą.
K rup ier A
K rup ier B
K rupier C
RAZEM
C zerw ony
1099 x 800 / 2300 = 382,3
1099 x 740 / 2300 = 353,6
1 0 9 9 x 7 6 0 /2 3 0 0 = 3 6 3 ,1
1099
C zarn y
1077 x 800 / 2300 = 374,6
1 0 7 7 x 7 4 0 /2 3 0 0 = 3 4 6 ,5
1 0 7 7 x 7 6 0 /2 3 0 0 = 3 5 5 ,9
1077
Zielony
124 x 800 / 2300 = 43,1
1 2 4 x 7 4 0 /2 3 0 0 = 3 9 ,9
1 2 4 x 7 6 0 /2 3 0 0 = 4 1 ,0
124
RAZEM
800
740
760
2300
M am y 3 w iersze i 3 kolumny, a poniew aż liczbę s to p n i swobody wyznaczamy ze w zoru: (liczba w ie rszy - 1) x (liczba kolumn - 1), otrzym ujem y: v = 2x2 =
= 4
Krok 3: Wyznacz obszar odrzuceń testowanej hipotezy. Z tablic rozkładu x 2 o d c zy tu je m y w artość k ry ty czn ą X25%W = 9,49. O bszar kry ty czn y w yznacza w ięc nierów ność X 2>9,49.
640
Rozdział 14.
Rozkład x2
w
O m > m
Krok 4: Oblicz wartość statystyki testowej X2. Skorzystaj pomocniczo z poniższej tabelki.
379
374,6
(379 - 374,6)2/ 374,6 = 19,36 / 374,6 = 0,052
46
43,1
(46 - 43,1)2/ 43,1 = 8,41 / 43,1 = 0,195
367
353,6
(367 - 353,6)2/ 353,6 = 179,56 / 353,6 = 0,508
336
346,5
(336 - 346,5)7/346,5 = 110,25/346,5 = 0,318
37
39,9
(37-39,9)V39,9 = 8,41/39,9 = 0,211
357
363,1
(357-363,1)^/363,1 = 37,21/363,1 = 0,102
362
355,9
(362-355,9>V355,9 = 37,21/355,9 = 0,105
41
41,0
(41—41)7/41 = 0/41 = 0
I O = 2300
Z E = 2300
CN
II
O
LM O
(375 - 382,3)2/ 382,3 = 53,29 / 382,3 = 0,139
•—X
382,3
w
375
m . m
C z ę sto ści teo retyczn e
M
C z ę sto śc i em piryczne
A zatem wartość sprawdzianu te s tu j e s t równa 1,630.
Krok 5: Sprawdź, czy wartość statystyki testowej wpadła do obszaru odrzuceń. Ponieważ obszar krytyczny leży na prawo od liczby 9,48, za ś wartość sprawdzianu te s tu wynosi 1,630, możemy powiedzieć, że sta ty sty k a te sto w a nie wpadta do obszaru krytycznego.
Krok 6: Podejmij decyzję. Ponieważ sta ty sty k a te sto w a nie znalazta s ię w obszarze krytycznym, nie mamy podstaw do odrzucenia hipotezy ze ro w e j na poziomie istotności 5%. M usim y więc przyjąć, że taki a nie inny wynik gry w ruletką nie ma zw iązku z osobą krupiera, który obsługuje stolik.
jesteś tutaj ► 641
642
Rozdział 14.
15. Korelacja i regresja
4
Co z moją Unią?
Czy zastanawiałeś się kiedyś, w jakim stopniu dwie rzeczy są ze sobą powiązane? W poprzednich rozdziałach przyglądaliśmy się użyciu statystyk, które opisywały zbiór danych z punktu widzenia wyłącznie jednej cechy — m ów iliśm y na przykład o wzroście mężczyzn, punktach zdobytych przez zaw odnika koszykówki czy też o trwałości smaku gum do żucia. Tymczasem Istnieją statystyki, które pozwalają ocenić siłę z w ią zk u m iędzy w iększą liczbą zmiennych. Ich znajomość dostarczy Cl znacznie bogatszych Inform acji na te m a t otaczającego Clę świata, które będziesz m ógł wykorzystać w e własnym Interesie. W tym rozdziale pokażem y Cl, jak w ykryw ać zw ią zk i między zm iennym i, korzystając z miar korelacji I regresji.
to jest nowy rozdział ►
643
Zwiqzek między frekwencję a prognozę pogody
Nigdy nie ufaj prognozom pogody Koncertów muzycznych najprzyjemniej słucha się pod gołym niebem — przynajmniej tak sądzą ci dwaj panowie. Zajm ują się oni zawodowo organizacją takich koncertów. Wszystko wskazuje na to, że i nadchodząca impreza okaże się wielkim komercyjnym sukcesem Dzisiejszy koncert już teraz bije rekordy popularności. Zespół stanowiący gwiazdę wieczoru właśnie zaczął próbę generalną, ale... na horyzoncie zaczęły zbierać się chm ury...
Rzeczywiście, niebo przesłaniają coraz gęstsze chmury, tem peratura powietrza stopniowo się obniża i wszystko wskazuje na to, że zanosi się na deszcz. Nasi koledzy m ają kłopot, ponieważ bilety przestały się sprzedawać. A oni nie bardzo mogą sobie na to pozwolić. Przydałoby im się jakieś narzędzie, które pozwoliłoby przewidzieć zainteresowanie koncertem , powiedzmy na podstawie informacji o przewidywanym nasłonecznieniu w dniu, w którym m a się odbyć. Dzięki tem u byliby w stanie ocenić z wyprzedzeniem, ile osób zrezygnuje z wysłuchania koncertu z powodu zachm urzonego nieba. Gdyby miało się okazać, że widownia spadnie poniżej 3500 osób, czyli poniżej poziomu, gdy przychody z biletów pokrywają koszty, mogliby odwołać koncert, chroniąc się przed stratami. Dlatego potrzebna im jest Twoja pomoc.
644
Rozdział15.
Korelacja
regresja
Przyjrzyjmy się danym na temat frekwencji i nasłonecznienia W poniższej tabelce zestawiliśmy informacje na tem at prognozowanej liczby godzin ze słońcem w dniu koncertu oraz informacje o liczbie biletów, jakie udało się sprzedać na imprezę w danym dniu, dla kilku koncertów organizowanych w przeszłości. Czy na ich podstawie moglibyśmy coś powiedzieć o prawdopodobnym zainteresowaniu dzisiejszym koncertem ?
N asło necznienie (w godzinach)
1,9
2,5
3,2
3,8
4,7
5,5
5,9
7,2
Za in tere so w a n ie koncertem (w se tk a ch )
22
33
30
42
38
49
42
55
A l e ż t o p r o s t e . Z n a j d z i e m y w arto ść ocŁekiw aną i w aria n c ję dla tych danych, a p o t e m w ytn ac ty m y r o z k ł a d . On p ow ie nam w stystko .
W większości przypadków rzeczywiście takie informacje wystarczyłyby do wyprognozowania wiarygodnych danych. Tym jednak razem nie bardzo wiadomo, dla których danych mielibyśmy wyznaczyć wartość oczekiwaną i wariancję. Czy powinniśmy je wyliczyć na podstawie informacji o zainteresowaniu koncertem , czy może o nasłonecznieniu w dniu imprezy? T ak naprawdę żaden z tych zbiorów danych rozpatrywany oddzielnie nie pomoże nam rozwiązać naszego problem u. D opiero gdy spojrzymy na nie łącznie, mogą się nam przydać. Jak dotąd, przyglądaliśmy się zachowaniu niezależnych zmiennych losowych. Tym razem interesować nas będzie zależność między zmiennymi. Wydaje się rozsądne zakładać, że zainteresowanie koncertem będzie niższe, jeśli prognozy pogody na ten dzień będą mało optymistyczne, niż gdy zapowiadany będzie dzień pełen słońca. Jak moglibyśmy dowieść statystycznie, że tego typu związek istnieje? Jak wykorzystać taką informację do wyprognozowania liczby uczestników dzisiejszego koncertu na podstawie aktualnej prognozy pogody? Wszystko zależy od rodzaju danych, jakie posiadamy.
WYSIL SZARE KOMÓRKI W jaki sposób dokonałbyś opisu związku m iędzy dw iem a zmiennymi?
jesteś tutaj ► 645
Poznajemy dane dwuwymiarowe
Rzut oka na wymiary D o tej pory mieliśmy do czynienia wyłącznie z jednowymiarowymi zbiorami danych. W przypadku danychjednowymiarowych mamy do czynienia z realizacjami pojedynczej zmiennej losowej, opisującej jakąś cechę zbioru danych. Jako przykład m ożna podać zmienną, która opisywała wysokość wygranych w kasynie D ana, czy też zmienną opisującą wagę panien młodych ze Statsville. W obu przypadkach opisywaliśmy pewien zbiór danych z punktu widzenia jednej cechy. W tym przypadku nie możemy mówić o jakimkolwiek związku między zmiennymi. N a przykład informacje na tem at zainteresowania koncertam i na wolnym powietrzu w przeszłości nie powiedzą nam nic na tem at prognoz nasłonecznienia obowiązujących w dniu każdej z tych imprez. Mówią one tylko o tym, ile osób było zainteresowanych danym koncertem.
Co więc mamy zrobić, gdybyśmy mimo wszystko chcieli ocenić, czy między dwiema zmiennymi istnieje jakiś związek? Musielibyśmy spojrzeć na posiadane przez nas dane z innej perspektywy — jako na dane dwuwymiarowe.
Wszystko o danych dwuwymiarowych Z danymi dwuwymiarowymi mamy do czynienia wtedy, kiedy posiadam y informacje o realizacjach dwóch zmiennych losowych, a nie tylko jednej. Danymi tego typu są posiadane przez nas informacje o zainteresowaniu koncertam i w przeszłości oraz o prognozach pogody obowiązujących w dniu imprezy.
D w uw ym iarow e zb io ry danuc z w i e r a j ą inform acje o r e a tl dwóch zm iennych losowych.
N asło necznienie (w godzinach)
1,9
2,5
3,2
3,8
4,7
5,5
5,9
7,2
Z a in tere so w a n ie koncertem (w se tk a ch )
22
33
30
42
38
49
42
55
Jedną z tych zmiennych — tę, która pozostaje w pewnym sensie pod naszą kontrolą lub którą wykorzystamy do przewidywania wartości drugiej zmiennej — nazywamy zmienną niezależną lub objaśniającą. W tedy drugą zm ienną nazywamy zależną lub objaśnianą. Ponieważ naszym zadaniem jest ocena zainteresowania dzisiejszym koncertem na podstawie aktualnych prognoz nasłonecznienia, pierwszą z tych zmiennych nazwiemy objaśnianą, zaś drugą — objaśniającą.
646
Rozdział15.
Korelacja
regresja
Wykreślamy dane dwuwymiarowe T ak jak w przypadku jednowymiarowych zbiorów danych, tak i dane dwuwymiarowe możemy przedstawić na wykresie, by lepiej ocenić zarysowujące się w nich wzorce. Jednak zamiast wykreślać częstość odpowiadającą poszczególnym wartościom każdej ze zmiennych, sporządzimy wykres, w którym na osi poziomej będziemy odkładali wartości jednej zmiennej, a na osi pionowej — wartości drugiej zmiennej. Taki wykres pozwoli nam ocenić, czy obie zmienne są w jakiś sposób powiązane. Tego rodzaju wykres nazywamy wykresem rozrzutu lub wykresem (diagramem) korelacji. Sposób jego wykreślania nie różni się niczym od tego, jak przygotowywaliśmy wykresy w rozdziale 1. Zaczniemy więc od wykreślenia dwóch osi — poziomej, którą nazwiemy osią x lub osią odciętych, i pionowej — nazywanej osią y lub osią rzędnych. N a osi odciętych będziemy odkładali wartości zmiennej niezależnej, a na osi rzędnych — zmiennej zależnej. Po wykreśleniu obu osi możemy przystąpić do tworzenia właściwego wykresu, zaznaczając krzyżykiem (lub innym symbolem) wartości kolejnych obserwacji ze zbioru danych. Poniżej zamieściliśmy przykładowy wykres rozrzutu stworzony przez nas. N a osi odciętych prezentujem y informacje o liczbie godzin nasłonecznienia, ponieważ jest to nasza zmienna niezależna, a na osi rzędnych — o odsetku sprzedanych biletów, jako o zmiennej zależnej. In fo rm a cje
Oto nasze dane.
0 n° s toneczniera'u
w y k re ś la m y na o s i *- a o frek w en cji ~ na o s i y .
x (nasłonecznienie) 1,9
2,5
3,2
3,8
4,7
5,5
5,9
7,2
y (frekw encja)
33
30
42
38
49
42
55
22
frekw encja na koncercie a nasłonecznienie 60
fr e k w e n c ję o d ło ży liś m y na o s i y .
O n 4* 0)
w
x
50 40
1^.
x
P unkty na w ykre sie o d p ow ia da ją kolejnym obserwacjom .
30
0
20
0)
10
c
1 9)
0
1
2
3
4
5
6
7
8
In fo rm a cje o nasłonecznieniu odło żyliśm y na o s i x.
n asło n eczn ien ie (w godzinach)
Zauważyłeś, jak bardzo tego typu wykresy pom agają dostrzec trendy zarysowujące się w danych? Czy domyślasz się, w jaki sposób wykorzystamy płynące stąd informacje do zdefiniowania zależności między frekwencją na dzisiejszym koncercie a prognozowanym nasłonecznieniem?
jesteś tutaj ► 647
Zaostrz >łówek
Wiemy, że nie przekazaliśmy Ci jeszcze wszystkich informacji na temat analizy dwuwymiarowych zbiorów danych, ale chcielibyśmy ocenić, jakie informacje potrafisz wyciągnąć samodzielnie, analizując wykres rozrzutu. Jakich zależności można się doszukać na poniższym wykresie? Jak byś je wyjaśnił, odwołując się do znaczenia obu zmiennych? Jakiej frekwencji spodziewałbyś się na koncercie, gdyby świeciło słońce? A jakiej przy znacznym zachmurzeniu? fr e k w e n c ja na koncercie a n asłon eczn ien ie 60
X X
0)
X
40
X
w
X
30
n O
20
0)
10
c
£
X
0
1
2
3
4
5
6
7
8
nasło n eczn ien ie (w godzinach)
648
Rozdział15.
Korelacja
regresja
Przypadek nad wyraz dobrej sprzedaży filtrów przeciwsłonecznych Młody człowiek odbywający staż w fabryce produkującej kremy z filtrami przeciwsłonecznymi dostał zadanie przeanalizowania wyników sprzedaży oraz wyciągnięcia wniosków, które mogłyby być pomocne do promocji produktów tej marki. fi r o ^ t e w ie lk ie j ta je m n ic y
N a podstawie posiadanych informacji wykreślił on szereg wykresów rozrzutu prezentujących wielkość sprzedaży na tle różnych innych zmiennych. Wybrał z nich te, które zdawały się potwierdzać istnienie pewnej zależności między wynikami sprzedaży a daną zmienną. Wyniki swoich analiz przekazał do działu marketingu odpowiedzialnego za promocję. Pierwszy z tych diagramów prezentował zależność między sprzedażą kremów z filtrami a stężeniem pyłków w powietrzu. Młody pracownik firmy zauważył bowiem, że wraz ze wzrostem stężenia pyłków w powietrzu istotnie wzrastała wielkość sprzedaży filtrów przeciwsłonecznych. Uznał więc, że jest to istotna informacja, którą dział m arketingu powinien wykorzystać do promocji produktów firmy. Kiedy pracownicy działu m arketingu zapoznali się z wynikami prac stażysty, spojrzeli na niego w osłupieniu. Co, Twoim zdaniem, powinni oni zrobić z wynikami prac stażysty?
Czy wysoki poziom stężenia pyłków w powietrzu skłania łudzi do zwiększonych zakupów kremów zfiłtram i przeciwsłonecznymi?
jesteś tutaj ► 649
Zaostrz ołówek: Rozwiązanie
_
^ Zaostrz ołówek Rozwiązanie
Wiemy, że nie przekazaliśmy Ci jeszcze wszystkich informacji na temat analizy dwuwymiarowych zbiorów danych, ale chcielibyśmy ocenić, jakie informacje potrafisz wyciągnąć samodzielnie, analizując wykres rozrzutu. Jakich zależności można się doszukać na poniższym wykresie? Jak byś je wyjaśnił, odwołując się do znaczenia obu zmiennych? Jakiej frekwencji spodziewałbyś się na koncercie, gdyby świeciło słońce? A jakiej przy znacznym zachmurzeniu? fr e k w e n c ja na koncercie a nasłon eczn ien ie 60
o n 4* 0)
w
x 50 40 30
n
'o
c
0)
20 10
1
9)
1
2
3
4
5
6
7
8
nasło n eczn ien ie (w godzinach) Po p ie rw sze , w ykres ten po ka zu je, ż e kolejne obserw a cje układają s i ę m niej w ięcej w zd łu ż linii p ro ste j, której nachylenie j e s t dodatnie ( w artości y rosną w raz z e w zro stem w artości x). W sk a zu ją one na to, ż e je ś li prognozow ane n a sło n eczn ien ie w dniu koncertu było niew ielkie, rów nież frekw encja p o d cza s koncertu nie bardzo d opisyw ała. I odw rotnie: gdy prognozy pogody b yty bardziej o p ty m is ty c z n e , m ożna było s i ę sp o d zie w a ć w iększeg o za in tereso w a n ia koncertem . M ożna w ięc pow iedzieć, ż e im lep sza była pogoda, tym w ięc ej ludzi nabywało b ile ty na koncert na św ie ży m p o w ietrzu . N ależy jed n a k podkreślić, ż e o s łu s z n o ś c i tego ty p u wniosków m o żem y być pew ni je d y n ie w od n iesie n iu do próby, do której s i ę odnoszą. N ie m am y inform acji o tym , ja ka byłaby frekw encja na koncercie, gdyby prognozy pogody m ów iły o m niej n iż 2 lub w ięcej niż 7,5 godzinach n asłonecznienia w dniu koncertu.
Wykresy rozrzutu pokazują trendy obecne w danych Jak więc widzisz, diagramy rozrzutu stanowią niezwykle użyteczną m etodę wizualizacji trendów obecnych w danych. U kazują w pełni sposób kształtowania się zależności między zmiennymi, jeśli tylko istnieje między nimi jakiś związek. Zamieszczony wyżej wykres pokazuje wyraźny trend obecny w danych z naszego przykładu — kolejne obserwacje układają się mniej więcej wzdłuż linii prostej. Tego typu zależność miedzy zmiennymi nazywamy korelacją (liniową).
650
Rozdział15.
Korelacja ^ o oreja\cja\ r e l ^ c j ' ^ jiw ] i n i o w a\
z
regresja
M is k
Wykresy rozrzutu są doskonałym narzędziem prezentacji korelacji między parą zmiennych. Korelacja to term in statystyczny oznaczający zależność między zmiennymi losowymi. Może ona przyjmować różną postać, którą najłatwiej zidentyfikować na diagramie rozrzutu. Korelację nazywamy liniową, jeśli zmienne skorelowane tworzą na wykresie rozrzutu linię prostą. Przyjrzyjmy się trzem podstawowym typom korelacji, jaka może istnieć między dwiema zmiennymi:
^ J e s t to linia,
*
o nachyleniu dodatnim
Korelacja dodatnia Z korelacją dodatnią mamy do czynienia wtedy, gdy niskie wartości zmiennej odłożonej na osi x wiążą się z niskimi wartościami zmiennej odłożonej na osi y i odwrotnie. Wykres rozrzutu układa się wówczas w kształt linii prostej o dodatnim nachyleniu.
X
X
W artości zmiennych odfożonych na osi x i y tw orzą lin ią prostą.
A
Korelacja ujemna
X X
j e s t to Mnie
~ Z ' O nachyleniu
X
(_
ujem nym .
Z korelacją ujem ną mamy do czynienia wtedy, gdy niskim wartościom zmiennej odłożonej na osi x odpowiadają wysokie wartości zmiennej odłożonej na osi y. Wykres rozrzutu układa się wówczas w kształt linii prostej o ujemnym nachyleniu.
X
y.
N ie ma tu żadnego wyraźnego w u ra zn e g u wzorca ^ _ miedzy m iedzi/ zml zm iennym,i n le is tn ie je korelacja.
/ K
A
Brak korelacji
X X X
X
X
X
X
X
X X
Jeśli wartości obu zmiennych nie układają się na wykresie rozrzutu w żaden łatwo zauważalny kształt (tworzą „chm urę”), mamy do czynienia z brakiem korelacji między tymi zmiennymi.
X
jesteś tutaj ► 651
Korelacja a przyczynowość
Korelacja a przyczynowość
To, ze dwie zmienne są skorelowane, nie musi jeszcze oznaczać, ze jedna z nich określa wartości drugiej czy też ze istnieje między nimi jakaś formalna zależność w rzeczywistości. Występowanie korelacji między zmiennymi oznacza tylko tyle, ze istnieje między nimi związek potwierdzony statystycznie. Zm ienne skorelowane tworzą na wykresie rozrzutu łatwo zauważalny wzorzec, który można wykorzystać na przykład do przewidywania brakujących wartości. Nie musi to jednak oznaczać, że między zmiennymi istnieje rzeczywisty związek, a tym bardziej związek o charakterze przyczynowo-skutkowym. Nie jesteśmy w stanie powiedzieć, czy jedna ze zmiennych określa wartości drugiej, czy też może istnieje inny czynnik je determinujący, który w zbiorze danych pominęliśmy. Wyobraź sobie na przykład, że zaobserwowałeś następującą tendencję: w Twoim mieście dynamicznie wzrasta liczba kawiarni, podczas gdy maleje liczba sklepów z płytami. Choć w praktyce związek między tymi faktami jest możliwy, to nie jesteśmy w stanie go udowodnić. Nie możemy na przykład powiedzieć, że wzrastająca liczba kawiarni przyczyniła się do zamykania kolejnych sklepów z muzyką. Możemy jedynie powiedzieć, że wraz ze wzrostem liczby kawiarni maleje liczba sklepów muzycznych.
L ic z b a k a w ia rn i a lic z b a s k le p ó w z M u z y k ą
U czta S -o a o 2
X
sk le p ó w
re*
w ^
.a S n
=
o E □
N
Liczb a kaw iarni
652
Rozdział15.
» gdy n o t a i
liczb y
* f » * “ " “ b» z muzyką.
Korelacja
regresja
Przypadek nad wyraz dobrej sprzedaży filtrów przeciwsłonecznych: Rozwiązanie Czy wysoki poziom stężenia pyłków w powietrzu skłania ludzi do zwiększonych zakupów kremów zfiU ram i przeciwsłonecznymi? Jeden z pracowników działu m arketingu postanowił porozmawiać ze stażystą. „Dziękuję za Twoje uwagi” — powiedział — „ale nie wykorzystamy ich w kam panii reklamowej. Bo widzisz, wysokie stężenie pyłków raczej nie skłania ludzi do zwiększonych zakupów naszych produktów ”. Młody chłopak spojrzał zaskoczony na swojego starszego kolegę. „Jak to? Przecież wszystko widać na diagramie. Gdy rośnie stężenie pyłków, rośnie również sprzedaż naszych filtrów”. „Tak jest, tu masz rację” — usłyszał w odpowiedzi — „ale to jeszcze nie oznacza, że między tymi wielkościami istnieje związek przyczynowoskutkowy. Dni, w których występuje podwyższone stężenie pyłków, to zwykle dni słoneczne, kiedy ludzie chętniej wychodzą na świeże powietrze. Aby chronić się przed negatywnym wpływem prom ieni słonecznych, nabywają więcej naszych produktów ”.
jesteś tutaj ► 653
Nie istniejq głupie pytania
o
iN ie .is tn ie ia ,
głupie pytania ^ : Czy chcecie powiedzieć, że optymistyczna prognoza pogody powoduje większą sprzedaż biletów?
^ : Czy wykresy rozrzutu opierają się na danych z próby, czy z populacji?
0 : Korelacja między dwiema zmiennymi świadczy o istnieniu
0 : Mogą się opierać na obu typach danych. W większości
między nimi związku, który da się potwierdzić statystycznie, jednak
przypadków będziesz miał do czynienia z danymi z próby.
nie oznacza to, że ma on charakter przyczynowo-skutkowy.
Tak naprawdę nie ma to jednak większego znaczenia, bo proces
Intuicyjnie wydaje się słuszne twierdzenie, że przy bardziej
tw orzenia wykresu nie różni się w obu przypadkach.
słonecznej pogodzie więcej ludzi weźmie udział w koncercie pod gołym niebem, ale nie możemy z pewnością powiedzieć, że zachęci ich do tego właśnie piękna pogoda. Musielibyśmy
^ : Czy jeśli między dwiema zmiennymi istnieje korelacja, musi być to korelacja liniowa?
przeprowadzić dodatkowe analizy, by upewnić się, że nie istnieją inne czynniki, które mogłyby być tego przyczyną.
0 : W naszym rozumieniu korelacja oznacza wyłącznie związek o charakterze liniowym, choć nie wszystkie związki mają charakter
^ : Inne czynniki? Jakie na przykład?
liniowy. Łatwo sobie na przykład wyobrazić zależność w postaci y = x2. Takich przypadków nie będziemy jednak rozpatrywać w tej
0 : Jedną z nich mogłaby być na przykład szczególna popularność, jaką cieszy się występujący artysta. Wówczas jego fani mogliby się udać masowo na koncert bez względu na pogodę. I odwrotnie: mniej popularny zespół nie przyciągnie dużej w idow ni tak czy inaczej.
654
Rozdział15.
książce.
Korelacja
regresja
Wiemy już, czym są dane dwuwymiarowe i jak na podstawie diagramu rozrzutu ocenić, czy w tego typu danych zarysowują się tendencje, które m ożna by określić mianem korelacji. N adal jednak nie wiemy, jak je wykorzystać do celów prognostycznych, czyli przewidywania wartości nieznanych. Musimy więc znaleźć sposób na to, by na podstawie aktualnej prognozy pogody ocenić frekwencję na wieczornym koncercie.
cW-,WYSIL
______________________
Ca J SZARE KOMÓRKI Jak byś się zabrał do prognozow ania wartości jednej zmiennej na podstawie inform acji o wartościach innej zmiennej?
jesteś tutaj ► 655
Linia lajlepszego dopasowania
Wykorzystujemy do prognozowania linię o najlepszym dopasowaniu Wiemy już, jak na postawie kształtu wykresu rozrzutu ocenić, czy między dwiema zmiennymi występuje korelacja. N adal jednak nie wiemy, jak moglibyśmy przewidzieć wartość jednej zmiennej na podstawie informacji o wartościach innej zmiennej. Jak ocenić frekwencję na wieczornym koncercie na podstawie aktualnych prognoz dotyczących nasłonecznienia? Jak moglibyśmy wykorzystać przygotowany wcześniej diagram rozrzutu do celów naszych prognoz? Jednym ze sposobów poradzenia sobie z tym problem em jest wykreślenie linii prostej przechodzącej przez punkty zaznaczone na wykresie, dbając o to, by jej dopasowanie do danych był jak najlepsze. Oczywiście linia taka nie przechodziłaby przez każdy z punktów wykresu. Jeśli jednak między dwiema zmiennymi istnieje korelacja liniowa, powinieneś być w stanie dość dobrze dopasować do wykresu ich wartości linię prostą. Dzięki tem u byłbyś w stanie oszacować frekwencję na wieczornym koncercie, jaka powinna się teoretycznie wiązać z aktualnymi prognozami pogody.
^
60
O n
50 50
£
0)
^
40
W
5
n
30
'o c
20
2
10
M ożna by j ą w ykorzystać do oszacowania frekw e n cji na koncercie, w o p a rciu o na jśw ie ższe prognozy nasłonecznienia.
0
n a s ło n e c z n ie n ie (w g o d z in a c h ) Linia, która najlepiej pasuje do danych z wykresu rozrzutu, nazywa się
linią najlepszego dopasowania.
Linia najlepszego dopasowania? Choć dopasow aliście j ą na oko? To mało naukowe p o d e jś c ie .
Tak naprawdę położenie takiej linii zależy od opinii kreślącego. Problem z tego rodzaju podejściem polega na tym, że uzyskujemy tylko jedno z możliwych dopasowań. Bo cóż to znaczy „najlepsze dopasowanie”? Każdy może mieć na ten tem at inne zdanie. N ie istnieje jedna obiektywna m etoda pom iaru jakości dopasowania. Wszystko jest kwestią subiektywnej oceny prognosty (czyli osoby zajmującej się formułowaniem prognoz).
656
Rozdział15.
<**»■
Korelacja regresja
Najlepsze dopasowanie je s t nadal tylko dopasowaniem Wyobraź sobie, ze poprosiłeś trzy różne osoby o niezależne wykreślenie najlepiej — ich zdaniem — dopasowanej do naszych danych linii prostej. Z dużym prawdopodobieństwem można założyć, że każda z tych osób wykreśli nieco inną prostą, tak jak na poniższym rysunku:
N a dobrą sprawę każda z tych trzech linii mogłaby stanowić linię najlepszego dopasowania. Nie jesteśmy bowiem w stanie powiedzieć, która z nich sprawdzi się w tej roli najlepiej. D latego potrzebna jest nam jakaś alternatywa dla kreślenia linii najlepszego dopasowania na oko. Zam iast decydować o jej położeniu na podstawie subiektywnego osądu, m ożna by wykorzystać dane z próby do oceny „dobroci” dopasowania za pom ocą formuły matematycznej.
Potrzeba namrównania opisującego dopasowaną linią Linię prostą m ożna opisać za pom ocą równania y = a + bx, gdzie a oznacza wartość, przy której linia prosta przecina oś rzędnych, zaś b jest współczynnikiem jej nachylenia. Oznacza to, że również linię najlepszego dopasowania można by przedstawić za pom ocą równania y = a + bx.
U = a+bx je s t rów naniem lin ii p ro s te j, p r z y c z y n a i b s ą sta łym i w a rto ścia m i.
y = a + bx
W naszym przypadku symbol x wykorzystaliśmy do oznaczenia wartości zmiennej niezależnej, czyli prognozy nasłonecznienia w dniu koncertu, zaś y reprezentow ał frekwencję na koncercie, czyli zm ienną zależną. Gdybyśmy znaleźli jakiś sposób na oszacowanie nieznanych wartości param etrów a i b na podstawie informacji z próby, moglibyśmy w sposób bardziej obiektywny nakreślić linię najlepszego dopasowania, która posłużyłaby nam później do zaprognozowania frekwencji na wieczornym koncercie.
jesteś tutaj ► 657
Suma kwadratów reszt B ę d z ie m y m in im a liz o w a ć o d c h y le n ia o d w a r t o ś c i r z e c z y w is t y c h Zastanówmy się więc, co jest nam potrzebne do wykreślenia linii najlepszego dopasowania o równaniu y = a+bx. Linią najlepszego dopasowania powinna być linia, która pozwala najlepiej przewidywać wartości zaobserwowane w próbie. Innymi słowy, dla każdej wartości zmiennej x powinna ona wskazywać takie przybliżenie rzeczywistych wartości zmiennej y, które różniłoby się od nich w jak najmniejszym stopniu. D obierając linię dla naszego przykładu, chcielibyśmy więc uzyskać taką jej postać, która każdej prognozie nasłonecznienia z naszej próby pozwoliłaby przypisać teoretyczną frekwencję, jak najbliższą rzeczywiście zaobserwowanej na danej imprezie. Linia najlepszego dopasowania będzie więc linią prostą (o równaniu y = a+ bx), która pozwoli zminimalizować odległości dzielące rzeczywiście zaobserwowane wartości zmiennej y od ich wartości teoretycznych, leżących na prostej.
a i b,
wszystkie
Oznaczmy każdą wartość zmiennej y z naszej próby przez y.. Jest to wartość empiryczna zmiennej y. Odpowiadającą jej wartość teoretyczną, wyznaczoną na podstawie linii najlepszego dopasowania, oznaczymy przez y.. Naszym celem będzie minimalizacja całkowitych odchyleń wartości teoretycznych od odpowiadających im wartości empirycznych (zwanych niekiedy resztami), to znaczy minimalizacja następującego wyrażenia:
2(Yj - y;)
Pojawia się tu jednak pewien problem . D la tak zapisanej formuły odchylenia „in plus” i „in m inus” będą się wzajemnie znosić. To oznacza, że będziemy musieli nieco ją zmodyfikować.
658
Rozdział15.
y
y. je s t w artością, em piryczną.
y. je s t w a rto ś c ią teoretyczną, wyznaczaną na p o d sta w ie lin ii najlepszego dopasow ania.
X
Korelacja regresja
Wyznaczamy sum ę kwadratów odchyleń Czy przypominasz sobie ten moment, kiedy po raz pierwszy podaliśmy formułę na liczenie wariancji? Już wtedy pojawił się podobny problem : chcieliśmy wyznaczać odchylenia poszczególnych wartości od wartości średniej, ale zauważyliśmy, że w ten sposób część odchyleń wzajemnie się zniesie (wyzeruje). D la obejścia tego problem u podnieśliśmy wszystkie odchylenia do kwadratu, by upewnić się, że każde z nich będzie miało wartość dodatnią. Ten sam pomysł moglibyśmy wykorzystać i tym razem. Zam iast sumy odchyleń wartości teoretycznych od wartości rzeczywiście zaobserwowanych w próbie moglibyśmy liczyć sumę tych odchyleń po ich podniesieniu do potęgi drugiej. Uzyskaną w ten sposób liczbę nazywamy sum ą kwadratów reszt i oznaczamy jako SKR. Jest ona dana wzorem: Różnica m iędzy wartością e m p iryczn a S um a kwadratów
Innymi słowy, od każdej wartości zmiennej y wziętej z próby musimy odjąć odpowiadającą jej wartość teoretyczną, oszacowaną na podstawie linii najlepszego dopasowania, podnieść tę różnicę do kwadratu, a następnie zsumować.
Rzeczywiście, SKR i wa SKR jako taka nie jest wariancją, a odległości między dwoma punktam wartości empirycznych zmiennej y i teoretycznych, obliczonych na pods Pozostaje nam więc tylko wykorzystać dane z naszej próby do oszacowania nieznanych wartości param etrów a i b w taki sposób, by zminimalizować wartość SKR. ł
»
*
jesteś tutaj ► 659
Znajdujemy wartość b
Znajdujemy wartości nieznanych parametrów Chcielibyśmy zatem oszacować wartości param etrów równania y = a+ b x w taki sposób, by zminimalizować sumę kwadratów reszt o postaci E (y -y j2. Uzyskane w ten sposób wartości param etrów a i b pozwolą nam wykreślić szukaną linię najlepszego dopasowania.
Zacznijmy od wartości b Param etr b w równaniu o postaci y = a+ b x jest tak zwanym współczynnikiem kierunkowym. W naszym przypadku będzie on wyznaczał nachylenie linii najlepszego dopasowania. Różnicę m iędzy " artościa™ j/™ ^ ™ J *
Choć nie przedstawimy formalnego dowodu, możesz nam wierzyć na słowo, v
■ %in> a
■ *
ze wartość b, która minimalizuje SKR, dana jest wzorem:
b= * o d ejm ujem y ich
■
średnią mnożymy prz
— brednią, a nast3Pnie sumuJem!L
Z((x - x)(y - y)) ! (x - x )2
ŚCI zm ie n n e j
J e s te ś c ie pew ni? N ie wygląda to z a cie kaw ie.
Na pierwszy rzut oka wzór ten rzeczywiście nie wygląda zachęcająco, ale w praktyce liczy się go całkiem łatwo. Przede wszystkim musimy znaleźć wartości x i y, czyli średnią arytmetyczną dla wartości z próby zmiennej x i y. Gdy to zrobimy, będziemy mogli policzyć różnice (x -x ) oraz (y -y ) i po przem nożeniu ich przez siebie zsumować. Później wystarczy już tylko podzielić tę sumę przez czynnik E (x -x )2. Liczy się go bardzo podobnie jak wariancję z próby dla zmiennej x. Jedyna różnica polega na tym, że pomijamy tu dzielenie przez (n -1 ). Jeśli masz dostęp do oprogram ow ania statystycznego, wszystkie te obliczenia wykona za Ciebie komputer. Zobaczmy, jak to wszystko wygląda w praktyce.
Spokojnie
Tego wzoru raczej nie musisz pam iętać.
N a sprawdzianie będzie on zwykle podany, a w codziennej praktyce będziesz mógł zajrzeć na tę stronę i po prostu go spisać.
660
Rozdział15.
^
między wartościami zmiennej y a je j
Korelacja regresja
Obliczamy nachylenie linii najlepszego dopasowania Zobaczmy zatem, jak ten wzór stosuje się w praktyce. Znajdziemy wartość współczynnika nachylenia b dla naszych danych. O to one:
x (n a s ło n e c z n ie n ie )
1,9
2,5
3,2
3,8
4,7
5,5
5,9
7,2
y ( f r e k w e n c ja )
22
33
30
42
38
49
42
55
Zaczniemy od wyznaczenia wartości x i y, to znaczy średniej arytmetycznej dla zmiennej x i y. Policzymy je według tej samej formuły co do tej pory, to znaczy^ x = (1,9 + 2,5 + 3,2 + 3,8 + 4,7 + 5,5 + 5,9 + 7,2)/8 ^ podstaw ie tych w a rt o ść
= 34,7/8 =
yznaczym y x i y-
= 4,3375
y = (22 + 33 + 30 + 42 + 38 + 49 + 42 + 55)/8 = = 311/8 = = 38,875 Teraz, kiedy znamy obie średnie, możemy wykorzystać je do policzenia różnic (odchyleń od średniej), które występują we wzorze na wartość b.
Wykorzystujemy x i y do policzenia b Licznik ułam ka stanowiącego formułę współczynnika b ma postać: E (x -x )(y -y ). Aby obliczyć jego wartość, musimy od każdej wartości zmiennej x odjąć jej średnią, powtórzyć tę czynność dla wartości zmiennej y, a następnie wymnożyć przez siebie tak powstałe różnice. Później wystarczy już tylko zsumować tak powstałe iloczyny.
/
x - x
_y
t
E(x - x)(y - y) = (1,9 - 4,3375)(22 38,875) + (2,5 - 4,3375)(33 - 38,875) + (3,2 - 4,3375)(30 -38,875) + _ _ + 13 8 - 4 3375V42 - 38 875t + (4,7 - 4,3375)(38 - 38,875) + (5,5 - 4,3375)(49 - 38,875) + (x - xXy - y) 4,3375)(42 - 3 8 ,8 7 ^ + (7,2 - 4,3375)(55 - 38,875) = = (-2,4375)(-16,875) + (-l,8375)(-5,875) + (-l,1375)(-8,875) + (-0,5375) x 3,125 + 0,3625 x (-0,875) + tnkio + 1,1625 x 10,125 + 1,5625 x 3,125 + 2,8625 x 16,125 = Z s u m u j w s z y s tk ie ta k ie > > l,0CZyny'
= 41,1328125 + 10,7953125 + 10,0953125 - 1,6796875 - 0,3171875 + 11,7703125 + 4,8828125 + + 46,1578125 = = 122,84 (z dokładnością do dwóch miejsc po przecinku)
jesteś tutaj ► 661
Znajdujemy wartość b — cd.
Obliczamy nachylenie linii najlepszego dopasowania (cd.)
Prow adzim y obliczenia według tego w zoru.
D la przypomnienia zamieszczamy ponownie nasz zbiór danych stanowiący podstawę do obliczeń:
x (n a s ło n e c z n ie n ie )
1,9
2,5
3,2
3,8
4,7
5,5
5,9
7,2
y (f r e k w e n c ja )
22
33
30
42
38
49
42
55
Jesteśmy już w połowie drogi do celu, jakim jest wyznaczenie wartości współczynnika b z równania: y = a = bx. Obliczyliśmy x = 4,3375 i y = 38,875, a także znaleźliśmy wartość licznika ze wzoru na b, równą: E(x-x)(y-y) = 122,84. Pozostało nam jedynie policzenie wartości mianownika, który m a postać: E(x-x)2. Oto zapis naszych obliczeń: £(x - x)2 (x - xP
I ( x - x ) (y - y) b = ------------------I ( x - x )2
D o0b' iCZSmu^mTeXnnaX.
wykorzys^my
bnie jak
L S n ^ v r t r ija dzielenie przez n
3375)2 + (2,5 - 4,3375)2 + (3,2 - 4,3375)2 + (3,8 - 4,3375)2 + (4,7 - 4,3375)2 + (5,5 - 4,3375)2 + ^5,9 - 4,3375)2^> (7,2 - 4,3375)2
(-2,4375)2 + (-1,8375)2 + (-1,1375)2 + (-0,5375)2 + (0,3625)2 + (1,1625)2 + (1,5625)2 + (2,8625)2 : Zauważ, że w tej części formuty nie = 23,02 (z dokładnością do dwóch miejsc po przecinku) My s tS.puje ani u, an' y. _ _ _ Teraz już możemy znaleźć wartość b, dzieląc E (x -x )(y -y ) przez E (x -x )2: b = 122,84/23,02 = 5,34
S' S B
B
s r -
Równanie naszej linii najlepszego dopasowania możemy już zapisać jako: y = a+5,32x. Co jednak z a? ii Nie.istnieią. N ie.istn ieja
głupie pytania ^ : Wydaje mi się, że podane tu formuły są przeznaczone dla danych z próby, a nie z populacji. Czy mam rację?
A co się stanie z wartością b, gdy zmienne x i y nie będą skorelowane?
0 : Nie, nie zawsze. Daje się tu zauważyć
0 : W tedy nadal będziesz m ógł wyznaczyć
pewien związek z korelacją. Jeśli zmienne x
linię najlepszego dopasowania do swoich
0 : Tak, to prawda. Posługiwaliśmy się
i y są skorelowane dodatnio, współczynnik
danych, choć nie będzie to najlepszy dla
oznaczeniami sugerującymi, że mamy
b jest dodatni, jeśli ujemnie — jest ujemny.
do czynienia z danymi z próby, ponieważ ta k wiaśnie jest w naszym przypadku. Gdybyś jednak chciał się posłużyć pełną
^ : Usłyszałem gdzieś termin „gradient”. Co to takiego?
informacją o populacji, nie ma problemu. Zamień tylko x na p .
nich model. Wartości teoretyczne zmiennej y uzyskane na tej postawie nie będą zbyt
0 : Współczynnik b określa się czasem
dokładne.
^ : Czy jest prostszy sposób na policzenie współczynnika b?
mianem gradientu. 0 : Liczenie b faktycznie nie jest łatwe, zwłaszcza jeśli Twój zbiór danych jest szczególnie duży. Zawsze jednak możesz się wspom óc odpowiednim oprogramowaniem,
662
Rozdział15.
które zrobi to za Ciebie.
Korelacja regresja
Znaleźliśmy b, ale co z a ? Potrafimy już policzyć optymalną — z punktu widzenia minimalizacji SKR — wartość współczynnika b z równania y = a+bx. N adal jednak nie wiemy nic na tem at a.
Linia najlepszego dopasowania przechodzi przez punkt (x, y). Z naszego punktu widzenia to bardzo dobrze, że linia najlepszego dopasowania przechodzi przez punkt (x, y), czyli punkt odpowiadający średniej obu zmiennych. Jeśli podstawimy te wartości do równania y = a+ bx, otrzymamy: y = a + bx lub też:
a = y - bx Ponieważ znamy już wartości x, y oraz b, możemy łatwo wyznaczyć wartość a, podstawiając je do powyższego wzoru:
a = 38,875 - 5,34 x 4,3375 =
Spokojnie
= 38,875-23,16225 = = 15,71 To oznacza, że linia najlepszego dopasowania regresji dana jest wzorem: y = 15,71 + 5,34x
Również i tego wzoru raczej nie m usisz pam iętać. N a sprawdzianie będzie on zwykle podany. Zawsze też będziesz mógł zajrzeć na tę stronę i przypomnieć go sobie.
jesteś tutaj ► 663
Metoda najmniejszych kwadratów z bliska ^ j m n ie j s z y c k k w ^ r ^ f o w z M is k ^ Sposób, w jaki poradziliśmy sobie z wyznaczeniem nieznanych wartości współczynników linii najlepszego dopasowania, nosi w statystyce nazwę metody najmniejszych kwadratów. Metoda najmniejszych kwadratów to jedno ze znanych matematykom narzędzi dopasowywania linii do danych pochodzących ze zbiorów dwuwymiarowych. Polega ona na takim dopasowaniu linii o równaniu y = a+ b x do danych empirycznych, aby zminimalizować sumę kwadratów błędów estymacji, czyli odchyleń wartości empirycznych od wartości teoretycznych, będących w pewnym sensie ich oszacowaniami. Suma kwadratów błędów estymacji dana jest wzorem:
S K R = I ( y - y )2 Celem tej procedury jest znalezienie oszacowań współczynników a i b, tak by wyznaczona linia o równaniu y = a+ b x minimalizowała wartość SKR. W arunek ten spełniają współczynniki wyznaczane według formuł:
I ( x - x ) (y - y) b = I ( x - x )2
a = y - bx x Po wyznaczeniu wartości współczynników a i b znalezioną linię najlepszego dopasowania m ożna wykorzystać do oszacowania teoretycznych wartości zmiennej zależnej (y) w oparciu o wartości zmiennej niezależnej (x). Wyznaczona w ten sposób linia nosi nazwę linii regresji.
y
-
\lwaqa\
..................................................................................................... Z a c h o w a j s z c z e g ó ln ą o s t r o ż n o ś ć , j e ś l i c h c e s z w y z n a c z y ć w a r t o ś c i t e o r e t y c z n e z m ie n n e j y d la t a k ie j w a r t o ś c i z m ie n n e j x , k tó ra z n a jd u je s i ę p o z a z a k r e s e m z m ie n n o ś c i te j z m ie n n e j w p ró b ie .
Linia regresji je s t sposobem na oszacowanie zależności liniowej między dwiema zm iennym i na podstawie informacji zawartej w pewnym zbiorze danych. Nie oznacza to jednak, że ta sama zależność m usi utrzymywać się w niezm ienionej postaci poza tym zbiorem.
664
Rozdział15.
Korelacja regresja _
*
Zaostrz ołówek Znamy już równanie linii regresji dla omawianego przykładu. Jak pamiętasz, ma ono postać: y = 15,71 + 5,34x gdzie x reprezentuje prognozowane nasłonecznienie w dniu koncertu (zmienną niezależną), a y — frekwencję na koncercie (zmienną zależną).
Prognozy pogody sprzed zaledwie paru minut mówią o tym, że w dniu koncertu stońce będzie świecić przez 6 godzin. Jakiej frekwencji można oczekiwać na koncercie?
Gdyby prognozowana frekwencja była niższa niż 3500 osób, organizatorzy musieliby odwołać imprezę ze względu na rachunek ekonomiczny. Przy jakiej prognozie pogody mogliby oni oczekiwać frekwencji na poziomie 3500 osób?
jesteś tutaj ► 665
Zaostrz ołówek: Rozwiązanie _
7nn^trz ołówek _____ Rozwiązanie Znamy już równanie linii regresji dla omawianego przykładu. Jak pamiętasz, ma ono postać: y = 15,71 + 5,34x gdzie x reprezentuje prognozowane nasłonecznienie w dniu koncertu (zmienną niezależną), a y — frekwencję na koncercie (zmienną zależną).
Prognozy pogody sprzed zaledwie paru minut mówią o tym, że w dniu koncertu słońce będzie świecić przez 6 godzin. Jakiej frekwencji można oczekiwać na koncercie? Ponieważ prognozowaną liczbą godzin nasłonecznienia oznaczyliśmy przez x, możemy zapisać: x = 6. A by odpowiedzieć na zadane pytanie, m usim y oszacować odpowiadającą tej wartości frekwencją na koncercie. Potrzebujem y wiąc wyznaczyć teoretyczną wartość zm iennej y dla x = 6: y = 15,71 + 5,34x = = 15,71 + 5 ,3 4 x « = = 15,71 + 32,04 =
= 47,75 Ponieważ y zdecydowaliśm y s ię wyrażać w setkach sz fu k , oczekiwana frekwencja na koncercie przy danej liczbie godzin nasłonecznienia wynosi 4775 osób.
Gdyby prognozowana frekwencja była niższa niż 3500 osób, organizatorzy musieliby odwołać imprezę ze względu na rachunek ekonomiczny. Przy jakiej prognozie pogody mogliby oni oczekiwać frekwencji na poziomie 3500 osób? Tym razem m usim y znaleźć wartość x dla podanej wartości y. Ponieważ minimalna frekwencja wynosi 3500 osób, zatem nasza wartość y wynosi 35. Stąd: y = 15,71 + 5,34x 35 = 15,71 + 5,34x 35 - 15,71 = 5,34x 19,29 = 5,34x
x = 1 9 ,2 9 /5 ,3 4 = = 3,61 (z dokładnością do dwóch m iejsc po przecinku)
M ożemy wiąc powiedzieć, że frekwencji na poziomie 3500 osób organizatorzy koncertu mogliby s ię spodziew ać przy nasłonecznieniu na poziomie 3,61 godziny w dniu imprezy.
666
Rozdział15.
Korelacja regresja
Znaleźliśmy związek między dwiema zmiennymi U dało nam się znaleźć związek między prognozowaną liczbą godzin nasłonecznienia w dniu koncertu a frekwencją publiczności. Dzięki tem u mogliśmy podać szacowaną liczbę uczestników, którzy powinni zjawić się na dzisiejszym koncercie, do czego wykorzystaliśmy informacje z aktualnej prognozy pogody. To oznacza, ze będziemy w stanie pom óc organizatorom koncertu odpowiedzieć na pytanie, czy opłaca się organizować koncert pod gołym niebem, które coraz bardziej przesłaniają chmury.
Choć wyznaczyliśmy linię najlepszego dopasowania, nie wiemy, na ile jest ono dobre. Linia o równaniu y = a+ b x o wartościach a i b znalezionych przy wykorzystaniu m etody najmniejszych kwadratów to najlepsze oszacowanie związku między zmiennymi x i y, jakiego mogliśmy dokonać. N a ile jest ono jednak prawidłowe? By się o tym przekonać, musimy ocenić siłę związku między wartościami teoretycznymi a empirycznymi. Najlepszą do tego celu m iarą byłby współczynnik pokazujący, jak bardzo dane empiryczne rozproszone są wokół linii prostej, która stanowi ich oszacowanie. Pozwalałby on ocenić, jaka jest precyzja tego typu szacunków. Spójrzmy na kilka przykładów.
WYSIL SZARE KOMÓRKI Jak sądzisz, dlaczego tak ważna jest znajomość precyzji oszacowań wartości teoretycznych? Jak inform acja na ten te m a t m ogłaby w płynąć na decyzję organizatorów o dalszych przygotow aniach do koncertu?
jesteś tutaj ► 667
Różne typy korelacji
Różne typy korelacji Linia najlepszego dopasowania, jak sama nazwa wskazuje, stanowi najlepszy model związku liniowego między dwiema zmiennymi, między którymi występuje korelacja. Choć jest to linia najlepiej dopasowana do danych empirycznych, należy się spodziewać, ze nie będzie ona przechodziła przez każdą wartość ze zbioru danych. Możemy mieć tu do czynienia z różnymi sytuacjami.
Dokładna korelacja liniowa W przypadku danych zaprezentowanych na rysunku obok mamy do czynienia z niemal idealnym dopasowaniem linii prostej do danych empirycznych. Choć nie przechodzi ona przez wszystkie punkty na wykresie, to jednak leży bardzo blisko nich. Możemy z dużym prawdopodobieństwem założyć, że szacunki y dokonane na tej podstawie będą precyzyjne.
Brak korelacji liniowej Jak tu Poprowadzić prostą?
Między zmiennymi uwidocznionymi na tym wykresie nie istnieje korelacja liniowa. N adal m ożna dopasować do nich linię prostą, stosując m etodę najmniejszych kwadratów, ale szacunki dokonane na jej podstawie będą raczej mało przydatne.
Czy rozumiesz, do czego zmierzamy? W przypadku obu zbiorów danych można wyznaczyć linię najlepszego dopasowania, choć różnią się one dość znacznie. W pierwszym przypadku to dopasowanie miałoby faktycznie sens, jednak w przypadku drugiego zbioru już nie — dane są tu zbyt rozproszone, by linia prosta stanowiła dobry m odel trendów w nich się kształtujących. Dlatego dopóki nie będziemy w stanie ocenić siły związku liniowego między zmiennymi (czy też jakości dopasowania linii prostej do danych empirycznych), powinniśmy dość ostrożnie formułować prognozy ich wartości. Pomóc nam w tym może m iara zwana współczynnikiem korelacji (liniowej).
668
Rozdział15.
Korelacja regresja
Współczynnik korelacji mierzy siłę związku między zmiennymi Współczynnik korelacji (liniowej) jest liczbą z przedziału od -1 do 1 (włącznie), która mierzy siłę związku między dwiema zmiennymi. Pozwala ocenić wielkość rozproszenia danych empirycznych wokół linii najlepszego dopasowania, a więc i jego jakość. Zwykle oznacza się go literą r. Jeśli r m a wartość -1 , mamy do czynienia z idealną korelacją ujem ną między zmiennymi (oczywiście mówimy tylko o związku liniowym). Gdy jest równy 1, między zmiennymi istnieje idealna korelacja dodatnia. W obu przypadkach dane empiryczne leżą w prost na linii najlepszego dopasowania. Gdy współczynnik ten przyjmuje wartość 0, świadczy o braku korelacji liniowej między zmiennymi.
A
X
A
X X
A
X
X X
X
X X
X X
X
* y.
r=-l
X
X
X
X X
X
r=0
r=l
Zwykle wartość r znajduje się gdzieś pomiędzy wartościami skrajnymi, czyli między -1 a 0 lub 0 a 1. U jem na wartość współczynnika r (z przedziału od -1 do 0) świadczy o istnieniu ujemnej korelacji liniowej między dwiema zmiennymi. Im r jest bliższe -1 , tym większa jest siła tego związku. W artości dodatnie współczynnika korelacji (z przedziału od 0 do 1) świadczą o istnieniu dodatniej korelacji liniowej między zmiennymi. Im bardziej wartość współczynnika zbliża się do 1, tym większa siła takiej zależności. Gdy wartości współczynnika oscylują w okolicach 0, korelacja liniowa prawie nie istnieje. Oznacza to, że linia regresji nie będzie stanowiła tak dobrego narzędzia predykcji (czyli prognozowania) wartości zmiennej y jak w sytuacji, gdy r jest bliskie 1 lub -1. Bliska 0 wartość współczynnika korelacji liniowej może świadczyć albo o przypadkowej (lub pozornej) zależności między zmiennymi, albo też wskazywać na istnienie związku, który nie m a charakteru liniowego. W artość współczynnika korelacji liniowej r obliczona dla naszego zbioru danych pom oże nam więc ocenić, na ile silny jest związek między prognozą nasłonecznienia w dniu koncertu a frekwencją na imprezie. Jak jednak policzyć tę wartość? Spójrz na następną stronę, a wszystkiego się dowiesz.
Jestem w spólctynnikiem ko re lacji lin io w ej r. M i e r t ę s ilę Lw iątku lin iow eg o m i ę d z y dwiema im ien nym i.
O o
r
Traktuj „r" jako skróf °o „relacji .
jesteś tutaj ► 669
Wyznaczamy współczynnik korelacji P o z n a j e m y w z ó r n a w a r t o ś ć w s p ó ł c z y n n i k a i* Jak policzyć wartość współczynnika korelacji r? Choć nie przedstawimy formalnego dowodu, to jednak możesz nam wierzyć na słowo, ze wartość współczynnika korelacji liniowej m ożna wyznaczyć ze wzoru:
bs r=— sy
zm iennej y.
gdzie sx jest obliczonym na podstawie próby odchyleniem standardowym zmiennej x, zaś s — odchyleniem standardowym zmiennej y. Rozumiem. W ykorzystam y w arto ść b do p o lic z e n ia r.
Najgorszą pracę już wykonaliśmy. Ponieważ znamy już wartość współczynnika nachylenia b, pozostaje nam wyznaczyć nieznane wartości sx i sy. N a szczęście jest to zadanie bardzo proste. Tym bardziej, że część informacji potrzebnych do wyznaczenia sx już mamy. Obliczając wartość współczynnika b, liczyliśmy sumę postaci: E (x -x )2. Zauważyliśmy wtedy, że po podzieleniu jej wartości przez n - 1 (gdzie n jest liczbą obserwacji w zbiorze danych) otrzymamy wariancję zmiennej x obliczoną na podstawie próby. Wyciągając pierwiastek kwadratowy z wariancji, otrzymamy interesujące nas odchylenie standardowe. Innymi słowy: To je s t odchylenie standardowe zmiennej x obliczom
^
« Wykorzystaliśmy
sam wzór co w rozdziale 11.
ix
/ z ( x - x )2
v ^
r
Pozostaje nam więc znaleźć wartość sy, czyli odchylenia standardowego zmiennej y w naszym zbiorze danych. Domyślasz się zapewne, że policzymy ją dokładnie w ten sam sposób co sx:
s.
I* (
y - y )2
. To je s t ten sam wzór co wyżej, tylko zapisany w kategoriach zm iennej y.
Spróbujmy zatem wyznaczyć wartość współczynnika r dla naszego zbioru danych.
670
Rozdział15.
Korelacja regresja
Obliczamy wartość i* dla naszego zbioru danych Wykorzystamy teraz poznaną formułę na wartość r do obliczenia współczynnika korelacji liniowej dla naszego zbioru danych. Oto one, celem przypomnienia:
x (n a s ło n e c z n ie n ie )
1,9
2,5
3,2
3,8
4,7
5,5
5,9
7,2
y (f r e k w e n c ja )
22
33
30
42
38
49
42
55
Aby znaleźć wartość r, musimy znać wartości: sx, s i b. Wiemy póki co, ze: b = 5 j3 4
W a rtość w spółczynnika nachylenia znaleźliśm y w cze śn ie j.
ale nie wiemy, ile wynoszą sx i sy. Zacznijmy więc od wyznaczenia sx. Wiemy już, ze E (x -x )2 = 23,02, i znamy rozm iar naszej próby — składa się ona z 8 obserwacji. Jeśli więc podzielimy 23,02 przez 7, otrzymamy — zgodnie ze wzorem na poprzedniej stronie — wariancję zmiennej x wyznaczoną z próby. Szukane odchylenie standardowe wyznaczymy, wyciągając z niej pierwiastek: sx = V23,02/7 = = V3,28857T= =
k
To je st odchylenie standardowe zmiennej x. P o n iew a ż nasz zb ió r
= 1,81 (z dokładnością do dwóch miejsc po przecinku)
n-l °
Możemy teraz przejść do obliczania wartości sy. Ponieważ wiemy już, że y = 38,875, możemy dokonać następujących rachunków: S(y - y)2 = (22 - 38,875)2 + (33 - 38,875)2 +(30 - 38,875)2 + (42 - 38,875)2 + (38 - 38,875)2 + + (49 - 38,875)2 + (42 - 38,875)2 + (55 - 38,875)2 = = (-16,875)2 + (-5,875)2 + (-8,875)2 + (3,125)2 + (-0,875)2 + (10,125)2 + (3,125)2 + (16,125)2 : = 780,875 (z dokładnością do trzech miejsc po przecinku) Dzieląc tę wartość przez n-1 i wyciągając z niej pierwiastek, dostaniemy szukaną wartość sy:
sy = V780,875/7 = __________
= V lll,5 5 3 5 7 =
,,
, .
¡ai.„ _ nr^bu
Wartości y w z ię te z próby . _______ w ykorzystujem y do po licze n ia s y, czyi --------------- odchylenia standardowego zm iennej y.
= 10,56 (z dokładnością do dwóch miejsc po przecinku) Pozostaje nam więc podstawić wszystkie trzy wartości: sx, sy i b do wzoru na r.
jesteś tutaj ► 671
Nie istniejq głupie pytania
Obliczamy wartość i* dla naszego zbioru danych (cd.) Wiedząc, ze b = 5,34, sx = 1,81 a sy = 10,56, możemy obliczyć ostatecznie wartość r, która wynosi: r = bsJsy = = 5,34x 1,81/10,56 = = 0,92 (z dokładnością do dwóch miejsc po przecinku) Obliczona wartość współczynnika korelacji r jest bardzo bliska 1, co dowodzi istnienia silnej korelacji liniowej między zmienną x (prognozą nasłonecznienia) i y (frekwencją na koncercie). Możemy więc oczekiwać, że prognoza frekwencji na dzisiejszym koncercie, wyznaczona na podstawie linii najlepszego dopasowania o równaniu y = 15,71 + 5,34x, będzie trafna. iN ie .is tn ie ia ,
głupie pytania ^ : Widziałem gdzieś inne wzory na liczenie współczynnika r. Czy były one błędne? 0 : Niekoniecznie. Wartość współczynnika korelacji można policzyć na wiele sposobów. Wszystkie dadzą ten sam wynik. M y zdecydowaliśmy się podać form ułę najprostszą, która pozwoliłaby nam wykorzystać Informacje, jakie już znamy.
^ : Czy uzyskane wyniki są wiarygodne, biorąc pod uwagę wielkość próby?
to, byś znał Interpretację obu param etrów i p o tra fił je policzyć.
0 : Tak, i tu ta j możemy mieć do czynienia z danymi odstającymi. Będą to te punkty
^ : Jakiej frekwencji powinniśmy oczekiwać, gdyby prognozowana liczba godzin słonecznych w dniu koncertu wynosiła O?
na wykresie rozrzutu, które leżą daleko od linii regresji. W takiej sytuacji możemy się spodziewać, że linia regresji, którą wyznaczymy z próby, będzie przesunięta w stosunku do „prawdziwej" linii regresji.
0 : Nie możemy odpowiedzieć na to pytanie z całą pewnością, ponieważ wartość 0 nie mieści się w zakresie zmienności x w próbie. Choć linia
^ : Słyszałem gdzieś określenie „obserwacje wpływowe”. Co ono znaczy?
najlepszego dopasowania dobrze modeluje zachowanie zmiennych w naszej próbie, nie
0 : Obserwacje w pływ ow e to punkty
jesteśmy w stanie powiedzieć, czy równie
odstające w kierunku równoległym do osi x.
0 : Oczywiście że wyniki uzyskane na
dobrze potrafi przewidywać wartości spoza
Ciągną one linię regresji w swoim kierunku.
podstawie większej próby byłyby bardziej
niej. M ogłoby się bowiem okazać, że kształt
wiarygodne. Zdecydowaliśmy się jednak
czy siła relacji miedzy zmiennymi uległy
na próbę ośmloelementową, by uprościć
zmianie, a zatem prognozy uzyskiwane
obliczenia.
za pomocą naszej krzywej mogłyby być błędne.
^ : Nie przedstawiliście wyprowadzenia wzoru na b i r. Dlaczego? 0 : Wyprowadzenie tych w zo rów nie jest łatwe. Wymaga czasu i sporej wiedzy. Dlatego postanowiliśmy nie zamieszczać Ich opisu w tej książce. Ważniejsze jest bowiem
672
Rozdział15.
^ : Czy więc nie są one tym samym co obserwacje nietypowe? 0 : Nie. Obserwacje nietypowe to wartości leżące w dużym oddaleniu
(P:
: W rozdziale o miarach tendencji centralnej zdefiniowaliście pojęcie obserwacji nietypowej. Czy w dwuwymiarowych zbiorach danych także występują obserwacje nietypowe?
od linii najlepszego dopasowania. Obserwacje w pływ ow e to wartości leżące w oddaleniu od
zbioru danych.
Korelacja regresja
Znów uratowałeś czyjąś skórę! Organizatorzy koncertu są pod wielkim wrażeniem Twoich umiejętności. Dzięki Twojej pomocy mogli podjąć bardziej obiektywną decyzję co do dalszych losów dzisiejszego koncertu. Wiedząc o potencjalnie dużym zainteresowaniu imprezą, nie zrezygnowali z planów jej zorganizowania, dzięki czemu zarobili sporo pieniędzy.
jesteś tutaj ► 673
Ćwiczenie ( lieco dłuższ< ) Ćwiczenie O (nieco dłuższe)
M
Złowrogi Doktor Zaraza postanowił zbadać wpływ, jaki wywiera promieniowanie radioaktywne na Kapitana Planetę. Oto zestawienie czasów ekspozycji Kapitana Planety na promieniowanie i odpowiadających im ciężarów, jakie był on w stanie udźwignąć. E k s p o z y c ja (w m in u ta c h )
4
4,5
5
5,5
6
6,5
7
U d ź w ig (w t o n a c h )
12
10
8
9,5
8
9
6
Korzystając z metody najmniejszych kwadratów, dopasuj do powyższych danych linię prostą, a następnie oblicz wartość współczynnika korelacji liniowej. Naszkicuj wykres rozrzutu. Jaki ciężar powinien unieść Kapitan Planeta, jeżeli czas ekspozycji na działanie promieniowania wyniesie 5 minut?
674
Rozdział15.
Korelacja regresja
, z '"
Z o staw iliśm y Ci w ięcej m iejsca n a niezbędne obliczenia.
jesteś tutaj ► 675
Ćwiczenie ( lieco dłuższi ): Rozwiązanie Ćwiczenie ć;(nieco dłuższe) Rozwiązanie
&
Złowrogi Doktor Zaraza postanowił zbadać wpływ, jaki wywiera promieniowanie radioaktywne na Kapitana Planetę. Oto zestawienie czasów ekspozycji Kapitana Planety na promieniowanie i odpowiadających im ciężarów, jakie był on w stanie udźwignąć. E k s p o z y c ja (w m in u ta c h )
4
4,5
5
5,5
6
6,5
7
U d ź w ig (w t o n a c h )
12
10
8
9,5
8
9
6
Korzystając z metody najmniejszych kwadratów, dopasuj do powyższych danych linię prostą, a następnie oblicz wartość współczynnika korelacji liniowej. Naszkicuj wykres rozrzutu. Jaki ciężar powinien unieść Kapitan Planeta, jeżeli czas ekspozycji na działanie promieniowania wyniesie 5 minut? Oznaczmy przez x czas ekspozycji na promieniowanie radioaktywne, a przez y — wynik uzyskany przez nasze go_ superbohatera. Ponieważ m usim y dopasować do danych linię o równaniu y =a+bx, zaczniem y od policzenia x i y. x = (4
+ 4,5 +5 + 5 ,5 + 6 +
6,5 + 7 )/7 =
= 3 8 ,5 /7 = = 5,5 i/ = (12 + 10 + 8 + 9,5 + 8 + 9 + 6 ) /7 = = 6 2 ,5 /7 = = 8,9 (z dokładnością do jednego m ie jsca po przecinku)
N astępnie policzymy 1 i x - x ) ( y - y ) , l i x - x Y oraz b. K x - xX y - y ) = ( 4 - 5 , 5 ) 0 2 - 8 , 9 ) + ( 4 , 5 - 5 , 5 ) 0 0 - 8 , 9 ) + ( 5 - 5 , 5 ) ( 8 - 8 ,9 ) + ( 5 ,5 - 5 ,5 ) ( 9 ,5 - 8 ,9 ) + + ( 6 - 5 , 5 ) ( 8 - 8 , 9 ) + ( 6 ,5 - 5 ,5 ) ( 9 - 8 ,9 ) + ( 7 - 5 ,5 ) ( 6 - 8 , 9 ) = = (-1 ,5 ) x 3,1 + (-1) x 1,1 + ( -0 ,5 )( - 0 ,9 ) = -4,6 5 - 1,1 + 0,45 + O - 0,45 + 0,1 =
+ 0 x 0 ,6 + 0 ,5 x (-0 ,9 ) t l x
0,1 + 1,5 x (-2 ,9 )
- 4,35 =
-10
K x - x ? = (4 -5 ,5 ? + (4 ,5 -5 ,5 ? + ( 5 - 5 ,5 ? + ( 5 ,5 - 5 ,5 ) 2 + ( 6 - 5 ,5 ? + (6 ,5 -5 ,5 ? + (7-5,5)? = = (-1,5? + (-1)2 + (-0,5)? + O2 + 0 ,5 2 + 12 + 1,52 = = 2 ,2 5 + 1 + 0 ,2 5 + O + 0 ,2 5 + 1 + 2 ,2 5 = = 7
t
K x - x )(y - y )
K x - x)2 = - 1 0 /7 = = -1,43 (z dokładnością do dwóch m iejsc po przecinku)
676
Rozdział15.
=
Korelacja regresja
Znając wartość b, x i y, możemy obliczyć a: a = y - bx = = 8 ,9 + 1,43 x 5,5 = = 8 ,9 + 7,865 = = 16,765
A zatem linia o najlepszym dopasowaniu do tych danych (minimalizująca SKR) dana j e s t równaniem: y = 16,765 - 1,43x. Współczynnik korelacji liniowej policzymy z e wzoru: r = b s / s , gdzie i s — zm iennej x i y w próbie. Ponieważ znam y b, m usim y policzyć s y i s y.
S =
to odchylenie standardowe — odpowiednio
K x - X)2 n - 1
=^/7/6 = = 1,08 =
K y - y f = (1 2 -8 ,9 )" + (1 0 -8 ,9 )" + ( 8 - 8 ,9 )" + ( 9 ,5 -8 ,9 )" + ( 8 - 8 ,9 )" + ( 9 - 8 ,9 )" + ( 6 - 8 ,9 )" = = 3,1" + 1,1" + (-0 ,9 )" + 0 ,6 " + (-0 ,9 )" + 0,1" + (-2 ,9 )" = = 9,61 + 1,21 + 0,81 + 0 ,3 6 + 0,81 + 0,01 + 8,41 = =
21,22
% - i/)2 n- 1 =V21,22/6 = =
1,88
Zbierając te wyniki, otrzymujemy:
r = bsx/sy = = -1,43 x 1 ,0 8 /1 ,8 8 = = -0 ,8 2 (z dokładnością do dwóch m iejsc po przecinku)
Dla x = 5 teoretyczną wartość y obliczymy następująco: y = 16,765 - 1,43x = = 16,765 - 1,43 x 5 = = 9,615
A zatem przy założeniu ekspozycji na promieniowanie trwającej 5 m inut powinniśmy oczekiwać, że nasz superbohater un iesie ciężar o m asie 9,615 tony.
jesteś tutaj >
677
Celne spostrzeżenia
CELNE SPOSTRZEŻENIA
■
Z jed n o w ym ia ro w ym i zbiorami
■
danych m am y do czynienia wtedy, gdy dysponujem y obserwacjami na te m a t pojedynczej cechy (zmiennej).
wzorem : E ( y - y ) 2. ■
najmniejszych kw a d ra tó w m ożna
do dw óch cech (zm iennych).
obliczyć ze wzoru:
Wykres rozrzutu służy wizualizacji dw u w ym ia ro w ych zb io ró w danych.
■
W artość współczynnika b oszacowaną z próby w oparciu o m etodę
Dane dw u w ym ia ro w e odnoszą się
■
Suma kw a d ra tó w reszt (SKR) jest dana
k _ £(x-x)(y-y) S(x-x)2
Korelacja to statystycznie potw ierdzony związek m iędzy zm iennym i. Nie oznacza to, że jedna zm ienna w yw iera w p ły w na drugą zmienną. Gdy związek ten ma
■
wzorem :
charakter liniowy, m am y do czynienia z korelacją liniową. ■
x odpow iadają niskie wartości zmiennej y (a wysokim w artościom zmiennej x — wysokie wartości zmiennej y). Z korelacją ujemną m am y do czynienia wtedy, gdy niskim w artościom zmiennej x odpow iadają wysokie wartości zmiennej y (I od w ro tn ie ). Jeśli wartości obu zmiennych zdają się układać w sposób całkowicie przypadkowy, nie Istnieje m iędzy nimi korelacja (liniowa). Linia prosta najlepiej dopasowana do danych ze zbioru nazywa się linią najlepszego dopasowania. ■
M etoda najmniejszych kw a d ra tó w pozwala znaleźć współczynniki llnll najlepszego dopasowania o postaci y = a + bx, m inim alizując sumę kw a d ra tó w reszt.
678
Rozdział15.
a = y - bx
Z korelacją dodatnią m am y do czynienia wtedy, gdy niskim w artościom zmiennej
■
W artość współczynnika a dana jest
■
W spółczynnik korelacji liniowej r to liczba z przedziału od -1 do 1, opisująca siłę (I kierunek) związku liniowego między zm iennym i. Jeśli r = -1, m am y do czynienia z Idealną korelacją ujemną, jeśli r = 1 — z Idealną korelacją dodatnią. Gdy r = 0 nie występuje korelacja liniowa m iędzy zm iennym i. W artość r m ożna obliczyć ze wzoru:
b sx
Korelacja regresja
Czas ruszać w dalszą drogę
Cieszymy się, ze zechciałeś odwiedzić nas w £tatsville! Szkoda, że już nas opuszczasz, ale rozumiemy, ze chciałbyś w ykorzystać
efekty naszej
wspólnej pracy w praktyce. Parę perełek znajdziesz rów nież w dalszej części książki. Przydadzą Ci się na pew no tablice z rozkładam i praw dopodobieństw a, a zamieszczony na końcu indeks ułatw i Ci odszukanie w książce niezbędnej inform acji. Pamiętaj, że znajomość statystyki się OPŁACA!
jesteś tutaj ► 679
680
Rozdział15.
Dodatek A Dodatek uzupełniający
Dziesięć najważniejszych rzeczy, które pominęliśmy
Choć powiedzieliśmy już wiele, parę rzeczy powinniśmy dopowiedzieć. Jest jeszcze kilka rzeczy, o których, naszym zdaniem, powinieneś wiedzieć. Byłoby trochę nie w porządku wobec Ciebie, gdybyśm y je całkowicie przemilczeli. Nie ma przy tym znaczenia, że są to naprawdę
sprawy,
które wymagają tylko krótkiej wzmianki.
to jest nowy rozdział ►
681
Wykresy punktowe oraz diagramy łodyga-liście
1. Inne techniki wizualizacji danych W rozdziale 1. pokazaliśmy Ci różne techniki wizualizacji danych. Poniżej omówimy kilka dodatkowych, które mogą Ci się przydać.
Wykresy punktowe Wykres punktow y prezentuje dane w postaci punktów (kropek). Każde wystąpienie w zbiorze danych określonej wartości odnotowywane jest na wykresie w postaci punktu (kropki) nad odpowiadającą tej wartości etykietą osi poziomej: dane ma\ą charakter ilościowy, w ykres te n przypom ina histo g ra m .
T
ić .
Każdy
oznacza jedno
7 s tX T J e dm ej ^
fości.
etyk ietą na osi poziomej.
*
^
0
1
2
3
4
5
Ś re d n io m ie s ię c z n a s p rze d a ż g ie r (w s z tu k a c h )
Diagram łodyga-liście Diagram łodyga-liście nadaje się do prezentacji danych liczbowych, zwłaszcza gdy jest ich niewiele. Pozwala on zaprezentować liczby całkowite w taki sposób, by przybliżyć ich rozkład w zbiorze danych. Jego ideę najlepiej prześledzić na przykładzie:
16 29 36 44
17 29 37 45
2223 30 31 37 38 4549
23 31 39 50
24 32 40 50
25 32 41 50
26 33 42 51
26 34 42 55
T° s
27 28 34 35 43 43 58 60
, A to w ykres todyga-liście 'd la tych danych.
60
0
Klucz: 10 | 6 = 16
50
0 0 0 15 8
40
0 12 2 3 3 4 5 5 9
30
0 1 12 2 3 4 4 5 6 7 7 89
20
2 3 34 5 66789 9
10
67
Przypomina on kształtem przewrócony histogram.
Liczby znajdujące się przed pionową linią tworzą tak zwaną łodygę, zaś umieszczone za nią to tak zwane liście. Łodygę tworzą wartości z wyjściowego zbioru danych, tyle że obcięte do dziesiątek. Każda z nich wymieniana jest tylko raz. Liście zawierają jednostki. Aby znaleźć na diagramie wartości z wyjściowego zbioru danych, należy połączyć łodygę z kolejnymi liśćmi. Weźmy na przykład linię: 10 | 6 7 Odpowiada ona wartościom 16 i 17 ze zbioru danych. „16” powstało przez dodanie łodygi „10” do liścia „6”. Podobnie z w artością 17. Ponieważ diagram tego typu m ożna sporządzić na wiele sposobów, zwykle towarzyszy mu wskazówka, jak odczytywać dane na nim przedstawione. Taką wskazówkę zamieściliśmy również na naszym diagramie.
682
Dodatek A
Dodatek uzupełniający
2 . Anatomia rozkładu prawdopodobieństwa Istnieją dwie bardzo użyteczne reguły, które mówią z grubsza o tym, jaki jest rozkład wartości w zbiorze danych.
Reguła empiryczna (dla rozkładu normalnego) Regułę empiryczną można stosować do każdego zbioru danych o rozkładzie normalnym. Mówi ona o tym, że niemal wszystkie wartości z takiego zbioru leżą w odległości trzech odchyleń standardowych od centrum rozkładu (tak zwana reguła trzech sigm). A dokładniej:
O
Około 68% wartości leży w granicach ±1 odchylenia standardowego od centrum rozkładu. i
\ \
68 %
-3 a
£
95 & 99.7%
-2 a
A
\
\
/ \
Około 99,7% wartości leży w granicach ±3 odchyleń standardowych od centrum rozkładu.
rv
.....
O
I
/
Około 95% wartości leży w granicach ±2 odchyleń standardowych od centrum rozkładu. I
O
7 V
i
-a
p
\ & --------- i— ^
2a
3a
Aby z grubsza wyobrazić sobie rozkład danych, wystarczy więc znajomość podstawowych param etrów rozkładu, takich jak wartość oczekiwana (lub średnia arytmetyczna, dla danych z próby) czy odchylenie standardowe.
Reguła Czebyszewa (dla dowolnego rozkładu) Podobna reguła, zwana regułą Czebyszewa (wynikająca z tak zwanej nierówności Czebyszewa), m a zastosowanie do danych o dowolnym rozkładzie. Mówi ona, że:
O
Co najmniej 75% wartości leży w granicach ±2 odchyleń standardowych od centrum rozkładu.
O
Co najmniej 89% wartości leży w granicach ±3 odchyleń standardowych od centrum rozkładu.
O
Co najmniej 94% wartości leży w granicach ±4 odchyleń standardowych od centrum rozkładu.
Reguła wynikająca z nierówności Czebyszewa jest mniej precyzyjna niż reguła empiryczna, ponieważ mówi tylko o odsetkach minimalnych. N adal jednak daje z grubsza wyobrażenie o rozkładzie danych. Jej zaletą jest zaś to, że m ożna ją stosować do danych o dowolnym rozkładzie, nie tylko normalnym.
jesteś tutaj ► 683
Przeprowadzamy eksperyment
2 . Eksperyment statystyczny Eksperym ent statystyczny m a na celu potwierdzenie (lub wykluczenie) związku przyczynowo-skutkowego między różnymi czynnikami. Taki eksperym ent moglibyśmy przeprowadzić na przykład w celu zbadania reakcji pacjentów cierpiących z powodu chrapania na różne dawki podawanego im leku. W eksperymencie sterujemy poziomami zmiennych niezależnych, badając ich wpływ na zmienne zależne. Gdybyśmy chcieli określić, na jak długo ustępują u pacjentów dolegliwości związane z chrapaniem po zażyciu różnych dawek preparatu SnoreCull, zmienną niezależną byłaby podana pacjentowi dawka leku, zaś zmienną zależną — liczba godzin bez objawów chrapania. Obiekty poddaw ane eksperymentowi nazywamy jednostkam i badania lub grupą eksperymentalną. W naszym przykładzie byliby to pacjenci, którym podaje się p reparat SnoreCull.
Co przesądza ojakości wyników? Projektując eksperyment, powinieneś przestrzegać kilku reguł, które pozwolą Ci otrzymać wiarygodne, nieobciążone błędami systematycznymi wyniki. Oto one:
Musisz zachować kontrolę nad czynnikami zewnętrznymi, które mogłyby wpłynąć na wartości zmiennych endogenicznych. Innymi słowy, musisz zadbać o to, by wpływ efektów zewnętrznych, nieistotnych z punktu widzenia celu badania, został zminimalizowany. Pomoże Ci w tym utworzenie tak zwanej grupy kontrolnej, to znaczy zbioru obiektów o tych samych charakterystykach co jednostki badania, których nie będziesz poddawał wpływowi analizowanych czynników (zmiennych niezależnych). Porównując wyniki uzyskane w próbie eksperymentalnej z wynikami dla grupy kontrolnej, będziesz w stanie ocenić zmiany, jakie w niej zaszły pod wpływem zmiennych niezależnych. Czasami w arto jest zbadać reakcję jednostek badania na tak zwany czynnik placebo. Nazywamy tak czynnik obojętny dla zmiennej zależnej. Chodzi o zidentyfikowanie przypadków wystąpienia pozornych efektów działania badanego (aktywnego) czynnika. Uzyskuje się to dzięki temu, że jednostka badana nie jest informowana o tym, czy podano jej czynnik aktywny, czy placebo. Mamy wtedy do czynienia z tak zwaną próbą ślepą. Jeśli i jednostki badane, i osoby prowadzące eksperyment nie są o tym informowane, mamy do czynienia z podwójnie ślepą próbą.
Przydział jednostek do grup porównawczych powinieneś przeprowadzać w sposób losowy. Więcej na ten tem at powiemy na następnej stronie.
Musisz zadbać o powtarzalność wyników. Badanie powinieneś przeprowadzać na większej grupie jednostek, a w miarę potrzeby przeprowadzić je kilkukrotnie. Musisz również zdawać sobie sprawę z istnienia czynników zakłócających. Ze zjawiskiem zakłócania mamy do czynienia wtedy, gdy nie uda się wyeliminować wpływu wszystkich czynników zewnętrznych na zmienną zależną. Wyobraźmy sobie, że podaliśmy pewną dawkę preparatu SnoreCull mężczyznom, a placebo kobietom i zapomnieliśmy o tym fakcie. Patrząc na wyniki badania, trudno będzie się wypowiedzieć na tem at skuteczności leku, ponieważ kobiety mają rzadziej problem y z chrapaniem niż mężczyźni. Płeć jest tu więc czynnikiem zakłócającym.
684
Dodatek A
Dodatek uzupełniający
Projektowanie badania Powiedzieliśmy przed chwilą, ze przydział jednostek do grup porównawczych powinien się odbywać w sposób losowy. Jak to najlepiej zrobić?
Randomizacja Jedną z opcji jest dobór czysto losowy (randomizacja). Już sama nazwa wskazuje, że wybór jednostek, które będą poddaw ane działaniu badanych czynników, odbywa się w sposób przypadkowy. Badając skuteczność preparatu SnoreCull, moglibyśmy dokonać losowego rozdziału jednostek do grupy eksperymentalnej i grupy placebo.
G ru p a
G ru p a
e k s p e r y m e n t a ln a
p la c e b o
500
500
r Gdybyśmy mieli zbiór 1000 osób, połowę z nich moglibyśmy przydzielić losowo do grupy eksperym entalnej, a połowie podać placebo. r
Randomizacja przypomina wybór próby losowej. Z am iast jednak losowego doboru elementów populacji do próby mamy do czynienia z losowym rozdziałem badanych jednostek do grup porównawczych.
Randomizacja blokowa Kolejną opcją jest tak zwana randomizacja blokowa. Polega ona na podziale badanych obiektów na jednorodne grupy, tak zwane bloki. Badając skuteczność preparatu SnoreCull, moglibyśmy podzielić pacjentów zakwalifikowanych do badania na dwie grupy według płci. W ramach każdego bloku losowo rozdzielalibyśmy jednostki do grup porównawczych. Celem takiego działania byłaby oczywiście eliminacja wpływu czynnika zakłócającego, jakim jest płeć badanej jednostki.
G ru p a
G ru p a
e k s p e r y m e n t a ln a
p la c e b o
K o b ie ty
250
250
M ężczyźni
250
250
T Gdybyśmy mieli zbiór 5 0 0 kobiet I 5 0 0 m ężczyzn, połowę z nich moglibyśmy przydzielić losowo do grupy eksperym entalnej, a połowie podać placebo.
Randomizacja blokowa przypomina dobór próby według schem atu losowania warstwowego. Podział na grupy dotyczy jednak nie całej populacji, a badanych jednostek.
Parowanie Rozdział param i (parowanie) jest szczególnym przypadkiem randomizacji blokowej. M ożna go stosować wtedy, gdy jednostki badania da się połączyć w pary, i tylko wtedy, gdy mamy do czynienia z dwoma grupami porównawczymi. N a przykład pacjentów, na których testowalibyśmy skuteczność SnoreCull, moglibyśmy dobrać param i na podstawie informacji o płci i wieku. Każdej jednostce z danej pary podawalibyśmy albo czynnik aktywny, albo placebo.
G ru p a
G ru p a
e k s p e r y m e n t a ln a
p la c e b o
M ężczyzna 30
1
1
M ężczyzna 30
1
1
K o b ie t a 3 0
1
1
K o b ie t a 3 0
1
1
... ,
.
r
tą c z e m e jednostek w pary wedłuq płci
z ^ t y M u 3' ^
My elirninou' ać O c e n i a
jesteś tutaj ► 685
Metoda najmniejszych kwadratów napisana inaczej 4 . Metoda najmniejszych kwadratów w notacji alternatywnej W rozdziale 15. wykreśliliśmy linię regresji o równaniu: y = a+bx, przy czym wartość param etru b oszacowaliśmy za pom ocą wzoru: , — To je s t
E(x - x)(y - y)
y = a + bx
wzór
nachylenie Unii re g re sji
b = E(x - x)2
Uzyskaliśmy go w wyniku zastosowania metody najmniejszych kwadratów. M ożna go zapisać w nieco innej postaci, przez niektórych uważanej za łatwiejszą do zapam iętania. Korzystając z poniższych zależności:
Z(x - x)2 s x2 =
n- 1
S .2 = imiennej y
y
Ę(y - y) 2 n-1
Z(x - x)(y - y) s xy =
możemy zapisać b w postaci wzoru:
S'xy xy b = ---sx Podobnie możemy postąpić ze wzorem na współczynnik korelacji liniowej. Zam iast formuły:
Wykorzystane wyżej param etry sx i sy to znane nam już dobrze odchylenia standardow e z próby — odpowiednio — zmiennej x i y. s to tak zwana kowariancja. Podobnie jak ss opisuje rozrzut wartości zmiennej x w próbie, a sy — rozrzut wartości zmiennej y w próbie, tak s opisuje związek między zmiennością x i y w próbie.
686
Dodatek A
n-1
Dodatek uzupełniający 5 .
W s p ó łc z y n n ik d e t e r m in a c ji
Współczynnik determinacji, oznaczany symbolem R2, to liczba (zwykle w ujęciu procentowym) określająca, jaka część zmienności zmiennej objaśnianej (y) została wyjaśniona przez zmienność zmiennej objaśniającej (x) w modelu regresji liniowej. Moglibyśmy go wykorzystać w omawianym w rozdziale 15. przykładzie, by ocenić, w jakim stopniu zmienność frekwencji na koncercie zaobserwowana w próbie została objaśniona zmiennością prognozowanych godzin nasłonecznienia.
y 60 r R2 mówi o tym, w jakim stopniu zmienność frekwencji na koncercie zaobserwowana w próbie zostata objaśniona zmiennością prognozowanych godzin nasłonecznienia.
o n 4* 0)
w
0
1
2
3
4
5
6
7
8
n a s ło n e c z n ie n ie (w g o d z in a c h ) x Gdy R 2 = 0, oznacza to, ze zmienna x nie nadaje się do przewidywania wartości zmiennej y. Gdy R 2 = 1, zm ienna x pozwala bezbłędnie przewidzieć wartości zmiennej y. W większości przypadków współczynnik determinacji przyjmuje wartość pomiędzy 0 a 1. Im jest ona bliższa 1, tym lepsza jest jakość modelu regresji i większa jego moc predykcyjna. Oznacza to, ze zmienna x może być z powodzeniem wykorzystywana do przewidywania teoretycznych wartości zmiennej y. Im wartość R 2 jest bliższa 0, tym to przybliżenie będzie gorsze.
Obliczanie R2 W artość współczynnika determinacji można wyznaczyć według dwóch formuł. Pierwsza wykorzystuje definicje współczynników sx, sy, i s podane na poprzedniej stronie:
2
J e s t to po prostu kwadrat _ k
współczynnika korelacji.
p r2
-
( — Vs x V )
Druga, równoważna form uła wykorzystuje definicję reszt z rozdziału 15. Sumę kwadratów reszt dzielimy tu przez sumę kwadratów odchyleń wartości zmiennej y od jej średniej:
r2 - z (y - y) 2 z (y - y )
/
jeo i
—
S — tylko zapisany inaczej.
jesteś tutaj ► 687
Zależności nieliniowe między dwiema zmiennymi 6
. Zależności nieliniowe
Zależności między zmiennymi nie ograniczają się do związków liniowych. Poniższe rysunki przedstawiają trzy wykresy rozrzutu, z których łatwo m ożna odczytać, że między zmiennymi x i y istnieje jakiś związek, który jednak nie m a charakteru związku liniowego:
M odel regresji liniowej, jak wskazuje jego nazwa, zakłada istnienie między zmiennymi związku o charakterze liniowym. Dlatego tym razem próba dopasowania do danych linii o równaniu y = a+ bx za pom ocą metody najmniejszych kwadratów może nie być najlepszym pomysłem. Czasami jednak da się ten problem dość łatwo obejść. Wystarczy odpowiednio przekształcić zmienne x i y, tak by między nowymi zmiennymi istniała zależność w przybliżeniu liniowa. W tedy zastosowanie metody najmniejszych kwadratów do oszacowania współczynników a i b będzie miało sens. Otrzymamy w wyniku równanie o postaci: y' = a + bx' gdzie y’ i x’ są pewnymi funkcjami wyjściowych zmiennych. N a przykład analizując wykres rozrzutu, moglibyśmy znaleźć zależność między zmiennymi o następującej postaci: y = l/(a + bx)
jeśli linia najlepszego dopasowania nie jest linię prostf, możesz j| niekiedy przekształcić do postaci liniowej.
Ponieważ możemy zapisać ją równoważnie jako: ^
i/y = a + bx
Równanie to ma ^ p o s t a ć :
^ najm niejszych K w a d r a t u
to po podstawieniu y’ = l/y uzyskamy równanie linii prostej: y’ = a+bx, którego . j / współczynniki a i b możemy już przybliżyć m etodą najmniejszych kwadratów. Wystarczy je ie następnie podstawić (bez żadnych dodatkowych zmian) do wyjściowego równania.
688
Dodatek A
To iedunie krótki z a rys tego L JS n l a . byś mócjt sobie w yobrazić,
cz!/m t0 P
9
Dodatek uzupełniający
7 . Przedział ufności dla współczynnika nachylenia prostej regresji W rozdziale 12. nauczyliśmy się konstruować przedziały ufności dla p aram etró w ^ oraz p. Nie są to jedyne param etry, dla których m ożna wyznaczyć przedział ufności. M ożna to zrobić chociażby dla współczynnika b z linii regresji y = a+bx. Przyjmie on postać: b ± (margines błędu) Ile zatem wynosi margines błędu?
Margines błędu dla współczynnika b Margines błędu dla współczynnika b dany jest wzorem:
(m a r g in e s b łę d u ) = t( v ) x (ś r e d n i b łą d s z a c u n k u b) gdzie v = n - 2 , a n jest liczbą obserwacji w próbie. W artość t(v) odczytamy z tablic rozkładu t-Studenta dla v stopni swobody i odpowiedniego poziomu ufności. Średni błąd szacunku b dany jest wzorem:
Spok ojn ie................... bh d szacunku Współczynnika regresji b.
G d y będziesz
Ę(y - y)2 n-2
To j e s t średni
S b =
p is a ł te s t ze z n a jo m o ś c i s ta ty s ty k i, fo rm u łę n a sb b ędziesz m ia ł p o d a n ą .
VZ(x - x)2
Aby go wyznaczyć, musimy podzielić sumę kwadratów reszt (odchyleń wartości empirycznych y od wartości teoretycznych) przez n - 2 , a następnie z tego ilorazu wyciągnąć pierwiastek. W artość tę wystarczy następnie podzielić przez pierwiastek z sumy kwadratów odchyleń wartości x od jej średniej z próby. Uzyskamy w efekcie przedział ufności dany wzorem:
Raczej nie musisz jej pam iętać. Wystarczy, że będziesz wiedział, jak ją stosować.
rozkfacłu
swobody
(b - t(v) S b, b + t(v) S b)
v = n-2
Znajomość błędu standardowego współczynnika b m a jeszcze jedną zaletę. M ożna by go wykorzystać w teście hipotezy, że współczynnik ten przyjmuje określoną wartość.
jesteś tutaj ► 689
Rozkłady z próby innych zmiennych
£ . Rozkłady z próby — różnica między dwiema średnimi Czasami przydaje się znajomość rozkładu z próby różnicy estymatorów wartości oczekiwanych w dwóch populacjach o rozkładzie normalnym. N a przykład do konstrukcji przedziałów ufności czy do weryfikacji hipotez. Znajomość tego rozkładu mogłaby się przydać na przykład do przetestowania hipotezy o równości wartości oczekiwanych w dwóch populacjach. Jeśli X ~ N (ux, ctx2), Y ~ N(,Uy a y2), a przy tym zmienne X i Y są niezależne, to wartość oczekiwana i wariancja rozkładu różnicy X - Y dane są wzorami:
_
_
_
—
—
Jest tak dlatego, że E(X - Y) = E(X) - E(Y)
E(X - Y) = Mx - My _ _ CTx2 CT2 Var(X - Y) = — + — nx y n
podobnle: Yer(X - Y> =VWX>
Gdy wariancje obu populacji ctx2 i a y2 są znane^jozkład różnicy zmiennych X - Y jest normalny, to znaczy:
_ _ / CT 2 CT 2 \ X - Y ~ N( Mx - My , — + ) \ nx y n / Informację tę moglibyśmy wykorzystać na przykład do konstrukcji przedziału ufności dla X - Y. Ponieważ konstruuje się je według ogólnej zasady: (ocena param etru) ± (margines błędu), możemy zapisać:
-------- _ ---- _
^To jest P f ef iafy
x - y ± cVvar(X - Y) W artość c zależy od poziomu ufności przyjętego przy konstrukcji przedziału:
P o zio m u f n o ś c i
W a rto ść c
90%
1,64
95%
1,96
99%
2,58
G d y w a r i a n c je o b u p o p u la c ji o x2 i o y2 n ie s ą z n a n e , t r z e b a j e p r z y b l i ż y ć w a r t o ś c ia m i z p r ó b y : sx2 i sy2. G d y j e s t o n a o d p o w i e d n io li c z n a , r o z k ł a d X - Y j e s t n a d a l n o r m a ln y . P r z y m a łe j p r ó b i e r ó ż n i c a t a m a r o z k ł a d t - S tu d e n t a .
690
Dodatek A
* Var
Dodatek uzupełniający
9 . Rozkłady z próby — różnica między wskaźnikami struktury P o d a m y r ó w n ie ż r o z k ł a d z m ie n n e j b ę d ą c e j r ó ż n i c ą e s t y m a t o r ó w w s k a ź n ik ó w s t r u k t u r y w d w ó c h p o p u la c ja c h o r o z k ł a d z i e d w u m ia n o w y m . R ó w n ie ż t ę in f o r m a c ję m o ż n a w y k o r z y s t a ć d o k o n s t r u k c ji p r z e d z ia ł ó w u f n o ś c i c z y w e r y f i k a c j i h ip o t e z , n a p r z y k ł a d o r ó w n o ś c i d w ó c h w s k a ź n ik ó w s t r u k t u r y w p o p u la c ja c h . J e ś li X ~ B ( n x, p x) , Y ~ B ( n y, p y) , a p r z y t y m z m ie n n e X i Y s ą n ie z a le ż n e , t o w a r t o ś ć o c z e k iw a n a i w a r i a n c ja r o z k ł a d u r ó ż n i c y P x - P y d a n e s ą w z o r a m i: Tak ja k poprzednio, E(PX~ P.) ~ K PJ
^
J
E(P \ x - Py/) = rpx - rpy Px ^ x Py ^ y^T Var(P x - Py ) = — +
VaKPx - Py) = Var
J e ś li z a r ó w n o n p , j a k i n q s ą w ię k s z e o d 5^ r o z k ł a d r ó ż n i c y P x - P y m o ż n a p r z y b liż y ć r o z k ła d e m n o r m a ln y m :
P - P ~ N ( P x - Py, P^ + Pyq y ) x y V x y nx y n / I n f o r m a c ję t ę m o ż n a w y k o r z y s t a ć d o s t w o r z e n ia p r z e d z ia ł u u f n o ś c i d la P x - P y. P o n ie w a ż k o n s t r u u je s ię je w e d łu g o g ó ln e j z a s a d y : ( o c e n a p a r a m e t r u ) ± ( m a r g in e s b łę d u ) , m o ż e m y z a p is a ć : ,------------------------------------
To je s t p rze d zia t ufności
Px - Py ± cVVar(P x - Py ) W a r t o ś ć c z a le ż y o d p o z i o m u u f n o ś c i p r z y ję t e g o p r z y k o n s t r u k c ji p r z e d z ia łu . M o ż n a t u z a s t o s o w a ć w a r t o ś c i z t a b e lk i z a m ie s z c z o n e j n a p o p r z e d n ie j s tr o n ie .
Spokojnie.......................................................................... , 1^. ił 1 /
J
Gdybyś na egzaminie ze statystyki m usiał korzystać z inform acji o rozkładzie z próby różnicy estymatorów wartości oczekiwanych bądź wskaźników struktury populacji, wzór n a w ariancję estym atora będziesz m iał podany w treści zadania. N i e m u s is z g o w ię c p a m ię t a ć . P a m ię t a j je d y n i e , ja k ą m a in t e r p r e t a c ję i d o c z e g o s ię g o s to s u je .
jesteś tutaj >
691
E(X) Var(X) dlc zmiennych ciqgiych
10. E(X) i Vai-(X) dla zmiennych ciągłych Kiedy wyznaczaliśmy wartość oczekiwaną i wariancję dla zmiennych losowych o rozkładzie dyskretnym, korzystaliśmy ze wzorów: E(X ) = ExP(X = x) Var(X ) = Ex2P(X = x) - E 2(X)
W przypadku zmiennych o rozkładzie ciągłym wartości te wyznacza się z wykorzystaniem informacji o polach powierzchni zawartych pod wykresami pewnych funkcji. Załóżmy na przykład, ze mamy do czynienia ze zmienną o rozkładzie, którego funkcja gęstości m a następującą postać:
f(x) = 0,05
f(x ) ----
O s x £ 20
A
/*
gęstości
0,05 7 e s t to ta k zw any rozkfad je d nostajny (rów nom ierny), Ł w a ż f(x) ma s ta le tę sa m ą w a rto ś ć w obszarze zm ienności X.
X
20
Znajdujemy E(X)
• M nożym y x Przez w a rto ść fu n kcji
gęstości; o trzym u ją c
Aby znaleźć wartość oczekiwaną zmiennej X, musimy obliczyć pole powierzchni zawartej pod wykresem funkcji xf(x) dla wszystkich x z przedziału zmienności X. W naszym przypadku jest to linia 0,05x, dla x z przedziału od 0 do 20:
x f(x ) pole tego obszaru
20
692
Dodatek A
x
je s t równe E(X).
Dodatek uzupełniający
Spokojnie............................. Raczej nieczęsto będziesz m usiał liczyć wartość oczekiwaną i w ariancję zmiennej o rozkładzie ciągłym.
Znajdujemy Vaf(X) Aby znaleźć wariancję zmiennej X, musimy obliczyć pole powierzchni zawartej pod wykresem funkcji x2f(x) dla wszystkich x z przedziału zmienności X, a następnie odjąć E2(X). W naszym przypadku musimy więc policzyć pole powierzchni pod krzywą 0,05x2 i pomniejszyć je o kwadrat obliczonej wcześniej E(X).
W większości zastosowań będziesz się spotykał z rozkładem normalnym, dla którego wartości tych param etrów są znane (lub łatwe do policzenia).
N a zakończenie dodamy, ze wartość oczekiwaną i wariancję dla zmiennej ciągłej można zawsze wyznaczyć z poniższych — ogólnych — wzorów:
E(X) = jxf(x)dx
O bliczanie war] ° ^ e ^ s o w e j o ciągtym
ca tek.
Var(X) = jx 2f(x)dx - E2(X) całkując po całym obszarze zmienności X.
|^—
[Uwaga działu m arke tin g u : J u ż niedtugo kolejna książka z te j s e rii, pośw ięcona ta kim zagadnieniom .!
Podstawowe terminy Rozktad jednostajny (równomierny) Dla zm iennej X o rozkładzie jednostajnym prawdziwe s ą zależności: f(x) = 1 / ( b - a ) , gdzie a
jesteś tutaj ► 693
694
Dodatek A
Dodatek B Tablice statystyczne
Czasem trzeba coś sprawdzić
^
Co byśmy poczęli bez poczciwych tablic statystycznych? Nie wystarczy znać zastosowanie poszczególnych rozkładów. Bardzo często trzeba coś policzyć. Dobrze jest mieć w te d y pod ręką tablice statystyczne, zawierające standardow e p raw do po do bień stw a dla typ o w ych rozkładów. Dlatego ten dodatek prezentuje tablice dla rozkładów : norm alnego, t-S tu d e n ta i %2.
to jest nowy rozdział ►
695
Tablice rozkładu normalnego 1.
Standaryzowany rozkład normalny
W poniższej tablicy zestawiono wartości prawdopodobieństw zdarzeń typu P (Z < z) dla Z ~ N ( 0 ,1). Aby je wyznaczyć, wystarczy odszukać wartość z z dokładnością do dwóch miejsc po przecinku w nagłówkach wierszy i kolumn i odczytać odpowiadającą im jej wartość ze środka tablicy. Znajdź wartość wśród nagtówków . w ierszy i kolum n
...a n a stę p n ie odczytaj prawdopodobieństwo w ew n ą trz
A '
tab.
z
0 ,0 0
0,01
0 ,0 2
0 ,0 3
0 ,0 4
0 ,0 5
0 ,0 6
0 ,0 7
0 ,0 8
0 ,0 9
- 3 ,4
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0003
0,0002
- 3 ,3
0,0005
0,0005
0,0005
0,0004
0,0004
0,0004
0,0004
0,0004
0,0004
0,0003
- 3 ,2
0,0007
0,0007
0,0006
0,0006
0,0006
0,0006
0,0006
0,0005
0,0005
0,0005
-3 ,1
0, 0010
0,0009
0,0009
0,0009
0,0008
0,0008
0,0008
0,0008
0,0007
0,0007
- 3 ,0
0,0013
0,0013
0,0013
0,0012
0,0012
0,0011
0,0011
0,0011
0,0010
0,0010
- 2 ,9
0,0019
0,0018
0,0018
0,0017
0,0016
0,0016
0,0015
0,0015
0,0014
0,0014
- 2 ,8
0,0026
0,0025
0,0024
0,0023
0,0023
0,0022
0,0021
0,0021
0,0020
0,0019
- 2 ,7
0,0035
0,0034
0,0033
0,0032
0,0031
0,0030
0,0029
0,0028
0,0027
0,0026
- 2 ,6
0,0047
0,0045
0,0044
0,0043
0,0041
0,0040
0,0039
0,0038
0,0037
0,0036
- 2 ,5
0,0062
0,0060
0,0059
0,0057
0,0055
0,0054
0,0052
0,0051
0,0049
0,0048
- 2 ,4
0,0082
0,0080
0,0078
0,0075
0,0073
0,0071
0,0069
0,0068
0,0066
0,0064
-2 ,3
0,0107
0,0104
0,0102
0,0099
0,0096
0,0094
0,0091
0,0089
0,0087
0,0084
- 2 ,2
0,0139
0,0136
0,0132
0,0129
0,0125
0,0122
0,0119
0,0116
0,0113
0,0110
-2 ,1
0,0179
0,0174
0,0170
0,0166
0,0162
0,0158
0,0154
0,0150
0,0146
0,0143
- 2 ,0
0,0228
0,0222
0,0217
0,0212
0,0207
0,0202
0,0197
0,0192
0,0188
0,0183
- 1 ,9
0,0287
0,0281
0,0274
0,0268
0,0262
0,0256
0,0250
0,0244
0,0239
0,0233
- 1 ,8
0,0359
0,0351
0,0344
0,0336
0,0329
0,0322
0,0314
0,0307
0,0301
0,0294
- 1 ,7
0,0446
0,0436
0,0427
0,0418
0,0409
0,0401
0,0392
0,0384
0,0375
0,0367
- 1 ,6
0,0548
0,0537
0,0526
0,0516
0,0505
0,0495
0,0485
0,0475
0,0465
0,0455
- 1 ,5
0,0668
0,0655
0,0643
0,0630
0,0618
0,0606
0,0594
0,0582
0,0571
0,0559
- 1 ,4
0,0808
0,0793
0,0778
0,0764
0,0749
0,0735
0,0721
0,0708
0,0694
0,0681
-1 ,3
0,0968
0,0951
0,0934
0,0918
0,0901
0,0885
0,0869
0,0853
0,0838
0,0823
- 1 ,2
0,1151
0,1131
0,1112
0,1093
0,1075
0,1056
0,1038
0,1020
0,1003
0,0985
-1 ,1
0,1357
0,1335
0,1314
0,1292
0,1271
0,1251
0,1230
0,1210
0,1190
0,1170
-1 ,0
0,1587
0,1562
0,1539
0,1515
0,1492
0,1469
0,1446
0,1423
0,1401
0,1379
- 0 ,9
0,1841
0,1814
0,1788
0,1762
0,1736
0,1711
0,1685
0,1660
0,1635
0,1611
- 0 ,8
0,2119
0,2090
0,2061
0,2033
0,2005
0,1977
0,1949
0,1922
0,1894
0,1867 0,2148
- 0 ,7
0,2420
0,2389
0,2358
0,2327
0,2296
0,2266
0,2236
0,2206
0,2177
- 0 ,6
0,2743
0,2709
0,2676
0,2643
0,2611
0,2578
0,2546
0,2514
0,2483
0,2451
- 0 ,5
0,3085
0,3050
0,3015
0,2981
0,2946
0,2912
0,2877
0,2843
0,2810
0,2776
- 0 ,4
0,3446
0,3409
0,3372
0,3336
0,3300
0,3264
0,3228
0,3192
0,3156
0,3121
-0 ,3
0,3821
0,3783
0,3745
0,3707
0,3669
0,3632
0,3594
0,3557
0,3520
0,3483
- 0 ,2
0,4207
0,4168
0,4129
0,4090
0,4052
0,4013
0,3974
0,3936
0,3897
0,3859
- 0,1
0,4602
0,4562
0,4522
0,4483
0,4443
0,4404
0,4364
0,4325
0,4286
0,4247
- 0 ,0
0,5000
0,4960
0,4920
0,4880
0,4840
0,4801
0,4761
0,4721
0,4681
0,4641
696
Dodatek B
/
To są. prawdopodobieństwa p(Z
Tablice tatystyczne 1.
Standaryzowany rozkład normalny (cd.) P(Z
To są prawdopodobieństwa
p(Z< z) dla dodatnich z.
z
0 ,0 0
0,01
0 ,0 2
0 ,0 3
0 ,0 4
0 ,0 5
0 ,0 6
0 ,0 7
0 ,0 8
0 ,0 9
0 ,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239
0,5279
0,5319
0,5359
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,5714
0,5753
0 ,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026
0,6064
0,6103
0,6141
0 ,3
0, 6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,6480
0,6517
0 ,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772
0,6808
0,6844
0,6879
0 ,5
0, 6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,7190
0,7224
0 ,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0 ,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
0 ,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,8106
0,8133
0 ,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
0,8365
0,8389
1 ,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
0,8621
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
0,8810
0,8830
1 ,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
0,8997
0,9015
1 ,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
1 ,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
1 ,5
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
1 ,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
1 ,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
1 ,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
1 ,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
0,9761
0,9767
2 ,0
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
2,1
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846
0,9850
0,9854
0,9857
2 ,2
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,9890
2 ,3
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
2 ,4
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
2 ,5
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
2 ,6
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9961
0,9962
0,9963
0,9964 0,9974
2 ,7
0,9965
0,9966
0,9967
0,9968
0,9969
0,9970
0,9971
0,9972
0,9973
2 ,8
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979
0,9979
0,9980
0,9981
2 ,9
0,9981
0,9982
0,9982
0,9983
0,9984
0,9984
0,9985
0,9985
0,9986
0,9986
3 ,0
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989
0,9989
0,9990
0,9990
3,1
0,9990
0,9991
0,9991
0,9991
0,9992
0,9992
0,9992
0,9992
0,9993
0,9993 0,9995
3 ,2
0,9993
0,9993
0,9994
0,9994
0,9994
0,9994
0,9994
0,9995
0,9995
3 ,3
0,9995
0,9995
0,9995
0,9996
0,9996
0,9996
0,9996
0,9996
0,9996
0,9997
3 ,4
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9998
jesteś tutaj ► 697
Tablice rozkładu t-Studenta 2
A
. Wartości krytyczne rozkładu t-S tudenta
Poniższa tablica zawiera wartości t, dla których P(T > t) = p. T oznacza zmienną losową 0 rozkładzie t-Studenta z v stopniami swobody. D la podanych w nagłówkach wartości v 1 p wewnątrz tablicy zamieszczono t.
\
/ /
l\
P(T>t) J
...o d szu ka j p w nagłówka ko/umn...
•O d szu kaj v w nagłówku w ie rszy...
t
P ra w d o P o d o b ie ń s tw o P II
“ f V
0 ,2 5
0 ,2 0
0 ,1 5
0 ,1 0
0 ,0 5
0 ,0 2 5
0 ,0 2
0,01
0 ,0 0 5
0 ,0 0 2 5
0,00 1
0 ,0 0 0 5
1
1,000
1,376
1,963
3,078
6,314
12,71
15,89
31,82
63,66
127,3
318,3
636,6
2
0,816
1,061
1,386
1,886
2,920
4,303
4,849
6,965
9,925
14,09
22,33
31,60
3
0,765
0,978
1,250
1,638
2,353
3,182
3,482
4,541
5,841
7,453
10,21
12,92
4
0,741
0,941
1,190
1,533
2,132
2,776
2,999
3,747
4,604
5,598
7,173
8,610
5
0,727
0,920
1,156
1,476
2,015
2,571
2,757
3,365
4,032
4,773
5,893
6,869
6
0,718
0,906
1,134
1,440
1,943
2,447
2,612
3,143
3,707
4,317
5,208
5,959
7
0,711
0,896
1,119
1,415
1,895
2,365
2,517
2,998
3,499
4,029
4,785
5,408
8
0,706
0,889
1,108
1,397
1,860
2,306
2,449
2,896
3,355
3,833
4,501
5,041
9
0,703
0,883
1,100
1,383
1,833
2,262
2,398
2,821
3,250
3,690
4,297
4,781
10
0,700
0,879
1,093
1,372
1,812
2,228
2,359
2,764
3,169
3,581
4,144
4,587
11
0,697
0,876
1,088
1,363
1,796
2,201
2,328
2,718
3,106
3,497
4,025
4,437
12
0,695
0,873
1,083
1,356
1,782
2,179
2,303
2,681
3,055
3,428
3,930
4,318
13
0,694
0,870
1,079
1,350
1,771
2,160
2,282
2,650
3,012
3,372
3,852
4,221
14
0,692
0,868
1,076
1,345
1,761
2,145
2,264
2,624
2,977
3,326
3,787
4,140
15
0,691
0,866
1,074
1,341
1,753
2,131
2,249
2,602
2,947
3,286
3,733
4,073
16
0,690
0,865
1,071
1,337
1,746
2,120
2,235
2,583
2,921
3,252
3,686
4,015
17
0,689
0,863
1,069
1,333
1,740
2,110
2,224
2,567
2,898
3,222
3,646
3,965
18
0,688
0,862
1,067
1,330
1,734
2,101
2,214
2,552
2,878
3,197
3,611
3,922
19
0,688
0,861
1,066
1,328
1,729
2,093
2,205
2,539
2,861
3,174
3,579
3,883
20
0,687
0,860
1,064
1,325
1,725
2,086
2,197
2,528
2,845
3,153
3,552
3,850
21
0,686
0,859
1,063
1,323
1,721
2,080
2,189
2,518
2,831
3,135
3,527
3,819
22
0,686
0,858
1,061
1,321
1,717
2,074
2,183
2,508
2,819
3,119
3,505
3,792
23
0,685
0,858
1,060
1,319
1,714
2,069
2,177
2,500
2,807
3,104
3,485
3,768
24
0,685
0,857
1,059
1,318
1,711
2,064
2,172
2,492
2,797
3,091
3,467
3,745
25
0,684
0,856
1,058
1,316
1,708
2,060
2,167
2,485
2,787
3,078
3,450
3,725
26
0,684
0,856
1,058
1,315
1,706
2,056
2,162
2,479
2,779
3,067
3,435
3,707
27
0,684
0,855
1,057
1,314
1,703
2,052
2,158
2,473
2,771
3,057
3,421
3,690
28
0,683
0,855
1,056
1,313
1,701
2,048
2,154
2,467
2,763
3,047
3,408
3,674
29
0,683
0,854
1,055
1,311
1,699
2,045
2,150
2,462
2,756
3,038
3,396
3,659
30
0,683
0,854
1,055
1,310
1,697
2,042
2,147
2,457
2,750
3,030
3,385
3,646
40
0,681
0,851
1,050
1,303
1,684
2,021
2,123
2,423
2,704
2,971
3,307
3,551
50
0,679
0,849
1,047
1,299
1,676
2,009
2,109
2,403
2,678
2,937
3,261
3,496
60
0,679
0,848
1,045
1,296
1,671
2,000
2,099
2,390
2,660
2,915
3,232
3,460
80
0,678
0,846
1,043
1,292
1,664
1,990
2,088
2,374
2,639
2,887
3,195
3,416
100
0,677
0,845
1,042
1,290
1,660
1,984
2,081
2,364
2,626
2,871
3,174
3,390
1000
0,675
0,842
1,037
1,282
1,646
1,962
2,056
2,330
2,581
2,813
3,098
3,300
w
0,674
0,841
1,036
1,282
1,645
1,960
2,054
2,326
2,576
2,807
3,091
3,291
50%
60%
70%
80%
90%
95%
96%
98%
99%
9 9 ,5 %
9 9 ,8 %
9 9 ,9 %
P ozio m u fn o ści C
698
Dodatek B
i odczytaj dla nich t w e w n ą trz ta b lic y .
Tablice tatystyczne
2
. Wartości krytyczne rozkładu %z
Poniższa tablica zawiera wartości x, dla których P (X > x) = a. X oznacza zmienną losową o rozkładzie x2o v stopniach swobody. D la podanych w nagłówkach wartości v i a wewnątrz tablicy zamieszczono x. Odszukaj
v w nagtówku w ie r s z y -
...o dszu ka j a w nagtówku koiumn..
P ra w d o p o d o b ie ń s tw o a
II
V
.2 5
.2 0
.1 5
.1 0
.0 5
.0 2 5
.0 2
.01
.0 0 5
.0 0 2 5
1
1.32
1.64
2.07
2.71
3.84
5.02
5.41
6.63
7.88
9.14
.001 10.83
2
2.77
3.22
3.79
4.61
5.99
7.38
7.82
9.21
10.60
11.98
13.82 16.27
3
4.11
4.64
5.32
6.25
7.81
9.35
9.84
11.34
12.84
14.32
4
5.39
5.99
6.74
7.78
9.49
11.14
11.67
13.28
14.86
16.42
18.47
5
6.63
7.29
8.12
9.24
11.07
12.83
13.39
15.09
16.75
18.39
20.51
6
7.84
8.56
9.45
10.64
12.59
14.45
15.03
16.81
18.55
20.25
22.46
7
9.04
9.80
10.75
12.02
14.07
16.01
16.62
18.48
20.28
22.04
24.32
8
10.22
11.03
12.03
13.36
15.51
17.53
18.17
20.09
21.95
23.77
26.12
9
11.39
12.24
13.29
14.68
16.92
19.02
19.68
21.67
23.59
25.46
27.88
10
12.55
13.44
14.53
15.99
18.31
20.48
21.16
23.21
25.19
27.11
29.59
11
13.70
14.63
15.77
17.28
19.68
21.92
22.62
24.72
26.76
28.73
31.26
12
14.85
15.81
16.99
18.55
21.03
23.34
24.05
26.22
28.30
30.32
32.91
13
15.98
16.98
18.20
19.81
22.36
24.74
25.47
27.69
29.82
31.88
34.53
14
17.12
18.15
19.41
21.06
23.68
26.12
26.87
29.14
31.32
33.43
36.12
15
18.25
19.31
20.60
22.31
25.00
27.49
28.26
30.58
32.80
34.95
37.70
16
19.37
20.47
21.79
23.54
26.30
28.85
29.63
32.00
34.27
36.46
39.25
17
20.49
21.61
22.98
24.77
27.59
30.19
31.00
33.41
35.72
37.95
40.79
18
21.60
22.76
24.16
25.99
28.87
31.53
32.35
34.81
37.16
39.42
42.31
19
22.72
23.90
25.33
27.20
30.14
32.85
33.69
36.19
38.58
40.88
43.82
20
23.83
25.04
26.50
28.41
31.41
34.17
35.02
37.57
40.00
42.34
45.31
21
24.93
26.17
27.66
29.62
32.67
35.48
36.34
38.93
41.40
43.78
46.80
22
26.04
27.30
28.82
30.81
33.92
36.78
37.66
40.29
42.80
45.20
48.27
23
27.14
28.43
29.98
32.01
35.17
38.08
38.97
41.64
44.18
46.62
49.73
24
28.24
29.55
31.13
33.20
36.42
39.36
40.27
42.98
45.56
48.03
51.18
25
29.34
30.68
32.28
34.38
37.65
40.65
41.57
44.31
46.93
49.44
52.62
26
30.43
31.79
33.43
35.56
38.89
41.92
42.86
45.64
48.29
50.83
54.05
27
31.53
32.91
34.57
36.74
40.11
43.19
44.14
46.96
49.64
52.22
55.48
28
32.62
34.03
35.71
37.92
41.34
44.46
45.42
48.28
50.99
53.59
56.89
29
33.71
35.14
36.85
39.09
42.56
45.72
46.69
49.59
52.34
54.97
58.30
30
34.80
36.25
37.99
40.26
43.77
46.98
47.96
50.89
53.67
56.33
59.70
40
45.62
47.27
49.24
51.81
55.76
59.34
60.44
63.69
66.77
69.70
73.40
50
56.33
58.16
60.35
63.17
67.50
71.42
72.61
76.15
79.49
82.66
86.66
60
66.98
68.97
71.34
74.40
79.08
83.30
84.58
88.38
91.95
95.34
99.61
80
88.13
90.41
93.11
96.58
101.9
106.6
108.1
112.3
116.3
120.1
124.8
100
109.1
111.7
114.7
118.5
124.3
129.6
131.1
135.8
140.2
144.3
149.4
. .. i odczytaj dla nich x ze środka
tablicy.
jesteś tutaj ► 699
700
Dodatek B
^
S k o ro w id z ^ f r
A
skumulowana, 72, 74, 80
analiza, 40 aproksymacja rozkładu dwumianowego, 427 poprawka na ciągłość, 434, 435 problemy, 432 aproksymacja rozkładu Poissona rozkładem normalnym, 444, 445 poprawka na ciągłość, 450 stosowanie, 445 asymetria lewostronna, 97 asymetria praw ostronna, 97 autom at do popcornu, 347 autom at o dużej wariancji, 246 autom at o małej wariancji, 246 automaty do gry, 607 awaryjność maszyn, 350
względna, 46, 492 częstość teoretyczna, 618, 626 wyznaczanie, 625 czynnik placebo, 684
dane, 43,101 asymetryczne, 96,100 bimodalne, 111 dwuwymiarowe, 646 dyskretne, 364 ilościowe, 56, 61, 79 jakościowe, 56,111
B
jednowymiarowe, 646, 678 kategorialne, 56 liczbowe, 56 praw ostronnie asymetryczne, 96
badania, 685 częściowe, 456 niewyczerpujące, 456 statystyczne, 456
skategoryzowane, 61 skośne, 96 zgrupowane, 57 źródłowe, 40
wyczerpujące, 456 bimodalne dane, 111 błąd I rodzaju, 594, 596, 604 błąd II rodzaju, 595, 596, 598, 599, 604 błąd standardowy, 501, 504 brak korelacji, 651, 668
c cecha statystyczna, 42 centralne twierdzenie graniczne, 519, 523 chi-kwadrat, 614 ciągnięcie losów, 469, 472 częstość, 46, 55, 61, 67, 90 absolutna, 46 histogram, 64 reprezentacja, 68 rozkład ciągły, 366
decyle, 136 definiowanie jednostka losowania, 460 operat losowania, 461 populacja generalna, 460 diagramy korelacji, 647 diagramy liniowe, 79 diagramy łodyga-liście, 682 diagramy V enna, 174,177,189,190, 203 praw dopodobieństw owarunkowe, 195 dobór czysto losowy, 685 dobór losowy, 468 dobór próby, 457, 460, 461 ciągnięcie losów, 469 jednostka losowania, 460 obciążenie próby, 462 operat losowania, 461
to jest skorowidz
701
Skorowidz dobór próby, 457, 460, 461
frekwencja, 644, 650
dodatnia korelacja liniowa, 669 dodatnie odchylenie, 143
koncert, 655 funkcja gęstości prawdopodobieństwa, 368, 372, 373 funkcja prawdopodobieństwa rozkładu Poissona, 349 funkcja rozkładu prawdopodobieństwa, 315
dokładna korelacja liniowa, 668
funkcja wykładnicza, 345
dominanta, 111,114,116,119,135 klasa, 111 obliczanie, 112
G
populacja generalna, 460 próba prosta, 469
przedział, 111 rozkład dwumianowy, 339 rozkład geometryczny, 316 rozkład normalny, 390 zastosowanie, 111 dopasowanie, 657 dopełnienie zdarzenia, 174 drzewa stochastyczne, 195,196, 203, 217, 309 dyskretne rozkłady prawdopodobieństwa, 235, 237
gęstość częstości, 65, 67, 68 zastosowanie, 68 gęstość rozkładu, 368 gra w oczko, 630, 632 gra w ruletkę, 167, 638 prawdopodobieństwowygranej, 173 gradient, 662 granice przedziału ufności, 534, 541 gruby ogon, 100 grupa eksperymentalna, 684 grupa kontrolna, 684
E eksperyment statystyczny, 684 czynnik placebo, 684 grupa kontrolna, 684 jakośćwyników, 684 powtarzalność wyników, 684 zakłócania, 684
H
H 0, 566 hipoteza, 559, 566 alternatywna, 567, 568, 581 zerowa, 566, 568, 581, 618 histogram, 57, 61, 68, 70, 93
estymacja, 482 param etry, 497 przedziałowa, 557 punktowa, 557
częstość, 64, 65 gęstość częstości, 65, 67 powierzchnia słupków, 63 prezentacja pojedynczych wartości liczbowych, 68 przedziały klasowe, 58
wariancja populacji, 488 estymator odchylenia standardowego, 490 estymator punktowy, 481, 482, 484, 485, 527
rozpiętości przedziałów, 62 szerokość słupków, 64 tworzenie, 58, 66 wysokość słupków, 65
precyzja, 527 wariancja, 495 estymator wariancji populacji, 486 estymator wartości oczekiwanej, 539 estymator wskaźnika struktury, 492 F fałszerstwo, 608 frakcja sukcesów, 493 frakcja w populacji, 492
702
Skorowidz
I idealna korelacja dodatnia, 669 idealna korelacja ujemna, 669 idealny m odel opisu danych ciągłych, 378 iloczyn zdarzeń, 186 informacje, 43 informacje o zyskach, 41
Skorowidz interpretacja zmiennych standaryzowanych, 158 istotność statystyczna, 613
liczba stopni swobody, 548, 618, 629, 633 liczba sukcesów otrzymanych w ramach n prób, 335
istotność związku między częstościami wyników, 629
liczba wariacji, 297
)
liczba zdarzeń w danym przedziale, 345 liczby, 56,86 liczby losowe, 469
jakośćwyników, 684 jednoręki bandyta, 236 jednostka badania, 684 jednostka losowania, 460 obciążenie próby, 463
liczebność całkowita, 70 liczebność skumulowana, 72 liczebność zbioru danych, 70 linia najlepszego dopasowania, 656, 688 linia regresji, 664 minimalizacja odchylenia od wartości rzeczywistych, 658 nachylenie, 661 obliczanie nachylenia, 661
jednostronny obszar krytyczny, 577 K
kasyno, 606 kategorie, 56 klasa dominanty, 111 kolejność obiektów, 279 kombinacje, 299, 300, 301, 331 kombinacje bez powtórzeń, 298 kombinatoryka, 279, 291 korelacja, 647, 650, 654, 668, 678 brak korelacji, 651, 668 dodatnia, 651 dodatnia liniowa, 669 dokładna liniowa, 668 idealna dodatnia, 669
reszty, 658 równania, 657 SKR, 659 suma kwadratów odchyleń, 659 wartość a, 663 wartość b, 660, 662 linia regresji, 664 liście, 682 litery, 86 losowanie, 453 bez zwracania, 468 ciągnięcie losów, 469 jednostki losowania, 460 obciążenie próby, 462 operat losowania, 461 populacja generalna, 460
idealna ujem na, 669 liniowa, 650 przyczynowość, 652 ujemna, 651 ujem na liniowa, 669 współczynnik korelacji, 668 kowariancja, 686
proste, 476 p róba prosta, 468 schemat, 468, 472 systematyczne, 471, 472, 476
k-typercentyl, 137 kwartyle, 130,132,135 dolny, 130,132 górny, 130,132 środkowy, 130 wyznaczanie, 132
L lewostronny obszar krytyczny, 572 liczba odchyleń standardowych od średniej, 159
warstwowe, 470, 472, 474, 476 ze zwracaniem, 468 zespołowe, 471, 472, 474, 476 źródła obciążenia próby, 463 losy, 469 Ł łam ana częstości skumulowanych, 73 łodyga, 682
jesteś tutaj ► 703
Skorowidz M maksimum, 124,135 mediana, 99,100,107,109,116,135 obliczanie, 100 zastosowanie, 104 m etapoznanie, 31 m etoda najmniejszych kwadratów, 664 notacja alternatywna, 686 miary tendencji centralnej, 84, 85 miary zróżnicowania, 121 minimalizacja odchylenia od wartości rzeczywistych, 658 minimum, 124,135 moc testu, 593, 599
obliczanie dominanta, 112 kombinacje, 299 kwartyle, 132 mediana, 100 nachylenie linii najlepszego dopasowania, 662 odchylenie standardowe, 148, 245 param etry rozkładu normalnego, 427 percentyle, 137 perm utacje bez powtórzeń, 284 prawdopodobieństwo, 173,197, 205, 370 prawdopodobieństwo warunkowe, 195 prawdopodobieństwo zdarzeń niezależnych, 221
moda, 111 model opisu danych ciągłych, 378 modelowanie różnic, 609 modelowanie wzrostu mężczyzn, 377
R 2, 687 silnia, 286 suma kwadratów reszt, 659 wariacje, 297
mózg, 33 myślenie, 31
wariancja, 151 wariancja zmiennej losowej, 244 wartość oczekiwana, 242
N
obrazowanie trendów, 79
nachylenie linii najlepszego dopasowania, 661, 662
obserwacje nietypowe, 95, 96,127,129,160 rozstęp międzykwartylowy, 131
nauczanie, 29, 34 nielosowy sposób doboru próby, 463 niepełny operat losowania, 463 niepewność ocen, 525 nierówność Czebyszewa, 683 niewiadome, 87 niezależne obserwacje zmiennej, 271 niezależne zmienne losowe, 415 wariancja, 416 wartość oczekiwana, 416 niezależność zdarzeń, 222 niezależność zmiennych, 624 notacja matematyczna, 88 notacja statystyczna, 86 O obciążenie próby, 462 jednostka losowania, 463 nielosowy sposób doboru próby, 463 operat losowania, 463 pytania do kwestionariusza, 463
704
Skorowidz
obserwacje odstające, 95 obserwacje wpływowe, 672 obstawianie zdarzeń, 229 obszar dwustronny, 572 obszar jednostronny, 572 obszar krytyczny, 569, 570, 572, 577 obszar odrzuceń, 577, 619 hipoteza zerowa, 570 obszar przyjęcia hipotezy zerowej, 570 ocena faktów, 559 ocena param etru, 484 ocena p aram etru na podstawie próby, 480 ocena rezultatów, 605 oczekiwana realizacja zmiennej losowej, 241 oczekiwania, 235 odchylenie od średniej, 143 odchylenie standardowe, 144,145,146,160, 258, 490 formuła na liczenie wariancji, 151 jednostki, 151 obliczanie, 148, 245 wartość 0,151
Skorowidz odsetek klientów zadowolonych z zakupu (według gatunku gry), 47 ogólna formuła na liczbę perm utacji z powtórzeniami, 292
porównywanie wartości absolutnych, 52 porównywanie zysków, 78 porządkowanie klas, 290
ogólna formuła na liczbę stopni swobody, 634
porządkowanie obiektów, 279, 284 kolejność m a znaczenie, 299 kolejność nie m a znaczenia, 299 kombinacje, 299, 300, 301
określanie param etru populacji generalnej, 541 operat losowania, 461, 464 liczby losowe, 469 obciążenie próby, 463 tworzenie, 464 opis danych, 83 oprogramowanie, 44
kombinacje bez powtórzeń, 298 liczba wariacji, 297 perm utacja bez powtórzeń, 284 perm utacja z powtórzeniami, 292
oś wartości wykresu słupkowego, 6ł
powtórzenia, 292 silnia, 286 ustawianie obiektów w okrąg, 285
P param etry populacji, 482, 529 parowanie, 685 percentyle, 136,137,140
wariacje, 296, 301 wariacje bez powtórzeń, 297 wzory, 286
wykorzystanie, 137 wyznaczanie, 137 perm utacje, 299
porządkowanie zw ierzątwedług gatunku, 291 poszukiwanie zawodnika, 122
bez powtórzeń, 284 z powtórzeniami, 292 placebo, 684 plansza do ruletki, 168
powtarzalność wyników, 684 powtórzenia, 292 poziom istotności, 571,576,577, 633
podwójnie ślepa próba, 684 położenie danej obserwacji, 159 pom iar rozstępu, 124 poprawka na ciągłość, 433, 434, 436, 450, 503 rozkład P s’, 507 populacja, 456, 476 częstość względna, 492
powierzchnia słupków histogramu, 63, 64
poziom ufności, 545, 577 rozkład t-Studenta, 550 prawdopodobieństwo, 165,170,177,181, 408 całkowite, 210, 216 diagramy V enna, 174,189,190 dodawanie prawdopodobieństw, 180 iloczyn zdarzeń, 186,192 niezależność zdarzeń, 222
prawdopodobieństwo sukcesu, 493
notacja, 187 przestrzeń zdarzeń elementarnych, 173 realizacja zmiennej, 259 rozkład prawdopodobieństwa, 239
przedziały ufności, 529 szacowanie param etrów , 479 szacowanie średniej, 481
suma zdarzeń, 186,187 twierdzenie Bayesa, 211, 217 typ danych, 365
wariancja, 486, 488
wygrana w ruletkę, 173
wskaźnik struktury, 492, 494
wyznaczanie, 173
estymator wariancji, 486 frakcja, 492 frakcja sukcesów, 493
populacja generalna, 460 porównywanie danych, 123 punkt odniesienia, 156 standaryzacja danych, 157
zdarzenia, 170 zdarzenia dopełniające, 174 zdarzenia niezależne, 220, 224 zdarzenia odwrotne, 208
jesteś tutaj ► 705
Skorowidz prawdopodobieństwo, 165,170,177,181, 408 zdarzenia rozłączne, 185,188 zdarzeniawyczerpujące przestrzeń, 188 zdarzeniaw zajem nie sięwykluczające, 185,188 zdarzenia zależne, 218, 224 zdarzenia złożone, 181 zdarzenia złożone dla rozkładu Poissona, 351 znaczenie, 178 prawdopodobieństwo warunkowe, 194, 203, 204, 205 diagram yV enna, 195
przeciętny wiek uczestników zajęć fitness, 84 przedziałdom inanty, 111 przedział zmienności, 367 przedziały klasowe, 58, 61 rozpiętość, 62 przedziały ufności, 525, 528, 540, 545, 577 estym atorw artości oczekiwanej, 539 estymatory z próby, 531 granice, 534, 541 param etry populacji, 530 rozkład, 545
drzewa stochastyczne, 195,196 obliczanie, 195 prawostronny obszar krytyczny, 572, 614 precyzja szacunków, 527
rozkład estym atora w próbie, 530, 541, 547 rozkład normalny, 547 skróty, 542 skróty — rozkład t-Studenta, 553
prezentacja tendencji rozwojowej w czasie, 78 problem aproksymacji, 432 prognoza pogody, 644, 654 prognozowanie, 655 frekwencja na koncercie, 655 linia najlepszego dopasowania, 656 programy komputerowe, 44 projektowanie badania, 685 próba, 456, 476 częstość względna, 492 dobór, 457, 460 losowa prosta, 468 nieobciążona, 462 obciążona, 462, 476 ocena param etru, 484 prosta, 469 reprezentatywność, 458 rozkład, 496 rozkład prawdopodobieństwa P 498 rozkład średniej z próby, 509 szacowanie param etrów populacji, 479 szacowanie średniej w populacji, 481 szanse zajścia określonego zdarzenia, 497 ślepa, 684 średnia, 510 średnia arytmetyczna, 485 wariancja, 490 próba statystyczna, 456 próbka, 456 przeciętne wynagrodzenie, 89
706
Skorowidz
uogólniona postać, 542 współczynnik nachylenia prostej regresji, 689 wybór, 532, 533 wyznaczanie, 529, 546 przekształcenia liniowe, 257, 258, 414, 416 zastosowanie, 259 zmienne niezależne, 414, 415 przestrzeń zdarzeń elementarnych, 173 przewidywanie charakterystykpopulacji, 479 przewidywanie przyszłości, 165 przewidywanie skutków powtarzalnych zdarzeń w długich seriach, 235 przybliżenie rozkładu dwumianowego rozkład normalny, 427 rozkład Poissona, 355 przybliżenie średniej populacji, 481 przyczynowość, 652 punkt odniesienia dla porównań, 156 p-wartość, 573, 577, 588 pytania do kwestionariusza, 463 R R 2, 687 rachunekpraw dopodobieństw a, 165, 309 ramka-wąsy, 138 randomizacja, 685 blokowa, 685 realizacje, 240 regresja, 664
Skorowidz reguła Czebyszewa, 683 reguła empiryczna, 683
rozkład P s’, 503 standaryzacja, 380, 382, 383
reguła trzech sigm, 683
standaryzowany rozkład normalny, 382
reprezentacja częstości, 68 reprezentatywna próba, 458 reszty, 658
środek rozkładu, 383 tablice, 379, 388, 696 zmienne standaryzowane, 384
rozdział param i, 685 rozkład chi-kwadrat, 614 rozkład ciągły, 366, 433 rozkład dwumianowy, 334, 335, 340, 362, 422, 433, 520, 582 aproksymacja, 427 dominanta, 339 kształt rozkładu, 335 liczba sukcesów otrzymanych w ramach n prób, 335 pojedyncza próba, 336 prawdopodobieństwo, 340 przybliżenie rozkładem normalnym, 427 rozkład Poissona, 355 stosowanie, 340 wariancja, 336, 339, 340 wartość oczekiwana, 336, 339, 340 rozkład dyskretny, 433 rozkład Gaussa, 390 rozkład geometryczny, 315, 316, 325, 362, 450 dominanta, 316 liczba prób, 316 nierówności, 317 prawdopodobieństwo, 322 stosowanie, 322 wariancja, 321, 322 wartość oczekiwana, 318, 319, 322 zastosowanie, 316 rozkład jednostajny, 377, 693 rozkład normalny, 363, 377, 378, 399, 403, 424, 433, 442, 553 dominanta, 390 gęstość prawdopodobieństwa, 379 kształt, 378 obliczanie param etrów , 427 odczytywanie prawdopodobieństwa z tabeli rozkładu normalnego, 387 param etry definiujące rozkład, 380, 381 przybliżenie prawdopodobieństwa, 430 przybliżenie rozkładu dwumianowego, 427 reguła empiryczna, 683
znajdowanie prawdopodobieństwa, 379 rozkład Poissona, 240, 344, 345, 352, 362, 424 aproksymacja rozkładem normalnym, 444 funkcja prawdopodobieństwa, 349 kształt, 346,444 liczba zdarzeń w danym przedziale, 345 prawdopodobieństwo, 344, 357 prawdopodobieństwo sumy niezależnych zmiennych losowych, 357 prawdopodobieństwo zdarzeń złożonych, 351 rozkład dwumianowy, 355, 357 stosowanie, 354, 357 suma zmiennych, 350 wariancja, 346, 357 wartość oczekiwana, 346, 349, 357 rozkład prawdopodobieństwa, 239, 248, 250, 258, 311, 350, 408, 425,683 dane ciągłe, 367 funkcja gęstości prawdopodobieństwa, 368 nieograniczony zbiór wartości zmiennej losowej, 315 obliczanie wariancji, 245 odchylenie standardowe, 245 przekształcenia liniowe, 257, 258 realizacje, 240 wariancja, 243, 244 wartość oczekiwana, 242 wizualizacja, 241 wypłaty w grze, 243 zmienne dyskretne, 240 zmienne losowe, 240 zmienne niezależne, 260 rozkład P s’, 498,’ 499,’ 502 kształt, 502 poprawka na ciągłość, 503, 507 przybliżenie, 507 rozkład normalny, 503 wariancja, 501 wartość oczekiwana, 500
jesteś tutaj ► 707
Skorowidz w e ry fik a c ja h ip o te z , 630
ro z k ła d ró w n o m ie rn y , 693
w yzn a cza n ie częstości te o re ty c z n y c h , 625
ro z k ła d s ta ty s ty k i te s to w e j, 569 ro z k ła d ś re d n ie j z p ró b y , 509, 511
ro z p ro s z e n ie da n ych, 135
ro z k ła d t-S tu d e n ta , 547, 548, 553, 556
w y k re s y p u d e łk o w e , 138
p o z io m u fn o ś c i, 550
ro z r z u t d a n ych, 1 2 4 ,1 6 0
ta b lic e , 551, 698
ro zstę p , 1 2 4 ,1 2 6 ,1 3 5 ,1 6 0
w a rto ś c i k ry ty c z n e , 698
ć w ia rtk o w y , 1 3 0 ,1 3 1 ,1 3 5
w a rto ś ć s ta n d a ryzo w a n a , 549
m ię d z y k w a rty lo w y , 1 3 0 ,1 3 1 ,1 3 5
ro z k ła d w a g i, 401
o b se rw a cje n ie ty p o w e , 129
ro z k ła d w z ro s tu , 376
o g ra n ic z e n ia , 128
ro z k ła d X + Y , 4 0 6 ,4 0 8
p o m ia r, 124
ro z k ła d z p ró b y , 496, 504, 690 ró ż n ic a m ię d z y d w ie m a ś re d n im i, 690 ró ż n ic a m ię d z y w s k a ź n ik a m i s tru k tu ry , 691 ro z k ła d z p ró b y e s ty m a to ra P, 499
ró ż n ic a m ię d z y d w ie m a ś re d n im i, 690 ró ż n ic a zm ie n n y c h n ie za le żn ych , 268 ró ż n ic a zm ie n n y c h p rze k s z ta łc o n y c h , 270 ró ż n ic e m ie d z y w a rto ś c ia m i te o re ty c z n y m i a e m p iry c z n y m i, 609
ro z k ła d z p ró b y e s ty m a to ra śre d n ie j p o p u la c ji, 510, 517, 523 c e n tra ln e tw ie rd z e n ie g ra n iczn e , 519
r u le tk a , 1 6 6 ,1 6 7
k s z ta łt, 518
ry z y k o , 229
o d c h y le n ie s ta n d a rd o w e , 517
rzeczyw isty zw ią ze k, 652
ro z k ła d d w u m ia n o w y , 520 ro z k ła d P oissona, 520
s
ś re d n i b łą d szacunku, 517
s ch e m a t lo s o w a n ia , 468, 472
w a ria n c ja , 514
s iln ia , 2 8 4 ,2 8 6
w a rto ś ć o c z e k iw a n a , 512
o b lic z a n ie , 286
ro z k ła d z p ró b y e s ty m a to ra w a rto ś c i o c z e k iw a n e j, 508
s iła zw ią z k u m ię d z y z m ie n n y m i, 669
ro z k ła d z p ró b y e s ty m a to ra w s k a ź n ik a s tru k tu ry , 504
skala, 50
ro z k ła d x2, 605, 609, 610 częstość te o re ty c z n a , 626
b e zw zg lę d na , 51 p ro c e n to w a , 50
g ra w ru le tk ę , 638
ska te g o ryzo w a n y w ykre s s łu p k o w y , 52
is to tn o ś ć statystyczna, 613
skośność da n ych, 140
k s z ta łt, 611
skośność le w o s tro n n a , 97
o ce n a is to tn o ś c i z w ią z k u m ię d z y często ścia m i w y n ik ó w ,
skośność p ra w o s tro n n a , 97
629
S K R , 659
o g ó ln a m e to d a w y zn a cza n ia lic z b y s to p n i sw o b o d y, 634
s k u m u lo w a n y czas p rze zn a cza n y n a g rę , 73
s to p n ie s w o b o d y, 612, 622, 633
s p ra w d z ia n te stu , 569, 577
sto so w a n ie , 611, 636
sp rze d a ż f iltr ó w p rze ciw sło n e czn ych , 649
ta b lic a k o n ty n g e n c ji, 625
sp rze d a ż g ie r w e d łu g g a tu n k u (w sztu ka ch ), 45, 46
ta b lic a ro z d z ie lc z a , 625
sp rze d a ż n o w e g o ro d z a ju ka w y, 467
ta b lic e , 613
s ta n d a rd o w y b łą d sza cu n ku, 501
te s t n ie z a le ż n o ś c i, 624, 633
sta n d a ryza cja d a n ych, 1 5 6 ,1 5 7 ,1 6 0
te s t z g o d no ści, 633
in te rp re ta c ja d a n ych, 158
te s to w a n ie h ip o te z , 614
lic z b a o d c h y le ń sta n d a rd o w y c h o d ś re d n ie j, 159
w a rto ś c i k ry ty c z n e , 699
o b se rw a cje n ie ty p o w e , 160
w a rto ś ć s ta ty s ty k i, 619
708
Skorowidz
s ta n d a ryzo w a n y r o z k ła d n o rm a ln y , 382, 696
Skorowidz średni błąd szacunku, 501 średnia w populacji, 481 wariancja populacji, 486 wskaźnik struktury, 492
statystycy, 40 statystyczna weryfikacja hipotez, 568 statystyczna weryfikacja prawdziwości sądu, 577 statystyka, 40 notacja, 86 opisowa, 40 zastosowanie, 40, 41 X2, 610, 636 statystyka testowa, 569, 577, 582 rozkład, 569 stopnie swobody, 614, 618 ogólna m etoda wyznaczania, 634 rozkład x 2,612 wyznaczanie, 618 stymulacja aktywności mózgu, 31 sukces, 493 suma, 87 suma kwadratów odchyleń, 659 suma kwadratów reszt, 658 suma wariancji, 407 suma zdarzeń, 186,187
szacowanie prawdopodobieństwa, 431 szanse zajścia określonego zdarzenia w konkretnej próbie, 497 szerokość słupków histogramu, 64 s średni błąd szacunku, 501, 504, 517 średnia, 84, 88, 98,107,109,135,484 częstość, 90 dane asymetryczne, 96,100 średnia arytmetyczna, 85, 92,100,116, 485 mediana, 99 symbol, 88 średnia arytmetyczna dwóch środkowych wartości, 99 średnia populacji, 481, 484 średnia z próby, 510 średnie odchylenie, 143 średnie ruchome, 249, 258
suma zmiennych niezależnych, 268, 416 suma zmiennych o rozkładzie normalnym, 402 suma zmiennych przekształconych, 270
T
sumowanie prawdopodobieństw, 180
tablica kontyngencji, 625
symbol średniej z próby, 483
tablica tablice tablice tablice
symbole, 86 symbole literowe, 86 symbole wartości param etrów populacji, 490 symetria danych, 97 szacowanie oczekiwanej realizacji zmiennej losowej, 241 szacowanie param etrów populacji, 479 błąd standardowy, 501
rozdzielcza, 625 rozkładu normalnego, 388, 696 rozkładu prawdopodobieństwa, 379, 389 rozkładu t-Studenta, 551, 698
tablice rozkładu x2,613 techniki wizualizacji danych, 682 tendencja centralna, 84 test dobroci dopasowania, 611, 617
estymacja wariancji populacji, 488 estymator punktowy, 482, 485 estymator wariancji populacji, 486 frakcja w populacji, 492
test istotności, 590 test niezależności, 611, 624, 633 test zgodności, 611, 617, 633
ocena param etru, 484 przedziały ufności, 529 rozkład średniej z próby, 509 sukces, 493
rozkład x2, 614 testy, 454
symbol dla średniej z próby, 483 szanse zajścia określonego zdarzenia w konkretnej próbie, 497
test zgodności x2, 622 testowanie hipotez, 564, 590
dobór próby, 457, 460 jednostka losowania, 460 obciążenie próby, 462
jesteś tutaj ► 709
Skorowidz testy, 454 operat losowania, 461 populacja, 456 populacja generalna, 460 próba, 456 próba reprezentatywna, 458 trendy, 79, 650 t-Student, 547 twierdzenie Bayesa, 211, 216, 217 twierdzenie o prawdopodobieństwie całkowitym, 210 tworzenie histogram, 58, 66 przedziały ufności, 530 rozkład prawdopodobieństwa, 239 wykresy częstości skumulowanych, 73 wykresy kołowe, 46 wykresypudełkowe, 138 V ujem na korelacja liniowa, 669 ujemne odchylenia, 143 W wariacje, 296, 299, 301 bez powtórzeń, 297 obliczanie, 297 wariancja, 144,151,160, 243, 246, 258, 261, 488, 659 dla zbioru danych, 489 formuła, 151 niezależne zmienne losowe, 416 obliczanie, 151, 245 rozkład dwumianowy, 336, 339, 340 rozkład rozkład rozkład rozkład
dyskretny, 242 geometryczny, 321, 322 Poissona, 346 prawdopodobieństwa, 244
rozkład P s’, 501 różnica zmiennych losowych, 269 sumowanie, 269, 406 zmienne ciągłe, 692 wariancja populacji, 486, 488 estymacja, 488 warstwy, 470
710
Skorowidz
wartości krytyczne, 570 rozkład t-Studenta, 698 rozkład %2, 699 wartości liczbowe, 86 wartości nietypowe, 95 wartości param etrów populacji, 490 wartości przeciętne, 84 wartość oczekiwana, 242, 243, 246, 258, 261 niezależne zmienne losowe, 416 rozkład dwumianowy, 336, 339, 340 rozkład rozkład rozkład
geometryczny, 318, 322 Poissona, 346 P s’, 500
zmienne ciągłe, 692 wartość oczekiwana funkcji, 258 wartość środkowa, 99 wartośćwystandaryzowana, 159 weryfikacja hipotez, 559, 564, 576, 577 błąd I rodzaju, 593, 594, 596 błąd II rodzaju, 593, 595, 596, 598, 599 błędy, 590 gra w oczko, 630 hipoteza alternatywna, 567, 581 hipoteza zerowa, 566, 581 moc testu, 593, 599 obszar dwustronny, 572 obszar jednostronny, 572 obszar krytyczny, 569, 570, 572, 577 obszar odrzuceń, 575, 577, 586 obszar odrzuceń hipotezy zerowej, 570 obszar przyjęcia hipotezy zerowej, 570 określanie hipotezy, 566 określanie obszaru odrzuceń, 586 podejmowanie decyzji, 575 poziom istotności, 571, 577 prawdopodobieństwo p, 573 prawdziwość hipotezy zerowej, 568 procedura, 564, 565 przybliżanie rozkładu statystyki testowej, 585 p-wartość, 573, 577, 588 rozkład statystyki testowej, 569 rozkład %2,614 sprawdzian testu, 569 statystyka testowa, 569, 582
Skorowidz szacowanie błędów I i II rodzaju, 596 wartość krytyczna, 570 wartość statystyki testowej, 585 wielkość próby, 578 zbiór wartości spoza obszaru krytycznego, 597 wiarygodność szacunków, 479 wiek uczestników nauki pływania, 106 wielkość sprzedaży (w sztukach) z podziałem na regiony, 48 wizualizacja danych, 39, 42, 45, 682 częstość skumulowana, 72 dane zgrupowane, 57 diagramy łodyga-liście, 682 histogram, 57, 61 kategorie, 56 liczby, 56 skośność danych, 140 ujęcie bezwzględne, 51 ujęcie procentowe, 50 wykresy, 42, 55 wykresy częstości skumulowanych, 72 wykresy kolumnowe, 48 wykresy kołowe, 46 wykresy liniowe, 79 wykresypudełkowe, 140 wykresy punktowe, 682 wykresy słupkowe, 48 wykresy warstwowe, 52 wykresy wierszowe, 49 złożone zbiory danych, 52 wizualizacjaprawdopodobieństw, 197 wskaźnik struktury, 492, 494, 495 współczynnik determinacji, 687 współczynnik korelacji, 668 wyznaczanie, 670 wybór poziomów ufności, 533 wybór typu wykresu, 77 wykresy, 42, 44, 55 kolumnowe, 48 korelacja, 647 pudełkowe, 138,139,140 punktowe, 682 ramka-wąsy, 138
skala bezwzględna, 51 skala procentowa, 50 stosowanie, 43 warstwowe, 52 wierszowe, 48, 49 wybór typu, 77 złożone zbiory danych, 52 wykresy częstości skumulowanych, 72, 80 kreślenie, 73 maksymalna liczba łamanych, 74 zastosowanie, 74 wykresy kołowe, 46, 61 częstość, 46 tworzenie, 46 zastosowanie, 47 wykresy liniowe, 79 dane ilościowe, 79 trendy, 79 zastosowanie, 80 wykresy rozrzutu, 647, 650, 654, 678 wykresy słupkowe, 4 8 ,5 1 ,6 1 ,7 8 oś wartości, 61 skala, 50 skategoryzowane, 52 układ pionowy, 61 układ wierszowy, 61 wykreślanie danych dwuwymiarowych, 647 wykrywanie związku między zmiennymi, 643 wysokość słupków histogramu, 65 wyścigi konne, 280 wyznaczanie kwartyle, 132 liczba stopni swobody, 634 przedziały ufności, 529 średnia, 84 wartość statystyki x 2,612 współczynnik korelacji, 670 wzory na przekształcenia liniowe, 257 wzór na prawdopodobieństwo całkowite, 210, 216 wzór na prawdopodobieństwo warunkowe, 205 wzór na wartość współczynnika korelacja, 670 wzrost mężczyzn, 377
skala, 50
jesteś tutaj y
711
Skorowidz dopasowanie, 657 idealna korelacja dodatnia, 669 idealna korelacja ujem na, 669 korelacja, 650, 654, 668
Z
zakłócania, 684 zakres ocen, 57 zależność nieliniowa między zmiennymi, 688 zapis symboliczny, 86
korelacja dodatnia, 651 korelacja ujemna, 651 linia najlepszego dopasowania, 656 linia regresji, 664
zarządzanie oczekiwaniami, 276 zdarzenia, 170,181 dopełniające, 174,181 elem entarne, 170
liniowy związek, 669 obserwacje wpływowe, 672 przyczynowość, 652
iloczyn, 187 jedynie możliwe, 187 losowe, 170 mało praw dopodobne, 235
rzeczywisty związek, 652 siła, 669 trendy w danych, 650
niemożliwe, 170 niezależne, 220, 222, 224 odwrotne, 208
ujem na korelacja liniowa, 669 wielkość próby, 672
pewne, 170
współczynnik korelacji, 668
rozłączne, 185,188 suma, 187
wykresy rozrzutu, 647, 654 związek potwierdzony statystycznie, 652
wyczerpujące przestrzeń, 188 wzajemnie wykluczające, 185
ź
zależne, 218, 219, 224
źródła obciążenia próby, 463
zespół, 471 złożone zbiory danych, 52 zmienne ciągłe, 364, 365, 375, 403 dyskretne, 240, 364, 375 losowe, 240 niezależne, 260, 262, 263, 414, 646, 684 objaśniające, 646 objaśniane, 646 przekształcone, 263 standaryzowane, 156, 384, 385, 390 zależne, 646 zmienność, 121,142 mierzenie, 144 odchylenie standardowe, 144,145 wariancja, 144 zróżnicowanie, 121 związek między zmiennymi, 643, 664, 667 brak korelacji, 651, 668, 669 diagramy korelacji, 647 dodatnia korelacja liniowa, 669 dokładna korelacja liniowa, 668
712
Skorowidz