ZADANIE 5 (3.1) Zbadać zależność pomiędzy czasem dostarczenia przesyłki w dniach (zmienna X ) a odległością pomiędzy nadawcą i odbiorcą mierzoną w lin...
8 downloads
28 Views
79KB Size
ZADANIE 5 (3.1) Zbadać zależność pomiędzy czasem dostarczenia przesyłki w dniach (zmienna X ) a odległością pomiędzy nadawcą i odbiorcą mierzoną w linii prostej w 100 km (zmienna Y). Dane dotyczące wybranych losowo przesyłkach przedstawia tabela 3. A. Wyznaczyć współczynnik korelacji liniowej Pearsona oraz współczynnik determinacji i B. zbieżności. C. Wyznaczyć równania regresji obrazujące zależność pomiędzy czasem dostarczenia przesyłki od odległości i odwrotnie. D. Podać miasta wojewódzkie z których można spodziewać się dostarczenia przesyłki w ciągu 4dni do Chorzowa. E. Pomiędzy nadawcą i odbiorcą jest 350 km w jakim czasie może on się spodziewać F. dostarczenia przesyłki. G. Zbadać istotność współczynnika korelacji liniowej Pearsona. H. Zbadać istotność parametrów równania regresji.
xi
1
1
1
1
2
2
2
3
3
4
yi
2
2
3
6
6
6
7
9
9
10
Rozwiązanie Obliczenia pomocnicze prowadzimy w poniższej tabeli:
(xi − x )2 ( yi − y )2
(xi − x )( yi − y )
i
xi
yi
xi − x
yi − y
1
1
2
-1
-4
1
16
4
2
1
2
-1
-4
1
16
4
3
1
3
-1
-3
1
9
3
4
1
6
-1
0
1
0
0
5
2
6
0
0
0
0
0
6
2
6
0
0
0
0
0
7
2
7
0
1
0
1
0
8
3
9
1
3
1
9
3
9
3
9
1
3
1
9
3
10
4
10
2
4
4
16
8
∑
20
60
0
0
10
76
25
Średnie arytmetyczne, niezbędne do wyliczenia wartości w kolumnach 4 – 8 wynoszą: x=
1 n ⋅ ∑ xi n i =1
y=
1 n ⋅ ∑ yi n i =1
x=
20 10
y=
60 10
y=6
x=2
A.
Współczynnik korelacji liniowej Pearsona obliczamy ze wzoru: n
rxy =
rxy =
∑ (x i =1
i
− x )( y i − y )
n
n
i =1
i =1
2 2 ∑ ( xi − x ) ⋅ ∑ ( y i − y )
25 10 ⋅ 76
rxy = 0,9068 Wartość współczynnika wskazuje na istnienie silnej dodatniej zależności liniowej pomiędzy czasem dostarczenia przesyłki a odległością w linii prostej między nadawcą a odbiorcą.
Współczynnik determinacji w modelu regresji z jedną zmienną objaśniającą (tj. gdy są tylko dwie zmienne: x oraz y) obliczamy jako kwadrat współczynnika korelacji Pearsona:
R 2 = rxy2 R 2 = (0,9068)
2
R 2 = 0,8224 82,24% zmian czasu doręczenia przesyłki zależy od (wyjaśnione jest przez) odległości w linii prostej między nadawcą a odbiorcą. B. Znając wartość współczynnika determinacji, współczynnik zbieżności obliczamy ze wzoru:
ϕ 2 = 1− R2 ϕ 2 = 1 − 0,8224
ϕ 2 = 0,1776 17,76% zmian czasu doręczenia przesyłki nie jest wyjaśnione przez zmienność odległości między nadawcą a odbiorcą w linii prostej. C. Współczynniki równania regresji: yˆ i = a 0 + a1 xi obrazującego zależność odległości między nadawcą a odbiorcą od czasu doręczenia przesyłki, n
obliczamy ze wzorów:
a1 =
∑ (x i =1
i
− x )( y i − y )
n
∑ (x i =1
i
− x)
2
a 0 = y − a1 x zatem: a1 =
25 = 2,5 10
a 0 = 6 − 2,5 ⋅ 2 = 1 Równanie to ma więc postać: yˆ i = 1 + 2,5 xi Wartości współczynników oznaczają, że: • czas doręczenia przesyłki dłuższy o 1 dzień oznacza, że odległość pomiędzy nadawcą a odbiorcą jest średnio o 250 km większa; • natychmiastowe doręczenie przesyłki (czas = 0) oznacza, że odległość między nadawcą a odbiorcą wynosi średnio 100 km (sensowność interpretacji wątpliwa);
Współczynniki równania regresji: xˆ i = b0 + b1 y i obrazującego zależność czasu doręczenia przesyłki od odległości między nadawcą a odbiorcą, n
obliczamy ze wzorów:
b1 =
∑ (x i =1
i
− x )( y i − y )
n
∑ (y i =1
b0 = x − b1 y zatem:
i
− y)
2
b1 =
25 = 0,3289 76
b0 = 2 − 0,3289 ⋅ 6 = 0,026 Równanie to ma więc postać: xˆ i = 0,026 + 0,3289 y i Wartości współczynników oznaczają, że: • zwiększenie odległości między nadawcą a odbiorcą o 100 km skutkuje zwiększeniem czasu doręczenia przesyłki średnio o 0,3289 dnia; • zakładając, że odległość między nadawcą a odbiorcą wynosi 0, czas doręczenia przesyłki wyniósłby średnio 0,026 dnia.
D. Wybieramy równanie regresji wyjaśniające (obrazujące) zależność odległości od czasu, tj. równanie:
yˆ i = 1 + 2,5 xi
podstawiamy: xi = 4: yˆ i (4 ) = 1 + 2,5 ⋅ 4 = 11 = 1100 km A zatem w ciągu 4 dni przesyłka może być dostarczona praktycznie z każdego polskiego miasta.
E,F. Wybieramy równanie regresji wyjaśniające (obrazujące) zależność czasu od odległości, tj. równanie:
xˆ i = 0,026 + 0,3289 y i
podstawiamy yi = 3,5: xˆ i (3,5) = 0,026 + 0,3289 ⋅ 3,5 = 1,18 dnia W przypadku odległości 350 km, czas doręczenia wynosi 1,18 dnia.
G. Formułujemy hipotezy: H0: ρ = 0
(pomiędzy zmiennymi X a Y nie zachodzi istotna korelacja),
H1: ρ ≠ 0
(pomiędzy zmiennymi X a Y zachodzi istotna korelacja),
Przyjmujemy poziom istotności testu (czyli z góry założone prawdopodobieństwo popełnienia błędu I rodzaju, czyli błędu polegającego na tym, że odrzucimy hipotezę, która
w rzeczywistości jest prawdziwa) – o ile nie podano w treści zadania wartości poziomu istotności, zazwyczaj przyjmuje się α = 0,05.
Do weryfikacji wykorzystujemy statystykę testową daną wzorem:
t=
rrx 1 − rxy2
⋅ n−2
przy założeniu prawdziwości hipotezy H0, statystyka ta ma rozkład Studenta o n – 2 stopniach swobody.
t=
0,9068 1 − (0,9068)
2
⋅ 10 − 2
t = 6,086 Zbiór krytyczny testu ma postać: K = (− ∞; − tα ,n − 2 ∪ tα ,n − 2 ; + ∞
)
gdzie tα ,n − 2 jest wartością spełniającą warunek: P( T ≥ tα ,n − 2 ) = α , gdzie T oznacza zmienną losową o rozkładzie Studenta o n – 2 stopniach swobody; wartość tę odczytujemy z tablic, jako wartość krytyczną dwustronnego testu Studenta, dla przyjętego poziomu istotności α. Zamiast tablic, można wykorzystać formułę Excela ROZKŁAD.T.ODW. U nas: tα ,n −2 = t 0,05; 8 = 2,306 Zbiór krytyczny ma postać:
K = (− ∞; − 2,306 ∪ 2,306; + ∞ ) Jak widać: t∈K (t należy do zbioru krytycznego)
Zatem na poziomie istotności 0,05 odrzucamy hipotezę zerowa na korzyść alternatywnej. Wartość współczynnika korelacji Pearsona z próby świadczy o tym, że pomiędzy czasem doręczenia przesyłki a odległością nadawca-odbiorca zachodzi istotna liniowa zależność korelacyjna.
H. Równanie: yˆ i = 1 + 2,5 xi
Parametry a0 = 1, a1 = 2,5 Istotność parametru a1: Hipoteza zerowa:
α1 = 0 (parametr nieistotny)
Hipoteza alternatywna:
α1 ≠ 0 (parametr istotny)
Przyjmujemy poziom istotności α = 0,05. Do testu wykorzystujemy statystykę testową wyrażoną wzorem:
t (a1 ) =
a1 S (a1 )
gdzie: S (a1 ) jest standardowym błędem szacunku (standardowym błędem estymacji) parametru a1, który można obliczyć – m.in. – ze wzoru: S (a1 ) =
(
s ⋅ 1− R 2 y
2
)=
s x2 ⋅ (n − 2 )
n
∑ (y i =1 n
i =1
S (a1 ) =
2
∑ (x
(
− y) ⋅ 1− R2
i
)
− x ) ⋅ (n − 2 ) 2
i
76 ⋅ (1 − 0,8224) = 0,16875 = 0,4108 10 ⋅ 8 t (a1 ) =
2,5 = 6,086 0,4108
Wartość statystyki testowej jest taka sama, jak dla testu współczynnika korelacji (testy te są tożsame). Zbiór krytyczny jest taki sam: K = (− ∞; − tα ,n −2 ∪ tα ,n −2 ; + ∞
)
K = (− ∞; − 2,306 ∪ 2,306; + ∞ ) Jak widać:
t (a1 ) ∈ K (t należy do zbioru krytycznego)
Zatem na poziomie istotności 0,05 odrzucamy hipotezę zerowa na korzyść alternatywnej. Współczynnik kierunkowy równania regresji Y od X z próby jest statystycznie istotny.
Istotność parametru a0: Hipoteza zerowa:
α0 = 0 (parametr nieistotny)
Hipoteza alternatywna:
α0 ≠ 0 (parametr istotny)
Przyjmujemy poziom istotności α = 0,05. Do testu wykorzystujemy statystykę testową wyrażoną wzorem:
a0 S (a 0 )
t (a 0 ) =
gdzie: S (a1 ) jest standardowym błędem szacunku (standardowym błędem estymacji) parametru a1, który można obliczyć – m.in. – ze wzoru:
1 n 2 ⋅ ∑ xi n i =1
S (a0 ) = S (a 0 ) ⋅ n
∑x
Sumę:
i =1
2 i
wyliczyć można bezpośrednio z danych (sumując kwadraty iksów) albo
wykorzystując „dwupostaciowość” wzoru na wariancję: s x2 =
1 n 1 n 2 2 ⋅ ∑ ( xi − x ) = ⋅ ∑ xi2 − ( x ) n i =1 n i =1
zatem: 1 n 1 n 2 2 ⋅ ∑ ( xi − x ) = ⋅ ∑ xi2 − ( x ) /⋅n n i =1 n i =1 n
n
i =1
i =1
2 2 ∑ (xi − x ) = ∑ xi2 − n(x )
n
∑x i =1
n
2 i
= ∑ ( x i − x ) + n( x )
2 i
= 10 + 10 ⋅ (2 ) = 50
n
∑x i =1
2
2
i =1
S (a0 ) = 0,4108 ⋅
2
50 = 0,9186 10 t (a 0 ) =
1 = 1,089 0,9186
K = (− ∞; − 2,306 ∪ 2,306; + ∞ ) Jak widać:
t (a 0 ) ∉ K
(t nie należy do zbioru krytycznego)
Zatem na poziomie istotności 0,05 stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. Wyraz wolny równania regresji Y od X jest statystycznie nieistotny.
Równanie: xˆ i = 0,026 + 0,3289 y i Parametry b0 = 0,026, b1 = 0,3289 Istotność parametru a1: Hipoteza zerowa:
β1 = 0 (parametr nieistotny)
Hipoteza alternatywna:
β 1 ≠ 0 (parametr istotny)
Przyjmujemy poziom istotności α = 0,05. Do testu wykorzystujemy statystykę testową wyrażoną wzorem:
t (b1 ) =
b1 S (b1 )
gdzie: S (b1 ) jest standardowym błędem szacunku (standardowym błędem estymacji) parametru a1, który można obliczyć – m.in. – ze wzoru: S (b1 ) =
(
)
s x2 ⋅ 1 − R 2 = s y2 ⋅ (n − 2 )
n
∑ (x i =1 n
i =1
S (b1 ) =
2
∑ (y
(
− x) ⋅ 1− R2
i
)
− y ) ⋅ (n − 2 ) 2
i
10 ⋅ (1 − 0,8224) = 0,002922 = 0,0541 76 ⋅ 8 t (b1 ) =
0,3289 = 6,086 0,0541
Wartość statystyki testowej jest taka sama, jak dla testu współczynnika korelacji oraz ntestu dla współczynnika b1 (testy te są tożsame). Zbiór krytyczny jest taki sam: K = (− ∞; − tα ,n −2 ∪ tα ,n −2 ; + ∞
)
K = (− ∞; − 2,306 ∪ 2,306; + ∞ )
Jak widać:
t (a1 ) ∈ K (t należy do zbioru krytycznego)
Zatem na poziomie istotności 0,05 odrzucamy hipotezę zerowa na korzyść alternatywnej. Współczynnik kierunkowy równania regresji X od Y z próby jest statystycznie istotny.
Istotność parametru b0: Hipoteza zerowa:
β0 = 0 (parametr nieistotny)
Hipoteza alternatywna:
β 0 ≠ 0 (parametr istotny)
Przyjmujemy poziom istotności α = 0,05. Do testu wykorzystujemy statystykę testową wyrażoną wzorem:
t (b0 ) =
b0 S (b0 )
gdzie: S (a1 ) jest standardowym błędem szacunku (standardowym błędem estymacji) parametru a1, który można obliczyć – m.in. – ze wzoru:
1 n 2 ⋅ ∑ yi n i =1
S (b0 ) = S (b0 ) ⋅ n
Sumę:
∑y i =1
2 i
wyliczyć można bezpośrednio z danych (sumując kwadraty igreków) albo
wykorzystując „dwupostaciowość” wzoru na wariancję: s y2 =
1 n 1 n 2 2 ⋅ ∑ ( y i − y ) = ⋅ ∑ y i2 − ( y ) n i =1 n i =1
zatem: 1 n 1 n 2 2 ⋅ ∑ ( y i − y ) = ⋅ ∑ y i2 − ( y ) /⋅n n i =1 n i =1 n
n
i =1
i =1
2 2 ∑ ( yi − y ) = ∑ yi2 − n( y )
n
∑y i =1
n
2 i
= ∑ ( y i − y ) + n( y ) i =1
2
2
n
∑y i =1
2 i
= 76 + 10 ⋅ (6 ) = 436
S (a0 ) = 0,0541 ⋅
2
436 = 0,357 10 t (b0 ) =
0,0263 = 0,0737 0,357
K = (− ∞; − 2,306 ∪ 2,306; + ∞ ) Jak widać: t (b0 ) ∉ K
(t nie należy do zbioru krytycznego)
Zatem na poziomie istotności 0,05 stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. Wyraz wolny równania regresji X od Y jest statystycznie nieistotny.