ZADANIE 5

ZADANIE 5 (3.1) Zbadać zależność pomiędzy czasem dostarczenia przesyłki w dniach (zmienna X ) a odległością pomiędzy nadawcą i odbiorcą mierzoną w lin...

8 downloads 28 Views 79KB Size

Download PDF

ZADANIE 5 (3.1) Zbadać zależność pomiędzy czasem dostarczenia przesyłki w dniach (zmienna X ) a odległością pomiędzy nadawcą i odbiorcą mierzoną w linii prostej w 100 km (zmienna Y). Dane dotyczące wybranych losowo przesyłkach przedstawia tabela 3. A. Wyznaczyć współczynnik korelacji liniowej Pearsona oraz współczynnik determinacji i B. zbieżności. C. Wyznaczyć równania regresji obrazujące zależność pomiędzy czasem dostarczenia przesyłki od odległości i odwrotnie. D. Podać miasta wojewódzkie z których można spodziewać się dostarczenia przesyłki w ciągu 4dni do Chorzowa. E. Pomiędzy nadawcą i odbiorcą jest 350 km w jakim czasie może on się spodziewać F. dostarczenia przesyłki. G. Zbadać istotność współczynnika korelacji liniowej Pearsona. H. Zbadać istotność parametrów równania regresji.

xi

1

1

1

1

2

2

2

3

3

4

yi

2

2

3

6

6

6

7

9

9

10

Rozwiązanie Obliczenia pomocnicze prowadzimy w poniższej tabeli:

(xi − x )2 ( yi − y )2

(xi − x )( yi − y )

i

xi

yi

xi − x

yi − y

1

1

2

-1

-4

1

16

4

2

1

2

-1

-4

1

16

4

3

1

3

-1

-3

1

9

3

4

1

6

-1

0

1

0

0

5

2

6

0

0

0

0

0

6

2

6

0

0

0

0

0

7

2

7

0

1

0

1

0

8

3

9

1

3

1

9

3

9

3

9

1

3

1

9

3

10

4

10

2

4

4

16

8

∑

20

60

0

0

10

76

25

Średnie arytmetyczne, niezbędne do wyliczenia wartości w kolumnach 4 – 8 wynoszą: x=

1 n ⋅ ∑ xi n i =1

y=

1 n ⋅ ∑ yi n i =1

x=

20 10

y=

60 10

y=6

x=2

A.

Współczynnik korelacji liniowej Pearsona obliczamy ze wzoru: n

rxy =

rxy =

∑ (x i =1

i

− x )( y i − y )

n

n

i =1

i =1

2 2 ∑ ( xi − x ) ⋅ ∑ ( y i − y )

25 10 ⋅ 76

rxy = 0,9068 Wartość współczynnika wskazuje na istnienie silnej dodatniej zależności liniowej pomiędzy czasem dostarczenia przesyłki a odległością w linii prostej między nadawcą a odbiorcą.

Współczynnik determinacji w modelu regresji z jedną zmienną objaśniającą (tj. gdy są tylko dwie zmienne: x oraz y) obliczamy jako kwadrat współczynnika korelacji Pearsona:

R 2 = rxy2 R 2 = (0,9068)

2

R 2 = 0,8224 82,24% zmian czasu doręczenia przesyłki zależy od (wyjaśnione jest przez) odległości w linii prostej między nadawcą a odbiorcą. B. Znając wartość współczynnika determinacji, współczynnik zbieżności obliczamy ze wzoru:

ϕ 2 = 1− R2 ϕ 2 = 1 − 0,8224

ϕ 2 = 0,1776 17,76% zmian czasu doręczenia przesyłki nie jest wyjaśnione przez zmienność odległości między nadawcą a odbiorcą w linii prostej. C. Współczynniki równania regresji: yˆ i = a 0 + a1 xi obrazującego zależność odległości między nadawcą a odbiorcą od czasu doręczenia przesyłki, n

obliczamy ze wzorów:

a1 =

∑ (x i =1

i

− x )( y i − y )

n

∑ (x i =1

i

− x)

2

a 0 = y − a1 x zatem: a1 =

25 = 2,5 10

a 0 = 6 − 2,5 ⋅ 2 = 1 Równanie to ma więc postać: yˆ i = 1 + 2,5 xi Wartości współczynników oznaczają, że: • czas doręczenia przesyłki dłuższy o 1 dzień oznacza, że odległość pomiędzy nadawcą a odbiorcą jest średnio o 250 km większa; • natychmiastowe doręczenie przesyłki (czas = 0) oznacza, że odległość między nadawcą a odbiorcą wynosi średnio 100 km (sensowność interpretacji wątpliwa);

Współczynniki równania regresji: xˆ i = b0 + b1 y i obrazującego zależność czasu doręczenia przesyłki od odległości między nadawcą a odbiorcą, n

obliczamy ze wzorów:

b1 =

∑ (x i =1

i

− x )( y i − y )

n

∑ (y i =1

b0 = x − b1 y zatem:

i

− y)

2

b1 =

25 = 0,3289 76

b0 = 2 − 0,3289 ⋅ 6 = 0,026 Równanie to ma więc postać: xˆ i = 0,026 + 0,3289 y i Wartości współczynników oznaczają, że: • zwiększenie odległości między nadawcą a odbiorcą o 100 km skutkuje zwiększeniem czasu doręczenia przesyłki średnio o 0,3289 dnia; • zakładając, że odległość między nadawcą a odbiorcą wynosi 0, czas doręczenia przesyłki wyniósłby średnio 0,026 dnia.

D. Wybieramy równanie regresji wyjaśniające (obrazujące) zależność odległości od czasu, tj. równanie:

yˆ i = 1 + 2,5 xi

podstawiamy: xi = 4: yˆ i (4 ) = 1 + 2,5 ⋅ 4 = 11 = 1100 km A zatem w ciągu 4 dni przesyłka może być dostarczona praktycznie z każdego polskiego miasta.

E,F. Wybieramy równanie regresji wyjaśniające (obrazujące) zależność czasu od odległości, tj. równanie:

xˆ i = 0,026 + 0,3289 y i

podstawiamy yi = 3,5: xˆ i (3,5) = 0,026 + 0,3289 ⋅ 3,5 = 1,18 dnia W przypadku odległości 350 km, czas doręczenia wynosi 1,18 dnia.

G. Formułujemy hipotezy: H0: ρ = 0

(pomiędzy zmiennymi X a Y nie zachodzi istotna korelacja),

H1: ρ ≠ 0

(pomiędzy zmiennymi X a Y zachodzi istotna korelacja),

Przyjmujemy poziom istotności testu (czyli z góry założone prawdopodobieństwo popełnienia błędu I rodzaju, czyli błędu polegającego na tym, że odrzucimy hipotezę, która

w rzeczywistości jest prawdziwa) – o ile nie podano w treści zadania wartości poziomu istotności, zazwyczaj przyjmuje się α = 0,05.

Do weryfikacji wykorzystujemy statystykę testową daną wzorem:

t=

rrx 1 − rxy2

⋅ n−2

przy założeniu prawdziwości hipotezy H0, statystyka ta ma rozkład Studenta o n – 2 stopniach swobody.

t=

0,9068 1 − (0,9068)

2

⋅ 10 − 2

t = 6,086 Zbiór krytyczny testu ma postać: K = (− ∞; − tα ,n − 2 ∪ tα ,n − 2 ; + ∞

)

gdzie tα ,n − 2 jest wartością spełniającą warunek: P( T ≥ tα ,n − 2 ) = α , gdzie T oznacza zmienną losową o rozkładzie Studenta o n – 2 stopniach swobody; wartość tę odczytujemy z tablic, jako wartość krytyczną dwustronnego testu Studenta, dla przyjętego poziomu istotności α. Zamiast tablic, można wykorzystać formułę Excela ROZKŁAD.T.ODW. U nas: tα ,n −2 = t 0,05; 8 = 2,306 Zbiór krytyczny ma postać:

K = (− ∞; − 2,306 ∪ 2,306; + ∞ ) Jak widać: t∈K (t należy do zbioru krytycznego)

Zatem na poziomie istotności 0,05 odrzucamy hipotezę zerowa na korzyść alternatywnej. Wartość współczynnika korelacji Pearsona z próby świadczy o tym, że pomiędzy czasem doręczenia przesyłki a odległością nadawca-odbiorca zachodzi istotna liniowa zależność korelacyjna.

H. Równanie: yˆ i = 1 + 2,5 xi

Parametry a0 = 1, a1 = 2,5 Istotność parametru a1: Hipoteza zerowa:

α1 = 0 (parametr nieistotny)

Hipoteza alternatywna:

α1 ≠ 0 (parametr istotny)

Przyjmujemy poziom istotności α = 0,05. Do testu wykorzystujemy statystykę testową wyrażoną wzorem:

t (a1 ) =

a1 S (a1 )

gdzie: S (a1 ) jest standardowym błędem szacunku (standardowym błędem estymacji) parametru a1, który można obliczyć – m.in. – ze wzoru: S (a1 ) =

(

s ⋅ 1− R 2 y

2

)=

s x2 ⋅ (n − 2 )

n

∑ (y i =1 n

i =1

S (a1 ) =

2

∑ (x

(

− y) ⋅ 1− R2

i

)

− x ) ⋅ (n − 2 ) 2

i

76 ⋅ (1 − 0,8224) = 0,16875 = 0,4108 10 ⋅ 8 t (a1 ) =

2,5 = 6,086 0,4108

Wartość statystyki testowej jest taka sama, jak dla testu współczynnika korelacji (testy te są tożsame). Zbiór krytyczny jest taki sam: K = (− ∞; − tα ,n −2 ∪ tα ,n −2 ; + ∞

)

K = (− ∞; − 2,306 ∪ 2,306; + ∞ ) Jak widać:

t (a1 ) ∈ K (t należy do zbioru krytycznego)

Zatem na poziomie istotności 0,05 odrzucamy hipotezę zerowa na korzyść alternatywnej. Współczynnik kierunkowy równania regresji Y od X z próby jest statystycznie istotny.

Istotność parametru a0: Hipoteza zerowa:

α0 = 0 (parametr nieistotny)

Hipoteza alternatywna:

α0 ≠ 0 (parametr istotny)

Przyjmujemy poziom istotności α = 0,05. Do testu wykorzystujemy statystykę testową wyrażoną wzorem:

a0 S (a 0 )

t (a 0 ) =

gdzie: S (a1 ) jest standardowym błędem szacunku (standardowym błędem estymacji) parametru a1, który można obliczyć – m.in. – ze wzoru:

1 n 2 ⋅ ∑ xi n i =1

S (a0 ) = S (a 0 ) ⋅ n

∑x

Sumę:

i =1

2 i

wyliczyć można bezpośrednio z danych (sumując kwadraty iksów) albo

wykorzystując „dwupostaciowość” wzoru na wariancję: s x2 =

1 n 1 n 2 2 ⋅ ∑ ( xi − x ) = ⋅ ∑ xi2 − ( x ) n i =1 n i =1

zatem: 1 n 1 n 2 2 ⋅ ∑ ( xi − x ) = ⋅ ∑ xi2 − ( x ) /⋅n n i =1 n i =1 n

n

i =1

i =1

2 2 ∑ (xi − x ) = ∑ xi2 − n(x )

n

∑x i =1

n

2 i

= ∑ ( x i − x ) + n( x )

2 i

= 10 + 10 ⋅ (2 ) = 50

n

∑x i =1

2

2

i =1

S (a0 ) = 0,4108 ⋅

2

50 = 0,9186 10 t (a 0 ) =

1 = 1,089 0,9186

K = (− ∞; − 2,306 ∪ 2,306; + ∞ ) Jak widać:

t (a 0 ) ∉ K

(t nie należy do zbioru krytycznego)

Zatem na poziomie istotności 0,05 stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. Wyraz wolny równania regresji Y od X jest statystycznie nieistotny.

Równanie: xˆ i = 0,026 + 0,3289 y i Parametry b0 = 0,026, b1 = 0,3289 Istotność parametru a1: Hipoteza zerowa:

β1 = 0 (parametr nieistotny)

Hipoteza alternatywna:

β 1 ≠ 0 (parametr istotny)

Przyjmujemy poziom istotności α = 0,05. Do testu wykorzystujemy statystykę testową wyrażoną wzorem:

t (b1 ) =

b1 S (b1 )

gdzie: S (b1 ) jest standardowym błędem szacunku (standardowym błędem estymacji) parametru a1, który można obliczyć – m.in. – ze wzoru: S (b1 ) =

(

)

s x2 ⋅ 1 − R 2 = s y2 ⋅ (n − 2 )

n

∑ (x i =1 n

i =1

S (b1 ) =

2

∑ (y

(

− x) ⋅ 1− R2

i

)

− y ) ⋅ (n − 2 ) 2

i

10 ⋅ (1 − 0,8224) = 0,002922 = 0,0541 76 ⋅ 8 t (b1 ) =

0,3289 = 6,086 0,0541

Wartość statystyki testowej jest taka sama, jak dla testu współczynnika korelacji oraz ntestu dla współczynnika b1 (testy te są tożsame). Zbiór krytyczny jest taki sam: K = (− ∞; − tα ,n −2 ∪ tα ,n −2 ; + ∞

)

K = (− ∞; − 2,306 ∪ 2,306; + ∞ )

Jak widać:

t (a1 ) ∈ K (t należy do zbioru krytycznego)

Zatem na poziomie istotności 0,05 odrzucamy hipotezę zerowa na korzyść alternatywnej. Współczynnik kierunkowy równania regresji X od Y z próby jest statystycznie istotny.

Istotność parametru b0: Hipoteza zerowa:

β0 = 0 (parametr nieistotny)

Hipoteza alternatywna:

β 0 ≠ 0 (parametr istotny)

Przyjmujemy poziom istotności α = 0,05. Do testu wykorzystujemy statystykę testową wyrażoną wzorem:

t (b0 ) =

b0 S (b0 )

gdzie: S (a1 ) jest standardowym błędem szacunku (standardowym błędem estymacji) parametru a1, który można obliczyć – m.in. – ze wzoru:

1 n 2 ⋅ ∑ yi n i =1

S (b0 ) = S (b0 ) ⋅ n

Sumę:

∑y i =1

2 i

wyliczyć można bezpośrednio z danych (sumując kwadraty igreków) albo

wykorzystując „dwupostaciowość” wzoru na wariancję: s y2 =

1 n 1 n 2 2 ⋅ ∑ ( y i − y ) = ⋅ ∑ y i2 − ( y ) n i =1 n i =1

zatem: 1 n 1 n 2 2 ⋅ ∑ ( y i − y ) = ⋅ ∑ y i2 − ( y ) /⋅n n i =1 n i =1 n

n

i =1

i =1

2 2 ∑ ( yi − y ) = ∑ yi2 − n( y )

n

∑y i =1

n

2 i

= ∑ ( y i − y ) + n( y ) i =1

2

2

n

∑y i =1

2 i

= 76 + 10 ⋅ (6 ) = 436

S (a0 ) = 0,0541 ⋅

2

436 = 0,357 10 t (b0 ) =

0,0263 = 0,0737 0,357

K = (− ∞; − 2,306 ∪ 2,306; + ∞ ) Jak widać: t (b0 ) ∉ K

(t nie należy do zbioru krytycznego)

Zatem na poziomie istotności 0,05 stwierdzamy brak podstaw do odrzucenia hipotezy zerowej. Wyraz wolny równania regresji X od Y jest statystycznie nieistotny.